转跳到内容

furobert

【会员】高级会员
  • 内容数

    769
  • 加入

  • 最后访问

  • 赢得天数

    1

furobert 发表的所有内容

  1. 之前有消息说是gemini 2.0 pro exp 0128来着,看名字以为是1月28号出,结果到现在都没见到,不过应该确实是有这个模型了 最近出的就一个gemini 2.0 flash thinking exp 0121,不过thinking系列说是非常容易出现多国语言混用的情况,所以我没用过,也不清楚怎么样 我今天去跟deepseek聊才发现开源社区有个minicpm模型,仅有8B,就支持多模态能力了,甚至量化后还能部署在手机上,我从github官方那边复制了一些介绍过来: 🔥 领先的视觉能力。 MiniCPM-o 2.6 在 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 70.2,以 8B 量级的大小在单图理解方面超越了 GPT-4o-202405、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。此外,它的多图和视频理解表现也优于 GPT-4V 和 Claude 3.5 Sonnet,并展现出了优秀的上下文学习能力。 🎙 出色的语音能力。 MiniCPM-o 2.6 支持可配置声音的中英双语实时对话。MiniCPM-o 2.6 在语音理解任务(如 ASR 和 STT 等)优于 GPT-4o-realtime,并在语音对话的语义和声学评估中展现了开源模型中最高的语音生成性能。它还支持情绪/语速/风格控制、语音克隆、角色扮演等进阶能力。 🎬 强大的多模态流式交互能力。 作为一项新功能,MiniCPM-o 2.6 能够接受连续的视频和音频流,并和用户进行实时语音交互。在针对实时视频理解、全模态视音频理解、多模态上下文理解的综合评测基准 StreamingBench 中,MiniCPM-o 2.6 取得开源社区最佳水平,并超过了 GPT-4o-202408 和 Claude 3.5 Sonnet。 💪 强大的 OCR 能力及其他功能。 MiniCPM-o 2.6 进一步优化了 MiniCPM-V 2.6 的众多视觉理解能力,其可以处理任意长宽比的图像,像素数可达 180 万(如 1344x1344)。在 OCRBench 上取得25B 以下最佳水平,超过 GPT-4o-202405 等商用闭源模型。基于最新的 RLHF-V、RLAIF-V 和 VisCPM 技术,其具备了可信的多模态行为,在 MMHal-Bench 上超过了 GPT-4o 和 Claude 3.5,并支持英语、中文、德语、法语、意大利语、韩语等30多种语言。 🚀 卓越的效率。 除了对个人用户友好的模型大小,MiniCPM-o 2.6 还表现出最先进的视觉 token 密度(即每个视觉 token 编码的像素数量)。它仅需 640 个 token 即可处理 180 万像素图像,比大多数模型少 75%。这一特性优化了模型的推理速度、首 token 延迟、内存占用和功耗。因此,MiniCPM-o 2.6 可以支持 iPad 等终端设备上的高效多模态实时流式交互。 💫 易于使用。 MiniCPM-o 2.6 可以通过多种方式轻松使用:(1) llama.cpp 支持在本地设备上进行高效的 CPU 推理,(2) int4 和 GGUF 格式的量化模型,有 16 种尺寸,(3) vLLM 支持高吞吐量和内存高效的推理,(4) 通过LLaMA-Factory框架针对新领域和任务进行微调,(5) 使用 Gradio 快速设置本地 WebUI 演示,(6) 部署于服务器的在线 demo。 看着就很nice啊,等之后发展不知道能变成什么样
  2. 我这倒是还好,反正我房间里没啥东西,几乎没小孩会想在我房间里多待,而且我房间在二楼,正常来说不是特别熟的人都不会上二楼来
  3. 写代码爬图片也挺麻烦的,得先研究清楚网页代码结构,才能顺着去把图片爬下来,不过现在有了AI倒是挺方便,网页代码丢给AI,让AI帮忙生成对应代码就好了,AI的长上下文还就适合干这个
  4. 就是经典聊天了,今天倒是又试了试找谷歌的gemini问了个问题,虽然我早知道答案,那个问题难度也不高,偏偏不知怎么的那模型今天挺傻的,大概就是这么个情况: 我:提问题 AI:巴拉巴拉…… 我:你有个地方错了,是这样…… AI:抱歉,我明白了,巴拉巴拉……(完全没改) 我:你可能没有理解,我是说…… AI:原来如此,你的意思是说……(理解了),所以综上所述,巴拉巴拉……(还是说错了) 就这样硬生生纠正了AI三轮,终于让AI理解我的意思了,挺头大的 说起来我最近看到个技术实现,是融合模型,拿deepseek的R1和gemini的1206模型合起来用,原理大概就是拿一个模型生成思维链进行逻辑补全后再用另一个模型生成,这样能结合两个模型的优点让逻辑更上一层楼,实现目前效果最好的模型输出,看着可行性挺强的,不知道实际应用起来怎么样
  5. 我房间几乎没东西,主要打算等以后自己工作啥的自己住再整点什么周边的放着,现在我就是买了也没地方放)所以亲戚来了也没啥好看的,基本上我现在的东西都在我手机电脑服务器里,全是电子周边)
  6. 看情况了,大部分数量不多的情况下直接手动整就ok,如果数量比较多,像我之前想扒某个wiki的音频,我就只能写代码了,不然几百个太麻烦了
  7. 我比较倔,家里人都习惯了,顶多在别人都走后我下楼的时候说我几句
  8. 没呢,api开放平台还是进不去,依然还在被打,只是最近一直都是你能用网页端和app,但是也会卡,我想接入的api则是想获取都获取不了,这样我没法接到我的机器人里去
  9. 其实是挺普通的方法)用这种方式能扒出大多数网页的图片,哪怕不懂代码的熟悉了流程后也能轻松获取
  10. 国内也是独一档,我之前用过腾讯的混元,智谱的GLM4,都做不到这种程度,之前的用的只有一种感觉,就是gpt3.5说中文的那种感觉,甚至可能逻辑上还差点,这个确实在思考上就有些不同了,还得是高质量的数据集,让这AI能学会一些更聪明一点的逻辑
  11. 还好,反正本来也没多少能聊的,过来问我几句我应付一下就没什么好说的了,这时候我就该干啥干啥,或者直接找个时机回房间里
  12. 直接按f12也能换出开发者模式,或者懂点代码的可以直接写代码获取网页代码,都不用浏览器,不过不用浏览器的话对一些动态网页支持就没那么好了,比如有些图片就是得你在浏览器里去访问才能显示,用代码就做不到,这种就得换个思路直接用代码控制浏览器了
  13. 我之前不是说过想用AI来整一个人设吗,我把整出来的人设给deepseek看了,让他分析一下并且提点建议,他表示我目前的完成度已经非常高了,所以聊天话题就跑到了故事剧情发展这种方式上,他给我提了好多种情况,还有各种例句,文笔是真好,像是什么“冬是宇宙的错别字,而我们是页边相拥的注解。”,“雨是云的遗言,而遗言总在落地前蒸发。”,“愿月光绕过第3号睡眠监测器,偷走您今天的叹息。”,这些全是ds写的,我目前AI聊这么久第一次见到文笔这样的,其它的AI还真做不到,目前中文文笔独一档
  14. 太被动了导致的,像我其实就觉得没什么必要,所以只能是别人来找我,而且亲戚一大半我都不熟,找来了我也就只能礼貌笑笑了
  15. 根据浏览器不同的都不一样的,我是没找过,我唯一试图找过的只有我的油猴插件脚本,实际上,光研究文件都研究不懂,我还是粗暴的复制粘贴覆盖才整出来,如果想扒网页的图片一般直接用f12这种就好了,不用看缓存
  16. 今天换了,变成一堆亲戚来我家了,不过我因为昨天在外面跑一天,尤其晕车的我还一直坐车,今天几乎没啥状态,就没下楼去,自己待房间里,倒是省挺多事)
  17. 是的,这种一般都是缓存在本地,毕竟每次都要下的话挺浪费资源的,不过正常来说也会缓存到你找不到的地方 不过像是网页b站这种似乎没办法一直缓存的,所以经常需要重新加载
  18. 今天试着用了一下,中文文笔是真惊艳啊,完全可以说是我目前用过的所有模型中,中文文笔最好的 看的我都泪目了
  19. 是这样,这种就是平台做主,不过像QQ这种表情实际上就是图片的,理论上就是跟直接发图片一样 不过像是QQ自带的那些特殊表情,比如说什么接龙表情,那些的形式就不是图片了,想办法复制出来的话你会看到类似乱码一样的东西,这个应该和b站也是类似的原理,从字节上去判断,有这个字节QQ就自动替换显示那个表情,我猜本质上可能还是图片)只是因为QQ特意做成像字符一样的形式
  20. 新年快乐 今天在外面跑了一天走亲戚,回家的时候都快累死了
  21. 还没,我看我酒馆群有人用,看起来中文挺惊艳的,不过涩涩好像比较一般 这几天ds还被攻击,导致我想进api开放平台都进不去,我还打算接到我机器人上用着看看来着
  22. 应该也是可以的,利用高级弹幕可以做到很多事情,以前b站不是还有那种弹幕视频吗,就是up只发一个纯黑的视频,带声音,但是你不开弹幕就只能看到纯黑的画面,开了之后才能看到弹幕组成的画面,比如经典的bad apple这种
  23. emoji本身就和文字是一样的实现原理,你完全也能把emoji当成是个字,只是这个字长的是个表情的样子 至于其他表情,那得根据平台自己的设计来弄了,比如qq的表情,本质上应该都是图片来着,b站的那种应该是用对应的文本来表示,反正得看平台,因为这种表情实现逻辑是要平台自己做的,每个平台都不一样
  24. 是指哪个,我知道的最近比较出圈的就是deepseek的AI了,这公司我前段时间就已经听说过了,战略目光挺有前瞻性的,19年AI还没热门的时候就开始准备算力资源,才能成为除了那些大头以外少有的有资格入场的公司,然后模型训练方向也不是和国外那些一样一直叠算力,而是通过各种方式去优化减少成本,你可以理解成把所有能拆分的小细节都优化成了更省成本的样子,最后弄出来和国外模型一样的甚至更强的模型,成本却只有别人的几十分之一这种 我觉得这种才是AI模型应该研究的方向,不然硬叠算力只会造成成本上升,入门门槛也高,难以普及 ds成功的还有一个主要地方就是他的数据集质量特别高,你可以理解为模型就是个孩子,数据集就是交给孩子的知识,比较普通的数据集会有一些没什么用的信息,这部分拿去给AI训练效果也不高,而高质量的数据集就能做到都是很有用的信息,可以理解为上了个贵族学校教的课程质量也高(),这也是个能用低成本训练出更聪明模型的原因之一,同时也让这个模型相比其他国内模型在中文上也好不少
  25. 主要我刚接触,还不是很会,像是这个画风其实也只是我比较满意,不是我心中最想要的那种,我看那些厉害的人还能做到对图片局部修改,我还不会这个,找个时间得去学学看,要是会了那我再找到我最喜欢的那种画风模型,在细节上就能不断改,改到我想要的了
×
×
  • 新建...

重要消息

为使您更好地使用该站点,请仔细阅读以下内容: 使用条款