serviper 发布于二月 15 分享 发布于二月 15 (已修改) 相关从业者冒泡。 Deepseek 的推理集群资源应该还是吃紧的,不过云厂商现在也有部署,可以多找下。避嫌这里就不安利具体平台了,总之几个比较大厂的云都可以看看。毕竟去年年底已经冲击过一小部分人,加上 deepseek 的 moe 路线不可能融入某些模型的 dense 主线(尤其在模型 moe 版本独立发布的情况下,目测 dense 相关人员的屁股更重)。 效果方面其实如果你能用国外,那更推荐 claude 3.5 sonnet:整体来说无论是刷榜灌水还是实际用起来,claude 是独一档的好,可以不考虑 chatgpt 系列。如果觉得贵,那 deepseek 很多时候可以作为下位替代,效果我自己感觉比 qwen/qwen-coder 都好点。 btw 上面的评测主要针对 deepseek v3 671b,r1 我没具体评过,更小参数的版本也没具体评过。 二月 15,由serviper修改 链接到点评
serviper 发布于二月 15 分享 发布于二月 15 2 小时前,luyeplus说道: 不太能感觉出来差别,该不会的还是不会 毕竟只要不那么大路货的就不行,偶尔写点 ETL 脚本凑合凑合差不多。 之前见到些硬搞 SFT 的,但实际练出来也还是那个样子;前段时间字节还是哪里有个工作,在单测场景下尝试训练识别抹掉自然语义的程序(当作迫真数据流),但说白了还是后训练——现在指望这些模型能够识别 invariant 都是奢望,更不用说长异步和事件驱动啥的了 链接到点评
推荐贴
创建帐号或登入才能点评
您必须成为用户才能点评
创建帐号
在我们社区注册个新的帐号。非常简单!
注册新帐号登入
已有帐号? 登入
现在登入