转跳到内容

deepseek vs chatgpt


只显示该作者

只有该作者的内容显示中。 返回到主题

推荐贴

相关从业者冒泡。

Deepseek 的推理集群资源应该还是吃紧的,不过云厂商现在也有部署,可以多找下。避嫌这里就不安利具体平台了,总之几个比较大厂的云都可以看看。毕竟去年年底已经冲击过一小部分人,加上 deepseek 的 moe 路线不可能融入某些模型的 dense 主线(尤其在模型 moe 版本独立发布的情况下,目测 dense 相关人员的屁股更重)。

效果方面其实如果你能用国外,那更推荐 claude 3.5 sonnet:整体来说无论是刷榜灌水还是实际用起来,claude 是独一档的好,可以不考虑 chatgpt 系列。如果觉得贵,那 deepseek 很多时候可以作为下位替代,效果我自己感觉比 qwen/qwen-coder 都好点。

btw 上面的评测主要针对 deepseek v3 671b,r1 我没具体评过,更小参数的版本也没具体评过。

,由serviper修改
链接到点评
2 小时前,luyeplus说道:

不太能感觉出来差别,该不会的还是不会

毕竟只要不那么大路货的就不行,偶尔写点 ETL 脚本凑合凑合差不多。

之前见到些硬搞 SFT 的,但实际练出来也还是那个样子;前段时间字节还是哪里有个工作,在单测场景下尝试训练识别抹掉自然语义的程序(当作迫真数据流),但说白了还是后训练——现在指望这些模型能够识别 invariant 都是奢望,更不用说长异步和事件驱动啥的了:YangTuo_4V:

链接到点评

创建帐号或登入才能点评

您必须成为用户才能点评

创建帐号

在我们社区注册个新的帐号。非常简单!

注册新帐号

登入

已有帐号? 登入

现在登入
×
×
  • 新建...

重要消息

为使您更好地使用该站点,请仔细阅读以下内容: 使用条款