发帖
 找回密码
 立即注册
搜索
9 2 0
日常闲聊 87 9 昨天 10:40

本来我知道Qwen3不行,性能很差劲,无论是推理、代码、知识;
但是今天真的刷新我的认知了,今天写公文,本来感觉Qwen3毕竟是国内的模型,这方面肯定更加擅长,结果用了后,发现Qwen写的就是一坨大的,写公文的都快写成小说了,也不理解prompt的意思,和Deepseek R1差的远了,当然,更是与Gemini 2.5 pro比的资格都没有。
总体使用下来,写公文gemini 2.5 pro最强,Deepseek R1够用。

以上均是个人日常使用亲身体验,纯个人主观感受。

阿里AI是不行了,以后国内基本先进模型看DS,大模型企业部署与应用看字节了。

另外,补充一下,我分享这个的目的是为了帮助佬友们避坑差劲的大模型,我用自己的时间与精力去体验验证了Qwen不行,避免佬友们在Qwen上浪费时间与精力,用更好的模型快速实现自己的需求,总的推荐还是:

编程无脑选择claude,知识写作gemini最强,工具调用o3比较好;
如果用不了国外御三家,国内首推Deepseek R1与V3,综合性能甩开了国内各个模型,或者可以试试豆包(一些本土特色任务不错);
现在大模型太多了,使用一些性能差的模型何尝不是一种工作效率的降低。

Qwen3给人的感受就是Qwen会成为下一个百度文心、GLM的样子,没有更先进的模型来支撑,后期发展乏力,之后转变赛道,不再追求模型先进性,找一些差异化的别的AI大厂不太关注的赛道来做。

对了,我有点印象,好像是Qwen2.5的技术负责人被字节挖走了,Qwen2.5与3主导开发的应该不是一拨人。

字节跳动,传8位数年薪,挖走阿里巴巴大模型核心人物

──── 2人觉得很赞 ────

使用道具 举报

有这么拉吗
nxwqwt
昨天 10:43
Qwen3全面的拉,各个维度,日常用的时候,稍微复杂的问题,并且需要长上下文与逻辑推理的,随手试试对比DS R1与Gemini就知道了,Qwen简直就是来搞笑的。  详情 回复
qwen一直都是刷榜大王,公文可以看看豆包
warkinger
昨天 10:45
qwen3没出来的时候我就觉得qwen-max和doubao-1.5-pro差距很大,豆包还是很强的,有些方面甚至不如ds  详情 回复
nxwqwt
昨天 10:43
Qwen2.5的时候感觉还说的过去,到Qwen3真感觉是面向测试集开发的。 本来上来就是要用豆包的,豆包在处理中国特色问题上非常强。 但是今天用cherry调用doubao seed 1.6 thinking一直报错就没用。  详情 回复
写公文还得是deepseek
用的参数多大的啊
没用过qwen,应该是没在公文数据集上训练过罢了。楼主有点以偏概全了。
昨天 10:43

Qwen3全面的拉,各个维度,日常用的时候,稍微复杂的问题,并且需要长上下文与逻辑推理的,随手试试对比DS R1与Gemini就知道了,Qwen简直就是来搞笑的。
昨天 10:43
longxx888 发表于 2025-6-25 10:42
qwen一直都是刷榜大王,公文可以看看豆包

Qwen2.5的时候感觉还说的过去,到Qwen3真感觉是面向测试集开发的。
本来上来就是要用豆包的,豆包在处理中国特色问题上非常强。
但是今天用cherry调用doubao seed 1.6 thinking一直报错就没用。
用得少,只感觉没有比Qwen2.5更差,但是也确实没有很明显的更好,不过Qwq我试下来还是可以,纯推理模型,一些逻辑和轻度计算问题和DeepSeek差别不大。
longxx888 发表于 2025-6-25 10:42
qwen一直都是刷榜大王,公文可以看看豆包

qwen3没出来的时候我就觉得qwen-max和doubao-1.5-pro差距很大,豆包还是很强的,有些方面甚至不输ds
您需要登录后才可以回帖 立即登录
高级模式