为什么像通义千问代码助手这样的开源大语言模型总是明显落后于Claude ？

前沿技术 · 2025-8-6 15:07:00

在过去的一年里，我一直在使用Claude，无论是处理日常任务还是针对代码相关的问题（通过应用程序以及Cline）。显然，大型语言模型（LLMs）要能够处理大规模/复杂的代码库，我们还有很长的路要走，但与其他所有闭源大型语言模型相比，Anthropic的表现似乎非常出色。话虽如此，我很想更深入地了解目前用于编码的开源大型语言模型的现状。

我有几个问题希望能得到解答……

      为什么像Claude或Gemini这样的闭源大型语言模型在性能上明显优于像通义千问代码助手（Qwen Coder）这样的开源大型语言模型呢？是因为这些公司拥有资源（资金雄厚且有优秀的员工）这么简单的原因吗？

      有没有值得关注的开源大型语言模型开发者呢？就像我之前说的，我用过一点通义千问，它挺不错的，但显然不如Claude。除此之外，我只是根据Reddit上的搜索结果下载了几个（开源模型）。

      说一下背景情况，我用的是配备48GB内存的苹果M4 Pro笔记本电脑……所以不算最好，也不算最差。

谢谢大家！

帅龙子 · 2025-8-6 15:30:24

那么，这个评论区的意思是，在实验室设备上投入1万到1.5万美元，根本无法与云服务提供商相提并论吗？

11111111111@qq · 2025-8-6 15:50:25

你所认为的现实情况和其他人的想法可是两码事呢：）这里很多人在专用服务器设置中使用超过128GB的显存，然后通过笔记本电脑使用虚拟专用网络（VPN）接入。过去一年有很多报告称，为了在编码方面获得最佳效果，需要运行Q8型号的设备。我觉得很多人可能只是用非最优参数测试Q4型号的设备，所以得到的结果不太理想。

foxfly · 2025-8-7 00:48:33

同意！如果要下注，你认为未来一年在架构方面的进展会来自哪里？多令牌推理？注意力缓存压缩？核心神经网络改进（例如，Swiglu 与 ReLU 对比）？宏观结构调整（例如，混合专家模型中的共享专家）？套娃式/可变低维表示？

gr2302484 · 2025-8-7 01:18:26

谢谢！所以，我明白随着技术的发展，随着时间推移，事物会因技术进步而变得更高效。对于大语言模型（LLMs），我们也能期待看到这样的情况吗？还是说这些存在物理限制（比如，就是需要大量的随机存取存储器（RAM），而且无论技术发展多久，都永远无法避开这一点）？

GeorgeCouff · 2025-8-7 09:09:19

如果你在一个比世界上任何同类产品都要先进得多的模型上投入了数亿美元，你可能不会免费将其拱手送人。如果昆仑万维（Qwen 推测是昆仑万维，可能表述有误）没有在OpenAI、谷歌、XAI、Claude背后发挥作用，它们可能不会开源自己的模型。

dddddno1 · 2025-8-8 07:39:37

你是在将你本地48GB内存的机器的处理能力与具备全上下文、全精度的云服务提供商的处理能力进行比较吗？

79awcn · 2025-8-8 07:45:34

你有没有和使用克劳德代码做过比较？你编码时会用哪些工具？

bklxdy · 2025-8-8 08:53:35

几件大事。规模/量化。对于注重细节的任务而言，量化会损害结果。它可能95%是正确的，但剩下的5%至关重要。对于输入法（IME）小于Q8的代码，很难取得好的结果。开源模型让情况有点复杂，因为它们有不同的规模和量化程度，与完整的 “产品” 不同，这意味着名义上是同一个模型，其结果质量分布可能会非常不均衡。盈利动机和投资。Anthropic公司靠Claude擅长代码来盈利，所以他们投入更多资金和精力，力求使其达到高质量水平。遥测技术。开放模型可以由创建者以外的供应商托管，这些供应商可能不会向上游提供使用数据。持续迭代。封闭模型往往能更快地对模型进行迭代，更频繁地进行调整，并能看到这些改变的结果，这更符合现代软件开发实践。选择偏差。如果一个模型好到足以盈利并具有竞争力，那么将其开源就没什么意义了。地缘政治。美国在高端人工智能领域比中国有优势。美国政府希望在其管辖的公司中采用封闭模型，这样他们就能保持这一优势。中国在这方面处于劣势，所以中国政府有意减轻这种垄断局面。这也大致符合中国企业的利益诉求。

duck25 · 2025-8-8 14:27:37

这只是我的一些直观感受。基本上各种工具我都用，也接触过规模大小不一的代码库，但我没办法给你提供图表，能分享的也只是基于我个人经验得出的结论。

shadowdow · 2025-8-8 16:43:39

你只是通过命令行界面访问它们吗？克莱恩/鲁不会覆盖临时文件吗？

灰火 · 2025-8-10 07:04:15

不管这是不是阴谋，事实是我们不知道，也永远不会知道，因为克劳德完全就是个黑匣子。

大山光 · 2025-8-11 06:54:39

究竟谁能运行完整的GLM 4.5呢？我怀疑哪家家庭实验室能有4块H200（显卡）。

美熊悦 · 2025-8-11 09:03:40

如果这是真的，那为什么几乎所有测试都表明，与bf16相比，q5或q6都在误差范围内呢？尤其是在讨论更大的模型时。

杨骏 · 2025-8-11 09:57:40

未来三年，HBW内存的价格是如何变得更便宜的？

胖龙子 · 2025-8-12 10:30:46

听起来像是某部反乌托邦电影的开场白。

wy1130 · 2025-8-13 11:42:56

呃，我觉得1TB的显存就够啦😂😂。你懂的，这还是比较容易实现的东西呢😭

灰山子 · 2025-8-14 08:15:05

嗯我父亲的遗产今年会到账，我打算拿出大概一半左右的钱来打造一个家庭实验室。我是一名全栈工程师，如果能实现一些特定目标，这对我来说好处简直多得数不清。我在想我是否应该等等。

知足是福 · 2025-8-15 21:21:02

好拿！

zjts · 2025-8-18 11:48:46

我每天上班都会用到AI。虽然我经常会去OpenRouter上折腾一些新模型，比如Qwen，毕竟它们便宜甚至免费。但最后我还是会回到那些更贵的API，比如Claude和Gemini。我觉得那些基准测试太片面了，根本反映不了真实世界里的实际表现。

Penger · 2025-8-20 02:22:31

你引用了哪些资料？我看到的一些对比显示，在某些情况下，性能其实非常接近。新的 qwen3235b 模型真的能干掉 Claude 吗？图片链接：
https:// cdnuploads.huggingface.co/production/upload/62430a8522549d0917bfeb5a/0d7zztq4GB7G2ZYowOdQ.jpeg第二点是这样的：如果闭源模型确实好用，哪怕它们在一些基准测试里分数低一些，这真的重要吗？我觉得基准测试当然有参考价值。但说到底，我更关心这个大模型能不能完成我想要它做的事情。只要它能做到，我才不在乎那些分数怎么说呢。

		自动登录	找回密码
密码			立即注册

为什么像通义千问代码助手这样的开源大语言模型总是明显落后于Claude ？

相关帖子

20 回复