发帖
 找回密码
 立即注册
搜索
0 0 0
前沿技术 435 0 昨天 15:07
在过去的一年里,我一直在使用Claude,无论是处理日常任务还是针对代码相关的问题(通过应用程序以及Cline)。显然,大型语言模型(LLMs)要能够处理大规模/复杂的代码库,我们还有很长的路要走,但与其他所有闭源大型语言模型相比,Anthropic的表现似乎非常出色。话虽如此,我很想更深入地了解目前用于编码的开源大型语言模型的现状。

    我有几个问题希望能得到解答……

        为什么像Claude或Gemini这样的闭源大型语言模型在性能上明显优于像通义千问代码助手(Qwen Coder)这样的开源大型语言模型呢?是因为这些公司拥有资源(资金雄厚且有优秀的员工)这么简单的原因吗?

        有没有值得关注的开源大型语言模型开发者呢?就像我之前说的,我用过一点通义千问,它挺不错的,但显然不如Claude。除此之外,我只是根据Reddit上的搜索结果下载了几个(开源模型)。

        说一下背景情况,我用的是配备48GB内存的苹果M4 Pro笔记本电脑……所以不算最好,也不算最差。

    谢谢大家!
──── 0人觉得很赞 ────

使用道具 举报

那么,这个评论区的意思是,在实验室设备上投入1万到1.5万美元,根本无法与云服务提供商相提并论吗?
你所认为的现实情况和其他人的想法可是两码事呢 :)这里很多人在专用服务器设置中使用超过128GB的显存,然后通过笔记本电脑使用虚拟专用网络(VPN)接入。过去一年有很多报告称,为了在编码方面获得最佳效果,需要运行Q8型号的设备。我觉得很多人可能只是用非最优参数测试Q4型号的设备,所以得到的结果不太理想。  
同意!如果要下注,你认为未来一年在架构方面的进展会来自哪里?多令牌推理?注意力缓存压缩?核心神经网络改进(例如,Swiglu 与 ReLU 对比)?宏观结构调整(例如,混合专家模型中的共享专家)?套娃式/可变低维表示?
谢谢!所以,我明白随着技术的发展,随着时间推移,事物会因技术进步而变得更高效。对于大语言模型(LLMs),我们也能期待看到这样的情况吗?还是说这些存在物理限制(比如,就是需要大量的随机存取存储器(RAM),而且无论技术发展多久,都永远无法避开这一点)?  
如果你在一个比世界上任何同类产品都要先进得多的模型上投入了数亿美元,你可能不会免费将其拱手送人。如果昆仑万维(Qwen 推测是昆仑万维,可能表述有误)没有在OpenAI、谷歌、XAI、Claude背后发挥作用,它们可能不会开源自己的模型。
您需要登录后才可以回帖 立即登录
高级模式