发帖
 找回密码
 立即注册
搜索
0 0 0
日常闲聊 365 0 昨天 17:40
──── 0人觉得很赞 ────

使用道具 举报

这完全不是真的,除非你故意忽略了注意力机制论文发表之后的这9年时间。这是最核心的一点,这么说几乎有点不尊重研究本身了。在这段时间里,无论是在计算效率还是模型结构、数据利用等方面,其实都有很多优化和进步。比如像Transformer、MoE(专家混合)、Distil系列、还有各种量化模型等等,都是在不断优化的路上走出来的。你看看DeepSeek就知道了,他们就是在CUDA框架底层代码上做了很多巧妙的优化,才实现了性能的提升。我们心里都明白,没有什么东西是“免费”的,任何提升都是有代价的。就像媒体压缩技术一样,MPEG当年是一个巨大的飞跃。可30年过去了,尽管还有人在研究,但我们在这一领域其实没有太多实质性的进展。再比如奥托循环发动机,已经有一百五十多年历史了,但它的燃油效率依然存在很大问题——大约65%到75%的能量都变成了热量浪费掉了。目前我们所用的这些方法,优化空间已经越来越有限了,注意力机制也正在接近它的瓶颈。如果没有真正的技术突破,我觉得很难再有大的飞跃。所以,如果我们只是靠蛮力硬推着往前走,那肯定是不对的。
我不太同意这个观点。波兰的模型可能是(也可以说是肯定)用了他们自己花几十亿美元买来的数据做训练。我自己是做软件的,我看过一些招聘信息,比如有人专门写代码用来构建LLM的训练数据集,时薪能到50美元。这些数据集其实就是Claude、Qwen或者DeepSeek之间差距的关键所在。我对开源模型和公开模型权重这件事是非常感激的,别误会我意思。但说实话,开源也做不了太多,除非你不在乎把自己的公司烧干。这些公司又不是做慈善的。你要明白,Qwen和DeepSeek这么做肯定是有目的的,大概率是为了挑战大厂、试图弯道超车。在这种正当的竞争中,花该花的钱是合理的,他们可能只花了20% 的成本,就拿到了80% 的效果。
就是这个事儿——就算你辛辛苦苦搞了个超大模型,砸锅卖铁买了再贵的硬件,它表现可能还是很拉胯,跑起来也慢得要死。而且你猜怎么着?这中间花个15000美元真的一点都不夸张,光是电费和各种杂七杂八的开销就够你喝一壶的。但如果你买了那个CC顶多100美元的订阅服务,那可就划算太多了。花更少的钱,能用上十年,还能灵活地同时跑好几个最前沿的模型(比如Gemini、GPT5啥的),简直不要太香。
现在我们开始发现,光靠堆资源、硬砸数据的方式已经不太管用了。我感觉接下来我们会更多地去优化大模型本身。其实自从Transformer出来之后,大家基本就没怎么在架构上动过大的刀子,后面很多东西都是靠蛮力堆起来的,或者搞些花里胡哨的技巧。虽然像MoE这种技术确实有点用,但总体来说,我们还没找到办法把更多的数据塞进同样大小的系统里。
我觉得是这样的。到目前为止,LLM(大语言模型)的发展 basically 就是一个“大力出奇迹”的故事 —— 就是不断砸更多的资源进去,几乎不考虑成本。虽然这种方法带来了飞快的进步,但也意味着没人真的花时间去优化。但现在我们开始发现,这种“靠砸资源”的方式效果越来越不明显了。这时候,我相信大家会开始认真优化模型,让它们更高效地利用现有的资源。这种优化也会慢慢影响到本地运行的模型。再加上最近我们对“小型LLM”的重新认识,尤其是那些能在边缘设备(比如可穿戴设备和手机)上运行的模型,我有理由相信,现在这些最顶尖的模型(SOTA),大概一年左右就能在消费级硬件上运行了。
您需要登录后才可以回帖 立即登录
高级模式