这完全不是真的,除非你故意忽略了注意力机制论文发表之后的这9年时间。这是最核心的一点,这么说几乎有点不尊重研究本身了。在这段时间里,无论是在计算效率还是模型结构、数据利用等方面,其实都有很多优化和进步。比如像Transformer、MoE(专家混合)、Distil系列、还有各种量化模型等等,都是在不断优化的路上走出来的。你看看DeepSeek就知道了,他们就是在CUDA框架底层代码上做了很多巧妙的优化,才实现了性能的提升。我们心里都明白,没有什么东西是“免费”的,任何提升都是有代价的。就像媒体压缩技术一样,MPEG当年是一个巨大的飞跃。可30年过去了,尽管还有人在研究,但我们在这一领域其实没有太多实质性的进展。再比如奥托循环发动机,已经有一百五十多年历史了,但它的燃油效率依然存在很大问题——大约65%到75%的能量都变成了热量浪费掉了。目前我们所用的这些方法,优化空间已经越来越有限了,注意力机制也正在接近它的瓶颈。如果没有真正的技术突破,我觉得很难再有大的飞跃。所以,如果我们只是靠蛮力硬推着往前走,那肯定是不对的。 |