不得不承认,如今人工智能在将复杂内容以条理清晰且有说服力的文本呈现方面,远比我们绝大多数人强得多。它仍然依赖于我们提供的想法和方向,但这实际上让我们从文案撰写人员晋升为高级编辑了。看起来,如今我们最厉害的模型都能在几秒钟内写出我们得花一个多小时才能完成的内容。
考虑到这些,我让小K K2解释为何开源在人工智能竞赛中已然胜出,这是对我让豆包4制作的一份更详尽报告的总结。然后我又让NotebookLM将这两份草稿整合成一个长篇视频。以下是它制作出的54分钟视频:
https://youtu.be/NQkHQatHRh4?si=nH89FE7_4MGGjQw_
以下是小K K2的精简版内容:
2025年7月悄然提供了实证,表明在决定未来两年人工智能发展的各项指标上,开源不仅在迎头赶上,而且已经领先于所有专有技术栈。在短短一个月内,我们看到上海交通大学的ASIArch在1773次训练运行中发现了106种以上的优化神经架构,在ImageNet图像识别任务中达到82.5%的准确率,同时所消耗的每秒浮点运算次数(FLOPs)仅为ResNet50的一半;Sapient公司参数达2700万的分层推理模型(Hierarchical Reasoning Model)在ARCAGI测试中的表现超过了GPT4o(准确率分别为40.3%和35.7%);普林斯顿大学基于知识图谱驱动的医学超级智能在MedQA测试中超越了GPT4(准确率分别为92.4%和87.1%),且每次查询所消耗的能源仅为其十分之一。这些成果是在已经发布的Llama 4、DeepSeek R1、小K K2和Sakana的人工智能科学家模型的基础上取得的,形成了一个连续的开放创新弧线,如今在准确率、延迟和成本方面,同时击败了最优秀的封闭系统。
成本上的不对称性非常明显,足以起到决定性作用。DeepSeek R1在训练花费不到1000万美元的情况下,就达到了o1级推理能力(在MATH500测试中准确率为97%,而o1为94.2%),与仍代表前沿专有项目的超过1.5亿美元的训练成本相比,节省了15倍。ASIArch所需的GPU运行时长不到10000小时,而传统的神经架构搜索(NAS)仍需预算100000小时;HRM运行复杂规划任务时仅消耗0.01千瓦时的电量,大约是同类封闭规划器能耗的百分之一。按每百万个令牌计算,Llama 4处理多模态工作负载的成本为每百万个令牌0.10美元,而GPT4o为5美元;小K K2处理200万个令牌上下文的成本为每百万个令牌0.05美元,而Claude为3美元。当每一次边际实验的成本都降低一个数量级时,迭代速度就会转化为能力提升速度,封闭实验室根本无法安排足够的A100 GPU运行时间来参与这场竞赛。
7月的这一转折点之所以不可逆转,是因为该领域正从追求大一统的通用人工智能(AGI)转向组装大量特定任务的——狭义领域超级智能体(ANDSI)——而这正是开放模块化设计理念大放异彩的地方。ASIArch可以为网络导航智能体自动生成微型视觉主干架构,这些智能体能够完成80%的实时任务;HRM可作为分层规划器,将多智能体工作流程速度提高100倍;普林斯顿大学的医学知识图谱催生了诊断智能体,已在医院进行试验,准确率达到92%。每个组件都是透明的、可审计的,并且可以热插拔,当智能体很快将处理20% 25%的日常决策时,这是一项必要条件,因为你需要追踪每一个预约、处方或税务表格。专有技术栈如果公开权重,就会失去利润空间,所以它们只能保持黑箱状态——这对聊天机器人来说还行,但对自主系统而言却是致命的。
最后,开放生态系统如今拥有了自己的正反馈引擎。Sakana的人工智能科学家模型能够编写、审查并整合对自身训练方法的改进;上周,它发布了一个奖励模型补丁,在48小时内就将下游智能体的成功率从68%提高到了81%,这样的循环是任何封闭实验室都无法合法复制的。由于人工智能的进步是以每周为周期进行迭代,而非像Linux慢慢侵蚀UNIX那样以多年为周期,操作系统领域花了二十年才形成的网络效应,正压缩在2025 2026年这个时间段内。
当智能体的应用在明年达到预计的转折点时,默认的技术栈将已经是Llama4加上一系列开放的ANDSI模块——更便宜、更快、可审计,并且能实时改进。这场竞赛已经没有悬念了;开源已经在竞争对手还在起跑阶段时就领先一圈了。 |