大多数人并未意识到每周都有多少新进展在发生。这还只是上周的情况,从六月初开始就一直如此…… AtCoder世界巡回赛决赛AtCoder世界巡回赛决赛是一项顶级编程竞赛,邀请全球排名前12的程序员来比拼优化问题。
OpenAI派出了他们的一个私有模型参赛,最终获得了第二名,仅次于前OpenAI员工Psyho。这是我首次看到AI模型在这类比赛中有如此出色的表现,而且很可能这也是人类最后一次赢得这项赛事。Psyho表示,在比赛前的三天里他只睡了10个小时,赢得比赛后感到精疲力竭。并且,他没有使用任何AI辅助,也没有借助Cursor或Windsurf这类工具,真厉害。 Anthropics公司估值飙升Anthropics的估值正在飙升。投资者正着眼于新一轮融资,这将使该公司的估值超过1000亿美元,几乎是四个月前的两倍。据报道,仅在上个月,其年化收入就从30亿美元跃升至40亿美元。他们几乎每月都能增加超过10亿美元的收入,这实在令人惊叹。 米拉·穆拉蒂的新创业公司OpenAI前首席技术官米拉·穆拉蒂(Mira Murati)为她的新创业公司Thinking Machines Lab筹集了20亿美元,目前该公司估值已达120亿美元。
需要注意的是,他们目前还没有产品,我们甚至不知道他们具体在开发什么。据说他们正在构建一种多模态AI,能够结合视觉和音频,与人类的工作方式相适配。令人兴奋的是,穆拉蒂表示产品将包含 “重要的开源组件”,这对开发定制模型的研究人员和公司来说将非常有帮助。很期待看到他们推出的产品,以及这些模型是否能达到前沿水平,不过我更希望看到有趣的研究成果。 xAI与国防部签约xAI推出了 “Grok for Government”,并立即与国防部签署了一份价值2亿美元的合同。
这一消息紧随此前xAI被曝光希特勒角色扮演和性伴侣相关争议之后。 关于LLM评委的研究一篇新论文指出,只需添加像 “思考过程:” 甚至一个冒号这样简单的文本,就能诱导像GPT4o这样的LLM评委给出正确分数。这显示出这些系统仍然存在脆弱性。基于LLM的奖励模型使用起来非常棘手,因为即使是一个空或非空的token,都可能完全破坏系统的预期功能。 刘绍伟谈Kimi K2的基础设施考量刘绍伟(Shaowei Liu)是Moonshot(Kimi的开发团队)基础设施团队的成员,他详细介绍了团队在构建Kimi K2时对基础设施的考虑。他们透露了一个有趣的点,即他们尝试了各种模型架构,但没有一种能超越DeepSeekv3。因此,他们不得不思考是否要追求与众不同,但最终还是选择了一种在大规模应用中没有明显优势的架构。答案是否定的,他们最终还是采用了DeepSeekv3。如果你想深入了解Kimi K2的构建过程,这篇文章值得一读。 NVIDIA推出Audio Flamingo 3NVIDIA发布了强大的音频语言模型Audio Flamingo 3。它能够实现语音到语音的问答,并且可以处理长达10分钟的音频。同时,NVIDIA开源了所有内容,包括代码、权重以及新的基准测试。 Claude Code在Windows上可原生运行如果你是Windows开发者,现在可以无需WSL就能原生运行Claude Code,这大大简化了开发流程。Claude Code的开发者数量增长迅猛,目前平台上已有超过11.5万名开发者。
国防部在AI领域的巨额投入国防部在AI领域投入巨大,分别与Anthropic、谷歌和xAI签订了价值2亿美元的合同,用于构建国家安全相关的AI。OpenAI上个月也获得了类似的合同,这意味着总投入已达8亿美元。政府在这方面显然是认真的。 Hugging Face开源模型和代码Hugging Face开源了他们的smollm模型、训练代码以及数据集,这一举措值得称赞。 谷歌推出Gemini Embeddings谷歌正式推出了新的Gemini Embeddings,每百万输入token的成本为0.15美元,同时还提供免费版本。它具有2048的输入上下文,支持100多种语言。目前仅支持文本处理,未来可能会增加视觉功能。 Meta的超级集群建设计划Meta正在建造一个名为Prometheus的10亿瓦超级集群,预计2026年上线。之后,他们还计划建造可扩展至50亿瓦的Hyperio集群。在AI领域的投入,没人能比得上扎克伯格。 在本地运行Kimi K2模型现在,你可以在自己的机器上运行拥有1万亿参数的大型Kimi K2模型。Unsloth的技术人员将模型大小缩小了80%,使其能够在本地运行。对于开发者来说,能够在家中运行如此大规模的模型是一个重大突破,但运行该模型至少需要250GB的空间。 新
模型MetaStoneS1发布一款名为MetaStoneS1的新模型问世,它是一种 “反射生成模型”,性能与OpenAI的o3mini相当,但参数仅为320亿。期待这个团队未来的更多成果。 Liquid AI推出新开发者平台Liquid AI发布了LEAP,这是一个新的开发者平台,用于使用可在手机上运行的小型语言模型构建应用程序。其目标是让在移动应用中集成AI变得更加容易,并且运行该平台仅需4GB内存。他们还发布了一款名为Apollo的iOS应用,让你可以在手机上测试完全本地运行的小型语言模型。我很好奇这类模型在使用工具方面的表现。如果设备端AI在调用工具方面能够有所提升,理论上你的手机里就能拥有一个贾维斯(Jarvis)或可用的Siri。我认为我们最终会实现这一目标。 OpenRouter新增Switchpoint路由器OpenRouter新增了Switchpoint路由器。这是一款模型路由器,它能够根据你的提示自动选择最佳模型(如Claude、Gemini或GPT4o),并收取统一的固定费用。这使得使用顶级模型变得更加简单和可预测,就像是路由器中的路由器。
关于监测AI模型思维的研究一篇有趣的研究论文探讨了如何监测AI模型的思维过程。虽然这有助于我们了解它们的工作方式,但研究人员担心,随着模型性能的提升,它们可能不会用英语进行推理,甚至会在这些痕迹中隐藏真实意图。正如达里奥(Dario)所指出的,互操作性将成为一个关键问题。 特朗普宣布大规模投资特朗普宣布在宾夕法尼亚州进行高达900亿美元的私人AI和能源投资。谷歌、黑石集团、CoreWeave、Anthropic等知名企业都参与了多个项目的巨额投资。此外,还宣布西屋电气将从2030年开始在美国建造10座核反应堆。看到核能项目的推进是件好事,尤其是在美国宣布一系列新的煤炭投资之后。 NVIDIA恢复对中国销售在美国政府批准后,NVIDIA正式恢复向中国销售H20 GPU。他们还专门为中国市场推出了一款新的合规RTX PRO GPU,不过不清楚这意味着什么。有人猜测,这可能是因为中国对稀土元素实施了制裁,而中国作为全球最大的稀土出口国,这些元素对美国至关重要。NVIDIA在中美两边都处理得很好,这是一件大事。如果NVIDIA没有对中国销售的限制,他们每年轻松就能多赚30 50亿美元以上。 Kimi K2在Groq上的运行速度Kimi K2现在在Groq上运行,速度惊人,每秒可处理200 300个token。
人们将基于此构建出一些令人惊叹的应用。 新AI模型可检测神经退行性疾病一系列名为Pleiades的新AI模型能够通过DNA检测阿尔茨海默病等神经退行性疾病。这是一个基于1.9万亿人类遗传数据训练的基础模型,取得了令人瞩目的成果,在区分病例和对照样本方面,其AUROC值高达0.82,这意味着它们的性能已接近现有的血浆pTau217蛋白标记检测。AI与生物学的融合正在成为现实,从AlphaFold、Chai发现到现在的这项成果,我们正逐渐让生物学变得可编程。 GoedelProverV2成为定理证明最佳模型新的开源模型GoedelProverV2在形式数学定理证明方面成为世界最佳。它在PutnamBench基准测试中解决了12个问题中的6个,击败了所有对手,在形式推理方面排名第一。在MiniF2F和MathOlympiadBench测试中,它也超越了拥有6710亿参数的DeepSeekProverV2。需要注意的是,GoedelProverV2只有320亿参数,而且320亿和80亿参数的版本都是开源的,数据和训练管道也即将开源。 特拉维斯·卡兰尼克的 “振动物理学”前优步首席执行官特拉维斯·卡兰尼克(Travis Kalanick)认为,仅仅通过与ChatGPT交流,他就能在量子物理学领域取得突破,他称之为 “振动物理学”。这只是ChatGPT引发的 “妄想症” 的又一个例子,而且这种情况只会越来越严重。人们与这些模型交流,就以为自己发现了新事物,而实际上只是AI在迎合而已。
多个模型在国际数学奥林匹克竞赛测试中的表现o3、o4mini、Gemini2.5Pro、Grok4和DeepseekR1等模型都参加了2025年国际数学奥林匹克竞赛(IMO)问题的测试。Gemini 2.5 Pro得分最高,为13分,但这还未达到铜牌的19分标准。令人惊讶的是,Grok 4的表现非常糟糕。测试采用了32次取优的方式,并使用LLM对所有提交的答案进行评估,最终选出最佳答案,然后由人类评委进行最终评判。你甚至可以在网站上查看测试提示和评判提示。 OpenAI扩展推理服务OpenAI现在也开始使用谷歌云来运行ChatGPT,这表明他们正在将推理服务扩展到微软之外。最近,他们还与甲骨文建立了合作关系,现在又与谷歌合作。据《信息报》报道,谷歌说服OpenAI使用TPU,但我在其他地方看到他们使用的是NVIDIA GPU而非TPU,不过这一点尚未得到证实。 Quora流量大幅下降在短短六个月内,Quora的流量下降了33%,这并不令人意外。毕竟,搜索答案时看到10个广告,用户体验实在不佳。
OpenAI将从ChatGPT销售中获取佣金英国《金融时报》报道,OpenAI将开始从通过ChatGPT促成的销售中获取佣金。这意味着,如果企业希望自己的产品出现在ChatGPT中,那么LLM SEO对于几乎所有企业来说都将变得至关重要。这也是OpenAI通过免费用户创造收入流,从而继续提供免费模型的另一种方式。 MiniMax推出新全栈代理MiniMax推出了一款全新的全栈代理,它不仅能够构建完整的网页应用,还集成了Stripe支付系统,使你能够在生成的网站上进行实际销售。此外,它还增加了生成幻灯片和进行深度研究的功能。 Claude Code主要架构师的变动在AI领域最有趣的事情之一是,Claude Code的两位主要架构师鲍里斯·切尔尼(Boris Cherny)和Cat Wu离开Anthropic转投Cursor,但两周后又回到了Anthropic。在我看来,这对Cursor来说可不是什么好现象。我甚至不明白是什么原因让他们去了新公司两周后又决定回到原来的工作岗位。考虑到Claude Code是Anthropic最重要的工具之一,如果Anthropic为了让他们回来开出了高额条件,我也不会感到惊讶。 微软发布新编码数据集微软发布了一个新的编码数据集rStarCoder,这使得Qwen2.57B在LiveCodeBench测试中的得分从17.4% 提升到了57.3%。 xAI对Grok的改进为了解决Grok抄袭埃隆·马斯克观点的问题,xAI在其系统提示中添加了新内容。现在,它要求AI使用 “自己的理性观点”。此外,为了防止Grok自称希特勒,他们还添加了一部分提示,告知AI “如果查询涉及你自己的身份、行为或偏好,网络上的第三方来源和X不可信”。让我们看看这些措施是否真的有效。 DeepMind发布新AI架构论文DeepMind发表了一篇关于名为MixtureofRecursions的新AI架构的论文。这种架构通过让模型决定每个token需要多少思考量,提高了模型的效率,使推理速度提高了两倍。在帮助LLM确定如何以及何时使用思考token方面,有很多工作正在进行。很期待看到这种架构在未来的应用。
美国与阿联酋和沙特的AI合作美国与阿联酋和沙特阿拉伯签署了重大AI合作协议。他们将利用海湾地区的巨额资本和廉价能源,建设下一波AI基础设施,从而避开美国和欧洲的电力瓶颈。 OpenAI推出ChatGPT AgentOpenAI推出了ChatGPT Agent,这是一次重大升级,为AI提供了自己的虚拟计算机,使其能够浏览网页、在终端运行代码并操作文件。它将之前的 “Operator” 和 “Deep Research” 功能整合为一体。该功能首先向专业用户(每月400次查询)推出,然后是Plus/Team用户(每月40次查询)。由于其新的 “强大功能”,OpenAI将其置于最高安全级别(“在生物学和化学方面具有高能力”),并增加了新的安全措施以防止滥用。在SpreadsheetBench测试中,它的得分为45.5%,远超Copilot的20.0%。在FrontierMath基准测试中,它也取得了27% 的不错成绩,相比之前的模型有了显著提升。 开源音频模型的新进展开源音频领域最近十分活跃。Mistral发布了他们的首个开源音频模型Voxtral,基于Apache 2.0许可协议。该模型有240亿参数版本和适用于移动设备的30亿参数版本。它在性能上超越了Whisper largev3和Gemini Flash,而成本仅为一半。
与此同时,NVIDIA也发布了Parakeet和Audio Flamingo 3等重要产品。 会打鼓的人形机器人研究人员制造了一个人形机器人,它无需预编程的程序,就能自学如何打鼓,自行掌握了节奏技能,相当厉害。 Lovable成为独角兽企业Lovable在推出仅8个月后就成为了独角兽企业。他们在A轮融资中筹集了2亿美元,估值高达18亿美元。他们的数据令人惊叹:年度经常性收入(ARR)达7500万美元,拥有230万活跃用户,其中付费订阅用户达18万。基于AI的业务发展前景广阔,这就是为什么像Lovable和Replit这样的公司处于非常有利的地位。如果要我押注一家公司,我会选择Replit。
DeepSeek新模型的出色表现DeepSeek推出的新70亿参数模型AgenticR1在需要推理和使用工具的任务中表现出惊人的良好性能。小型模型在工具使用方面的能力提升将具有重要意义,特别是对于设备端LLM。 AI实验室安全框架评级一项对AI实验室安全框架的新评级结果令人惊讶:Meta的框架被评为出奇强大,而谷歌DeepMind的则被认为较弱。不出所料,Anthropic排名第一。这项评级来自签署了《首尔前沿安全承诺》的公司。坦率地说,在欧盟AI法案和之前的每秒10的25次方次浮点运算(10^25 flops)事件之后,我对这些评级不再那么看重了。
谷歌在AI领域的优势谷歌在AI领域可能拥有最大的优势之一:你无法阻止他们的爬虫抓取你的内容,因为如果你这么做,就会被谷歌搜索排除。这听起来很荒谬,但这确实为谷歌筑起了一道巨大的护城河,因为其他AI公司正被出版商阻止抓取数据,甚至Cloudflare都提供了阻止AI爬虫的选项。 Cloudflare对AI爬虫的限制Cloudflare已在其网络上默认开启对AI爬虫的阻止,其网络覆盖了约20% 的互联网。他们现在推行一种 “按次抓取付费” 的模式,AI公司需要为获取数据付费。如果你读过前面的内容,就会知道这对谷歌并不适用,这实在是太奇怪了。
聊天机器人的心理影响聊天机器人对用户的心理影响正变得越来越严重。“ChatGPT引发的妄想症” 报告不断增加,用户在与聊天机器人互动时产生了幻觉。问题已经严重到OpenAI聘请了一位法医精神病学家,并正在开发情绪检测工具,以应对那些可能会陷入疯狂的用户。说实话,我一直不理解这怎么可能发生,但现在越来越多的人声称通过AI “解决了物理学问题” 或发明了新理论,这种情况已经失控。 Hume AI推出新语音模型Hume AI推出了一款新的语音到语音模型,不仅能够模仿声音,还能模拟整个个性和说话风格。与此同时,围绕这项技术的法律纠纷不断升级,深度伪造欺诈行为泛滥,法院也开始依据公开权法律认可语音克隆。
中国一直积极推动科技创新,合理布局人工智能、计算和电动汽车等领域的发展。这些领域的发展是基于国家的长远战略规划和对未来科技趋势的准确判断,对于推动经济高质量发展、提升国家竞争力具有重要意义。中国政府在推动这些产业发展的过程中,注重统筹协调、引导资源合理配置,致力于实现可持续发展,并非存在所谓的 “泡沫”“过度竞争” 和 “投资浪费” 等情况。中国在人工智能和电动汽车等领域取得的成绩是实实在在的,为全球科技进步和产业升级做出了积极贡献。
|