发帖
 找回密码
 立即注册
搜索
0 0 0
日常闲聊 399 0 3 天前
三年前,大型语言模型(LLM)连两位数的乘法都搞不定,除了当个新鲜玩意儿,没啥实际用处。  
就在几周前,Google 和 OpenAI 的实验性 LLM 在和参赛者同等条件下,竟然在全国2025数学奥林匹克竞赛中拿了金牌。  
我觉得,这个领域里的很多人真的该冷静一下,回头看看 AI 在这么短的时间里,到底进步了多少。
──── 0人觉得很赞 ────

使用道具 举报

可以确定的是,您确实能在dam计算机 1846上执行乘法操作。
我的意思就是……就在昨天,我还让ChatGPT去解决一个涉及两个变量的评估系统问题,结果它没搞定。我是说,虽然确实有点进展,但拜托!😅  
(我都能猜到它的标准回复:“您的提示不正确”😒)
我觉得,可以相信他们在6个月前,甚至12个月前、更早的时候,就已经具备了拿金牌的实力。三年前,那是在任何真正意义上的大众产品出现之前。这就像是说,电动汽车在第一辆车还没上路之前,就已经跑过一英里一样。经济之所以会放缓,部分原因就是过去那6到12个月实在太疯狂了,疯狂之后必然要调整。我经常提出的一个问题是:人们总是假设创新一开始的速度能一直保持下去,但其实这种情况很少发生。
不过,在“蓝莓”里面还是数不清那些b。我挺怀疑他们的方法和这种竞争性的数学玩意儿到底有多大关系。而且,就算不扯那些瞎扯的(虽然确实有),解决数学问题这种事,很容易放到一个上下文窗口里,规则很明确,也容易衡量,但它其实并不能真正反映到现实世界的影响上去。
它肯定是在减速了。它会在整个2028年的互联网数据上进行训练,而新的训练方法明显显示出“幻觉”现象在增加。在下一次重大突破出现之前,还有一些障碍必须得克服。
你有没有想过,与其训练一个啥都能干的大型语言模型(LLM),不如训练一堆小而精的模型,每个都专注干好一件事儿?这些小模型可以在本地设备上跑起来,比如你的手机、电脑,甚至是智能家居设备。其实,小语言模型(SLM)可能才是AI未来的方向。也许大模型的发展会慢下来,但这不代表AI整体进步会减速。我们并不真的需要一个“全能”的超级模型。这种“越大越好”的思路,从来就不是唯一答案。而且,各种小模型带来的突破是持续发生的。也许这些进步在你看来不算啥大事,但它们会一点点积累起来,最终带来质的飞跃。
三年前,训练数据里对数学内容并没有特别侧重。但就在几周前,我们发现有迹象显示,数学内容在训练中开始被重视起来了。
这事儿叫做函数调用和代码解释。现在的LLM其实还不能直接做那些超出训练数据范围的数学题,不过它们可以通过写一段程序,扔到一个临时的虚拟环境里跑一下,然后用跑出来的结果来解决问题。不管是预训练、RLHF,还是SFT、DPO这些方法,到现在为止都没法让LLM真正搞定符号处理这一块。LLM的发展看起来挺平稳的,但其实背后是靠一堆应用层的“架子”在撑着它们运作。
有点跑题了。计算机做乘法,其实只是按照代码里的指令一步步执行而已。但这跟计算机真正“理解”乘法的意义、目的和应用场景,完全是两码事。前者只是机械地执行命令,后者才是真正用计算机去解决现实中的问题。而这两者的区别,其实就是程序员以前在做的事情。
没错,发展实在太快了。数学、编程、图像、视频、写作……各个方面都在飞速进步。
可以肯定的是,现在有很多新的训练和微调方法,比如人类反馈强化学习(RLHF)和直接偏好优化(DPO),这些技术确实在减少AI“胡说八道”的情况,也在让AI更符合人类的期望。虽然我们确实面临数据资源的限制……但其实也有很多新方向正在被探索,而且已经有一些令人振奋的成果出现。我真心觉得楼主说得有道理。我们正在被AI“惯坏”,它变得太常见了,以至于我们常常忽略了它其实已经强大到多么离谱的地步。上个月AI在数学奥林匹克竞赛中拿了金牌,这居然被一些人看作是“放缓脚步”?  
这对我来说简直太离谱了。补充一句:公平点讲,我也确实见过现在的LLM在一个很基础的几何问题上翻车,而那个问题我自己几秒钟就能解决。  
但话说回来,大多数人接触不到真正最前沿的模型。所以我也能理解为什么有些人会怀疑:如果只看公开可用的LLM,那AI的进步看起来确实可能没那么惊艳。
您需要登录后才可以回帖 立即登录
高级模式