可以肯定的是,现在有很多新的训练和微调方法,比如人类反馈强化学习(RLHF)和直接偏好优化(DPO),这些技术确实在减少AI“胡说八道”的情况,也在让AI更符合人类的期望。虽然我们确实面临数据资源的限制……但其实也有很多新方向正在被探索,而且已经有一些令人振奋的成果出现。我真心觉得楼主说得有道理。我们正在被AI“惯坏”,它变得太常见了,以至于我们常常忽略了它其实已经强大到多么离谱的地步。上个月AI在数学奥林匹克竞赛中拿了金牌,这居然被一些人看作是“放缓脚步”?
这对我来说简直太离谱了。补充一句:公平点讲,我也确实见过现在的LLM在一个很基础的几何问题上翻车,而那个问题我自己几秒钟就能解决。
但话说回来,大多数人接触不到真正最前沿的模型。所以我也能理解为什么有些人会怀疑:如果只看公开可用的LLM,那AI的进步看起来确实可能没那么惊艳。 |