苹果公司最近发表了一篇论文，表明目前的人工智能系统缺乏解决人类容易解决的难题的能力。

前沿技术 · 2025-7-23 15:17:19

人类的比例是92.7%，GPT 4o的比例是69.9%。不过呢，他们并没有对任何近期的推理模型展开评估。要是他们这么做了，就会发现o3达到了96.5%，成绩超过了人类。

steking · 2025-7-23 15:18:45

我假设他们会得到人类的平均值

wang4444 · 2025-7-23 15:20:04

除了数学家可以做到这一点

暗果 · 2025-7-23 15:21:31

如果有与报纸的链接，那将是非常整洁的。

abc12 · 2025-7-23 15:35:23

他们如何测量 “人类” 的AI模型真的很有趣，就好像有一个具有定义能力的人类一样。

听梦 · 2025-7-23 16:32:53

苹果公司刚刚发表了一篇论文，解释说GenAI无法解决人类容易发现的难题。大胆的东西，如果这是2022的。以这种速度，Apple Intelligence将在2026左右的某个时候发现思想链提示。给他们一个掌声!

七笼猪 · 2025-7-23 17:02:54

它表明概念理解正在改善。

超级赛亚人 · 2025-7-23 18:09:36

Dan Hendrycks在twitter上

wanpin · 2025-7-24 02:46:36

是否有对o3和96.5% 信息的引用？

yyctt · 2025-7-24 07:06:35

苹果公司用其多余的数十亿美元成为AIs的头号仇恨者，这很有趣。

zhengyan · 2025-7-24 08:16:34

我以为只有我和我的失语症。

7.10 · 2025-7-24 09:41:12

苹果可不是“黑粉”。他们渴望拥有人工智能。极其渴望。只是在这个领域他们太愚蠢/无能，做不好这件事。所以他们就转而抨击别人。

伊阳进 · 2025-7-24 09:49:57

等等，所以现在我每天都得在网上看那些重复的内容吗？

mjfh · 2025-7-24 11:23:56

不是吗？除了迷宫游戏外，所有游戏都有四个选项，其中一个是正确的，这意味着随机猜测的正确率会是四分之一，即25%。而69.9%（的正确率）表明显然是有某种逻辑推理在其中的。

madein163 · 2025-7-24 11:27:35

在谷歌上搜一下丹·亨德里克斯是谁。

是叫小小 · 2025-7-24 12:41:36

机器人可能会征服世界，除非要输入验证码。

美熊悦 · 2025-7-24 12:41:39

我觉得苹果公司极度害怕错失（FOMO），慌得一批，为了挽救自己而谎称人工智能没那么厉害。哈哈，这太荒唐了。

ioty · 2025-7-24 14:14:50

哈哈 😆

ainxy · 2025-7-25 09:25:39

上一篇《错觉》（Illusion）论文真正令人震惊的并非第一作者只是一名实习生，而是竟然没有人站出来阻止这件事。这清楚地表明该领域的部分环节已经落后到了何种程度。

暗果 · 2025-7-25 09:50:24

所有这些论文要是不使用最先进的推理模型，那就太没意思了。

sewell · 2025-7-25 09:56:02

苹果远远落后了。Arc智能技术已经存在好几年了，可苹果却表现得好像这是什么新事物一样。

sewell · 2025-7-25 15:24:04

这就是大型语言模型不会通向通用人工智能的原因吗？尽管炒作不断……

酷情鸟 · 2025-7-25 17:11:46

我也有想象障碍症，不过我能解决相关问题。只需要描述一个物体的关键部分，然后将它们与另一个物体进行比较就行。

wyzbxzz · 2025-7-25 18:43:39

我所担心的并非这位实习生的帖子本身，而是苹果公司竟没有一位资深研究人员指出论文中潜在的问题。

暗土花 · 2025-7-28 00:21:23

而且我觉得苹果以这种方式评估人工智能相当明智。他们最终会掌握所有主要人工智能参与者非常有用的数据，而且肯定会对这些数据严格把控。我预计苹果会先藏着大招，直到推出比市场上其他产品更胜一筹的东西。

小望月 · 2025-7-29 18:41:45

普通人一半是印度人血统，一半是中国人血统……

zmy609 · 2025-7-29 19:37:51

我也是。我查了一下，发现有个记忆测试。你得重复那些高亮方块的顺序。所以也许我们没看清楚问题。

mahuman · 2025-8-1 15:59:08

科西方块敲击测试很难看清，但在参考面板（第四个）的蓝色方块里有黑色数字。黄色方块的顺序与标有数字1、4、2的蓝色方块相对应。

bhtl · 2025-8-1 16:28:06

从全球范围来看是这样，不过在美国，这个比例要低得多。

我ID是404 · 2025-8-6 10:36:23

人类：92.7%
GPT4o：69.9%
然而，他们没有对任何近期的推理模型进行评估。如果他们这么做了，就会发现o3模型得分96.5%，超过了人类。来源：“相信我，兄弟” （注：Trustmebro直译为相信我兄弟，这里应该是某个不正式的信息源表述）

暗山花 · 2025-8-6 13:24:27

在如此短的训练模型周期内，人工智能就能答对其中69.9%的题目？哇哦！太厉害了！想想20年后会是什么样子。

阿傍🥷 · 2025-8-6 14:23:37

苹果公司拼命进行测试，试图为语音助手Siri为何表现糟糕找借口。

平凡 · 2025-8-8 16:15:40

我们想要通用人工智能（AGI），我们希望它在人类日常生活的任何方面都具备能力，这样它就能为我们处理一切事务。为此，它必须有足够的成功率来完成所有此前未曾实现的事情。换句话说，我们希望它拥有像我们人类解决问题时所具备的推理能力。

Bruce.Liu · 2025-8-9 15:32:44

我曾经满怀希望，充满梦想，想着早早退休，
在海滩边啜饮着插着小伞的饮料，
看着我的机器人干活。直到我决定打造一个真正的人工智能智能体……

新风子 · 2025-8-10 13:34:12

等待其他人开发的人工智能变得足够好以便抄袭

aylue · 2025-8-12 16:00:02

AI要把人类超啦？

sc163 · 2025-8-20 18:00:02

o3成绩超人类了？

		自动登录	找回密码
密码			立即注册

36 回复