发帖
 找回密码
 立即注册
搜索
0 0 0
前沿技术 1036 0 2025-7-23 15:17:19
人类的比例是92.7%,GPT  4o的比例是69.9%。不过呢,他们并没有对任何近期的推理模型展开评估。要是他们这么做了,就会发现o3达到了96.5%,成绩超过了人类。
──── 0人觉得很赞 ────

使用道具 举报

2025-7-23 15:18:45

我假设他们会得到人类的平均值
2025-7-23 15:20:04

除了数学家可以做到这一点
2025-7-23 15:21:31

如果有与报纸的链接,那将是非常整洁的。
2025-7-23 15:35:23

他们如何测量 “人类” 的AI模型真的很有趣,就好像有一个具有定义能力的人类一样。
2025-7-23 16:32:53

苹果公司刚刚发表了一篇论文,解释说GenAI无法解决人类容易发现的难题。大胆的东西,如果这是2022的。以这种速度,Apple Intelligence将在2026左右的某个时候发现思想链提示。给他们一个掌声!
2025-7-23 17:02:54

它表明概念理解正在改善。

Dan Hendrycks在twitter上
2025-7-24 02:46:36

是否有对o3和96.5% 信息的引用?
2025-7-24 07:06:35

苹果公司用其多余的数十亿美元成为AIs的头号仇恨者,这很有趣。
2025-7-24 08:16:34

我以为只有我和我的失语症。
2025-7-24 09:41:12
苹果可不是“黑粉”。他们渴望拥有人工智能。极其渴望。只是在这个领域他们太愚蠢/无能,做不好这件事。所以他们就转而抨击别人。  
2025-7-24 09:49:57
等等,所以现在我每天都得在网上看那些重复的内容吗?
2025-7-24 11:23:56
不是吗?除了迷宫游戏外,所有游戏都有四个选项,其中一个是正确的,这意味着随机猜测的正确率会是四分之一,即25%。而69.9%(的正确率)表明显然是有某种逻辑推理在其中的。  
2025-7-24 11:27:35
在谷歌上搜一下丹·亨德里克斯是谁。
2025-7-24 12:41:36
机器人可能会征服世界,除非要输入验证码。  
2025-7-24 12:41:39
我觉得苹果公司极度害怕错失(FOMO),慌得一批,为了挽救自己而谎称人工智能没那么厉害。哈哈,这太荒唐了。  
2025-7-24 14:14:50
哈哈  😆
2025-7-25 09:25:39
上一篇《错觉》(Illusion)论文真正令人震惊的并非第一作者只是一名实习生,而是竟然没有人站出来阻止这件事。这清楚地表明该领域的部分环节已经落后到了何种程度。  
2025-7-25 09:50:24
所有这些论文要是不使用最先进的推理模型,那就太没意思了。  
2025-7-25 09:56:02
苹果远远落后了。Arc智能技术已经存在好几年了,可苹果却表现得好像这是什么新事物一样。  
2025-7-25 15:24:04
这就是大型语言模型不会通向通用人工智能的原因吗?尽管炒作不断……
2025-7-25 17:11:46
我也有想象障碍症,不过我能解决相关问题。只需要描述一个物体的关键部分,然后将它们与另一个物体进行比较就行。  
2025-7-25 18:43:39
我所担心的并非这位实习生的帖子本身,而是苹果公司竟没有一位资深研究人员指出论文中潜在的问题。  
2025-7-28 00:21:23
而且我觉得苹果以这种方式评估人工智能相当明智。他们最终会掌握所有主要人工智能参与者非常有用的数据,而且肯定会对这些数据严格把控。我预计苹果会先藏着大招,直到推出比市场上其他产品更胜一筹的东西 。  
2025-7-29 18:41:45
普通人一半是印度人血统,一半是中国人血统……
2025-7-29 19:37:51
我也是。我查了一下,发现有个记忆测试。你得重复那些高亮方块的顺序。所以也许我们没看清楚问题。  
2025-8-1 15:59:08
科西方块敲击测试很难看清,但在参考面板(第四个)的蓝色方块里有黑色数字。黄色方块的顺序与标有数字1、4、2的蓝色方块相对应。  
2025-8-1 16:28:06
从全球范围来看是这样,不过在美国,这个比例要低得多。  
人类:92.7%
GPT4o:69.9%
然而,他们没有对任何近期的推理模型进行评估。如果他们这么做了,就会发现o3模型得分96.5%,超过了人类。来源:“相信我,兄弟” (注:Trustmebro直译为相信我兄弟,这里应该是某个不正式的信息源表述 )  
2025-8-6 13:24:27
在如此短的训练模型周期内,人工智能就能答对其中69.9%的题目?哇哦!太厉害了!想想20年后会是什么样子。  
2025-8-6 14:23:37
苹果公司拼命进行测试,试图为语音助手Siri为何表现糟糕找借口。  
2025-8-8 16:15:40
我们想要通用人工智能(AGI),我们希望它在人类日常生活的任何方面都具备能力,这样它就能为我们处理一切事务。为此,它必须有足够的成功率来完成所有此前未曾实现的事情。换句话说,我们希望它拥有像我们人类解决问题时所具备的推理能力 。  
2025-8-9 15:32:44
我曾经满怀希望,充满梦想,想着早早退休,
在海滩边啜饮着插着小伞的饮料,
看着我的机器人干活。直到我决定打造一个真正的人工智能智能体……
2025-8-10 13:34:12
等待其他人开发的人工智能变得足够好以便抄袭
2025-8-12 16:00:02
AI要把人类超啦?
2025-8-20 18:00:02
o3成绩超人类了?
您需要登录后才可以回帖 立即登录
高级模式