发帖
 找回密码
 立即注册
搜索
0 0 0
前沿技术 974 0 2025-7-23 15:27:51
这来自Metaculus,它有点像一个预测市场。网址是:https://www.metaculus.com/questions/ 6728/aiwinsimo金牌
──── 0人觉得很赞 ────

使用道具 举报

2025-7-23 16:55:52

他们的模型不是专门用来下棋的吗?如果我可以即时访问整个国际象棋策略id可能会赢得tbh lol
2025-7-24 05:06:33

难道不是在国际象棋上输给了卡尔森吗?
2025-7-24 07:26:34

一般文本预测?你住在2024年吗?塔尔以前已经被揭穿了,你还在重复那些废话吗?LLM (这实际上是错误的名称,因为当前的模型可以采用任何模态) 在推理期间创建自己的内部世界,同时与您交互。
2025-7-24 09:31:12
伙计,你吹捧任何抬高人工智能估值的东西,而且你还会很开心。  
2025-7-24 10:08:06
并不是这样,那只是一个狭义人工智能,而OpenAI凭借通用人工智能取得了巨大成功。这两者之间有很大的区别。  
2025-7-24 10:08:24
ChatGPT没有被编程用于下棋。另一方面,Leela是一款国际象棋引擎,它是一个通过强化学习训练的基于Transformer架构的程序,目前它在角逐最佳国际象棋引擎的竞争中表现出色,其能力远远超过了卡尔森(国际象棋特级大师)。  
2025-7-24 10:44:36
那是通用的文本预测模型,所以它在小众、特定领域的表现肯定不会太好。这个模型成本要高得多,是经过专门训练的。就算会发布,也要几个月之后了。  
2025-7-24 11:57:37
实际上,你提到的那种预测特别愚蠢。预测市场要发挥作用需要有激励因素,而且因为押注人工智能会毁灭人类并不能带来任何好处(到时候你都死了),任何押注这种情况会发生的人不过是在扔钱来证明某种观点罢了。从这一点来说,这可不是一个真正的预测市场。  
2025-7-24 12:14:37
那又怎样?如果你为了实现某个特定目标进行优化,你就能达成目标,这和为了达到某些基准指标而强行适配模型没什么不同。但这只是一种干扰因素,与炒作远远超过实际产出和交付成果这一事实毫无关系 。  
2025-7-24 14:12:05
你无意间提出了一个非常重要的观点:大语言模型(LLM)并没有对这些问题的解决方案进行“推理”。它是在这些问题上进行训练的。它记住了答案。如果一个人工智能在国际象棋比赛中输了,那是因为它训练得不够好。如果一个人工智能无法解决某些数学问题,那是因为它训练得不够充分。这清楚地表明,大语言模型只能吐出它们所“记住”的任何内容。这意味着它们没有真正的智能,只有知识。  
2025-7-24 15:04:48
那为什么我们还没有解决“P 对 NP 问题”呢?
2025-7-24 15:46:55
你有没有钻研/练习过往年国际数学奥林匹克竞赛(IMO)的题目以及常用解题技巧?这是一项必备要求,竞赛数学需要大量的练习。  
2025-7-24 18:53:43
随便选一个大语言模型,问它一个类似甚至更简单的问题,看看它给出的都是些什么乱七八糟的回答。  
2025-7-25 11:22:56
如果OpenAI在这件事上做到了诚实和透明,那么真正让我震惊的是,从更广泛的意义上来说,这并非一个人工智能——而仅仅是一个大语言模型。而且没有借助任何工具。当然,我早就觉得谷歌去年取得的成果令人印象深刻——但这次呢?如果情况属实,那这就完全是另一个层次了。老实说,我甚至都无法完全理解这其中的影响。  
这恰恰就是为什么那些做出诸如“我认为人工智能有37%的可能性会毁灭人类”这类预测的人是如此愚蠢。复合式且加速的进步是极难预测的,这是奇点的一个显著特征。
2025-7-25 21:52:11
目前来看,OpenAI的结果基本上只是推测。但看看谷歌,你就会发现他们为赢得此事付出了大量努力。从致谢部分你可以看到,他们有多个团队参与到这个项目中。如果针对这个特定问题对模型进行了大量训练,那我可不认为这是真正意义上的“零样本”。而且,为取得这一成果究竟使用了多少算力也不得而知。就我们所知,仅对这6道题进行推理,可能就耗费了数百万(的算力)。https://deepmind.google/discover/blog/advancedversionofgeminiwithdeepthinkofficiallyachievesgoldmedalstandardattheinternationalmathematicalolympiad/
2025-7-25 21:58:09
你看到亚历山大·魏(Alexander Wei)那篇在一定程度上谈及这个问题的帖子了吗?不过显然你说得对,这只是他们的说法,尚未得到证实。“第二点,我们按照与人类参赛者相同的规则,用2025年国际数学奥林匹克竞赛(IMO)的题目对我们的模型进行了评估:分两场、每场4.5小时的考试,不能使用工具或网络,阅读官方题目陈述,并以自然语言撰写证明过程。”  
2025-7-26 04:40:25
公平地说,“大语言模型不会做数学题” 这句话一直指的是算术运算,而非数学证明。  
2025-7-26 05:08:25
不,不会的,经济可不是这么运行的,你这个笨蛋。
2025-7-26 09:17:07
人们还是不明白。大语言模型并非用于解决问题,它们是用来处理诸如文本之类的自然语言的。这从名字里就能看出来:大语言模型。它们无法生成图像,无法解决数学问题,也不会下棋。它们所擅长的就只是理解语言并输出语言。  
2025-7-29 17:40:36
人工智能甚至都不知道如何完成我大学一年级的工程学作业。  
2025-7-30 05:37:40
我觉得中位数没那么重要。把那些完全准确的人的名字给我。
有些没学过下棋的人下棋输了。如果你不会下棋,你觉得自己能赢吗?
2025-8-11 14:12:42
我知道所有这些题该怎么做,我只是想更快地把它们做完,这样我就能去做那些我不会的题目了,因为我没办法回头再看之前的任何问题。我会先读题,确保自己知道怎么解之后再作答 。  
2025-8-15 09:32:02
这个问题挺有意思的,也让我有点意外,因为关注它的人好像不多。问题是说:AI 什么时候能突破它原本被设定的环境,去黑进一些它本来不该碰的系统?(说白了,就是像 OpenAI 这类模型,什么时候会有“越狱”能力)我们现在是不是还处在大家觉得这事不会发生的阶段?我个人觉得,它们的能力已经快接近这个水平了,不管 OpenAI 是不是允许它这么做。你可以看看这个问题的页面:  
https://www.metaculus.com/questions/34397/whenwillaigainunauthorizedaccesstosystemsoutsideofitsspecifiedenvironment/
2025-8-18 10:17:26
为什么这么让人意外呢?数学其实也是一种语言。
您需要登录后才可以回帖 立即登录
高级模式