哦，该死！Gemini的深度思考能力比O3好多了！那文心大模型5呢？

xinzhyu · 2025-8-5 08:04:11

我用过1美元的O3 Pro。相信我，用它来解答国际数学奥林匹克竞赛（IMO）的题目真的很糟糕。它给出的答案并不比O3好多少。和O3一样，在用Python计算一个数值后，它也开始强行推进解题步骤。它甚至都不考虑去观察数学条件的结构，从而找到简化运算的方法。每次算不出来的时候，它就会编造一个无效的定理来强行简化问题。如果你也想使用O3 Pro，你可以花1美元立即开通一个GPT团队账号来体验一下。

IGN® · 2025-8-5 08:28:12

不，存在使用限制，据我所知在Po上没有这些限制。但如果你想使用那些模型，“团队版”是个相对不错的选择。以下是使用限制，“团队版”和“企业版”应该是一样的：https://help.openai.com/en/articles/11165333chatgptenterprisemodelslimits

shadowdow · 2025-8-5 08:38:08

它在应用程序编程接口（API）中，通过与深度思考（deep think）相同的订阅定价即可使用。

fj520 · 2025-8-5 08:51:08

完全同意

南京电信 · 2025-8-6 10:17:23

是的。我觉得GPT 5会是OpenAI（美国OpenAI研发的聊天机器人程序）的最后一次真正尝试，之后基本上就没戏了。我很疑惑，当长期竞争力堪忧的局面已很明显时，奥特曼（OpenAI首席执行官）在筹集资金方面居然还如此成功。

zyfyyxs · 2025-8-6 10:37:28

哦，不错！是美国的公司吗？我现在已经在几家公司做过转化相关的工作了。这确实是个非常小众的领域。

qikaiyong · 2025-8-6 11:36:15

代码生成方面，OpenAI的模型比任何版本的Gemini都要好得多。我不知道制作这些图表的人是谁，他们在制作这些图表之前究竟有没有使用过这些模型，还是只是随意绘制些东西罢了。

哈欠 · 2025-8-6 11:38:25

这取决于你问什么问题。如果你让O3pro仔细为你解决这个问题，它仍然无法给出正确答案，至少在数学方面不会比O3好多少。问题：设(x_i)是方程(cos x cosh x + 1 = 0)的正实根。求(sum_{i=1}^{+infty} x_i^{6} left( frac{sin x_i sinh x_i}{cos x_i + cosh x_i}
ight)^2)的值。你可以不断探究该模型关于这个问题的技术细节，然后自己检查（或者让另一个人工智能审核答案）。基本上，只有kingfall和wolfstride能给出完整过程；其他人工智能做不到。它们可以用Python得出结果(frac{1}{80})，但在第一步化简时，它们要么想不到方法，要么化简不正确。这会进一步导致模型后续的一些计算无法进行。此时，模型就会编造一个定理来强行化简，O3pro也是如此。这就是完整答案：

Ben小孩 · 2025-8-6 12:26:23

这可不是魔法。仍然是同一个模型，只不过推理预算增加了，再加上一些技术手段，以及并行运行N次取最优结果。这只是为了在“更好的基准测试”中表现出色，但代价高昂且速度缓慢。

bngvmtzxsj · 2025-8-6 13:18:23

是的，O3 Pro和Grok Heavy至少应该被纳入此项（比较），这样才算是合理的对比。

热云 · 2025-8-6 14:35:11

这正是我的经历……

dddddno1 · 2025-8-6 15:49:20

yap预算超过了釉料预算（不过“yap”这个词在这里表意不太明确，可能拼写有误，正确可能是“cap”之类有实际意义的词）这里调整下更符合中文习惯：
釉料预算超支了。

矮水草 · 2025-8-7 09:34:31

在我看来，在人工智能竞赛中支持OpenAI而不是谷歌，这有点疯狂。

暖希鱼 · 2025-8-7 09:49:28

嘿，这就是我干的事儿！我是说工作方面。不过我一直都只在用克劳德（一款人工智能）。

bingfeng009 · 2025-8-8 07:48:05

是的，HLE战队应该很容易针对（在比赛中制定应对策略），不过我觉得格洛克战队并没有针对他们打比赛。

zenger · 2025-8-8 13:56:32

我原以为可以通过在测试集上训练来操控隐藏潜在嵌入（HLE）呢？按理说应该有一个私密的留出集/验证集划分，但我从未听说HLE的开发者公布过这方面的任何指标……

大王不在山 · 2025-8-9 15:18:52

谷歌将不战而胜。要是他们形成了垄断，那就准备好面对服务质量恶化，到处都是广告的局面吧。最好是有几家公司脱颖而出，相互竞争、相互制衡。没错，谷歌现在有能力开展更出色的营销活动，因为他们无需经历初创企业成长过程中的种种波折。但要记住，谷歌是一家老牌大型企业，它曾经把“不作恶”当作口号，如今却不再如此了。

wyc9867 · 2025-8-10 12:40:30

要是我们有一个人工智能编码基准，能输出一个分数以便进行公平比较就好了，对吧。

内蒙电都主机 · 2025-8-11 08:47:44

没错，但这两者不可相提并论。就用例和应用而言，Gemini Deep Think更适合与Grok 4 Super Heavy以及o3 Pro作比较。

jylrb · 2025-8-13 17:42:55

宣布要售卖超级层级（Ultra tier）产品，结果过了两个月才推出，哈哈。我已经又降回专业版（pro）了。我发现双子座（Gemini）模型在聊天问答方面表现相当差，而且深度思考功能对基因编码来说也没太大实际意义。如果它真的比O3专业版明显好很多，那倒还挺有意思。不过GPT 5这个月就要发布了……编辑：是智能编码（agentic coding），感谢自动完成功能。

madein163 · 2025-8-13 18:34:53

为什么我们的双子座2.5比双子座2.5专业版更好？

125372883 · 2025-8-15 14:27:59

因为如果真要比个高下，他们要么旗鼓相当，要么就是输。

bngvktwkwj · 2025-8-15 19:26:03

这些争论真的挺让人头疼的。除非你们用的代码堆栈是一样的，否则这种比较根本就没有意义。

marg · 2025-8-16 13:18:08

O3专业版的处理速度比深度研究模式稍微快那么一丢丢

anthrax · 2025-8-18 14:08:26

据说 GPT5 就在这两天要发布了，不是今天就是明天。

		自动登录	找回密码
密码			立即注册

哦，该死！Gemini的深度思考能力比O3好多了！那文心大模型5呢？

25 回复

元老级人物

第一篇帖