发帖
 找回密码
 立即注册
搜索
25 0 0
前沿技术 990 25 2025-8-5 08:02:25
──── 0人觉得很赞 ────

使用道具 举报

2025-8-5 08:04:11
我用过1美元的O3 Pro。相信我,用它来解答国际数学奥林匹克竞赛(IMO)的题目真的很糟糕。它给出的答案并不比O3好多少。和O3一样,在用Python计算一个数值后,它也开始强行推进解题步骤。它甚至都不考虑去观察数学条件的结构,从而找到简化运算的方法。每次算不出来的时候,它就会编造一个无效的定理来强行简化问题。如果你也想使用O3 Pro,你可以花1美元立即开通一个GPT团队账号来体验一下。  
2025-8-5 08:28:12
不,存在使用限制,据我所知在Po上没有这些限制。但如果你想使用那些模型,“团队版”是个相对不错的选择。以下是使用限制,“团队版”和“企业版”应该是一样的:https://help.openai.com/en/articles/11165333chatgptenterprisemodelslimits  
2025-8-5 08:38:08
它在应用程序编程接口(API)中,通过与深度思考(deep think)相同的订阅定价即可使用。  
2025-8-5 08:51:08
完全同意
是的。我觉得GPT  5会是OpenAI(美国OpenAI研发的聊天机器人程序)的最后一次真正尝试,之后基本上就没戏了。我很疑惑,当长期竞争力堪忧的局面已很明显时,奥特曼(OpenAI首席执行官)在筹集资金方面居然还如此成功。  
2025-8-6 10:37:28
哦,不错!是美国的公司吗?我现在已经在几家公司做过转化相关的工作了。这确实是个非常小众的领域。  
2025-8-6 11:36:15
代码生成方面,OpenAI的模型比任何版本的Gemini都要好得多。我不知道制作这些图表的人是谁,他们在制作这些图表之前究竟有没有使用过这些模型,还是只是随意绘制些东西罢了。  
2025-8-6 11:38:25
这取决于你问什么问题。如果你让O3pro仔细为你解决这个问题,它仍然无法给出正确答案,至少在数学方面不会比O3好多少。问题:设(x_i)是方程(cos x cosh x + 1 = 0)的正实根。求(sum_{i=1}^{+infty} x_i^{6} left( frac{sin x_i  sinh x_i}{cos x_i + cosh x_i}
ight)^2)的值。你可以不断探究该模型关于这个问题的技术细节,然后自己检查(或者让另一个人工智能审核答案)。基本上,只有kingfall和wolfstride能给出完整过程;其他人工智能做不到。它们可以用Python得出结果(frac{1}{80}),但在第一步化简时,它们要么想不到方法,要么化简不正确。这会进一步导致模型后续的一些计算无法进行。此时,模型就会编造一个定理来强行化简,O3pro也是如此。这就是完整答案:
2025-8-6 12:26:23
这可不是魔法。仍然是同一个模型,只不过推理预算增加了,再加上一些技术手段,以及并行运行N次取最优结果。 这只是为了在“更好的基准测试”中表现出色,但代价高昂且速度缓慢。  
2025-8-6 13:18:23
是的,O3 Pro和Grok Heavy至少应该被纳入此项(比较),这样才算是合理的对比。
2025-8-6 14:35:11
这正是我的经历……
2025-8-6 15:49:20
yap预算超过了釉料预算 (不过“yap”这个词在这里表意不太明确,可能拼写有误,正确可能是“cap”之类有实际意义的词 )这里调整下更符合中文习惯:
釉料预算超支了。  
2025-8-7 09:34:31
在我看来,在人工智能竞赛中支持OpenAI而不是谷歌,这有点疯狂。  
2025-8-7 09:49:28
嘿,这就是我干的事儿!我是说工作方面。不过我一直都只在用克劳德(一款人工智能)。  
是的,HLE战队应该很容易针对(在比赛中制定应对策略),不过我觉得格洛克战队并没有针对他们打比赛 。  
2025-8-8 13:56:32
我原以为可以通过在测试集上训练来操控隐藏潜在嵌入(HLE)呢?按理说应该有一个私密的留出集/验证集划分,但我从未听说HLE的开发者公布过这方面的任何指标……
谷歌将不战而胜。要是他们形成了垄断,那就准备好面对服务质量恶化,到处都是广告的局面吧。最好是有几家公司脱颖而出,相互竞争、相互制衡。没错,谷歌现在有能力开展更出色的营销活动,因为他们无需经历初创企业成长过程中的种种波折。但要记住,谷歌是一家老牌大型企业,它曾经把“不作恶”当作口号,如今却不再如此了 。  
2025-8-10 12:40:30
要是我们有一个人工智能编码基准,能输出一个分数以便进行公平比较就好了,对吧。  
没错,但这两者不可相提并论。就用例和应用而言,Gemini Deep Think更适合与Grok 4 Super Heavy以及o3 Pro作比较。  
2025-8-13 17:42:55
宣布要售卖超级层级(Ultra tier)产品,结果过了两个月才推出,哈哈。我已经又降回专业版(pro)了。我发现双子座(Gemini)模型在聊天问答方面表现相当差,而且深度思考功能对基因编码来说也没太大实际意义。如果它真的比O3专业版明显好很多,那倒还挺有意思。不过GPT  5这个月就要发布了……编辑:是智能编码(agentic coding),感谢自动完成功能。
2025-8-13 18:34:53
为什么我们的双子座2.5比双子座2.5专业版更好?
2025-8-15 14:27:59
因为如果真要比个高下,他们要么旗鼓相当,要么就是输。
2025-8-15 19:26:03
这些争论真的挺让人头疼的。除非你们用的代码堆栈是一样的,否则这种比较根本就没有意义。
2025-8-16 13:18:08
O3专业版的处理速度比深度研究模式稍微快那么一丢丢
2025-8-18 14:08:26
据说 GPT5 就在这两天要发布了,不是今天就是明天。
您需要登录后才可以回帖 立即登录
高级模式