发帖
 找回密码
 立即注册
搜索
2 0 0
日常闲聊 558 2 3 天前
最近我发现不管是用十四行诗还是opus,GPT5在幻觉率和实用性方面都明显比Claude强很多。
我是个软件工程师,平时主要用大模型来写代码、做架构设计这些。但我开始发现,Claude其实就是个“一招鲜”的选手。它在代码方面确实还行,但一旦你离开编程这个领域,它的幻觉就特别严重,输出的结果也经常不达标。我顶多会给Claude一个“友善”的评价,比如把它当学习伙伴用的时候。
GPT5作为学习伙伴经常会用后续问题引导你思考,而不是直接甩答案给你。而Claude更像是个比较严格的学习搭子,会逼着你去深入思考,而不是单纯给答案。
GPT5被各种人喷得体无完肤,但其实它的幻觉一直控制得不错,搜索能力也很强。举个例子:
1.)我想找一个尺寸和颜色都非常具体的收纳抽屉,GPT5花了2分半钟反复搜索,我自己也在亚马逊、沃尔玛、Target、Wayfair这些网站翻了整整两个小时,最后它给的结果几乎完全匹配我想要的,我甚至直接下单了它推荐的那个。
但如果你用同样的问题去问Opus 4.1(Claude的版本),它不仅给的尺寸选项少得可怜,还说:
不幸的是,想找刚好1617英寸宽、五个白抽屉、价格在60美元以下的收纳柜挺难的。这个价位的产品通常:
• 更窄(1215英寸)——更常见也更便宜
• 更宽(20英寸)——通常更贵
2.)在健康或医疗类的问题上,Claude简直就是在胡说八道,而且这很危险。它经常把一些错误的说法当成医学事实来讲。相比之下,GPT5的幻觉少多了。
就是想分享一下我的看法。我还没怎么用GPT5写代码,但从我体验的其他方面来看,它表现还不错。不过我也不敢对它在编码方面的表现下结论,因为我还没像用Claude那样深入使用它(毕竟Codex CLI的功能现在还是残废状态)。
──── 0人觉得很赞 ────

使用道具 举报

这就是为啥我特意强调了“在编码领域之外”。Claude现在还不是一个全能的LLM,这一点很明显。如果你看过我文章的最后一部分,里面也提到了这个观点。在写代码这件事上,Claude确实表现不错,但一到其他领域,它就明显落后了。所以你这个“不”,跟我帖子的内容根本对不上。
我之前也用过Claude,不过现在发现GPT5在遵循示例和样式要求这方面要强不少。
干得漂亮,萨米老弟!
Claude 有些地方确实不太明白:它的工具到底有哪些  
怎么正确使用这些工具  
思考和分析之间有什么不同  
打印语句和逻辑之间的差别  
不同编程语言之间的区别  
知识和逻辑根本不是一回事  更头疼的是,它经常会莫名其妙地中断自己的中间步骤。最离谱的是,它曾经从自己都不知道哪来的地方随便挑了个素数,然后大言不惭地说我们已经掌握了100%准确找出素数的方法 😂
我在用GPT5做各个领域任务的时候,都取得了不错的效果。一开始还没觉得有多厉害,但经过第一次初步尝试之后,我也变得挺满意的。
LLM潜艇上的那些负面海报,其实就是另一种形式的“无用”罢了。你仔细看就会发现,他们在最差的情况下,说的那些话根本没有任何事实依据。最多也就是讲个非常狭隘的小故事,纯属 anecdote(轶事)级别的表演……而且通常连一个来源都找不到,根本没法验证。别浪费时间去说服别人用AI,或者让他们按你的思路思考,尤其是当他们的回应很敷衍、很懒惰的时候。你要知道,花在说服上的时间,最后大概率就是打水漂了 :)  专注做好自己的事,继续往前走就好。
我发现克劳德各方面都挺牛的……但完全用不了啊,因为打个5到6个来回他就把你关了。
你有没有试过用GPT5来思考这个任务啊?
得盯紧点,别让克劳德偷偷摸摸地溜进去搞那些没用的打印声明。
您需要登录后才可以回帖 立即登录
高级模式