最近我发现不管是用十四行诗还是opus,GPT5在幻觉率和实用性方面都明显比Claude强很多。
我是个软件工程师,平时主要用大模型来写代码、做架构设计这些。但我开始发现,Claude其实就是个“一招鲜”的选手。它在代码方面确实还行,但一旦你离开编程这个领域,它的幻觉就特别严重,输出的结果也经常不达标。我顶多会给Claude一个“友善”的评价,比如把它当学习伙伴用的时候。
GPT5作为学习伙伴经常会用后续问题引导你思考,而不是直接甩答案给你。而Claude更像是个比较严格的学习搭子,会逼着你去深入思考,而不是单纯给答案。
GPT5被各种人喷得体无完肤,但其实它的幻觉一直控制得不错,搜索能力也很强。举个例子:
1.)我想找一个尺寸和颜色都非常具体的收纳抽屉,GPT5花了2分半钟反复搜索,我自己也在亚马逊、沃尔玛、Target、Wayfair这些网站翻了整整两个小时,最后它给的结果几乎完全匹配我想要的,我甚至直接下单了它推荐的那个。
但如果你用同样的问题去问Opus 4.1(Claude的版本),它不仅给的尺寸选项少得可怜,还说:
不幸的是,想找刚好1617英寸宽、五个白抽屉、价格在60美元以下的收纳柜挺难的。这个价位的产品通常:
• 更窄(1215英寸)——更常见也更便宜
• 更宽(20英寸)——通常更贵
2.)在健康或医疗类的问题上,Claude简直就是在胡说八道,而且这很危险。它经常把一些错误的说法当成医学事实来讲。相比之下,GPT5的幻觉少多了。
就是想分享一下我的看法。我还没怎么用GPT5写代码,但从我体验的其他方面来看,它表现还不错。不过我也不敢对它在编码方面的表现下结论,因为我还没像用Claude那样深入使用它(毕竟Codex CLI的功能现在还是残废状态)。 |