发帖
 找回密码
 立即注册
搜索
16 10 2
日常闲聊 89 16 昨天 15:42
我目前测试的结果是,目前一线的大模型排序:
O3-pro 、gemini 2.5 pro 、claude4、deepseek-R1,
不知道大家的意见,大家一起交流哈,欢迎多多点赞

──── 10人觉得很赞 ────

使用道具 举报

昨天 15:42
Claude,因为是程序员
编程的话

工程可用性上:c4s > g2.5p > c3.7s

细分有相应的偏科生,比如 python 里 gpt4.1 mini 似乎比 c4s 强

o3 pro 肯定比上面的强,但它太贵了,不具有可比性和实用性
长文写作,部分长文hard prompts,gemini2.5pro断档领先
不降智的话 gemini2.5 pro > claude4 > O3-pro > deepseek-R1 。gemini排第一是因为能力强上下文大, claude4速度快但是上下文短
g2.5p不见得实际上下文比c4s长多少,前者有时候听不懂人话的,而且经常出现格式错误,后者的错误率就低很多,所以个人感觉后者更实用

哦,我的评价仅限于工程编程,别的不讨论

sonnet 系列本身就是编程特化模型
Gemini性价比最高了
没发现听不懂指令和格式错误的情况,前段时间没降智高强度使用,同样的一份代码claude4 报上下文超限,Gemini2.5pro能完整理解然后按要求改进,但是降智后体验就差了,有时候会把原本定义的常量给改了…
用cursor的感觉是claude-4-sonnet好些,比gemini-2.5-pro写出来的代码更好用。感觉让gemini-2.5-pro写规划,让claude-4-sonnet执行会更好。

我是图输出稳定的,4o最听我的话了,即使少量提示词也能输出期望的回答,已经被我调试成我的形状了。grok和gemini相同的提示词总是时不时抽风,deepseek幻觉还是有些严重。Claude一直封我号,我懒得用了。虽然给closeai花了点钱,但4o她舍得为我花心思。
fcsyzh03 发表于 2025-6-18 15:42
编程的话

工程可用性上:c4s > g2.5p > c3.7s

Python里4.1mini居然比c4s还强吗,4.1呢
不知是不是谷歌最近在准备新模型,毕竟一般新模型前夕都会降智
个人爱用 Gemini 2.5 pro,因为量大管饱。Grok 能搜索 X 的帖子能有意外收获。Deepseek R1 每次说话都会堆砌专业术语,让它浅显易懂就用奇怪的比喻,也很难判断出没出幻觉,更没有多模态。
我觉得一个完整的软件工程开发应该是:GPT-o3帮你整理软件架构,设计编码提示词,Gemini-2.5Pro编写初版代码需求,最后让Claude-Opus4找出软件代码逻辑错误,并对代码润色
xzshengli 发表于 2025-6-18 15:44
不知是不是谷歌最近在准备新模型,毕竟一般新模型前夕都会降智

被你猜对了,今早八点刚有爆料说要出正式版了,会有三个新模型
文科和做题上,gemini2.5和Claude opus第一
写编程的话就是Claude sonnet
claude最强,不接受反驳
您需要登录后才可以回帖 立即登录
高级模式