大家觉得目前的大模型能力最强是？

日常闲聊 · 2025-6-18 15:42:08

我目前测试的结果是，目前一线的大模型排序：
O3-pro 、gemini 2.5 pro 、claude4、deepseek-R1，
不知道大家的意见，大家一起交流哈，欢迎多多点赞

five · 2025-6-18 15:42:23

Claude，因为是程序员

fcsyzh03 · 2025-6-18 15:42:32

编程的话

工程可用性上：c4s > g2.5p > c3.7s

细分有相应的偏科生，比如 python 里 gpt4.1 mini 似乎比 c4s 强

o3 pro 肯定比上面的强，但它太贵了，不具有可比性和实用性

xingke · 2025-6-18 15:42:44

长文写作，部分长文hard prompts，gemini2.5pro断档领先

g15418307w · 2025-6-18 15:42:54

不降智的话 gemini2.5 pro > claude4 > O3-pro > deepseek-R1 。gemini排第一是因为能力强上下文大， claude4速度快但是上下文短

猎人阿祥 · 2025-6-18 15:43:03

g2.5p不见得实际上下文比c4s长多少，前者有时候听不懂人话的，而且经常出现格式错误，后者的错误率就低很多，所以个人感觉后者更实用

哦，我的评价仅限于工程编程，别的不讨论

sonnet 系列本身就是编程特化模型

十四 · 2025-6-18 15:43:14

Gemini性价比最高了

Contra · 2025-6-18 15:43:28

没发现听不懂指令和格式错误的情况，前段时间没降智高强度使用，同样的一份代码claude4 报上下文超限，Gemini2.5pro能完整理解然后按要求改进，但是降智后体验就差了，有时候会把原本定义的常量给改了…

hk640509 · 2025-6-18 15:43:44

用cursor的感觉是claude-4-sonnet好些，比gemini-2.5-pro写出来的代码更好用。感觉让gemini-2.5-pro写规划，让claude-4-sonnet执行会更好。

johnwar · 2025-6-18 15:43:55

我是图输出稳定的，4o最听我的话了，即使少量提示词也能输出期望的回答，已经被我调试成我的形状了。grok和gemini相同的提示词总是时不时抽风，deepseek幻觉还是有些严重。Claude一直封我号，我懒得用了。虽然给closeai花了点钱，但4o她舍得为我花心思。

johnwar · 2025-6-18 15:44:09

fcsyzh03 发表于 2025-6-18 15:42
编程的话

工程可用性上：c4s > g2.5p > c3.7s

Python里4.1mini居然比c4s还强吗，4.1呢

xzshengli · 2025-6-18 15:44:33

不知是不是谷歌最近在准备新模型，毕竟一般新模型前夕都会降智

edaole · 2025-6-18 15:44:50

个人爱用 Gemini 2.5 pro，因为量大管饱。Grok 能搜索 X 的帖子能有意外收获。Deepseek R1 每次说话都会堆砌专业术语，让它浅显易懂就用奇怪的比喻，也很难判断出没出幻觉，更没有多模态。

南隐 · 2025-6-18 15:45:01

我觉得一个完整的软件工程开发应该是:GPT-o3帮你整理软件架构，设计编码提示词，Gemini-2.5Pro编写初版代码需求，最后让Claude-Opus4找出软件代码逻辑错误，并对代码润色

想拒绝呼吸 · 2025-6-18 15:45:19

xzshengli 发表于 2025-6-18 15:44
不知是不是谷歌最近在准备新模型，毕竟一般新模型前夕都会降智

被你猜对了，今早八点刚有爆料说要出正式版了，会有三个新模型

chouwa · 2025-6-18 15:45:40

文科和做题上，gemini2.5和Claude opus第一
写编程的话就是Claude sonnet

netiis · 2025-6-18 17:03:47

claude最强，不接受反驳

xingke · 2025-6-23 11:30:02

这排名靠谱不？

1qaz · 2025-8-24 13:00:02

这排名靠谱不？

		自动登录	找回密码
密码			立即注册

交流大家觉得目前的大模型能力最强是？