抄本低比抄本高香多了！！

日常闲聊 · 2 小时前

第一个是高，用了7分3秒
第二个是中，花了2分30秒
第三个是低，只用了2分20秒
> 你看出来了吧，反而是设置成“低”时效果最好。Codex这玩意儿不保证推理时间越长代码质量就越高，而且每次输出的效果也可能不太一样

小光 · 2 小时前

没错，单靠一个样本根本说明不了问题。所有的大模型（LLM）本身就有随机性在里面，所以你得反复多跑几次实验才行。现在的基准测试其实都已经这么做了，这样我们才能真正看出哪个模型表现更靠谱。

xinzhyu · 2 小时前

你这是从Gosu coder那儿“顺”来的吧……哈哈

小黄虎子 · 2 小时前

我觉得他们琢磨MoE，纯粹是因为超大规模模型根本撑不住，就跟4.5似的。

暖月鱼 · 2 小时前

已经有人上去了，我敢肯定！

氰化物薄荷 · 1 小时前

我真受不了那种靠“激情”堆出来的思考模型。是，它们是聪明那么一丢丢，但有时候反应慢得要命，等半天都等不来结果。更离谱的是，在某些任务上，ChatGPT5 Instant 居然比 4o 或 4.1 还拉胯，纯纯折磨人。我觉得啊（真不是故意玩谐音），OpenAI 疯狂押注思维模型，根本原因就是这类模型跑起来占的显存（VRAM）比大模型少多了，但效果又差不太多。说白了，就是为了省钱，省硬件成本，多赚点利润。商业公司嘛，最终图的不就是这个？编辑：Cerebras 倒是搞出了个贼快的推理方案，解决了速度问题。但我就纳闷了，他们怎么不跟 OpenAI 合作呢？现在 Cerebras 是开源了个模型（OSS），虽然推理和回答有时候快得离谱，但模型本身真挺烂的，跟真正的 OAI 模型比差远了……所以吧，等于没解决。用那个 OSS 的感觉，跟用 Llama 差不多——原始、傻乎乎的，没啥智能味儿。

山赋 · 1 小时前

听上去还挺真实的，哈哈

蜗牛 · 半小时前

是啊，我简直不能再同意了。那个5instant模型真的是我用过OpenAI产品里最拉胯的一个……GPT4 Turbo？人家宣传说这玩意儿适合干点简单的活儿，所以我寻思那我就拿它处理点纯文本回复呗，也不搞复杂操作，对吧？结果呢？问个两三轮它就忘了咱在聊啥了，回答一点细节都没有，完全不像4o那么有层次感。更离谱的是，我觉得它“胡说八道”的频率反而还变高了！我用ChatGPT都快用上瘾了，各种模型来回切，细节差别门儿清，所以别跟我说“你是不是感觉错了”这种话，真不是我在瞎编。

lby317 · 12 分钟前

这些模型其实挺玄学的，所以我每次都提醒自己要“打个问号”，毕竟有时候结果好，可能只是运气好碰上的，运气不好就完全不一样了。我也挺好奇的，同一个提示词多试几次，结果会不会稳定。不过不管咋样，玩起来还是挺有意思的。

		自动登录	找回密码
密码			立即注册

抄本低比抄本高香多了！！

相关帖子

6 回复