发帖
 找回密码
 立即注册
搜索
6 0 0
日常闲聊 488 6 2 小时前
第一个是高,用了7分3秒
第二个是中,花了2分30秒
第三个是低,只用了2分20秒
> 你看出来了吧,反而是设置成“低”时效果最好。Codex这玩意儿不保证推理时间越长代码质量就越高,而且每次输出的效果也可能不太一样
──── 0人觉得很赞 ────

使用道具 举报

没错,单靠一个样本根本说明不了问题。所有的大模型(LLM)本身就有随机性在里面,所以你得反复多跑几次实验才行。现在的基准测试其实都已经这么做了,这样我们才能真正看出哪个模型表现更靠谱。
你这是从Gosu coder那儿“顺”来的吧……哈哈
我觉得他们琢磨MoE,纯粹是因为超大规模模型根本撑不住,就跟4.5似的。
已经有人上去了,我敢肯定!
我真受不了那种靠“激情”堆出来的思考模型。是,它们是聪明那么一丢丢,但有时候反应慢得要命,等半天都等不来结果。更离谱的是,在某些任务上,ChatGPT5 Instant 居然比 4o 或 4.1 还拉胯,纯纯折磨人。我觉得啊(真不是故意玩谐音),OpenAI 疯狂押注思维模型,根本原因就是这类模型跑起来占的显存(VRAM)比大模型少多了,但效果又差不太多。说白了,就是为了省钱,省硬件成本,多赚点利润。商业公司嘛,最终图的不就是这个?编辑:Cerebras 倒是搞出了个贼快的推理方案,解决了速度问题。但我就纳闷了,他们怎么不跟 OpenAI 合作呢?现在 Cerebras 是开源了个模型(OSS),虽然推理和回答有时候快得离谱,但模型本身真挺烂的,跟真正的 OAI 模型比差远了……所以吧,等于没解决。用那个 OSS 的感觉,跟用 Llama 差不多——原始、傻乎乎的,没啥智能味儿。
听上去还挺真实的,哈哈
是啊,我简直不能再同意了。那个5instant模型真的是我用过OpenAI产品里最拉胯的一个……GPT4 Turbo?  人家宣传说这玩意儿适合干点简单的活儿,所以我寻思那我就拿它处理点纯文本回复呗,也不搞复杂操作,对吧?  结果呢?问个两三轮它就忘了咱在聊啥了,回答一点细节都没有,完全不像4o那么有层次感。更离谱的是,我觉得它“胡说八道”的频率反而还变高了!  我用ChatGPT都快用上瘾了,各种模型来回切,细节差别门儿清,所以别跟我说“你是不是感觉错了”这种话,真不是我在瞎编。
这些模型其实挺玄学的,所以我每次都提醒自己要“打个问号”,毕竟有时候结果好,可能只是运气好碰上的,运气不好就完全不一样了。我也挺好奇的,同一个提示词多试几次,结果会不会稳定。不过不管咋样,玩起来还是挺有意思的。
您需要登录后才可以回帖 立即登录
高级模式