发帖
 找回密码
 立即注册
搜索
4 0 0
日常闲聊 310 4 12 小时前
大家好,我们正在做一个叫 IsItNerfed 的项目,
主要是用 Claude 的代码和 OpenAI API(以 GPT4.1 作为对比基准)来做各种测试。
我们还加了个“氛围检查”功能,让用户可以投票判断某个 LLM 的回答是不是变得更差了还是变好了。
这几周我们一直在监测,发现 Claude 的表现真是不太稳定。
一直到 8 月 28 号之前还好好的,
结果 8 月 29 号那天就出问题了——故障率直接翻倍,不过当天晚上又恢复了正常。
第二天,8 月 30 号,故障率又猛涨到了 70%。之后慢慢回落到 50% 左右,但接下来的一周还是波动很大。
到了 9 月 4 号,系统才重新变得稳定一些。
很多用户都在抱怨 LLM 的质量,感到很失望,这也很正常。这可不是我们瞎说——数据明明白白地显示,输出质量确实是在波动的。
相比之下,我们测试的 GPT4.1 每天的数值都很稳定。
更别说代理 CLIs 本身可能也存在问题或者误差(比如 Claude 的 CLI),而且几乎每天都有新版本更新。
接下来我们打算加入更多基准测试和更多模型进来。欢迎大家留言提建议或者有啥想测试的也可以说——我们很乐意加上去,也会认真回答大家的问题。
isitnerfed.org
──── 0人觉得很赞 ────

使用道具 举报

这里说的“长时间的戏”指的是长期的发展趋势或深层的变化。  
人工智能确实会越来越厉害,但问题是——  
这么厉害的AI,是不是只有那些愿意掏钱的人才能用得起、用得好?  说白了,就是技术在进步,但好东西可能只集中在少数人手里。
好问题!我们关注的是模型表现随时间(也就是一天一天)的变化情况,而不仅仅是不同随机种子带来的差异。为了尽量减少随机性的影响,我们会用相同的提示词反复测试,并对结果进行汇总分析。我们报告的这种波动是暂时性的,反映的是不同日期之间的变化,而不是单纯由采样带来的噪音。
根据我的经验,ChatGPT好像特别喜欢把对提示的回应一点一点地往外挤,就像是故意装傻一样。所以我只好反复用同样的提示去“敲打”它,才能拿到完整的回答。我还发现,一些一年前的回复里,对话内容是不完整的,那些旧提示里该有的代码也莫名其妙地消失了。
真的超级感谢你和IsItNerfed一起做的这些工作。把模型的波动性以这种可视化的方式呈现出来,正是我们社区现在最需要的东西。其实,这也就是我们为什么开发了FPC v2.1 + AE1这套正式协议的原因——它可以检测模型什么时候进入了所谓的“认知不安全状态”,也就是在它开始自信地胡说八道之前。你这边测出来的波动率数据,跟我们在温度压力测试中观察到的结果非常吻合。  
虽然Claude也出现了你描述的那种性能波动,但我们的AE1情绪标签(满意/苦恼)在180次测试中始终保持100%稳定,哪怕准确率有时候忽高忽低。  
这说明了一个很有意思的现象:即使表面上的表现不稳定,模型的推理一致性依然可以保持良好。这也打开了一个新的可能性:我们不仅可以追踪成功或失败的次数,还可以追踪模型真实的认知稳定性。我们已经把这套基准开源了,地址在这里:  
https://huggingface.co/datasets/AIDoctrine/FPCv2.1AE1ToMBenchmark2025也非常希望能探讨一下,AE1的标签是否可以为你目前的工作提供一些补充价值。  
你们在做的实时性能跟踪,加上我们专注的推理稳定性检测,结合起来或许可以更全面地评估LLM的可靠性。
这就是为啥我们决定把这两块分开。Vibe Check 说白了就是靠直觉,属于社区投票那一类——用来感知情绪还挺管用,但肯定主观,有时候还容易被情绪带偏。而真正的基准测试则是基于证据的那一部分,我们会跑一些预设好的测试项,然后直接看结果数据。接下来,我们打算在网站上把这两块区分得更清楚一些。
这项目真挺赞的!现在主要的LLM服务商透明度太差了,用量化版本也不提前说一声,咱用户就稀里糊涂地付着费,也不管模型是不是在降精度跑。
这是在模仿Q3Q4那种冷冰冰的感觉吗?
您需要登录后才可以回帖 立即登录
高级模式