大家好,我们正在做一个叫 IsItNerfed 的项目,
主要是用 Claude 的代码和 OpenAI API(以 GPT4.1 作为对比基准)来做各种测试。
我们还加了个“氛围检查”功能,让用户可以投票判断某个 LLM 的回答是不是变得更差了还是变好了。
这几周我们一直在监测,发现 Claude 的表现真是不太稳定。
一直到 8 月 28 号之前还好好的,
结果 8 月 29 号那天就出问题了——故障率直接翻倍,不过当天晚上又恢复了正常。
第二天,8 月 30 号,故障率又猛涨到了 70%。之后慢慢回落到 50% 左右,但接下来的一周还是波动很大。
到了 9 月 4 号,系统才重新变得稳定一些。
很多用户都在抱怨 LLM 的质量,感到很失望,这也很正常。这可不是我们瞎说——数据明明白白地显示,输出质量确实是在波动的。
相比之下,我们测试的 GPT4.1 每天的数值都很稳定。
更别说代理 CLIs 本身可能也存在问题或者误差(比如 Claude 的 CLI),而且几乎每天都有新版本更新。
接下来我们打算加入更多基准测试和更多模型进来。欢迎大家留言提建议或者有啥想测试的也可以说——我们很乐意加上去,也会认真回答大家的问题。
isitnerfed.org |