发帖
 找回密码
 立即注册
搜索
3 0 0
日常闲聊 610 3 5 小时前
──── 0人觉得很赞 ────

使用道具 举报

我挺喜欢这篇论文的,它开门见山地承认了OAI以及整个行业都在积极参与基准测试这件事。
哎呀,这二进制分类搞错了,要不是真的才怪!
嘿,我是nouswise的创始人!我们一直在和合作伙伴、客户一起努力,给AI系统加上一点点“人味”,特别是在处理大量文件和资料的时候。对知识型工作者来说,用好AI真的能带来很大价值。我们的系统架构里用了多个“代理”,它们各自分工明确,专门负责不同的任务,这样就能更好地进行复杂推理。附上的这张图,是我们在一个有大约3000份文档的两个数据源上操作的截图。为了不让用户失望,我们只推荐我们100%确定有答案的内容,这样用户就可以放心地继续探索下去。
我觉得拿学生在考试里瞎扯的这个情况来类比 LLM,其实挺有道理的。因为 LLM 其实也“被逼着”要给出一个合理的答案,而不是直接说“我不知道”。这背后是有激励机制在推动的,不管是在训练过程中,还是训练完成之后。你可以想象一下,如果一个学生去考试,答对一题得 1 分,答错一题扣 1 分,空着不答就是 0 分。这种评分机制就很明显地鼓励大家不要乱猜。以前 SAT 考试就是这么设计的,每道题答错要扣 1/4 分,但空着不答不扣分也不加分。类比到 LLM 上,我们也可以做类似的事情。如果我们能对它们“说不知道”给一些正向激励,或者对胡编乱造的回答稍微惩罚一点,那可能会减少很多乱说的情况。但难点在于,要做到这一点很不容易,因为你必须依靠专家来判断模型是不是在瞎编。
这论文在哪呢?Google Scholar上搜不到啊
看起来你想了解为什么语言模型会出现“幻觉”这个问题。你给的链接是 OpenAI 的官网,可能你想知道他们对模型幻觉的解释。简单说一下“语言模型幻觉”是什么意思:  
就是说有时候 AI 明明不知道答案,但它还是会编一个看起来很像真的回答出来。不是它故意骗你,而是它在训练的时候学了很多数据,但并不能百分百确定哪些是绝对正确的。如果你感兴趣,我可以帮你翻译或总结 OpenAI 官网上关于这个问题的内容。需要的话直接告诉我 😄
是的,这看起来像是开始真正解决问题的一个最简单又优雅的办法。干脆就用奖励和强化学习来引导,而不是瞎猜。不知道LLM小组能不能把研究和事实核查这块做到足够好,这样一来,人工审核就没那么必要了。让人只在需要升级的时候才介入审核流程里。
您需要登录后才可以回帖 立即登录
高级模式