我觉得拿学生在考试里瞎扯的这个情况来类比 LLM,其实挺有道理的。因为 LLM 其实也“被逼着”要给出一个合理的答案,而不是直接说“我不知道”。这背后是有激励机制在推动的,不管是在训练过程中,还是训练完成之后。你可以想象一下,如果一个学生去考试,答对一题得 1 分,答错一题扣 1 分,空着不答就是 0 分。这种评分机制就很明显地鼓励大家不要乱猜。以前 SAT 考试就是这么设计的,每道题答错要扣 1/4 分,但空着不答不扣分也不加分。类比到 LLM 上,我们也可以做类似的事情。如果我们能对它们“说不知道”给一些正向激励,或者对胡编乱造的回答稍微惩罚一点,那可能会减少很多乱说的情况。但难点在于,要做到这一点很不容易,因为你必须依靠专家来判断模型是不是在瞎编。 |