公平地说,大语言模型(LLMs)可不只是有统计回声。你所说的类似于马尔可夫链,它仅仅是对概率进行建模。这与大语言模型是不同的。大语言模型对意义进行建模。这就好比图像识别软件学习识别诸如面部和形状等结构。这些结构比实际输入的像素要更高级。同样地,大语言模型识别语言结构的抽象层次要比单纯的单词高得多。就在今天,我向一个大语言模型问了这样一个问题:“我对代码做了一些修改,请确认它是否仍与注释一致。”想想它需要识别的所有概念。它需要找到我的注释(一个词汇任务),理解我的注释(一个语义任务),然后检查我的代码,并梳理出代码在做什么,以便能将其与注释进行比较(推理/语篇分析)。我不认为有纯粹的随机方式可以描述它所做的事情。 |