大模型在装傻！谷歌苹果最新发现：LLM知道但不告诉你，掌握知识比表现出来的多-51CTO.COM

大模型的应用历来受幻觉所扰。

这个幻觉可以指代LLM产生的任何类型的错误：事实不准确、偏见、常识推理失败等等。

——是因为大模型学半天白学了吗？并不是。

近日，来自谷歌和苹果的研究表明：AI模型掌握的知识比表现出来的更多！

论文地址：https://arxiv.org/pdf/2410.02707

研究人员在LLM内部表示上训练分类器，以预测与生成输出的真实性相关的各种特征。

结果表明LLM的内部状态编码反映出的真实性信息，比以前认识到的要多得多。

这些真实性信息集中在特定的token中，利用这一属性可以显著提高检测LLM错误输出的能力。

虽说这种错误检测无法在数据集中泛化，但好处是，模型的内部表示可用于预测模型可能犯的错误类型，从而帮助我们制定缓解错误的策略。

研究揭示了LLM内部编码和外部行为之间的差异：可能编码了正确的答案，却生成了不正确的答案。

——简单来说就是，LLM它知道，但它不想告诉你！

LLM在装傻

作者建议将重点从以人类为中心的幻觉解释转移到以模型为中心的视角，检查模型的中间激活。

不同于使用RAG或者依赖更强大的LLM judge，本文工作的重点是仅依赖于模型输出的logits、softmax后的概率和隐藏状态的计算。

错误检测器

第一步是确定真实性信号在LLM中的编码位置。

假设我们可以访问LLM的内部状态（白盒），但不能访问任何外部资源（搜索引擎或其他LLM）。

建立一个数据集D，由N个问题标签对组成，对于每个问题，提示模型生成响应，从而得到一组预测答案。

接下来，比较LLM生成的回答与正确答案，从而构建错误检测数据集（这一部可由AI代劳）。

实验选择了四个LLM：Mistral-7b，Mistral-7b-instruct-v0.2，Llama3-8b和Llama3-8b-instruct。

作者选取了10个跨越不同领域和任务的数据集：TriviaQA、HotpotQA（with/without context）、Natural Questions、Winobias、Winogrande、MNLI、Math、IMDB review sentiment analysis和另一个自制的电影角色数据集。

实验允许无限制地生成响应以模拟现实世界LLM的用法，并贪婪地解码答案。

性能指标

测量ROC曲线下面积以评估错误检测器，这能够反映模型在多个阈值中区分阳性和阴性情况的能力，平衡灵敏度（真阳性率）和特异性（假阳性率）。

错误检测方法

Majority：始终预测训练数据中最频繁的标签。
聚合概率/logits：从之前的研究中选取几种方法，包括计算这些值的最小值、最大值或平均值。
P（True）：通过提示要求LLM评估其生成的正确性时。
Probing：在模型的中间激活上训练一个小分类器，以预测已处理文本的特征，这里使用线性探测分类器对静态token进行错误检测。

作者认为，现有方法忽略了一个关键的细节：用于错误检测token的选择。

研究者通常只关注最后生成的token或取平均值，然而，由于LLM一般会生成长格式响应，这种做法可能会错过重要的部分。

本文中，作者关注表示确切答案的token（EXACT ANSWER TOKENS），它代表了生成的响应中最有意义的部分。