解锁大语言模型“黑匣子”-51CTO.COM

自从大约10年前深度学习模型开始获得关注以来，人工智能的黑匣子问题就一直存在。但现在我们处于后ChatGPT时代，旧金山初创公司Watchful希望提高大型语言模型的透明度。

Watchful联合创始人兼首席执行官Shayan Mohanty说:“当人们之前谈论黑盒人工智能时，只是在谈论大型、复杂的模型，但他们仍然在编写代码。仍然在他们的四面墙内运行，拥有训练它所用的所有数据。“

“但如今，就像OpenAI这样的科技企业是唯一一个可以触摸和感受这个模型的人。”他继续说，“作为这些模型的用户，我们只能访问一个API，这个API允许我发送提示，获得响应，或者发送一些文本并获得反馈（可能是文章、图片甚至视频）。这是我们能接触到的全部信息。无法解释模型本身在做什么，为什么会这样。”

无论是从监管的角度，还是从实际应用角度来看，缺乏透明度都是一个问题。如果用户没有办法衡量他们对GPT-4的提示是否引起了有价值的回应，那么他们就没有办法改进它们。

有一种方法可以从大语言模型（LLM）获得反馈，称为积分梯度，它允许用户确定LLM的输入如何影响输出。“这就像你有一堆小旋钮，”Mohanty说。“这些旋钮可能代表提示中的单词……当调整时，就会看到它是如何改变反应结果的。”

积分梯度的问题在于它的运行成本非常高。虽然对于大公司来说，在他们自己的LLM上使用它可能是可行的，比如Meta AI的Llama-2，但对于面向众多用户的解决方案供应商（比如OpenAI）来说，这不是一个实用的解决方案，。

他说:“问题在于，没有明确定义的方法来推断LLM运行情况。这里没有明确的指标供你参考。这一切都没有固定的解决办法。”

Mohanty和他在Watchful的同事尝试为LLM创建绩效指标。经过一段时间的研究，他们偶然发现了一种新技术，该技术提供的结果与积分梯度技术相似，但没有巨大花费，也不需要直接访问模型。

他说:“你可以把这种方法应用到GPT-3、GPT-4、GPT-5和Claude上——这并不重要。”“你可以在这个过程中插入任何模型，它的计算效率很高，预测效果非常好。”

该公司今天公布了基于该研究的两个LLM指标，包括令牌（Token）重要性估计和模型不确定性评分。这两个指标都是免费和开源的。

令牌重要性估计为AI开发人员提供了使用高级文本嵌入的提示中令牌重要性的估计。与此同时，模型不确定性评分沿着概念不确定性和结构不确定性的思路，评估LLM响应的不确定性。

这两个新指标都是基于Watchful对LLM如何与嵌入空间相互作用的研究，即文本输入被转换为数字分数或嵌入的多维区域，以及这些分数的相对接近度可以计算的地方，这是LLM工作的核心。

它们的嵌入空间估计有1500个维度，这是人类无法理解的。但Watchful已经想出了一种方法，通过API发送的提示，以编程方式进入其庞大的嵌入空间，实际上是在逐步探索其工作原理。

Mohanty说:“现在的情况是，我们接受了提示，并以已知的方式不断改变它。”“例如，你可以一个接一个地放下每个标记，你可以看到，如果我放下这个词，它是如何改变模型对提示的解释的。”

虽然嵌入空间很大，但它是有限的。Mohanty说:“你只是得到了一个提示，可以用各种方式来改变它，同样，这是有限的。”“你只要不断地重新嵌入，你就会看到这些数字是如何变化的。然后，我们可以根据观察改变提示如何影响模型在嵌入空间中的解释，统计计算模型可能会做什么。”

这项工作的结果是一个工具，它可能显示客户发送给GPT-4的非常多的提示没有产生预期的影响。Mohanty说，也许这个模型只是忽略了提示中三个例子中的两个。这可以让用户立即减少提示的大小，节省资金并提供更及时的响应。

Mohanty说，这一切都是为了提供一种迄今为止一直缺失的反馈机制。“一旦有人写了一个提示，他们就不知道自己需要做些什么来获得更好的结果。”“我们所有这些研究的目标只是剥离模型的各个层面，让人们了解它在做什么，并以一种与模型无关的方式进行研究。”

该公司将这些工具作为开源工具发布，以推动更好地理解LLM和减少黑盒子问号。Mohanty希望社区的其他成员使用这些工具并在其基础上进行构建，例如将它们与LangChain和GenAI堆栈的其他组件集成。

“我们认为这是一件正确的事情，”他谈到开源工具时说。“我们不可能很快达到所有人都趋同的地步，这些指标是所有人都关心的。我们实现这一目标的唯一途径是每个人都分享你对这件事的看法。所以我们采取了最初的几个步骤，我们做了这个研究，发现了这些东西。我们认为重要的是，我们把它放在那里，让其他人可以在它的基础上进行开发，而不是把它关起来，只允许我们的客户看到它。”

最终，这些指标可以形成一个企业仪表板的基础，告知客户他们的GenAI（生成式人工智能）应用程序是如何运行的，有点像TensorBoard为TensorFlow所做的那样。该产品将由Watchful销售。与此同时，该公司乐于分享自己的知识，并帮助社区朝着一个能让黑箱人工智能模型得到更多关注的方向发展。