威胁面面观：揭露基于LLM的聊天机器人设置和隐私策略-51CTO.COM

就在几个月前，ChatGPT和其他基于大型语言模型（LLM）的聊天机器人还很新奇。普通用户喜欢用它们以著名艺术家的风格创作诗歌和歌词；研究人员激烈讨论着要炸毁数据中心，以防止超级人工智能发动世界末日；而安全专家则成功绕过聊天机器人的安全控制机制，给它们发布窃听电话和劫车的指令。

时至今日，许多人已经在工作中严重依赖ChatGPT，以至于每当服务宕机，用户就会在社交网络上抱怨“又要用脑了”。这项技术正变得司空见惯，但它无法跟上人们日益增长的需求，这导致人们经常抱怨称，“聊天机器人正逐渐变得越来越笨”。根据ChatGPT查询数据在Google Trends中的受欢迎程度，我们可以几乎肯定地得出结论：人们主要是在工作日向它寻求帮助，也就是说，可能是为了工作上的事情。

【2023年1月-9月，在Google Trends中查询ChatGPT的动态趋势】

研究数据证实了聊天机器人被积极用于工作目的这一事实。卡巴斯基对俄罗斯人进行的一项调查显示，11%的受访者使用过聊天机器人，近30%的人认为聊天机器人将在未来取代许多工作。研究人员进行的另外两项调查显示，比利时有50%的上班族使用ChatGPT，英国有65%。其中，在英国，58%的人使用聊天机器人来节省时间（例如，撰写会议纪要，提取文本的主要思想等），56%的人使用聊天机器人来撰写新文本，改进风格/语法以及翻译，35%的人使用聊天机器人进行分析（例如，研究趋势）。使用ChatGPT的程序员占16%。

尽管如此，聊天机器人在工作场所被越来越多地使用，这一事实引发了一个问题：企业数据可以信任它们吗？本文深入研究了基于LLM的聊天机器人的设置和隐私策略，以了解它们如何收集和存储对话历史记录，以及使用它们的办公室工作人员如何保护或损害公司和客户数据。

潜在的隐私威胁

大多数基于LLM的聊天机器人（ChatGPT、微软必应聊天、谷歌Bard、Anthropic Claude等）都是基于云的服务。用户创建一个帐户并获得访问bot的权限。神经网络是一个巨大的资源密集型系统，运行在提供商一端，这意味着服务所有者可以访问用户与聊天机器人的对话。此外，许多服务允许用户在服务器上保存聊天历史记录，以便稍后返回。

令人担忧的是，在上面提到的针对英国用户的研究中，11%在工作中使用ChatGPT的受访者表示，他们曾与聊天机器人共享内部文件或公司数据，并认为这样做没有错。另有17%的人承认与聊天机器人分享私人公司信息，尽管这对他们来说似乎有风险。

考虑到用户与聊天机器人共享的数据的敏感性，有必要调查一下这样做的风险有多大。在LLM的情况下，传递给机器人的信息可能会被泄露的场景包括以下几种：

提供商方面的数据泄露或黑客攻击。虽然基于LLM的聊天机器人由科技巨头运营，但它们也不能幸免于黑客攻击或意外泄露。例如，曾经发生过这样的事件，导致ChatGPT用户能够看到其他人聊天历史记录中的消息。
通过聊天机器人泄露数据。从理论上讲，用户-聊天机器人的对话以后可以进入用于训练模型未来版本的数据语料库。考虑到LLM容易出现所谓的“意外记忆”（unintended memorization），最终出现在训练语料库中的数据可能会被其他用户意外或有意地从模型中提取出来。
恶意客户端。在ChatGPT等服务被屏蔽的国家，这一点尤为突出，用户纷纷转向以程序、网站和聊天机器人形式出现的非官方客户端。没有什么可以阻止中间商保存整个聊天记录，并将其用于自己的目的；甚至客户本身也可能是恶意的。
账户黑客攻击。帐户安全始终是一个优先级问题。攻击者很有可能访问员工帐户及其中的数据，例如，通过网络钓鱼攻击或凭据填充攻击。

账户被黑客攻击的威胁并非假设。卡巴斯基数字足迹情报经常在封闭论坛（包括暗网）上发现出售聊天机器人账户访问权的帖子：

在上面的截图中，一家公司的公司账户支付了ChatGPT订阅和访问API的费用，售价为40美元。攻击者可能会以更低的价格出售一个账户，甚至免费赠送，但不保证它附带一个活跃的订阅：

黑客还会给买家提供使用受损账户的指导：例如，他们建议不要篡改账户所有者的聊天记录，并在每次与聊天机器人交谈后立即删除自己的信息。

购买的结果是，网络犯罪买家不仅可以免费访问付费资源，还可以访问被入侵账户的所有聊天记录。

数据隐私问题备受企业关注。据媒体报道，今年5月，三星公司禁止其员工使用ChatGPT。据调查数据显示，在英国，大约1%的用户在工作中被完全禁止使用ChatGPT，而三分之二的公司已经出台了某种关于使用生成式人工智能的工作场所政策，尽管24%的受访者认为政策不够明确或全面。为了彻底保护企业业务免受隐私威胁，同时不放弃聊天机器人作为工具，组织必须首先分析与每个单独服务相关的风险。

不同的聊天机器人如何处理用户数据

使用任何在线服务都有一个非常简单但经常被忽视的规则：在注册之前，一定要阅读或至少浏览一下隐私政策。通常，在真实服务的情况下，该文档不仅描述了收集的数据以及如何使用这些数据，而且还清楚地阐明了与收集的数据相关的用户权利。在决定将数据委托给该服务之前，有必要了解这一点。

为了查明聊天机器人是根据用户提供的提示进行训练的说法是否属实，是否保存了所有聊天历史记录，以及在工作中使用此类工具有多危险，卡巴斯基研究人员检查了最流行的基于LLM的聊天机器人（ChatGPT、ChatGPT API、Anthropic Claude、Bing chat、Bing chat Enterprise、You.com、Google Bard、Genius App by Alloy Studios)，分析了他们的隐私政策，并测试了用户是否能够安全地保护他们的帐户。

1.用户端：双因素身份验证和聊天记录

在用户可用的隐私设置中，研究人员重点分析了两个问题：

该服务是否直接在帐户中保存用户聊天机器人的对话？
用户如何保护自己的账户不被黑客入侵？

在任何在线服务中，基本的帐户保护措施之一就是双因素身份验证（2FA）。虽然在大多数情况下，第一个因素是密码，但第二个因素可能是通过文本/邮件发送的一次性代码，也可能是由特殊应用程序生成的；也可以是更复杂的东西，比如硬件安全密钥。2FA的可用性及其实现是供应商对用户数据安全性关心程度的重要指标。

Bing Chat和Google Bard都要求用户分别使用微软或谷歌的账户登录。因此，与用户端的聊天机器人对话的安全性取决于用户各自的帐户受到多少保护。两家科技巨头都提供了所有必要的工具来保护用户自己的账户免受黑客攻击：2FA有各种选项（应用程序生成的代码，通过文本，等等）；查看活动历史记录和管理连接到该帐户的设备的能力。

Google Bard将用户的聊天记录保存在其账户中，但允许用户自定义和删除它，还有一个帮助页面，说明如何做到这一点。Bing Chat也会保存用户的聊天记录，不过，微软社区论坛有一个关于如何自定义和删除它的帖子。

Alloy Studios的Genius不需要登录，但用户只能在订阅时使用苹果ID的设备上访问其聊天记录。因此，用户与聊天机器人的对话就像其苹果ID一样受到保护。Genius还提供了直接在应用程序界面中删除任何提示的选项。

OpenAI的ChatGPT让用户可以选择保存他们的聊天记录并允许模型从中学习，或者不保存并不允许。两者存在于一个单一的设置中，所以如果用户想保存聊天的灵活性，但又不想数据被用于训练模型，通常是做不到的。至于ChatGPT中的2FA，当研究人员开始研究时，它在设置中可用，但由于某种原因，该选项后来消失了。

要登录You.com，用户需要提供一个电邮地址，然后一个一次性代码将被发送到该地址。Anthropic也有相同的系统。在这些服务中没有其他身份验证因素，所以如果用户的邮件被黑客入侵，攻击者可以很容易地访问其帐户。此外，You.com会保存用户的聊天记录，但有一些主要的附带条件。用户可以在聊天机器人界面中启用“隐私模式”。Claude同样会保存用户的聊天记录。想要了解如何删除它，可以访问支持网站。

2.提供商端：根据提示和聊天机器人的响应训练模型

使用聊天机器人的一个主要风险是个人数据泄露到机器人的训练语料库中。想象一下，例如，您需要评估一个新产品的想法。您决定使用聊天机器人，您可以将想法的完整描述作为输入，以获得尽可能准确的评估。如果系统使用提示进行微调，您的想法就会出现在训练语料库中，而对类似主题感兴趣的其他人可能会得到您产品的全部或部分描述作为回应。即使服务在将数据添加到语料库之前将其匿名化，这也不能完全防止泄漏，因为输入文本本身具有知识价值。这就是为什么在使用任何聊天机器人之前，弄清楚它是否从您的提示中学习以及如何停止它是值得的。

负责任的聊天机器人开发人员在其隐私政策中详细说明了用于模型训练的数据的使用。例如，OpenAI使用用户提供的内容来改进其服务，但会给用户提供“退出”选项。

如上所述，我们可能会使用您提供给我们的内容来改进我们的服务，例如训练ChatGPT的模型。

请注意，在设置中禁止使用数据之前，所有与机器人的对话都将用于后续的模型微调。

“您可以在ChatGPT设置（在数据控制选项下）中关闭训练功能，以关闭在禁用训练时创建的任何对话用于训练目的。一旦您选择退出，新的对话将不会被用来训练我们的模型。”

OpenAI对企业和API用户有不同的规则。这里是另一种方式：在用户授予许可之前，用户提供的数据不会用于模型训练。

“我们不会使用您的ChatGPT企业版或API数据、输入和输出来训练我们的模型。”

Bing Chat和Bing Chat企业版采用了类似的方法来处理用户数据。这份名为《新Bing：我们负责任的人工智能》（The new Bing: Our approach to Responsible AI）的文件指出：

“微软还为用户提供了强大的工具来行使他们对个人数据的权利。对于新Bing收集的数据，包括通过用户查询和提示收集的数据，Microsoft隐私仪表板为经过身份验证（登录）的用户提供了行使其数据主体权利的工具，包括为用户提供查看、导出和删除存储的对话历史记录的能力。”

所以，Bing Chat收集并分析用户的提示。关于数据使用，文件如下：

“有关Bing收集的个人数据、使用方式以及存储和删除方式的更多信息，请参阅微软隐私声明。”

在这份声明中可以找到一系列数据收集目的，其中之一是“改进和开发我们的产品”，在聊天机器人的情况下，这可以解释为模型训练。

至于Bing Chat企业版，“隐私和保护”部分是这样表示：

“由于Microsoft不保留提示和响应，因此它们不能用作底层大型语言模型的训练集的一部分。”

另一个IT巨头Google Bard的聊天机器人也收集用户提示来改进现有模型并训练新模型。Bard隐私声明明确指出：

“Google收集您的Bard对话、相关产品使用信息、您的位置信息以及您的反馈。根据我们的隐私政策，谷歌使用这些数据来提供、改进和开发谷歌产品和服务以及机器学习技术，包括谷歌的企业产品，如谷歌云。”

Claude（Anthropic）聊天机器人是另一个收集用户数据但匿名化处理的机器人。在隐私和法律页面的“您如何在模型训练中使用个人数据？”，回答是：

“我们使用来自三个来源的数据来训练我们的模型……来源3. 我们的用户或工作人员提供的数据。”

同一份文件进一步阐明：

“在我们对提示和输出数据进行训练之前，我们会根据数据最小化原则采取合理的措施去识别它。”

如前所述，You.com有两种模式：隐私模式和标准模式。在隐私模式下，根据公司的隐私政策，不会收集任何数据。在标准模式下，收集与服务交互的所有信息。文本没有明确说明这意味着提示的集合，但也没有否认它。

“为了帮助我们了解您如何使用我们的服务并帮助我们改进服务，我们会自动接收有关您与我们的服务交互的信息，例如您查看的页面或其他内容，以及您访问的日期和时间。如上所述，隐私模式与此有很大不同。”

由于收集到的数据被用于改进服务，因此不排除将其用于模型训练。“我们如何使用在标准模式下收集的信息”部分还指出，这些数据将用于“提供、维护、改进和增强我们的服务”。

同样地，Alloy Studios的Genius也未能直接回答是否收集并使用提示来训练模型的问题。隐私政策只采用了通用表述，没有与研究相关的具体内容：

“当您使用我们的服务时，我们会收集您的移动设备发送的某些信息；以及您通过您的设备使用我们服务的信息。”

这样的措辞可能表明该服务收集了聊天机器人的提示，但没有确凿的证据。关于上述信息的使用，该公司的隐私政策规定如下：

“我们使用收集的信息来反馈给我们的服务，回应查询，个性化和改进我们的服务以及您在使用我们服务时的体验。”

综上所述，正如我们所看到的，业务解决方案通常是相对安全的。在B2B领域，安全和隐私要求更高，企业信息泄露的风险也更高。因此，与B2C部分相比，数据使用、收集、存储和处理条款和条件更倾向于保护。本研究中的B2B解决方案默认情况下不保存聊天历史记录，并且在某些情况下，根本不会向提供服务的公司的服务器发送任何提示，因为聊天机器人部署在客户的本地网络中。

至于自定义聊天机器人，不幸的是，它们不适合涉及公司内部或机密数据的工作任务。有些确实允许用户设置严格的隐私设置或在私密模式下工作，但即便如此，它们也存在一定的风险。例如，员工可能会忘记设置或不小心重置设置。此外，它们没有提供对用户帐户进行集中控制的选项。对于雇主来说，如果需要的话，购买一个商业解决方案比因员工偷偷使用聊天机器人而遭受机密信息泄露更具经济意义。

用户对个人数据的权利

研究人员还研究了用户可以使用哪些工具进行自我保护，可以使用聊天历史记录做些什么，以及LLM开发人员是否真的根据用户数据训练他们的模型。现在让我们先来弄清楚用户对其提供给聊天机器人的信息拥有哪些权利。

此类信息通常在隐私政策的“您的权利”部分或类似部分中找到。在分析本节时，请注意其是否符合《欧盟通用数据保护条例》（GDPR）关于如何提供信息以及授予用户哪些权利的规定。即使用户居住在欧盟和GDPR范围之外，遵守法规也意味着服务的完整性。

GDPR的核心要求之一是，有关用户权利的信息应以简洁、透明、易懂和易于访问的形式提供。必要权利清单包括更正、删除和获取收集的个人数据副本的权利，以及选择不处理个人数据的权利。当用户不再需要某个服务时，删除权特别有用。

本研究中审查的几乎所有公司都以相当透明和可读的形式在其隐私政策中提供了用户权利。OpenAI在“您的权利”部分指出：公司允许您检索、删除和更正收集的数据，并限制或选择退出其处理；Claude（Anthropic）在“权利和选择”部分指出：用户有权利知道公司收集了哪些信息，以及可以访问、更正、删除和选择不提供数据；微软Bing聊天在“如何访问和控制您的个人数据”部分提供了大量关于如何以及在何处更正或删除数据的信息，但没有根据GDPR要求明确列出用户权利；谷歌在其隐私和条款页面的“您的隐私控制”和“导出和删除您的信息”部分都提供了详细的说明，说明用户可以如何以及在何处处理自己的数据。

You.com没有专门列出用户权利的栏目。它们唯一被提及的地方是在“我们如何使用在标准模式下收集的信息”部分的末尾：

“您可以控制您的信息：您可以通过邮件中提供的链接取消订阅我们的推广邮件。即使您选择不接收我们的推广信息，您仍将继续收到我们的管理信息。您可以通过发送邮件来请求删除您的用户配置文件和与之相关的所有数据。”

Genius隐私政策则没有提及任何用户权利。

结语

该研究揭露了在工作中使用基于LLM的聊天机器人所带来的主要威胁，并发现当员工在工作中使用个人账户时，敏感数据泄露的风险最高。

这使得提高员工对使用聊天机器人的风险认知成为公司的首要任务。一方面，员工需要了解哪些数据是机密或个人数据，或构成商业秘密，以及为什么这些数据不能提供给聊天机器人。另一方面，如果允许使用此类服务，该公司必须阐明使用此类服务的明确规则。同样重要的是要意识到潜在的网络钓鱼攻击，这些攻击正试图利用生成式人工智能的流行趋势。

理想情况下，如果组织看到允许员工使用聊天机器人的好处，它应该使用具有明确数据存储机制和集中管理选项的业务解决方案。如果组织将聊天机器人的使用和帐户安全完全托付给员工自己，那么由于隐私政策和帐户安全级别的巨大差异，组织很可能将面临数据泄露的风险。为了防止员工出于工作目的自行咨询不受信任的聊天机器人，建议组织使用带有云服务分析的安全解决方案。

原文链接：https://securelist.com/llm-based-chatbots-privacy/110733/