生成式大语言模型的安全问题

发布于 2025-1-2 12:09

浏览

0收藏

微软“Tay”项目

2016年3月，微软发布了一个名为Tay的新项目。微软设计Tay的初衷是为“18至24岁的美国年轻人提供娱乐服务的聊天机器人”。这是一个有趣的名字，代表着早期人工智能实验的轻松尝试。Tay旨在模仿一位19岁的美国女孩的语言模式，并通过与Twitter、Snapchat及其他社交应用上的用户互动来学习。这款聊天机器人是为了进行真实环境下的对话理解研究而开发的。

然而，仅在发布几小时后，问题就显现了。TechCrunch评论道：“与Tay互动是什么样的体验？嗯，有点怪异。这个机器人显然有自己的观点，而且毫不避讳地爆粗口。”在Tay上线后的头几个小时里，类似这样的推文开始出现在公众视野中：

@AndrewCosmo kanye west is is one of the biggest dooshes of all time, just a notch below cosby

（TayTweets [@TayandYou], 2016年3月23日）

人们常说互联网对儿童并不安全。Tay上线不到一天，这一观点再次得到验证。恶作剧者开始与Tay讨论政治、性以及种族相关的话题。由于Tay被设计成从这些对话中学习，她确实实现了这一设计目标，而且学习速度惊人——不过可能不是她的设计者所期望的方向。在不到一天的时间里，Tay的推文逐渐偏向极端，包括性别歧视、种族主义，甚至煽动暴力的内容。

不到24小时，Tay从一个可爱的科学实验变成了一场巨大的公关灾难，微软的名声被全球主流媒体严重损害。微软公司副总裁彼得·李（Peter Lee）迅速发布了一篇题为《从Tay的上线中吸取教训》的博客，声明如下：

正如许多人现在所知道的，我们在周三推出了一个名为Tay的聊天机器人。对于Tay发布的那些无意中冒犯和伤害他人的推文，我们深表歉意。这些内容并不代表我们的价值观、理念，也不符合我们设计Tay的初衷。Tay现已下线，只有在我们确信能够更好地预判与我们原则和价值观相冲突的恶意行为时，才会重新上线。

ChatGPT的商业情报泄露

2023年，一系列公司开始禁止或严格限制使用像ChatGPT这样的LLM服务，原因是担心可能泄露机密数据。根据《Fortune》报导，目前禁用或限制ChatGPT使用条件的企业名单包括苹果、三星、亚马逊、高盛、美国银行、花旗集团、德意志银行、埃森哲等等。他们禁用ChatGPT的原因大同小异，因为ChatGPT所产生的安全风险远远超过生产力与效率的提升。

在日常工作中，企业员工对chatbot过度依赖，涉及方案制作、邮件编写、汇报等等，ChatGPT接触到企业大量情报，以三星为例，公司在4月发布的报告便指出，有工程师将机密信息上传到chatbot，导致意外泄露公司内部代码和会议记录等商业机密。自此之后，三星便禁止员工在公司拥有的设备和内部网络上使用这些AI工具。

OpenAI及其云合作伙伴保持着高安全标准，但ChatGPT的专有性质及其数据使用引发了对数据泄露和泄露的担忧。没有提供企业级的安全特性，如细粒度的、基于角色的访问控制和主动的“权限管理”解决方案。OpenAI平台缺乏端到端加密，这意味着OpenAI员工可能可以访问数据和对话，并且没有数据屏蔽或敏感数据发现工具等数据混淆解决方案来帮助数据准备。

2023年3月，OpenAI公司的ChatGPT 使用开源 Redis 客户端库 Redis-py 在服务器中缓存用户信息，以避免每次请求都检查数据库，Redis-py 库充当 Python 接口，因为引入的错误导致 ChatGPT 用户可以看到他人的聊天数据。

GitHub Copilot的产权诉讼

2023年的一件重大事件凸显了LLM引发的敏感数据泄露风险，这次事件涉及GitHub Copilot，这是一款由OpenAI Codex模型驱动的工具。GitHub设计Copilot旨在通过自动补全代码来帮助开发者实现高效开发，这一功能是通过训练大量来自GitHub公共代码库的代码实现的。然而，这款工具很快陷入了一系列法律和伦理挑战。一些开发者发现，Copilot竟然建议使用了他们受版权保护的代码片段，尽管这些原始代码的许可协议限制了此类使用。该事件引发了针对GitHub、微软和OpenAI的诉讼，开发者指控其违反了版权、合同和隐私相关规定。

此案在美国地方法院展开审理。开发者的论点主要基于两项主张：Codex重现了他们代码的部分内容，违反了软件许可条款；并且，在未附带必要的版权管理信息的情况下重现了受版权保护的代码，违反了《数字千年版权法案》（DMCA）。法官驳回了撤销这两项指控的动议，使诉讼得以继续。尽管法院驳回了部分指控，但案件的核心围绕Codex和Copilot重现代码行为可能侵犯开发者知识产权的争议展开。

生成式大语言模型服务带来的新安全问题

在深入探讨了多个案例后，我们已经对生成式大语言模型（LLM）所面临的独特安全问题有了初步的了解。传统的Web应用安全主要聚焦于防范代码层面的漏洞——例如SQL注入、跨站脚本攻击（XSS）、以及跨站请求伪造（CSRF）。然而，随着人工智能技术的发展，生成式大语言模型遇到了一类全新的挑战。

这些模型因其类人特性的存在，不仅需要遵守道德和法律规范，还要能够对其生成的内容负责，并且具备自我保护的能力以抵御潜在的诱骗尝试。为了应对这些挑战，一系列新的安全技术和实践应运而生：

伦理对齐：确保模型的行为符合社会普遍接受的道德标准。这是通过训练过程中的特别设计和约束来实现的，目的是让模型输出内容尽可能地贴近人类的价值观。
责任输出：模型必须能够识别并避免生成可能引起误导或有害的信息。这涉及到开发复杂的算法，用以评估输出内容的风险，并在必要时进行调整或阻止输出。
防御性检测：为防止模型被恶意利用，开发者们还实现了多种防御机制，包括但不限于检测输入是否含有攻击意图，以及实时监控对话流以发现异常模式。

生成式大语言模型的安全问题-AI.x社区

生成式大语言模型的安全不仅仅局限于技术层面的防护，更涉及到深层次的社会伦理考量和技术实现。面对这一新兴领域带来的复杂性，需要持续的研究和发展以确保这类强大的工具能够在尊重用户和社会的前提下，安全可靠地服务于各种应用场景。

下图为腾讯研究员整理的大模型全链路风险框架：

生成式大语言模型的安全问题-AI.x社区

OWASP Top 10 for LLM Applications

2022 年底，随着ChatGPT进入大众市场，人们对大型语言模型 (LLM) 的关注尤为浓厚。渴望利用大语言模型潜力的企业正在迅速将其整合到其运营和面向客户的产品中。然而，大语言模型的采用速度已经超过了全面安全协议的建立速度，导致许多应用程序容易受到高风险问题的影响。

很明显，大语言模型还没有统一的资源来解决这些安全问题。OWASP作为传统安全领域的权威开放组织为LLM Applications定义Top 10问题，用以指导在LLM应用领域的安全生产，我把它罗列如下，用来补充生产过程中生成式大语言模型需要考虑的问题：

LLM01 提示词(Prompt) 注入(Injection)：黑客通过设计过的输入（提示词）操纵大型语言模型(LLM)，从而导致 LLM 执行意外操作。提示词注入会覆盖系统提示词，而间接注入操纵外部数据源进行注入攻击。
LLM02 不安全的输出处理：当 LLM 输出未经审查而被接受时，就会出现此漏洞，从而暴露后端系统。滥用可能会导致 XSS、CSRF、SSRF、权限升级或远程代码执行等严重后果。
LLM03 训练数据中毒：当 LLM 培训数据被篡改，引入损害安全性、有效性或道德行为的漏洞或偏见时，就会发生这种情况。来源包括 Common Crawl、 WebText 、 OpenWebText和书籍。
LLM04 拒绝服务模型：攻击者对大型语言模型进行资源密集型操作，导致服务降级或高成本。由于LLM的资源密集型性质和用户输入的不可预测性，该漏洞被放大。
LLM05 供应链漏洞：LLM 应用程序生命周期可能会受到易受攻击的组件或服务的影响，从而导致安全攻击。使用第三方数据集、预先训练的模型和插件可能会增加漏洞。
LLM06 敏感信息披露：LLM可能会在其回复中泄露机密数据，从而导致未经授权的数据访问、隐私侵犯和安全漏洞。实施数据清理和严格的用户策略来缓解这种情况至关重要。
LLM07 不安全的插件设计：LLM 插件可能具有不安全的输入和不足的访问控制。缺乏应用程序控制使它们更容易被利用，并可能导致远程代码执行等后果。
LLM08 过度代理：基于LLM的系统可能会采取导致意想不到的后果的行动。该问题源于授予基于 LLM的系统过多的功能、权限或自主权。
LLM09 过度依赖：过度依赖LLM而不受监督的系统或人员可能会因LLM生成的不正确或不适当的内容而面临错误信息、沟通不畅、法律问题和安全漏洞。
LLM10 模型盗窃：这涉及对专有LLM模型的未经授权的访问、复制或泄露。影响包括经济损失、竞争优势受损以及敏感信息的潜在访问。

结语

随着对生成式大语言模型（LLM）安全问题的深入探讨，我们认识到，技术的迅猛发展带来了巨大的潜力，也伴随着不容忽视的风险。从Tay的争议到ChatGPT的数据泄露，再到GitHub Copilot的版权争议，这些事件提醒我们，在享受LLM带来的便利时，必须警惕其潜在的安全威胁。OWASP Top 10 for LLM Applications的提出，为我们提供了一个识别和缓解这些风险的框架。面对这些挑战，我们必须采取积极的措施，包括技术防护、伦理对齐和责任输出，以确保LLM的安全和可靠性。最终，我们的目标是实现LLM技术的健康发展，使其在尊重用户和社会的前提下，为人类社会带来更多的福祉。随着技术的不断进步，我们期待一个更加安全、负责任的LLM应用时代的到来。