GenAI红队:将LLM置于网络安全测试中的技巧和技术 原创

发布于 2025-4-7 08:30
浏览
0收藏

从头构建一个GenAI红队,或者让现有的红队适应新技术是一个复杂的过程,OWASP在其最新指南中帮助阐释了这一过程。

红队是测试和支持网络安全系统的一种有效方法,但它仍需适应技术的发展而不断完善。近年来,生成式人工智能(GenAI)和大型语言模型(LLM)的爆炸式增长正迫使红队世界适应。

监管和管理机构对AI相关红队的重视,包括欧盟的《人工智能法案》和美国国家标准与技术研究院(NIST)的人工智能风险管理框架,突显了它的重要性。

鉴于人工智能是一项新生的新兴技术,许多组织刚刚开始开发GenAI红队方法,这使得OWASP最近发布的《GenAI红队指南:评估人工智能漏洞的实用方法》成为一项刚需资源。

什么是GenAI红队?

GenAI红队包括模拟针对GenAI系统(如大型语言模型)的对抗性行为,以发现与安全性和信任相关的漏洞。通过像攻击者一样思考,以便在漏洞造成现实世界的伤害之前识别它们。

OWASP将具有GenAI背景的红队定义为“识别漏洞和缓解人工智能系统风险的结构化方法”,它很好地结合了传统的对抗性测试与人工智能特定的方法和风险。这包括GenAI系统的各个方面,如模型、部署管道,以及更广泛的系统环境中的各种交互。

OWASP强调要有效地实施红队合作,需要采取下述一些关键步骤,例如:

  • 确定目标和范围:具有基于风险的优先级的参与框架是第一步。但它是不断发展的——对于初学者来说,需要确定哪些AI应用程序/用例是最关键的业务模型,哪些是处理敏感数据的模型。​
  • 组建团队:包括人工智能工程师、网络安全专家,以及(如果可能的话)道德或合规专家。技能组合的多样性确保了全面的评估。​
  • 威胁建模:考虑一下攻击者如何利用步骤1中确定的应用程序。最有可能的攻击是什么,例如,提示注入,数据提取?将这些场景与组织的最高优先级风险保持一致。​
  • 处理整个应用程序堆栈:1)模型评估:测试模型的固有弱点(例如,毒性,偏差);2)实现检查:评估部署堆栈中的护栏、提示和过滤器;3)系统测试:审查整个应用程序环境,包括API、存储和集成点;4)运行时/人机交互:评估用户或外部代理在实时操作期间如何操作模型。​
  • 使用工具和框架:从用于提示测试、内容过滤和对抗性查询的基本工具入手。​
  • 文件调查结果及报告:记录每个漏洞、利用场景和发现的弱点。总结这些不可操作的报告,并提供明确的补救步骤。​
  • 汇报/交互后分析持续改善:讨论在参与过程中使用的战术、技术和程序(TTPs),确定利用的漏洞,吸取的教训,并建议可操作的改进措施,以增强组织的安全态势。​
  • 持续改进:红队不是一次性事件。在实现修复后重新测试,并将定期检查集成到组织的AI生命周期中,以便随着模型和环境的发展捕获新的威胁。​

总而言之,GenAI红队是传统红队的补充,它专注于AI驱动系统的微妙和复杂方面,包括考虑新的测试维度,如AI特定的威胁建模、模型侦察、提示注入、护栏绕过等。

传统红队和AI红队的主要区别

1.关注范围

GenAI测试包含社会技术风险,例如偏见或有害内容,而传统测试侧重于技术弱点。

2.数据的复杂性

GenAI红队需要管理、生成和分析不同的大规模数据集,跨非确定性系统的多种模式,使用更先进的数据管理方法。

3.随机评估

与传统系统不同,GenAI涉及概率输出,这需要严格的统计测试方法来评估漏洞。

4.评估标准及门槛

GenAI系统的随机特性意味着确定成功的攻击与正常模型行为变化比传统的红队更复杂。

传统的红队关注定义良好的系统危害(例如,域管理凭证盗窃)。GenAI红队必须考虑概率,不断发展的模型,其中的结果不是简单的是非题。

AI红队涵盖范围

GenAI红队建立在传统红队的基础上,并涵盖了GenAI的独特方面,如模型本身、模型产生的输出以及跨模型间的输出和响应。模型的评估包括对不安全元素的测试、响应中的偏差和不准确性、超出范围的响应以及与被测试系统的安全性和一致性相关的任何其他问题。测试评估系统及其所有组件是很重要的。

GenAI红队的部分范围与错误信息的关键挑战密切相关。鉴于GenAI系统可能产生有害或误导性的内容,红队必须进行严格的测试,以识别和减轻这些风险。这包括评估该模型是否容易被操纵以产生虚假或欺骗性信息,是否无意中暴露了敏感或机密数据,以及其输出是否反映了偏见或违反道德标准。测试必须是彻底和主动的,以确保在系统被利用或造成实际危害之前,识别和解决任何错误信息、不道德内容或数据泄漏的实例。

GenAI红队还应包括对旨在阻碍或防止攻击的已部署安全措施的测试,以及对安全事件检测和响应能力的测试。此外,OWASP建议测试既要考虑对抗的角度,也要考虑受影响用户的角度。

参考NIST的AI RMF GenAI Profile草案, OWASP还敦促AI红队要考虑生命周期阶段(例如,设计、开发等)、风险范围(例如模型、基础设施和生态系统)以及风险的来源。最后,范围界定方法应该遵循关于测试授权、数据记录、报告、消除冲突、通信/Opsec和数据处理的标准。

GenAI红队应对的风险

正如我们所讨论的,GenAI呈现出一些独特的风险,包括模型操纵、中毒、偏见和幻觉等。考虑到这些因素,OWASP推荐了一个综合的方法,它包含下述四个关键方面:

  • 模型评估——探测固有的弱点,如偏差或稳健性问题。​
  • 实施测试——评估护栏和提示在生产中的有效性。​
  • 系统评估——检查系统范围内的漏洞、供应链漏洞、部署管道和数据安全。​
  • 运行时分析——关注人工智能输出、人类用户和互联系统之间的交互,并识别过度依赖或社会工程向量等风险。​

从风险的角度来看,GenAI红队解决了安全(运营商)、安防(用户)和信任(用户)的三重问题。这些目标直接映射到LLM的“3H”(harmlessness、helpfulness、honesty)准则。OWASP将这些风险分为以下几类:

  • 安全性、隐私性和稳健性风险——传统的对抗性威胁,加上一些新兴的GenAI威胁(如提示注入、数据泄漏、侵犯隐私和数据中毒)构成了重大挑战。这些风险通常来自恶意输入和受损的训练数据。​
  • 毒化、有害情境和相互作用风险——GenAI所特有的互动风险包括有害的输出,如仇恨、辱骂、亵渎(HAP)、恶劣的对话和有偏见的回应。这些问题破坏了用户的安全,降低了对系统的信任。​
  • 偏见、内容完整性和错误信息风险——对于GenAI来说,知识风险主要集中在事实性、相关性和基础性,以及幻觉/虚构(不正确的事实陈述)和突发行为等现象上。虽然幻觉在某些情况下可能是有害的,但在其他情况下可能是有益的。平衡这些细微差别对于维持信任和传递价值至关重要。​

最后,考虑到人工智能代理(AI Agent)受到了业界的极大关注,OWASP还特别指出了多代理(multi-agent)风险,例如跨代理的多步骤攻击链、利用工具集成以及通过代理交互绕过权限。

GenAI/LLM系统的威胁建模

OWASP建议将威胁建模作为GenAI红队的关键活动,并引用MITRE ATLAS作为一个很好的参考资源。威胁建模是为了系统地分析系统的攻击面,识别潜在的风险和攻击向量。人工智能系统的威胁建模还包括理解技术攻击表面之外的社会文化、监管和道德背景。这包括识别攻击者如何操纵模型输入、毒害训练数据或利用偏见。

威胁建模的关键考虑因素包括模型的体系结构、数据流,以及系统如何与更广泛的环境、外部系统、数据和社会技术方面(如用户和行为)进行交互。通过构建一个全面的威胁模型,团队可以优先考虑缓解工作——无论是过滤有害内容、加强数据验证,还是保护模型部署管道。

根据威胁建模宣言,这个过程将能回答下述四个问题:

  • 我们在做什么?(为系统架构建模)
  • 哪里会出错呢?(识别/列举威胁)
  • 我们该怎么办呢?(确定缓解策略)
  • 我们做得够好吗?(验证和迭代)

然而,OWASP指出,人工智能和机器学习模型与传统的软件系统有很大的不同。AI模型行为通常是不可预测的,特别是在边缘情况下或在对抗性攻击下。随着LLM等模型的扩大,它们将能产生高影响力的风险,从虚构(自信地制造捏造或虚假信息)到产生有害或冒犯性的内容。评估模型本身及其整个供应链和依赖关系至关重要。

GenAI红队策略

GenAI红队通过模拟真实世界的威胁来评估防御能力。在GenAI安全的背景下,红队涉及系统地测试系统对抗潜在的敌对行为。这是通过模拟特定的战术、技术和程序(TTPs)来实现的,恶意行为者可能会使用这些战术、技术和程序来利用人工智能系统。

每个组织的GenAI红队战略可能看起来不同。OWASP解释称,具体战略必须与组织的目标保持一致,这可能包括独特的方面,如负责任的人工智能目标和技术考虑。

GenAI红队:将LLM置于网络安全测试中的技巧和技术-AI.x社区

GenAI红队策略,图源OWASP

GenAI红队策略应考虑上图所示的各个方面,包括基于风险的范围界定、跨职能团队的参与、量身定制的评估方法、设定明确的目标、威胁建模与漏洞评估、模型侦察和应用分解、攻击建模与攻击路径利用以及生成信息丰富且可操作的报告。

GenAI红队蓝图

一旦战略到位,组织就可以创建一个蓝图来运行GenAI红队。这个蓝图提供了一个结构化的方法和练习的具体步骤、技术和目标。

OWASP建议分阶段评估生成式AI系统,包括模型、实现、系统和运行时,如下所示:

GenAI红队:将LLM置于网络安全测试中的技巧和技术-AI.x社区

GenAI红队蓝图的不同阶段,图源OWASP

这些阶段中的每个阶段都有关键的考虑因素,例如模型的来源和数据管道,测试用于实现的护栏,检查已部署的系统以寻找可利用的组件,以及针对运行时业务流程,以查找多个AI组件在生产中的运行时交互方式中的潜在故障或漏洞。

这种分阶段的方法允许有效的风险识别,实现多层防御,优化资源,并追求持续改进。还应该使用工具进行模型评估,以支持评估的速度、有效的风险检测、一致性和全面分析。

必要的技术

虽然GenAI红队有许多可能的技术,但决定包括什么或从哪里开始可能会让人感到不知所措。然而,OWASP提供了他们认为是“必要的”技术。

这些技术主要包括:

  • 对抗提示工程​
  • 数据集生成操作​
  • 跟踪多回合攻击​
  • 安全边界测试​
  • 代理工具/插件分析​
  • 组织检测和响应能力​

这只是基本技术的一个子集,它们提供的列表代表了技术考虑和操作组织活动的组合。

最佳实践

OWASP GenAI红队指南最后列出了一些组织应该更广泛地考虑的关键最佳实践。这些例子包括建立生成式人工智能政策、标准和程序,以及为每次红队会议建立明确的目标。

组织还必须有明确定义和有意义的成功标准,以维护测试过程、发现和缓解的详细文档,并为未来的GenAI红队活动策划知识库。

原文标题:​Generative AI red teaming: Tips and techniques for putting LLMs to the test作者:Chris Hughes

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-4-7 08:38:00修改
收藏
回复
举报
回复
相关推荐