近日,一场针对谷歌 Gemini Advanced 聊天机器人的复杂攻击被曝光。该攻击利用间接提示词注入和延迟工具调用这两种手段,成功破坏了 AI 的长期记忆,使攻击者能够在用户会话间植入虚假信息。
这一漏洞引发了人们对生成式AI系统安全性的严重担忧,尤其是那些旨在长期保留用户特定数据的系统。
提示词注入与延迟工具调用
提示词注入是一种网络攻击方式,攻击者将恶意指令隐藏在看似无害的输入(如文档或电子邮件)中,交由AI处理。
间接提示词注入是一种更为隐蔽的变体,恶意指令被隐藏在外部内容中。AI将这些嵌入的指令误解为合法的用户提示,从而执行非预期的操作。
根据Johann Rehberger的研究,该攻击基于一种名为延迟工具调用的技术。恶意指令不会立即执行,而是等待特定用户行为触发,比如用户回复“是”或“否”等关键词。这种方式利用了AI的上下文感知能力及其优先考虑用户意图的倾向,避开了许多现有保护措施。
攻击的目标是Gemini Advanced,这是谷歌配备长期记忆功能的高级聊天机器人。
- 通过不可信内容注入:攻击者上传恶意文档,并由Gemini进行摘要。文档中隐藏着操纵摘要过程的指令。
- 触发式激活:摘要中包含一个隐性请求,将记忆更新与特定用户响应相关联。
- 记忆篡改:如果用户在不知情的情况下用触发词回复,Gemini会执行隐藏指令,将虚假信息(如伪造的个人资料)保存到长期记忆中。
例如,Rehberger演示了这种策略如何让Gemini“记住”某位用户年龄102岁、相信地平说,并且生活在类似《黑客帝国》的模拟反乌托邦世界中。这些虚假记忆会跨越会话持续存在,并影响后续交互。
长期记忆操纵的潜在影响
AI系统的长期记忆旨在通过跨会话调用相关细节来增强用户体验。然而,一旦被利用,这一功能就变成了双刃剑。被篡改的记忆可能导致:
- 误导信息:AI可能基于虚假数据提供不准确的回应。
- 用户操纵:攻击者可以诱导AI在特定情况下执行恶意指令。
- 数据泄露:通过将敏感信息嵌入指向攻击者控制服务器的Markdown链接等创造性方式,可能导致数据外泄。
尽管谷歌已承认这一问题,但对其影响和危险性进行了淡化。该公司认为,攻击需要用户被钓鱼或诱导与恶意内容互动,这种场景在大规模范围内不太可能发生。此外,Gemini在存储新的长期记忆时会通知用户,为警惕的用户提供了检测和删除未经授权条目的机会。
然而,专家指出,仅解决表象而非根源问题,系统依然存在漏洞。Rehberger强调,尽管谷歌已限制Markdown渲染等特定功能以防止数据泄露,但生成式AI的基础问题仍未得到解决。
这一事件凸显了确保大型语言模型(LLMs)免受提示词注入攻击的持续挑战。