黑客利用提示词注入严重篡改 Gemini AI 长期记忆-51CTO.COM

近日，一场针对谷歌 Gemini Advanced 聊天机器人的复杂攻击被曝光。该攻击利用间接提示词注入和延迟工具调用这两种手段，成功破坏了 AI 的长期记忆，使攻击者能够在用户会话间植入虚假信息。

这一漏洞引发了人们对生成式AI系统安全性的严重担忧，尤其是那些旨在长期保留用户特定数据的系统。

提示词注入是一种网络攻击方式，攻击者将恶意指令隐藏在看似无害的输入（如文档或电子邮件）中，交由AI处理。

间接提示词注入是一种更为隐蔽的变体，恶意指令被隐藏在外部内容中。AI将这些嵌入的指令误解为合法的用户提示，从而执行非预期的操作。

根据Johann Rehberger的研究，该攻击基于一种名为延迟工具调用的技术。恶意指令不会立即执行，而是等待特定用户行为触发，比如用户回复“是”或“否”等关键词。这种方式利用了AI的上下文感知能力及其优先考虑用户意图的倾向，避开了许多现有保护措施。

攻击的目标是Gemini Advanced，这是谷歌配备长期记忆功能的高级聊天机器人。

例如，Rehberger演示了这种策略如何让Gemini“记住”某位用户年龄102岁、相信地平说，并且生活在类似《黑客帝国》的模拟反乌托邦世界中。这些虚假记忆会跨越会话持续存在，并影响后续交互。

AI系统的长期记忆旨在通过跨会话调用相关细节来增强用户体验。然而，一旦被利用，这一功能就变成了双刃剑。被篡改的记忆可能导致：

尽管谷歌已承认这一问题，但对其影响和危险性进行了淡化。该公司认为，攻击需要用户被钓鱼或诱导与恶意内容互动，这种场景在大规模范围内不太可能发生。此外，Gemini在存储新的长期记忆时会通知用户，为警惕的用户提供了检测和删除未经授权条目的机会。

然而，专家指出，仅解决表象而非根源问题，系统依然存在漏洞。Rehberger强调，尽管谷歌已限制Markdown渲染等特定功能以防止数据泄露，但生成式AI的基础问题仍未得到解决。

这一事件凸显了确保大型语言模型（LLMs）免受提示词注入攻击的持续挑战。