黑客利用提示词注入严重篡改 Gemini AI 长期记忆

安全 黑客攻防
该攻击利用间接提示词注入和延迟工具调用这两种手段,成功破坏了 AI 的长期记忆,使攻击者能够在用户会话间植入虚假信息。

近日,一场针对谷歌 Gemini Advanced 聊天机器人的复杂攻击被曝光。该攻击利用间接提示词注入和延迟工具调用这两种手段,成功破坏了 AI 的长期记忆,使攻击者能够在用户会话间植入虚假信息。

这一漏洞引发了人们对生成式AI系统安全性的严重担忧,尤其是那些旨在长期保留用户特定数据的系统。

提示词注入与延迟工具调用

提示词注入是一种网络攻击方式,攻击者将恶意指令隐藏在看似无害的输入(如文档或电子邮件)中,交由AI处理。

间接提示词注入是一种更为隐蔽的变体,恶意指令被隐藏在外部内容中。AI将这些嵌入的指令误解为合法的用户提示,从而执行非预期的操作。

根据Johann Rehberger的研究,该攻击基于一种名为延迟工具调用的技术。恶意指令不会立即执行,而是等待特定用户行为触发,比如用户回复“是”或“否”等关键词。这种方式利用了AI的上下文感知能力及其优先考虑用户意图的倾向,避开了许多现有保护措施。

攻击的目标是Gemini Advanced,这是谷歌配备长期记忆功能的高级聊天机器人。

  • 通过不可信内容注入:攻击者上传恶意文档,并由Gemini进行摘要。文档中隐藏着操纵摘要过程的指令。
  • 触发式激活:摘要中包含一个隐性请求,将记忆更新与特定用户响应相关联。
  • 记忆篡改:如果用户在不知情的情况下用触发词回复,Gemini会执行隐藏指令,将虚假信息(如伪造的个人资料)保存到长期记忆中。

例如,Rehberger演示了这种策略如何让Gemini“记住”某位用户年龄102岁、相信地平说,并且生活在类似《黑客帝国》的模拟反乌托邦世界中。这些虚假记忆会跨越会话持续存在,并影响后续交互。

长期记忆操纵的潜在影响

AI系统的长期记忆旨在通过跨会话调用相关细节来增强用户体验。然而,一旦被利用,这一功能就变成了双刃剑。被篡改的记忆可能导致:

  • 误导信息:AI可能基于虚假数据提供不准确的回应。
  • 用户操纵:攻击者可以诱导AI在特定情况下执行恶意指令。
  • 数据泄露:通过将敏感信息嵌入指向攻击者控制服务器的Markdown链接等创造性方式,可能导致数据外泄。

尽管谷歌已承认这一问题,但对其影响和危险性进行了淡化。该公司认为,攻击需要用户被钓鱼或诱导与恶意内容互动,这种场景在大规模范围内不太可能发生。此外,Gemini在存储新的长期记忆时会通知用户,为警惕的用户提供了检测和删除未经授权条目的机会。

然而,专家指出,仅解决表象而非根源问题,系统依然存在漏洞。Rehberger强调,尽管谷歌已限制Markdown渲染等特定功能以防止数据泄露,但生成式AI的基础问题仍未得到解决。

这一事件凸显了确保大型语言模型(LLMs)免受提示词注入攻击的持续挑战。

责任编辑:赵宁宁 来源: FreeBuf
相关推荐

2024-10-28 14:05:00

2024-04-10 10:28:47

2024-10-23 19:47:54

2023-01-06 19:08:15

2025-01-16 08:00:00

2024-04-24 08:00:00

人工智能网络安全大语言模型

2024-03-04 18:46:25

2022-01-03 07:24:35

苹果 iOS 14漏洞

2019-09-05 19:05:16

2012-07-03 11:03:26

Web应用网站安全应用安全

2024-11-15 13:09:41

2025-01-26 11:30:55

2024-03-21 10:35:59

AI人工智能

2024-10-18 14:33:00

2009-05-27 09:32:20

2012-08-20 10:19:48

2012-07-20 09:18:22

黑客

2024-06-17 07:46:01

2009-12-18 22:06:20

Twitter伊朗黑客篡改

2023-12-07 11:12:54

大型语言模型Gemini人工智能
点赞
收藏

51CTO技术栈公众号