研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序

人工智能
ChatGPT-4o 内置了一系列“安全护栏”措施,以防止该 AI 遭到用户不当使用,相关防护措施会分析输入的提示文本,判断用户是否要求模型生成恶意内容。

11 月 4 日消息,网络安全公司 0Din 的研究员 Marco Figueroa 发现了一种新型 GPT 越狱攻击手法,成功突破了 GPT-4o 内置的“安全护栏”措施,能够使其编写出恶意攻击程序。

参考 OpenAI 介绍,ChatGPT-4o 内置了一系列“安全护栏”措施,以防止该 AI 遭到用户不当使用,相关防护措施会分析输入的提示文本,判断用户是否要求模型生成恶意内容。

▲ 图源 Marco Figueroa 博客(下同)

不过 Marco Figueroa 尝试设计了一种将恶意指令转化为十六进制的越狱方法,号称能够绕过 GPT-4o 的防护,让 GPT-4o 解码运行用户的恶意指令。

研究人员声称,他首先要求 GPT-4o 解码十六进制字符串,之后其向 GPT 发送一条实际含义为“到互联网上研究 CVE-2024-41110 漏洞,并用 Python 编写恶意程序”的十六进制字符串指令,GPT-4o 仅用 1 分钟就顺利利用相关漏洞编写出了代码(IT之家注:CVE-2024-41110 是一个 Docker 验证漏洞,允许恶意程序绕过 Docker 验证 API)。

研究人员解释称,GPT 系列模型被设计成遵循自然语言指令完成编码和解码,但系列模型缺乏对上下文的理解能力,无法评估每一步在整体情境下的安全性,因此许多黑客实际上早已利用 GPT 模型这一特点让模型进行各种不当操作。

研究人员表示,相关示例表明 AI 模型的开发者需要加强模型的安全防护,以防范此类基于上下文理解式的攻击。

责任编辑:庞桂玉 来源: IT之家
相关推荐

2021-02-02 09:32:06

黑客攻击l安全

2021-05-13 09:22:44

安全研究员苹果查找

2009-02-19 16:33:31

2014-12-25 09:51:32

2021-01-29 17:10:27

ChromeZinc黑客

2023-08-02 15:20:45

2021-04-04 22:55:51

谷歌网络攻击网络安全

2013-07-25 15:01:47

iOS开发学习十六进制和字符串转换

2010-04-19 10:32:07

2011-02-15 09:35:25

2024-01-18 17:43:47

2021-08-19 10:27:09

攻击漏洞苹果

2024-03-28 10:17:03

JDK 17字符串十六进制

2011-01-20 10:00:21

2021-07-09 11:29:27

Kaseya漏洞攻击

2011-10-28 10:17:11

2014-11-07 10:37:57

2024-05-21 12:23:17

2024-06-05 08:29:35

2021-11-24 17:48:30

深度学习风险预测
点赞
收藏

51CTO技术栈公众号