谷歌研究人员利用GPT-4攻破审核系统AI-Guardian-51CTO.COM

8月2日消息，据外媒报道，谷歌的研究人员展示了OpenAI的GPT-4如何作为研究助手来规避AI-Guardian。

AI-Guardian是一种用于检测图片中是否存在不当内容的AI审核系统，同时还可以识别图片是否被其他AI修改过。一旦发现有不当内容或篡改迹象，该系统将提示管理员进行处理。

谷歌DeepMind研究科学家Nicholas Carlini在论文中揭示了GPT-4是如何被指示设计出一种攻击方法，以避开AI-Guardian的保护措施的。该实验展示了聊天机器人在推进安全研究方面的潜在价值，并突出了GPT-4等强大语言模型对未来网络安全的影响。

Carlini的研究探讨了如何利用OpenAI的大型语言模型GPT-4来开发针对AI-Guardian的攻击策略。在最初的设计中，AI-Guardian的开发是为了通过识别和阻止包含可疑工件的输入来防止对抗性攻击。但是，Carlini的论文表明，GPT-4在通过提示的指导下，可以通过生成脚本和解释图像调整来克服AI-Guardian的防御，这些图像调整欺骗了分类器，而不会触发AI-Guardian的检测机制。

Carlini的论文包括GPT-4建议的Python代码，可以利用AI-Guardian的漏洞。因此，在原始AI-Guardian研究的威胁模型下，AI-Guardian的鲁棒性从98%降低到仅8%。AI-Guardian的作者承认Carlini的攻击成功地绕过了他们的防御。

Nicholas Carlini使用GPT-4击败AI-Guardian的实验标志着AI对AI行动的一个重要里程碑。它展示了如何利用语言模型作为研究助手来发现漏洞并加强网络安全措施。虽然GPT-4的能力为未来的安全研究提供了良好的前景，但也强调了人类专业知识和协作努力的重要性。随着人工智能语言模型的不断发展，它们有可能彻底改变网络安全领域，并激发防御对抗性攻击的创新方法。