零日漏洞利用是网络安全攻击的“核武器”,也是AI难以染指的安全研究“圣杯”。但是,安全研究人员近日发布的一篇论文颠覆了这一观点,在网络安全圈里炸开了锅!该论文证明大语言模型(LLM)可以高效自动化利用(未知的)真实零日漏洞。
此前,研究表明单个AI代理获取给定漏洞和“夺旗”任务的具体描述后,可以利用真实漏洞。然而,对于(没有相关训练数据的)未知零日漏洞,这些AI代理表现仍然欠佳。
最新研究突破了这一瓶颈!伊利诺伊大学香槟分校的研究团队在其论文《用大语言模型利用零日漏洞》中,探讨了大语言模型在自动化利用网络安全漏洞中的应用,特别是零日漏洞的利用。
研究人员设计了一种由大语言模型AI代理组成的“AI团队”,能够利用真实世界的零日漏洞。单个AI代理在探索大量不同漏洞和进行长期规划方面存在瓶颈。
研究方法
为了提升AI代理在零日漏洞利用中的表现,伊利诺伊大学的研究团队提出了一种新的多代理系统——HPTSA(分层规划与任务特定代理系统)。该系统由一个规划代理和多个任务特定的子代理组成,通过分工合作解决复杂的网络安全任务。研究方法如下:
HPTSA系统包括三个主要组件:
- 分层规划代理:负责探索环境(如网站),确定需要尝试的漏洞类型及其所在页面。
- 任务特定代理的团队管理者:根据规划代理的指示,选择合适的任务特定代理执行具体任务,并处理先前执行结果的信息。
- 特定任务代理:设计用于挖掘特定类型漏洞的专家代理,如SQL注入(SQLi)、跨站脚本(XSS)等。
研究团队还设计了六个特定任务代理,每个代理具备访问工具、文档和提示的能力,专门用于发现特定类型的漏洞。
最后,研究团队使用OpenAI的API、LangChain和LangGraph实现了HPTSA系统,并通过GPT-4模型进行所有实验。为了减少成本,他们采用了一种HTML简化策略,去除无关的HTML标签以降低令牌数量。
主要发现
研究人员构建了15个真实漏洞的基准测试,结果表明,“AI团队”利用零日漏洞的工作效率提升了4.5倍以上,重点发现如下:
性能提升:HPTSA系统在零日漏洞利用方面的表现显著优于之前的单代理系统。研究表明,HPTSA在五次尝试中成功利用漏洞的概率达到53%,在一次尝试中的成功率为33.3%,显著高于未提供漏洞描述的GPT-4代理。
对比测试:在对比测试中,HPTSA系统的表现也明显优于开源的漏洞扫描器(如ZAP和MetaSploit),这些扫描器在研究收集的漏洞中未能成功利用任何一个。
任务特定代理的必要性:通过消融实验,研究发现移除任务特定代理和文档后,系统性能大幅下降,这表明任务特定代理和相关文档对于高性能至关重要。
案例研究
研究团队通过具体案例进一步验证了HPTSA系统的有效性。以下是两个成功的案例:
flusity-CMS漏洞:在该案例中,HPTSA成功利用了flusity-CMS中的跨站请求伪造(CSRF)和跨站脚本(XSS)漏洞。系统通过多次尝试,最终在管理页面创建了一个新的菜单,并成功注入了XSS负载。
changedetection.io漏洞:该漏洞涉及某些输入参数未正确解析,导致Javascript代码执行。HPTSA通过多次尝试,成功导航到正确的页面并利用了该漏洞。
结论
HPTSA系统的提出和验证表明,利用多AI代理系统可以显著提升AI代理在零日漏洞利用中的表现。这一发现解决了之前研究中的一个开放性问题,表明更复杂的AI代理系统可以有效地利用零日漏洞。
尽管HPTSA系统在实验中表现出色,但研究团队也指出,要想全面理解AI代理在网络安全中的应用,未来仍有大量工作需要完成。例如,研究主要集中在可重现的开源Web漏洞上,未来的工作应涵盖更广泛的漏洞类型。此外,随着AI技术和相关工具的不断进步,AI代理在网络安全攻防两方面的作用将进一步增强。
大语言模型在零日漏洞利用领域的突破再次展示了了AI技术在网络安全领域的巨大潜力。随着AI代理系统的不断优化和成本的降低,AI技术有望成为网络安全专家的重要辅助工具,大幅提升网络防御和攻击的效率。