近日,谷歌宣布其大语言模型(LLM)项目“Big Sleep”成功发现了一个SQLite数据库引擎中的内存安全漏洞,这是人工智能首次在真实软件中发现可利用的内存安全漏洞(且该漏洞无法通过传统的模糊测试检测到)。
AI首次发现内存安全漏洞
谷歌的“Project Naptime”项目旨在评估LLM在进攻性安全研究方面的能力,后来该项目演变为“Big Sleep”,由谷歌Project Zero和DeepMind团队共同参与。Big Sleep项目致力于探索AI在发现软件漏洞中的潜力,特别关注高危漏洞的检测与利用。
在上周五的公告中,谷歌透露,Big Sleep项目的LLM代理在实验阶段成功识别出第一个真实世界中的漏洞——SQLite开源数据库引擎中的基于栈的缓冲区溢出漏洞。该漏洞在今年10月初被发现,SQLite开发团队在接到披露信息后数小时内即完成了补丁修复。
这一发现具有重大意义,因为这是AI首次独立检测出可利用的内存安全漏洞。
“青出于蓝”,超越模糊测试
Big Sleep的工作流程模拟了人类的漏洞研究过程。首先,AI被要求审查SQLite代码中的最新提交记录,并寻找类似于已知漏洞的安全问题。作为起点,研究人员向LLM提供了一个最近修复的漏洞,以引导它发现新的漏洞。通过这一策略,Big Sleep最终找到了一个严重的内存安全问题。
谷歌随后尝试使用传统的模糊测试来检测这一漏洞,耗费了150个CPU小时,仍未成功发现问题。值得注意的是,多年来,谷歌的AFL模糊测试工具在发现SQLite漏洞方面非常高效,但如今似乎已达到“自然饱和点”,难以再找到新的漏洞。相比之下,Big Sleep的LLM展示了其在识别高级安全问题方面的潜力。
AI在漏洞研究中的前景与挑战
谷歌在博客中指出,当前的LLM在配备合适工具时,确实可以胜任某些漏洞研究任务。然而,Big Sleep团队强调,这一成果仍属高度实验性,AI的发现能力还不具备完全替代模糊测试的可靠性。尽管如此,这一突破显示出AI在安全研究中的前景,尤其是在目标特定的漏洞检测方面,AI可能逐渐成为重要工具。
AI在网络安全中的应用越来越广泛,尤其是软件漏洞研究。就在上周,威胁情报公司GreyNoise利用AI工具检测到了针对常见物联网摄像头的漏洞利用企图。与此同时,AI安全公司Protect AI也开发了一种基于LLM的静态代码分析器,能够检测并解释复杂的多步骤漏洞,这进一步证明了AI在漏洞检测和分析中的独特优势。
除了检测已知漏洞,一些研究人员还在探索LLM代理如何利用已知和未知漏洞。AI不仅在发现安全问题上表现出色,还展现了在多步骤漏洞利用中的潜力。尽管目前这一研究仍处于初级阶段,但AI技术的发展为漏洞研究提供了新思路,并推动了网络安全技术的创新。
展望:AI与模糊测试的协同未来
谷歌和其他科技公司对LLM的研究表明,AI在漏洞检测和防御中的应用前景广阔。然而,正如谷歌所强调的,AI并非万能,它在一些特定场景下的表现可能与传统模糊测试相当甚至逊色。未来,或许AI和模糊测试的协同应用将成为网络安全研究的新趋势,通过融合不同技术手段,提高漏洞检测的效率和准确性。