网络安全保卫者正在扩展他们的AI工具箱-51CTO.COM

科学家正利用一种称为深度强化学习（DRL：Deep Reinforcement Learning）的人工智能技术来保护计算机网络，并迈出了关键一步。

当在严格的模拟环境中面对复杂的网络攻击时，深度强化学习在95%的时间内有效阻止对手达到目标。测试结果为自主人工智能在主动网络防御中发挥作用提供了希望。

美国能源部太平洋西北国家实验室（PNNL）的科学家在一份研究论文中记录了他们的发现，并于2月14日在华盛顿特区人工智能促进协会年会期间，在网络安全人工智能研讨会上介绍了他们的工作。

项目起点是开发一个模拟环境，以测试涉及不同类型对手的多阶段攻击场景。为实验创建这样一个动态攻防模拟环境本身就是一个成果。该环境为研究人员提供了一种在受控测试环境下比较不同基于AI防御有效性的方法。

这些工具对于评估深度强化学习算法的性能至关重要。这种方法正在成为网络安全专家的强大决策支持工具，DRL是一个具有学习能力、适应快速变化的环境和自主决策能力的防御模式。以往其他形式的人工智能是检测入侵或过滤垃圾邮件的标准，但深度强化学习扩展了防御者在与对手的日常对峙中协调顺序决策计划的能力。

深度强化学习提供了更智能的网络安全、更早发现网络环境变化的能力，以及采取先发制人措施挫败网络攻击的机会。

介绍该团队工作的数据科学家Samrat Chatterjee表示：“一个有效的网络安全人工智能代理需要根据它所能收集的信息以及它所做出的决策结果来感知、分析、行动和适应。”“深度强化学习在这个领域具有巨大的潜力，因为系统状态和可选择行动的数量可能很大。”

DRL结合了强化学习（RL）和深度学习（DL），尤其适用于需要在复杂环境中做出一系列决策的情况。就像刚开始走路的孩子从磕磕碰碰和擦伤中学习一样，基于深度强化学习（DRL）的算法是通过对好决策的奖励和对坏决策的惩罚来训练的：导致理想结果的良好决策得到积极奖励（以数值表示）的支持；通过扣除奖励来阻止导致不良结果的不良选择。

该团队使用开源软件工具包OpenAI Gym作为基础，创建了一个自定义的受控模拟环境，以评估四种深度强化学习算法的优缺点。

同时使用了MITRE公司开发的MITRE ATT&CK框架，并结合了三个不同对手部署的7种战术和15种技术。防御者配备了23个缓解措施，试图阻止或阻挡攻击的进展。

攻击的阶段包括侦察、执行、持久性、防御规避、指挥和控制、收集和过滤（当数据从系统中传输出去时）等战术。如果对手成功进入最后的过滤阶段，则攻击被记录为获胜。

Chatterjee表示：“我们的算法在竞争环境中运行，这是一场与意图破坏系统的对手的竞争。是一种多阶段攻击，在这种攻击中，对手可以追求多种攻击路径，这些路径可能会随着时间的推移而改变，因为他们试图从侦察转向利用。我们的挑战是展示基于深度强化学习的防御如何阻止这种攻击。”

DQN优于其他方法

该团队基于四种深度强化学习算法：DQN（深度Q-Network）和其他三种变体来训练防御性代理，接受了有关网络攻击的模拟数据训练，然后测试了他们在训练中没有观察到的攻击。

DQN表现最好：

低等复杂的攻击：DQN在攻击阶段中途阻止了79%的攻击，在最后阶段阻止停止了93%的攻击。

中等复杂的攻击：DQN在中途阻止了82%的攻击，在最后阶段阻止了95%的攻击。

最复杂的攻击：DQN在中途阻止了57%的攻击，在最后阶段阻止了84%的攻击，远远高于其他三种算法。

Chatterjee说：“我们的目标是创建一个自主的防御代理，它可以了解对手最有可能的下一步行动，并对其进行规划，然后以最佳方式做出反应，以保护系统。”

尽管取得了进展，但没有人愿意将网络防御完全交给人工智能系统。相反，基于DRL的网络安全系统需要与人类协同工作，前PNNL的合著者Arnab Bhattacharya说。“人工智能可以很好地防御特定的战略，但不能很好地理解对手可能采取的所有方法。我们离人工智能取代人类网络分析师的阶段还很远。人类的反馈和指导很重要。”

除了Chatterjee和Bhattacharya，研讨会论文的作者还包括PNNL的Mahantesh Halappanavar和前PNNL科学家Ashutosh Dutta。这项工作由能源部科学办公室资助，推动这项具体研究的一些早期工作是由PNNL的“科学中的人工推理数学”计划通过实验室指导研究与开发计划资助的。