随着威胁参与者不断发展其策略和技术(例如,在加密流量中隐藏攻击),保护组织变得越来越具有挑战性。
ML 加密流量分析
为了帮助解决这些问题,许多网络安全和运营团队更多地依赖机器学习 (ML) 技术来识别网络流量中的故障、异常和威胁。但随着加密流量日益成为常态,传统的ML技术也需要发展。在本文中,我想看看今天使用的ML模型的类型,并探索如何将它们与Deep Packet Dynamics(DPD)技术配对,以了解可能隐藏在加密流量中的威胁。
要成功使用 ML、NOC 和 SOC 团队,需要三件事:数据收集、数据工程和模型评分。
数据收集涉及直接从网络数据包流中提取元数据。数据工程是将原始数据移动到正确的位置并将其转换为模型输入的过程。这包括数据标准化和功能创建等任务。模型评分是将 ML 算法应用于数据的最后阶段。这包括训练和测试模型的必要步骤。
从历史上看,ML一直依赖于批处理模型。对于花园式大数据,传统的数据管道运行良好。模型使用历史回顾性数据进行离线训练。稍后,它将部署在已保存以供分析的数据上。
它的工作原理是这样的:首先,团队创建了一个高度工程化的数据管道,将所有数据移植回一个巨大的数据湖中。接下来,通过运行查询和预处理脚本来创建历史要素。最后,在大量数据集合上训练模型。准备就绪后,训练的模型将移动到生产环境,这需要将每个数据处理步骤转换为面向外部的应用程序。
存储和处理大量数据(即需要专用工具进行存储和处理的“大”数据,而不是以传统数据库记录格式存储)的成本可能过高,这可能会使人望而却步。这种 ML 方法需要大量的扩展和资源。它对于具有较大时间范围的模型开发和预测模型非常有用。
但是,随着网络流量的增长,有一种较新的替代方案称为流式ML。它利用的资源占用空间要小得多,同时超过了最高带宽网络的性能要求。当与加密流量分析相结合时,组织拥有一个强大的工具,可以提供有关网络威胁的可见性。从历史上看,对网络流量的研究是使用深度数据包检测(DPI)完成的,但是随着越来越多的流量现在被加密,它变得越来越没有用处。这推动了市场采用一种称为Deep Packet Dynamics(DPD)的新技术,该技术提供了丰富的元数据集,无需有效载荷检查即可完成。
DPD 功能包括流量特征,如生产者/使用者比率、抖动、RST、重新传输、数据包长度和时间序列 (SPLT)、字节分布、连接设置时间、往返时间等。它提供了非常适合 ML 的高级功能,并且可以有效地识别简单和增强方法无法捕获的模式和异常。但它们不能以追溯方式计算,它们必须在流量实时流经时捕获。这种形式的密码分析通过消除解密和检查流量的处理密集型中间人(MITM)技术来增强隐私。
通过将流式处理 ML 与 DPD 相结合,SOC 和 NOC 团队可以更轻松地实时检测高级威胁。例如,这种方法可以发现网络上正在进行的勒索软件攻击,包括横向移动,高级网络钓鱼和水坑攻击,内部威胁活动等等。这种方法还消除了加密盲区,并恢复了网络防御者的可见性。
到2025年,几乎所有的网络流量都将被加密。随着加密的增长(以及新的威胁),组织必须更加依赖流式ML(包括机器学习引擎)和加密流量分析,以获得对异常流量的必要可见性。没有它,攻击者将继续绕过传统的安全机制,隐藏在加密中,并成功完成攻击。