大数据时代,由于数据体量巨大、分布广泛给安全问题带来了新的挑战。在真实空间和数据空间之间存在着相对应的、平行的关系,在真实空间里的任何一个活动、交互和行为,在数据空间里都有着相对应的表现。因此,数据空间里存在的手段和解决办法都能够影响到真实空间。数据空间可以发挥的作用是无所不在的,这也是大数据价值所在。然而,现实中企业、个人乃至物体的信息,比如移动互联网、云计算和物联网等,都是产生大数据的载体,也真正存在着大数据,同时它们也成为攻击的载体。
APT攻击是一种有组织、有特定目标、隐蔽性强、破坏力大、持续时间长的新型攻击和威胁。它的主要特点是手段多样、目标明确和持续时间长。当前,APT攻击已经成为互联网安全领域关注的一个大热点,并且持续升温。
防不胜防的APT
APT是高级持续威胁,所谓的“高级”体现在其攻击行为特征的难以提取、攻击渠道的多元化和攻击空间的不确定性上。首先,APT获取权限是通过零日攻击实现的,然而通过获取和分析相应攻击的指纹特征来识别攻击具有明显的滞后性,这导致通过实时监测发现APT攻击不可行。APT注重对动态行为和静态文件的隐蔽,比如隐蔽通道、加密通道等,几乎所有的APT都具有这样的特点;其次,APT攻击渠道的多元化导致很难使用技术手段建立一张防护网来防止攻击;最后是APT攻击空间的不确定性,即任何一个阶段、任何一个网络都有可能成为攻击的目标,包括边缘性的、非核心的节点。
如果把网络上的安全威胁看成是人体的一些疾病或者肿瘤,那么APT攻击则相当于一种慢性的、分阶段的侵蚀,是“慢性疾病”,而慢性疾病往往是最难治愈的。大数据的特点是数据规模大、数据分布无所不在,这使得数据的价值密度变得更小、更分散,从而导致很难聚焦于高价值的数据,这是大数据本身所带来的攻击检测难点。据统计,攻击从产生到被发现平均耗时5年,而我们是否能够保证在5年的时间内一直关注某些数据?这在物理世界都很难坚持,更何况是在数据无所不在的网络空间。然而,攻击者则可能一直持续关注着这些敏感数据,这就造成APT攻击防不胜防。
大数据与APT攻击检测
目前,APT攻击检测围绕着3个方面:恶意代码检测、主机应用保护、网络入侵检测。
孤立地进行恶意代码的检测和主机应用保护,对防御APT攻击来说是很难奏效的。简单来说,解决思路主要有以下几方面:首先,虽然APT的载体存在于大数据中,给APT检测和对抗带来了一系列困难,但是也可以利用大数据对APT进行一些检测和应对。如果有各层面、各阶段的全方位信息数据,即对任何交互行为都进行检测,可以利用不同的数据找到不同的阶段进行APT分析;其次是全流量分析,其核心是对全年的数据进行存储,在此基础上做宏观的分析、微观特定事件的检测。由于很多流量行为存在统计意义上的普适性规律,因此,要在大数据的情况下进行小样本的异常检测;最后要解决大数据空间的不确定性问题。APT攻击是以分布式方式进行的,利用大数据组织、整理相关信息,提高截获攻击者攻击路径的概率。另一种可能是攻击目标是确定的,这种情况下将数据进行存储,形成所谓的历史模式数据,利用对历史模式数据进行重放来发现攻击线索。
大数据的4个难题
上述方法都是把相关的全部数据做完整的处理与分析。通常,大数据具有4个特征:体量大、速度快、数据格式和类型不同、数据真实精确(volume、velocity 、variety和veracity)。这给数据存储带来一系列难点。对于AP T而言,更多的是针对网络空间,而网络空间本身具有数据类型和数据格式不一样,日志信息的行为、内容、结构化各异的特点。利用大数据进行有效地监测,不仅可以用来解决APT攻击问题,也可以应用到其它相关领域。对于大数据来说存在着一些共性、普世性的东西,其中包括4个需要关注的难题:
1.数据的复杂性。大数据的规模已不再是导致复杂性的第一要素,比如连接网络的关系更复杂。由于一些数据包含了某些非法的行为,使得对数据复杂性的定义已经不能使用所谓的规模来定义,而是需要使用一些新的规则。要把数据复杂性解决好,就需要找到数据的传播路径。如何获得传播路径呢?一个办法就是搜索,即把所有的可能路径都找出来,然后判定哪些是异常的、有问题的和恶意的。这种判定方法把所有的可能性存下来,然后再去做判定,必然会导致规模巨大。如果从中找到稳定的结构特征,如扩散行为、攻击行为等,就可以采取一系列步骤。利用大数据进行这样的计算,就是寻找结构规则性和网络重合模式,进而解决现有的难点。
2.计算的复杂性。当数据存在于整个空间的时候,它实际上是一个主体存在多个状态。网上的攻击行为出现后,将其存储下来进行分析,分析之后再获取网上的攻击行为,然后再对其进行筛选,这是永不停机的工作过程。最原始的输入可能是网络空间里、全流量数据中与APT持续攻击之外的某个信息,在非停机的情况下,传统的制造方法、数据的计算以及思路都会与实际想要的结果存在偏差,甚至南辕北辙。因此,需要找到一种新的、简约式的集中计算进行合适数量的数据分析,并不是全量数据。把所有的数据全部存储进行分析是不可行的。
3.系统的复杂性。由于获取到的数据是不同的,因此,需要进行存储以便于做深入分析。当进行数据管理和查询时,需要一系列的结构、非结构、半结构化处理。一般的关系查询、网络查询和建制查询等需要各种手段和技术,不存在一种技术或手段能解决所有的问题。利用大数据进行APT攻击检测,需要一个基于相关数据生命周期的灵活的系统架构。
4.大数据的学习。所谓学习是指根据已发现的事物或知识对未知的事物或知识进行判定。在APT空间里,学习是指预测和泛化,这是因为大数据环境下数据的碎片化与无边界,使得传统解决方法中的一些基本假设有了实现的可能。