数据科学与机器学习方法对网络安全的影响-计算机的网络安全

一、背景

由于对数字化和物联网的日益依赖，各种安全事件，例如未授权访问、恶意软件攻击、数据泄露、拒绝服务攻击（DOS）、分布式拒绝服务攻击（DDOS）、网络钓鱼等等，此类安全事件近年来以指数级的速度增长。在2010年，据统计安全社区已知的恶意软件可执行文件不到5000万个。根据相关研究机构的统计数据，到2012年，它们增加了1亿，而在2019年，安全社区已知的恶意可执行文件已经超过了9亿，而且这个数字可能还会增长。此类的网络攻击事件会给社会国家和每个人带来巨大的安全隐患，因此，如何准确地识别各种已有的或者未曾见过的网络攻击事件，并智能地保护相关系统免受此类网络攻击，是迫切需要解决的关键问题[1]。

网络安全本质上是一套技术和过程，是为了保护计算机、网络、程序和数据免受攻击、损坏，或未经授权的访问。近年来，网络安全在计算领域的技术正在发生着巨大的变化，而数据科学正在推动这一变化，机器学习，作为人工智能的核心部分，可以在从数据科学领域发挥至关重要的作用，利用机器学习可以显著地改变网络安全的格局，而数据科学正在引领一种新的科学方法，此类技术的流行程度日益增加，如图1.1所示，2014年流行程度指数小于40，而在2019年已经超过了70。分析网络安全数据，构建正确的工具和流程来成功地防止网络安全事件，这不仅仅是一套简单的功能需求和关于风险、威胁或漏洞的知识。为了简单地提取安全事件的见解或模式，可以使用一些机器学习技术，如特征工程、数据聚类、分类和关联分析，或基于神经网络的深度学习方法，从而做出合理的决策。

图1.1 数据科学网络安全流行趋势

二、研究挑战

国内外的研究人员已经考虑了从数据中提取信息的基本概念与原则，这些基本方法和基本原理是从大量的数据分析研究中得出的。从数据中提取有用的信息应该通过已有的规范的步骤来处理整个流程。数据科学需要在使用它的上下文中进行详细的考虑和结果评估，因为提取的信息对于帮助给定程序中的决定过程是非常重要的。相关性发现是网络安全领域应考虑的数据科学基本概念之一，它通常提供相关数据项的详细信息，特别是我们已经了解的数据项的数量，从而大大减少了未知的不确定性。微软引入了TDSP，它为数据科学项目创建了一个生命周期。随后通过对KDD过程、CRISP-DM、TDSP和FMDS进行比较，其中FMDS、CRISP-DM和TDSP被使用范围最广，因为它们被认为是最受欢迎的，同时它们也是为机器学习与数据科学领域提出的，这些技术与网络安全领域有非常大的关联[2]。分析网络安全数据，构建正确的工具和流程来成功地防止网络安全事件，这不仅仅是一套简单的功能需求和关于风险、威胁或漏洞的知识。为了简单地提取安全事件的见解或模式，可以使用一些机器学习技术，如特征工程、数据聚类、分类和关联分析，或基于神经网络的深度学习方法，从而做出合理的决策。

三、网络攻击安全挑战

这种风险通常与许多攻击相关，通常我们考虑三个安全因素，首先是威胁，即谁在攻击；其次是漏洞，即正在攻击什么；最后是影响，即攻击做了什么。安全事件是一种威胁到信息和系统的机密性、完整性或可用性的行为，可能导致大量或单个的系统和网络受到攻击的几种类型的网络安全事件有：

未经授权访问网络、系统或数据信息都是不安全的行为，存在很大的隐患；

恶意软件被故意设计成对计算机、客户端、服务器或计算机网络造成损害的程序或软件，对系统会产生巨大的影响；

拒绝服务（DOS）是一种攻击，旨在关闭机器或网络，使目标用户无法访问它；

钓鱼是恶意入侵行为，用于广泛的恶意活动，通过人与人之间互动完成，攻击者企图通过电子邮件、文本或即时消息，将自己伪装成受信任的个人或团体，参与获取敏感信息[3]。

四、数据科学与网络安全数据科学

我们生活在一个充满着数据的时代，数据驱动了许多的产业。从数据中发现隐藏有趣的知信息的过程被人们称为数据挖掘，为了用现实数据来理解和分析生活中的现象，我们使用了各种科学的方法、机器学习等，这些通常都被称为数据科学。数据科学的一般定义是通过使用科学的方法从数据中提取信息以及发现新事物。数据科学可以利用存储、计算和行为分析等等的技术优势来建立新的网络安全方法。一般来说，由分布式系统建立的集群存储使得收集和存储大量数据变得更加容易

数据科学的应用使得访问大量的数据使解决具有复杂性的安全问题成为可能。利用海量的大数据进行数据挖掘，往往数据越多，越能创建更准确和精确的分析。在网络安全领域中，数据科学通过利用海量数据、高性能计算以及数据挖掘的方法来保护用户免受网络攻击，在信息安全领域发挥了重要的作用。

数据科学在很大程度上是由数据的可用性驱动的，数据集通常代表由几个属性或特征和相关事实组成的信息记录的集合，而网络安全数据科学就是基于这些集合的，因此，了解包含各种类型的网络攻击和相关特征的网络安全数据的性质是很重要的。因为从相关数据来源收集的原始安全数据可以用来分析安全事件或恶意行为的所属模式，基于此可以建立一个数据驱动的安全模型，以实现我们的目标。在网络安全领域存在一些数据集，包括入侵分析、恶意软件分析、异常、欺诈或垃圾邮件分析，因此在图2.1中，总结了几个这样的数据集，包括它们的各种特征以及在互联网上可访问的攻击，同时罗列了在基于机器学习下不同的网络应用程序中的使用[4]。

图2.1数据科学中的分析阶段

通过对这些安全特性进行分析和处理，根据需求构建基于目标机器学习的安全模型，并最终实现数据驱动，才是要达到的目的。因此，网络安全数据科学的概念结合了数据科学和机器学习，以及各种安全事件的行为来进行分析。将这些技术结合产生了网络安全数据科学这种方法，指的就是从不同的来源收集大量的安全事件数据以及使用机器学习的方法检测安全风险或攻击，最终发现高效的或者最新的数据驱动模式。

五、总结与展望

数据科学正在逐渐改变世界上的产业，它对智能网络安全系统和服务业的未来至关重要，因为网络安全的一切都是关于数据的。当我们检测网络威胁时，通常是在以日志、网络数据包或其他相关来源的形式对安全数据进行分析，而在传统意义上，安全专业人员并不会使用数据科学相关知识来对这些数据源进行检测，相反，他们使用比如签名、手动防御等等方法，尽管这些技术在特定情况下都有它们自己的优点，但同时也需要太多的人为操作才能跟上不断变化的网络威胁环境，而数据科学则可以应用在该领域并产生重要影响，借助数据科学结合机器学习算法可以从训练数据中学习和提取安全事件，增强洞察力，用用来对安全事件进行检测和预防，相信在未来，数据科学会被更加广泛地应用到网络安全领域。

参考文献

[1]Kotenko, Igor, Igor Saenko, and Alexander Branitskiy. "Machine learning and big data processing for cybersecurity data analysis." Data science in cybersecurity and cyberthreat intelligence. Springer, Cham, 2020. 61-85.

[2]Thanh, Cao Tien. "A Study of Machine Learning Techniques for Cybersecurity." 2021 15th International Conference on Advanced Computing and Applications (ACOMP). IEEE, 2021.

[3]Alhayani, Bilal, et al. "Effectiveness of artificial intelligence techniques against cybersecurity risks apply of IT industry." Materials Today: Proceedings (2021).

[4]Shaukat, Kamran, et al. "A survey on machine learning techniques for cyber security in the last decade." IEEE Access 8 (2020): 222310-222354.