机器学习算法在IDS中的应用-机器学习算法的应用

【51CTO.com快译】得益于近年来机器学习技术的飞速发展，人们正在将各种自动化且具有扩容预测能力的技术，运用到网络安全系统的加固上。

众所周知，网络安全的最常见风险来自入侵，其中包括：蛮力破解、拒绝服务、网络渗透等方面。而现如今，随着网络行为模式的改变，业界普遍认为单凭静态数据集的策略，是无法捕获流量的具体组成、并予以拦截的。因此我们有必要采用一种动态的方式，来检测和防御各种入侵。

也就是说：我们需要可修改的、可重复且可扩展的数据集，来学习和处理那些能够轻松绕过传统入侵检测系统(IDS)的复杂攻击源。下面，让我们一起讨论机器学习如何能够在入侵检测中发挥作用，以构建出更为强大与健壮的IDS。

与IDS相关的机器学习相关概念

在机器学习的各种算法中，无监督(Unsupervised)式学习算法可以从网络中“学到”各种典型的模式，并且能够在没有任何已标记数据集的情况下，报告异常情况。虽然它可以检测出各种新型的入侵，但是很容易出现误报(false positive alarms)的情况。因此，我们在此只讨论无监督式的K-均值聚类算法。另外，为了减少误报，我们可以引入已标记的数据集，并建立监督式机器学习模型，进而训练出网络中正常数据包与攻击流量之间的特征差异。此类监督式的模型能够熟练地处置各种已知攻击，并且能够识别出此类攻击的变种。因此，我们下面会讨论到的标准监督式算法包括：贝叶斯网络、随机森林、随机树、MLP、以及决策表。

数据集

在机器学习模型的开始阶段，最重要也是最繁琐的过程便是获得各种可靠的数据。在此，我们使用KDD Cup 1999的数据，来建立预测模型，从而区分入侵类攻击与真正有价值的流量连接。KDD Cup 1999是一个标准的数据集，它包括了在军事网络环境中所模拟出的各种干预模型，由4898431个实例和41种属性所组成。

它会跟踪如下四种攻击类型，每一个连接都会被标记为正常、或是具有攻击性。而且每一条连接记录大约都是由100个字节所组成。

拒绝服务：denial-of-service
R2L：来自远程机器的未经授权的访问
U2R：来自本地root特权的未经授权的访问
探测：监视并需要另一种检查

如下表所示，每一种类型都包含了具体的攻击形式，一共有21种。

KDD集合

如下表所示，我们总结出了任意一种基于TCP/IP协议的连接集的基础分类特征：

数据在能够被机器学习算法所使用之前，必须经过被特征选择等处理。有些元素特征很容易被发现，而其他的特征则需要通过实验和测试才能被找到。当然，由于某些特征是冗余的，而且将不同的类别予以区分可能意义不大，因此在IDS中使用数据集的所有特征并不一定能获得最佳的性能，有时甚至会增加系统的计算成本与错误率。

此处，数据集的主要贡献是通过引入专家建议的属性，有助于系统理解不同类型的攻击行为，包括上述提及的：检测DoS、探测、R2L和U2R等基本特性。下表便是来自不同领域的知识库所给出的内容特征列表。

机器学习算法的简述

K-均值聚类(K-means clustering)

如前所述，K-均值聚类是一种无监督式的学习技术。这是最简单、也是最流行的机器学习算法之一。它在数据中寻找不同的组，其中组的数量由变量K所表示。该算法基于数据集的特征，将不同的数据点分配给K中的一个组。基于不同的特征相似性，各个数据点会被采取聚类。

贝叶斯网络(Bayes Network)

贝叶斯网络是一种概率图形模型。它的原理是通过绘制出有向图形边上的依赖关系，进而充分利用到条件的依赖性。它假定所有没有被边缘所连接的节点，都是具有条件独立。而且它在创建有向无环图时，就利用到了该事实基础。

随机森林分类器(Random Forest Classifier)

随机森林是一种集成式的分类器，它通过合并多种算法来实现分类。这些算法在数据的随机子集上创建多个决策树，然后通过聚合每棵树的总票数，来决定测试的类别。同时，它也会给个别树的贡献程度分配权重值。

多层感知(MLP)

MLP是一种前馈式神经网络。它至少由三个层次所组成：输入层、隐藏层和输出层。在训练期间，我们可以通过调整各种权重或参数，来最小化分类中的错误。该算法在每个隐藏节点中引入了非线性(Non-linearity)。而反向传播则是用来通过参照错误，进而调整权重与偏差。

实现

下面，我们将使用Python及其广泛的库来实现IDS。当然，我们需要事先安装好Pandas(基于Python的大型数据集分析库)、NumPy(Python的一种开源类数值计算扩展)和Scipy(可用于数学、科学、工程领域的常用软件包，常用于计算Numpy矩阵，能与Numpy协同工作)。如果您使用的是Ubuntu系统，那么其对应的shell命令应该是：

sudo pip install numpy scipy pandas 
1.

首先，我们需要对数据集进行预处理，也就是说：数据集需要被下载并提取到程序对应的文件夹中。同时，该数据集应该是.csv格式，以方便Python的读取。因此具体命令如下：

# Import pandas 
import pandas as pd  
# reading csv 
file dataset = pd.read_csv("filename.csv") 
1.
2.
3.
4.

前面提到的各种机器学习算法都应当被存放在“神奇”的Scipy库中。通过以下步骤，您可以使用不同的模型，来快速运行目标数据集：

K-均值

import numpy as np  
from sklearn.cluster  
import KMeans  
print(dataset.describe())  
# to view the summary of the dataset loaded  
kmeans = KMeans(n_clusters=2)  
# You want cluster the threats into 5: Normal, DOS,PROBE, R2L and U2R  
kmeans.fit(X)  
prediction = kmeans.predict(dataset[0])  
# predicts the type for the first entry  
随机森林 
#Import Random Forest Model  
from sklearn.ensemble  
import RandomForestClassifier  
#Create a Gaussian  
Classifier clf=RandomForestClassifier(n_estimators=50)  
#Train the model using the training  
dataset clf.fit(dataset,dataset[:,LAST_COLUMN])  
#LAST_COLUMN is the index of the column with the labelled type of threat or normal  
pred=clf.predict(dataset) 
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.

朴素贝叶斯网络

from sklearn.naive_bayes  
import GaussianNB  
#Create a Gaussian Naive Bayes Classifier  
gnb = GaussianNB()  
gnb.fit(dataset,dataset[:,LAST_COLMN])  
pred=predict(gnb,dataset[0]) 
1.
2.
3.
4.
5.
6.

多层感知

From sklearn.neural_network  
import MLPClassifier  
#Create a Multi-Layer Perceptron  
clf = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5, 2), random_state=1)  
clf.fit(dataset,dataset[:,LAST_COLMN])  
pred=clf.predict(dataset[0]); 
1.
2.
3.
4.
5.
6.

结果

为了衡量机器学习模型的准确性，我们会引入诸如：平均准确度(Average Accuracy)、误报率(False Positive Rates)和漏报率(False Negative Rates)等不同衡量维度的参考指标。由于K-均值是一种无监督式算法，因此它被排除在了该指标之外。

如下面公式所示，平均准确度定义为：被正确分类的数据点与数据点总数的比。

显而易见，此处的“误报”是指那些被判定为威胁，而实际上并非为如此的数据流量。同理，“漏报”是指那些确实为威胁，但未被IDS所查出并报告的流量。

另一些可以参考与度量的指标还包括：精度和真阳性。其中：

精度是指发现的威胁与威胁总量的比率。
真阳性是指那些能够被成功地识别为威胁包，与全部能被识别和判定的数据包的比率。

应用的意义

从某种程度上说，当前所有的IDS都应该引入机器学习技术，以应对日益增加的网络安全威胁。具备机器学习的IDS，能够实现细粒度、高精度的自动化检测。籍此，企业可以使用各种检测结果来跟踪攻击源，阻止它们的进一步渗透，并优化自身的网络。另外，用户公司也不必再通过订购威胁特征签名，来被迫与新产生的攻击进行“时间赛跑”。当然，在不同的应用与检测场景中，不同的机器学习算法会各有所长。我们应该根据网络及用户流量的特性，选用最适合自身环境的基于机器学习的IDS方案。

原文标题：Evaluation of ML Algorithms for Intrusion Detection Systems，作者：Aman Juneja

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】