这五件关于机器学习的事，安全专业人士一定要了解-51CTO.COM

【51CTO.com快译】近期，专家们分享了一些有关数据完整性、模式识别和计算能力的最佳实践，来帮助企业充分利用基于机器学习的网络安全技术。

一、输入无用则输出必无用

网络安全初创企业Cylance的Matt Wolff说：在机器学习领域，有句老话叫做“无用的输入导致无用的输出”。对于机器学习所处的环境而言，那些无法产生足够多的数据以供其深入了解所处网络的各种状态的地方，则并非是有效果之处。

Wolff说：“只要数据能被呈现而且有用，那么机器学习就能随之变得有用。然而，如果数据本身并无任何信息含量，则机器学习也不会随着进行运作。”

IDC安全策略部的研究副总裁Pete Lindstrom 说：“我看好机器学习的契机。但据我所知，当前并无已查出的迹象证明，这种技术是肯定要比我们当前所使用的其他用来检测攻击的技术更为优越。”

输入与输出

Lindstrom说：组织最需要的可能就是使用机器学习来快速应对攻击。然而，却有过多的各种类型的信息被馈入到了安全生态系统。例如：网络包的活动信息、端点上的系统调用、以及网络上元数据级别的用户行为数据。因此，人们首先需要找出的是什么样的信息正在被馈入到系统中。

他进一步说：“你还必须理解的输入和输出，包括：被馈入系统的数据是什么性质和类型的?它们使用什么样的流程和技术来确定算法?以及它们可能会采取什么样行动?”

“网络安全分析师所面临的挑战是：由于这些技术的性质是如此动态变化的，以至于完全不能够想当然的认为，它们的输出就和其它的输出是如出一辙的。”Lindstrom解释道：“你不应指望未经过自己认真测试的解决方案去发挥功效。如果其目的是寻找网络上的异常活动的话，那么唯一用来确定何为网络异常的方法就是去让其学习您自己的网络，而不能将其放置到别人的网络并应用之。否则我们很可能将退回到那种基于签名特征的防御模式了。”

递增的复杂性

如果安全专业人员不够小心，他们可以会因为对流程缺乏理解，而将日益递增复杂性予以削减，而其输出将会和我们如今所运用的安全工具大为相同。Lindstrom客观的补充道：“但话说也回来，这其实并不可怕，因为我们今天的解决方案已经能阻断很多攻击了。”

二、机器学习不仅仅是发现模式

机器学习被普遍认为是模式的识别，其重点是识别数据的模式和规律。Cylance公司的Matt Wolff说：“虽然有些算法并非简单的模式匹配，但我是不会限制机器学习去寻找和发现模式的。”

作为组织的保卫者，安全分析师们试图在第一时间阻止事件的发生，或能极快的做出响应。Wolff指出：但是只要有人工参与做决策，就需要花费大量的时间去从事数据分析。然而，随着机器学习方法的引入，只要数据一旦被产生，分析人员就能尽快的做出决策。

Wolff 也提到：因为没有人工干预而全靠软件控制，机器学习可以针对攻击做出非常快速的反应或实时防御措施。数据一旦被生成，各种反应措施就会瞬间发生。这一点很重要的，因为您本来可以通过人工智能的方式自动阻断攻击的破坏，但是如果你在行动上引入人工的决断因素的话，那么在做出决断的时候则可能已经太迟了。数据可能会按照攻击者的意图泄露或被盗取。

机器学习潜在的洞察能力已经达到了人类所无法企及的程度。一位专家级安全分析师在他或她的职业生涯中可能会审查100000个事件，并找出与事件相关的数据。而机器学习的算法则能很快发现成千上万的事件。Wolff解释说：所以，鉴于机器学习能迅速收集到过去发生的一切，而单独一个分析师可能在其有生之年永远不会有足够的时间达到一个机器学习模型所能获取的数据级单位。

他补充说：“只要有足够的数据支撑，机器学习可以快速获得大量的经验。而且机器学习所寻找的信息可能是那些人类分析师所错过了的。”

三、生成一个机器学习模型需要强大的计算能力

如果您在处理的事务涉及到大数据或相当庞大的数据集，那么您要确保你有计算能力来进行机器学习。因为它需要通过数据学习来训练出一种计算密集型的模型。Wolff说：“通常情况下，您是不能在您的笔记本电脑上这样做的。多数情况下，您需要计算机的集群来进行计算建模。”凭借云服务提供商提供的服务器集群，您可以自由的上下扩容。另外，一些像微软Azure的服务还能提供一个机器学习的库以便公司进行部署。

如果您想在自己的组织内购买机器学习而且您有大量的数据的话，那么您很有可能会需要一个集群来运行它们。至于是否需用单颗CPU或GPU的集群，则完全取决于您想做什么类型的建模。

举例来说，Cylance公司就是通过有着强大计算处理能力的云计算平台来对其技术进行训练的。这些模型的优点是：一旦您训练了它们，而它们也学习到了，那么它们就只需要占有较少的CPU，就能告知您要了解的事务了。Wolff说： Cylance在云端使用数百台机器来训练其模型。一旦它们完成学习，您就可以将该技术置于普通笔记本电脑上，用常规CPU运行了。

四、需指导还是无指导的学习?这取决于您

在机器学习领域有两大阵营：那些坚持需要指导式学习的和那些推崇无需指导式学习的。专家建议您根据您的资源和环境去选择一个最适合您组织的。

在指导学习的模式下,分析师可以帮助进行系统的训练。而无指导学习则是自主的，它使用的一套算法并从其数据集中进行自行学习。

“就像每一个免疫系统是不同的那样，每一个网络也是不一样的。” 网络安全初创公司Darktrace的网络智能总监Justin Fier如是说。Darktrace是运用生物免疫系统原理来进行自我学习的软件开发商，它使用的就是无需指导式的机器学习。

Fier说：“任何拥有足够多的资源和耐心的对手都能跨越您的系统边境。我们所采取的方法就正如您自身的免疫系统那样，产生自我意识。”。一旦它被部署到一个网络中，公司的企业免疫系统会持续学习到什么是网络的正常状态。通过这种方式，分析师就能够实现以“大海捞针”的模式筛选出不属于正常状态的微小异常了。

“我们使用的是无需指导的方式，意味着我们并不人工帮助去训练设备。只要任由设备按照一般生命体的模式去学习到各种数据的不同特点，以便我们后期进行摄取和建模，那么所有这些都可以在没有任何人工训练的状态下无指导的完成。”

“我不会去妄评哪个方法更好，”Fier解释道。这完全归结为资源。曾经一次，Fier为一家举办体育赛事的公司部署Darktrace的proof-of-value技术产品。对方网络管理员忙得都要抓狂了。他曾形容他铺设的光缆都足够往返月球五次了。因此，他根本没有时间去做proof-of-value产品的评估。

Fier说：“我们帮助他将Darktrace工具植入网络并将数据指向该设备，就这么简单。我们并不需要花时间去建立配置文件或告诉工具做什么。它已经内置了可以从数据中进行学习的能力。”

一种方法真的会比另一种好吗?这取决于您想要部署的环境。他还说：“我宁可选用无需指导的方式，因为我不需要分配一个团队的人去进行设置，并数据集训练该设备。”

五、机器学习可为防止恶意软件提供预执行能力

各家公司都采用多种技术来保护他们的IT基础设施免受恶意软件的攻击。例如：传统的基于特征码的检测方法、沙盒技术和现如今的机器学习。新型安全公司CrowdStrike的Sven Krasser 指出：他的公司和其他安全厂商就是通过机器学习所提供的预执行技术来提供恶意软件攻击的防护的。

例如：CrowdStrike的工具可以确定恶意代码的存在，而不依赖于签名、检测那些已知和未知或是零日攻击的恶意软件。运用机器学习，您可以创建一个引擎或是算法，来理解什么是零日的或者恶意的攻击。与使用签名截然相反的是，机器学习允许分析师查看某一个事件的所有有关数据，并依据其检测迅速的做出决定。Krasser如是说。

各个公司的另一个逐渐增长的担忧是高级持续性威胁(APT)，即一个未经授权的人获得网络访问权限，并能保持长期不被发现的状态。而其目的是为了窃取数据而不是对网络或组织造成破害。

“在应对各种APT时，您需要意识到的是您所对付的是人类。他们只需要登录到公司网络的一台机器上，然后横向移动至其他设备上。”Krasser说。“公司面对的这种风险是一种持久性的威胁，所以光检测该威胁本身是远远不够的。”

公司必须不断监控这些类型的攻击。尽管机器学习仍然是防御APT攻击的一部分，而公司需要应用一些高级别的机器学习的技术。例如：CrowdStrike公司就在端点系统上使用一个“攻击指标”的检测方法，其重点是检测攻击者想要达到的目的，而不管恶意软件是否在攻击中被利用了。

举个例子：攻击者可能部署一个矛式钓鱼的攻击，来诱使受害者点击一个可以感染机器的链接或是打开一个文档。一旦得逞，攻击者将默默的执行另一个能够藏在内存中或磁盘上，而且在系统重新启动后仍可保持有效的进程。而下一步就是攻击者用命令的形式让该待命进程主动去联络其受控制的站点。

攻击指标(IOAs)就能捕捉到这些步骤的执行、对手的目的和其试图获取的结果。而它们并不专注于攻击者实现其目标所使用的特定工具。通过监控这些方面的执行情况，并通过一个有状态的执行检查引擎去的收集其指标和使用情况，分析人员就可以确定一个攻击者是如何成功的获得对网络的访问并推断其意图所在了。

Krasser说：“保护组织的IT基础设施，需要比机器学习更为广阔的宏观方面的考量，这就是为什么企业需要混合的解决方案的原因。”

原文标题：5 Things Security Pros Need To Know About Machine Learning，作者：Rutrell Yasin

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】