慎言机器学习的9大企业安全用例-51CTO.COM

安全产品中的人工智能(AI)和机器学习(ML)在市场营销上炒作太甚，各种花哨的术语反而把这些工具实际的用途给弄得云山雾罩难以理解。那么，安全中的AI和ML，当下到底是个什么状况呢?

不妨先从消除最常见的误解开始：企业安全软件中基本没有融入什么真正的人工智能。AI这个术语频繁出现不过是市场营销的功劳，跟该技术本身的关系极其有限。纯粹的AI，应该能够重现认知能力。

话虽如此，人工智能众多子领域之一的机器学习，倒是正被植入一些安全软件中。但即便是机器学习这词儿，用得也有些乐观了。

当前安全软件中机器学习的使用，更像是上世纪80和90年代基于规则的“专家系统”，而非真正的AI应用。如果你曾用过贝叶斯垃圾邮件过滤，并以成千上万的已知垃圾邮件和正常邮件加以训练，你就会对机器学习的工作机制有一定了解。大多数情况下，自训练是不太可能的，需引入包括编程在内的人工干预动作来更新ML的训练。安全中存在太多变量、太多数据点，保持训练更新而有效是非常困难的。

但如果能以大量数据加以训练，并由非常清楚自己在干什么的专家来使用，机器学习也可以变得非常有效。虽然复杂系统也不是不可能，但机器学习在更有针对性的任务或任务集上的表现，要优于在内容宽泛的任务上的表现。

机器学习的强项之一是异常检测，这是用户及实体行为分析(UEBA)的基础。简单讲，UEBA所做的，就是确定给定设备表现或承受的行为是否异常。UEBA天然适用于很多主流网络安全防御行为。

机器学习系统如果训练深入而良好，大多数情况下也就定义出了已知良性事件。这能让威胁情报或安全监视系统专注于识别异常。

但如果ML系统只以供应商自己的通用数据加以训练，会发生什么情况?如果用于训练的事件数量不足呢?或者，缺乏定义的异常点太多，导致背景噪音不断增大，又会怎样?

你可能会被企业威胁检测软件的痛苦之源给拖垮：无穷无尽连绵不绝的误报!也就是说，如果不持续不断地训练机器学习系统，就得不到ML应提供的真正优势。而随着时间流逝，你的系统将变得越来越没效果。

除去上述注意事项，机器学习可以弥合安全过程，并为安全运营中心(SOC)员工提供建议。机器学习体现了更强大的AI系统可能带来的光明前景。事实上，当前网络安全领域中，机器学习已经在发挥作用了。

机器学习的9大企业安全用例

1. 检测并辅助挫败正在进行中的网络攻击

或许我们无法在攻击发生前就关上它们侵入的大门，至少现在还不能，但机器学习可以抢在人类前面发现入侵指标，然后建议可采取的缓解行动。可以采用机器学习检测未知DDoS攻击的程度，也能用它标定攻击流量，然后自动产生用以阻止攻击的特征签名。

2. 威胁情报

机器学习善于分析大量数据并分类所发现的各种行为，只要发现超出正常基准的东西，便会立即通报人类分析师。

机器学习还是快速甄别海量数据的倍增器，可以推动甄别工作以大幅超出人工判断的速度进行。恶意黑客常会使用过载战术拖垮安全运营中心。虽然说起来容易做起来难，但威胁检测系统越贴近实时就越有效。

3. 识别漏洞，确定漏洞优先级，缓解漏洞

这3个动作应该是所有企业的经常性工作，但如果有套靠谱的机器学习系统每天执行这些操作，企业安全中最大的隐患——未修复漏洞，可能就不用再过多关注了。

4. 安全监视

是跟踪网络流量、内部及外部行为、数据访问和一系列其他功能及行为情况的过程。编程恰当的话，机器学习是可以消费大量数据来查找异常的。所以，运用ML，可能才是在一系列产品所产生的众多日志文件和错误消息中游刃有余地旋转腾挪的正确姿势。

5. 检测包括勒索软件网络钓鱼攻击在内的恶意软件

勒索软件家族日益发展壮大。机器学习可能是我们能够对抗变种繁多的勒索软件的唯一武器，基于特征签名的方法面向过去，只能检测出昨天的勒索软件。异常行为检查的能力正被应用到勒索软件追踪工作中，效果良好。

6. 审查代码查找漏洞

敏捷安全开发运维(DevSecOps)的真言之一，就是“安全即代码”。

开发人员应该知道怎样安全编码，但机器学习可以辅助自动化该安全编码过程，它可以分析代码，查找常见编码缺陷和可被利用的漏洞。事实上，机器学习甚至可以被当做教导编程新手的工具。

7. 数据分类

为符合数据隐私及数据保护规定，你首先得清楚自己所保护的数据都有哪些特征。机器学习可被用于扫描新进入的数据，将之按敏感度等级分类，以便你的系统可以按所需方式提供保护。

8. 蜜罐

有一个特定的领域——蜜罐，是适合接近真正AI的深度学习技术可与当下自动化缓解技术联合应用的。

在企业网络中围绕互联网部署蜜罐，可以收集那些能被标记为恶意的数据。蜜罐检测到的每个事件或流量实例都是100%恶意的。只要有足够的蜜罐和数据，就可以运用深度神经网络来创建高置信度的攻击检测模型。

9. 预测并自适应未来威胁

已有少数公司在研究预测性安全分析。预测分析显露出了商业智能的一些前景。类似的机器学习技术是否能增强到可投射出未来的漏洞和数据泄露?答案尚无定论。

探悉事实真相

有专家认为，当前根本没有基于人工智能的产品。这话可能有些夸张了。

AI是个涵盖很广的术语，可以泛指包括机器学习在内的很多技术，甚至一些技术上并非人工智能的技术都可以代指。但如果从最严格的意义上看人工智能，那它就只指具备认知能力的计算机系统。对此，有人坚称，当下“基于AI”的安全产品都是“假货”。

但AI潜力巨大，在未来的安全领域中必将起到重要作用。然而，今天的企业安全中，并没有多少成功部署了AI的例子。倒是机器学习还有些安全用例。

安全产品中的AI炒作太甚，令人无奈。

太多安全供应商吹嘘自己的产品应用了AI技术，但实际上却仍是用蛮力在连线固定规则，而非应用智能。那么CSO/CISO该怎么询问供应商，才可以看破他们过度包装机器学习的忽悠伎俩呢?

首先你得了解训练ML或AI所用的具体机制。然后你可以问：“你的机器学习是怎么学的?”“训练该ML需要多少数据?重训练隔多久一次?与该学习算法协作的机制是什么?人类怎么给该算法打分?该ML或AI是存档数据集也能处理还是只能处理在线数据?”

当然你也可以在实验室中复现用户企业环境，然后聘用信誉较高的红队来反复入侵该环境，从而评估基于AI的安全解决方案。

结语

AI应用到各行各业中只不过是个时间问题，而这里的各行各业就包括了网络犯罪。每次安全界弄出个新的防御，网络罪犯就会开发出绕过这种防御的方法。AI则会大幅加速这一周期。可以想象一下这样的场景：智能犯罪系统每时每刻都在试图侵入银行、医院和能源公司。当然，这些机构的AI系统将会以每秒数百次的快捷操作来应对，将网络罪犯拒之门外。这是AI将呈现的挑战与机遇。

【本文是51CTO专栏作者“”李少鹏“”的原创文章，转载请通过安全牛（微信公众号id:gooann-sectv）获取授权】

戳这里，看该作者更多好文