在刚刚落幕的第20届Blackhat大会上,“机器学习”被反复提及,人工智能在网络安全各个领域得到广泛探索和应用尝试。人工智能在网络安全领域已经从早期的概念炒作,向方案落地转变。
当人工智能遇上网络安全,在纷繁复杂的技术与应用方案背后,可以归纳成执行层、感知层、任务层和战略层四大层面的智能化,不仅帮助解决现有的一些安全难题,未来的发展也非常有想象空间。
网络安全新战场需要AI填补人才紧缺
目前网络安全已经进入了一个崭新的时代,面向各种新战场,需要新的架构、新的方法、新的编程语言来支撑我们应对越来越艰巨的战斗。新战场以黑产对抗、反勒索软件、反Insider-based APT、物联网/车联网这些新方向为代表。比如很多摄像头、智能门锁、儿童手表,都是成批次的被攻破,车联网与智能车的安全问题也引起业界的严重关注和顾虑。
众所周知,在移动互联网时代,安卓的碎片化生态几乎已经失控了。不少手机厂商对某些低版本的手机系统都不再进行升级,尽管还有很多用户在用,这就带来了严重的安全隐患,恶意代码可以轻易通过攻击几年前的安卓漏洞来获利。进入物联网时代,这种情况会更加严重。很多硬件厂商在开发产品的时候完全没有考虑引入专业安全服务,最终面临严峻的安全漏洞时却难以应对。
一方面是新的攻击不断涌现,另一方面防守方却显得捉襟见肘了。安全的核心是对抗,而对抗是多维度的、持续的。为了进行有威慑力的对抗,最大的挑战还是缺少高素质安全专业人才。在这种情况下,我们只能靠AI,也就是靠人工智能来填补人才空缺。
对于人工智能的看法业界出现两极分化:一种观点认为AI可以帮人类完成一切工作,另一种认为AI会毁灭人类。事实上没有绝对的黑白,AI的作用也远远没有这么极端。AI能做什么?吴恩达教授给出了很好的解释:一方面,正常人类1秒内能做出的判断,AI也能做的很好。比如无人驾驶时代已经悄然来临,人脸识别、语音识别,现在机器也能够做到很高的准确率。另一方面,通过大量已经发生过的具体重复事件,AI能很好的预测即将发生的事情。
当AI遇到网络安全
当AI遇到网络安全时,又会发生什么样的化学反应呢?
网络安全是一个非常复杂的体系,可以分为执行层、感知层、任务层和战略层。现在AI已经可以在执行层和感知层有不错的应用,同时在任务层和战略层已经开始摸索,但还处于比较初期的阶段。
(一) 执行层:显著提高安全运维效率
在执行层,AI可以显著提升安全工具的规则运维效率。规则体系的触角在整个安全网络体系里面的延伸非常广泛,包括像杀毒、WAF、反SPAM、反欺诈等。这些领域在传统模式中需要大量的人力来维护,比如像反欺诈系统里面可能有上千条规则,这些规则之间存在着很多的冲突,某些规则组合甚至超出了人的理解能力,人在维护这些规则的时候也常常会出现问题。
而依靠AI,就可以很好的解决这些情况,机器学习已经展示出非常强大的价值。它可以自动生成规则,不用依靠庞大的人力资源来维护。而且安全事件通常是大量发生的,所以AI能够比较好的识别判断下一次事件。
AI是如何做到的呢?机器学习能自动生成规则,但是其中的学习深度还是有一定的区分。“浅学习”以SVM、Random Forrest、GBDT等算法为代表,它还需要很多的人工特征工程来准备特征向量,然后由算法自动完成分类识别。在风控领域,运用最广泛的是GBDT(很多比赛的冠军都是用GBDT),但是当特征维度上升到数千维后,深度学习的优势就开始慢慢展现出来。深度学习和“浅学习”存在一个很大的区别,就是深度学习对特征工程的依赖减弱很多,它能比较好的自动提取特征,可以生成深度学习模型,比如CNN(卷积神经网络)和RNN(循环神经网络)技术等。
举例而言,AI在移动杀毒引擎的应用效果明显。众所周知,现在病毒种类的变形越来越多,大多数黑产都会进行不同的尝试。如果用人工来构建那些恶意代码的识别特征,就需要构建一套非常庞大的体系,不仅慢而且难以维护。百度利用深度学习技术在这方面取得了非常出色的成果,在历次AV Test测试中长期保持第一。去年百度安全在顶级安全工业界会议 Blackhat Europe 上就此成果做了专题报告,也是目前全球安全工业界第一个有实质性进展的深度学习应用技术报告。
另一个例子是AI在网页安全中的应用,效果也非常显著。目前网页安全的威胁主要包括三类:第一种欺诈类网站,包括虚假高校、虚假药品、假冒贷款、仿冒火车票、虚假金融证券、仿冒飞机票、虚假中奖、仿冒登录、虚假招聘等;第二类是存在风险的网站,主要包括网页挂马、恶意代码、隐私窃取、恶意跳转、僵尸网络通信、木马下载主机等;第三类是违法网站,包括色情和博彩等。
百度每天爬取索引的数据中,有1%~5%的URL包含不同程度的恶意信息,如果不加防护将会对网民带来巨大的伤害。百度安全通过规则体系、机器学习(浅层模型)、深度学习(文本)、深度学习(图片)以及威胁情报挖掘等网址安全复合检测算法来保障网站的安全。目前,百度安全利用机器学习进行网页检测,对恶意信息的防护已经取得了很好的成果。单条样本检测时延已经小于10ms,对非法网站的识别准确率已经超过99%。百度安全团队也受国际安全学术泰斗 UC Berkley Prof. Dawn Song 邀请,在 Singapore Cyber security Consortium (SGCSC) 上就此成果做了专题报告。
(二) 感知层:生物特征识别与对抗的兴起
在感知层,当下最重要的应用就是生物特征认证。人脸认证是目前AI在安全领域最成功的一个应用。整个认证流程看起来简单,其实里面的技术相当复杂:首先需要在各种环境下准确追踪人脸,如果有偏差能够给予及时有效的提示;其次要在最小用户打扰的情况下完成可靠的活体识别,而不被虚假照片或化妆欺骗,能高速完成可信人脸数据对比。第三,设备和应用的安全状态也需要可靠的保障,一旦发现恶意攻击可以即时进行取证。最后,还必须要在云端对用户隐私信息有着严格的保护。因此,要实现顺滑的人脸认证体验,必须要有AI技术和系统化安全技术做全面支撑。
为什么要在安全过程中用AI感知来做人脸识别?因为银行或者运营商对于客户的实名认证环节,传统上是要靠人来完成的。但是人其实是在整个安全过程中最容易被攻破的一环,攻击者可以找到很多理由,比如最近胖了/瘦了/病了等来蒙混过关。如果是AI来做这件事,反而铁面无私,能够把这个体系构建的更加标准化,并随着技术的进步不断完善。
目前,百度的人脸认证已经能够在秒级内完成超过90%的高可信验证比率,显著高于业界平均水平,并且已经在实战中积累了很多活体识别对抗的经验和能力。除此之外,我们也在声纹识别、用户行为识别等领域做了很多应用探索和尝试。
(三) 任务层和战略层:尚处在初级探索阶段
将AI应用于网络安全任务层和战略层,在某些国际大赛上已经开始尝试,但目前还只是封闭空间的自动对抗。其中最著名的就是 DARPA 主办的 CGC 大赛,比赛让7个顶级团队构建自动化系统,对有缺陷的服务程序做自动加固,然后相互攻击,不仅要抵抗外来攻击,同时还要反击对手。但是,这个还不能说是人工智能,因为所有的逻辑都是人预先设定好的。也就是说,目前仍然停留在自动化阶段,还在向AI方向摸索。
在安全的任务层和战略层要真正达到人工智能的高级阶段,首先要解决人工智能对开放空间的认知问题,包括世界认知、人性弱点、创造力、跨维打击等方面,其实还有很长一段距离。不过最近在相对封闭的任务空间中的人工智能探索研究,已经取得了很好的进展,相信在不远的将来会有一些颠覆性的应用产生。
总结
人工智能在网络安全领域的应用,执行层上面已经实用化,可以显著的提升规则化安全工作的效率,弥补专业人员人手的不足;在感知层面,可以把原本依赖于人(不可靠)的安全体系标准化,现在已经开始实现大规模的推广,包括人脸识别和图象识别等也等;AI在任务层上的摸索刚刚开始,在某些封闭任务领域已经展现出很好的潜力;在战略层,由于开放空间的特性,AI的路还比较遥远,所以大家还不用担心“天啊,人类要毁灭了”这样的问题。同时,随着人工智能在安全领域的应用,围绕着人工智能技术本身的攻防对抗也成为学术界的研究热点,相信其中的研究成果很快也会在安全实践中得到应用。