AI研究集团OpenAI上个月发表了一项不同寻常的声明: 它表示自己已经构建了一个基于AI的内容创作引擎,其功能非常复杂,而OpenAI也不会向开发者公布完整的模型。
究其原因,任何在网络安全领域工作的人都应该知道一二。Cofense Inc.的一项研究显示,2016年,91%的网络攻击都是由钓鱼邮件引发的。TruSTAR Technology LLC数据科学家Nicolas Kseib说,利用软件机器人从社交网络和公共数据库中提取个人信息,并与强大的内容生成引擎结合起来,可能会产生更有说服力的钓鱼电子邮件,甚至可能模仿某个人的写作风格。
潜在的结果是:网络犯罪分子可以以更快的速度和更大的规模发起网络钓鱼攻击。
这种危险巧妙地总结了网络安全目前所处的无休止的战争状态,在这场战争中,还没有人能够回答一个核心问题:AI到底是会为犯罪者提供更多帮助,还是会为网络攻击防御人员提供更多帮助?在一些人看来,AI是一种新武器,最终可能让安全人员领先于对手。但与此同时,专家们担心,机器学习和深度学习等人AI技术存在被非法滥用的可能性,从而带来很严重的后果。
不过,这种争议并没有阻止网络安全市场参与者继续将AI作为一种营销噱头。本周,当网络安全行业从业者们聚集在旧金山参加一年一度的RSA大会(RSA Conference)时,这一点将显而易见。RSA大会是今年网络安全行业中规模较大的会议之一。但在这个过程中,他们可能会对这项技术能带来什么产生错误的期望。
MapR Technologies Inc.的著名技术专家、银行业资深安全官员John Omernik表示说,如今被吹捧为AI的大多数技术不过是建立在单一数据类型基础上的分类算法。国际数据公司(IDC)安全部门的研究主管Rob Westervelt也认为,“猫捉老鼠的游戏将继续下去,因为黑客将能够使用工具躲避防御。”
智能攻击
事实上,很多攻击者已经在利用各类工具了。尽管到目前为止,还没有明确的主要由机器学习引发攻击的记录案例,但越来越多的证据表明,网络犯罪工具正变得越来越智能。例如,去年7月b爆发的Rakhni木马病毒的一个新版本就包含一个上下文感知功能,该功能安装最适合它所感染的系统的恶意软件。安装了加密货币钱包的计算机也受到了勒索病毒的感染,而其他计算机则选择了加密货币挖掘。Bitglass Inc.的产品营销经理Jacob Serpa说:“这只是未来可能面临的威胁的一个小例子。”
硅谷科技媒体SiliconANGLE联系的大多数专家表示,机器学习和深度学习工具可以提高那些急需技能的从业者识别入侵和响应目标的能力,并加强对入侵的防御。但他们也指出,AI技术仍处于相对初级阶段,犯罪分子还尚未充分挖掘其潜力。
随着网络犯罪日益猖獗,以及在暗网上提供的恶意培训数据,这些因素都有可能推波助澜。现在重要的是,组织开始理解AI在增强防御能力的同时,对局限性仍认识不清。
寻找模式
许多安全专家嘲笑用“智能”一词来描述如今几乎连两岁儿童认知能力都没有的技术。但他们也一致认为,机器学习和深度学习等领域可以为组织安全带来价值。机器学习在跨非常大的数据集检测模式方面很有用,而深度学习在图像和语音识别等领域表现出色。
例如,安全操作中心要应对来自IPS的大量错误警报。由于缺乏近200万网络安全人员,企业无法承受这些浪费的时间。IBM CISO Koos Lodewijkx说,企业安全数据中心(SOC)中近60%的活动是重复的:“检测速度加快了,但响应仍然是人类的速度。”
机器学习算法可以通过训练来发现日志数据中与恶意活动关联可能性较高的模式,从而使网络安全人员能够更好地集中精力应对问题。对人类无法处理的海量数据进行梳理是机器擅长的一个领域,尤其是当它们具备机器学习和深度学习能力时,这使它们无需显式编程就能学习。
网络安全公司Arkose Labs的高级工程总监Anna Westelius说:“人类善于发现模式,但在处理检测中看到的快速类型数据时,不可能将属性和模式牢记在心。”“这就是大规模机器学习模型允许我们做的。”
机器学习的根源在于预测分析,它有助于提高人类操作员的工作效率。Balbix Inc.的数据显示,《财富》(Fortune) 1000强企业目前平均拥有260多个潜在攻击点,包括云服务、移动电话、“物联网”设备和合作伙伴账户。
TruSTAR的Kseib说,模式检测还可以通过将行为绑定到已知的用户配置文件来检测异常。他说:“当你与公司以外的人分享敏感信息时,你的系统可以检测到,并触发一系列防御行为,比如阻止这种行为。”
此外,机器学习可以应用于用户和行为分析,这是一门为用户活动建立基线并检测偏离标准的学科。Experian Corp.去年进行的一项调查显示,三分之二的受访者认为这是他们的安全架构中最薄弱的一环。
DivvyCloud工程VP Scott Totman说:“大多数用户不知道他们犯了错误,并从未被告知,从未指导如何纠正错误,也从未学会如何避免错误。”机器学习可用于识别不一致性并“创建一个教育最终用户的反馈循环”。
深度学习(Deep learning)是人工智能的一个分支,近年来在语音和图像识别方面取得了突破性进展,目前也正在成为网络安全领域的一个关键武器。它可以提高对超定向“钓鱼型”电子邮件的检测,并加强生物识别等领域的访问控制。
例如,Jumio Corp.就可以使用深度学习将图像和文档识别结合起来进行用户身份验证。该公司的技术将现场拍摄的自拍照片与政府颁发的身份证件进行对比,以验证用户的身份。该软件可以根据图像质量的变化以及用户体重变化、面部毛发的增加或减少等因素进行调整。它还可以检测表明ID被篡改的细微因素,比如字体的微小变化等。
供应商的奋起
公司很快就接受了AI的术语而,用户也开始了对各类产品的购买。最近,受云端网络探知及回应(Network Detection&Response)厂商ProtectWise Inc.委托,最近针对400多名安全人士进行的一项调查发现,73%的受访者表示,他们已经实现了至少包含人工智能某些方面的安全产品。
然而,46%的受访者表示规则创建和实施是一件苦差事,以及还有四分之一的受访者表示他们不打算在未来实现对更多AI产品的支持,这种技术的相对不成熟是显而易见的。
所以AI前景光明,但在某些领域,它几乎没有什么价值,甚至可能带来新的漏洞。当问题领域是众所周知的,并且变量变化不大时,机器和深度学习效果相对较好。算法擅长于检测模式的变化,但不擅长识别新模式。Fidelis Cybersecurity Inc.的高级产品营销经理Tom Clare说:“你发现未知情况真的很困难。”该公司专门从事威胁检测和应对工作。
安全检测网站SafetyDetective.com的数据显示,自2013年以来,恶意软件的发生率已经上升了5倍。改变变量可能会让机器学习算法变得混乱,这也是迄今为止它们在打击恶意软件方面价值有限的原因之一。机器学习算法存在“固有的失败,因为恶意软件的训练集变化太快” Malwarebytes 公司CTO Doug Swanson说道,“未来恶意软件模型看起来会跟今天几乎完全不一样”。
AI模型依赖于大量高质量的源数据进行训练,这可能会限制它们对已知威胁模式以外的所有威胁模式做出快速反应的能力。“说到底,(模型)可能又大又慢,”Jumio的科学家Labhesh Patel说。
这样,结果的价值也只取决于用于培训的数据。这就是为什么MapR的Omernik建议组织在供应商声宣称他们有一种全面的AI安全方法时要保持怀疑。
他回忆了自己在两家不同银行工作的经历,一家是客户主要在当地,而另一家客户遍布世界各地。“人们会从非洲或俄罗斯的电脑上登录,这很正常,”他说,这类活动会发送一个IDS,该系统是硬连接的,可以考虑脱轨位置。
必须解决的黑箱
如果机器学习在对抗网络威胁方面有用,它也不可能像通常那样是一个黑箱(black box)。人们需要对模型进行持续的关注,以确保训练数据是完整的、相关的,并且不受攻击者的影响。引入错误或误导性数据会导致结果退化或更糟。Arkose Labs的Westelius说:“如果人们对这项技术过于依赖,它最终会自我学习。”“但机器学习可以重新训练自己,让自己认为正常的行为不再是正常的。”
此外,计算机的工作原理也有一些细微的差别,这与人类的逻辑相悖。例如,研究人员已经演示了通过在普通人类语言甚至音乐中嵌入隐藏的命令来愚弄语音助手的方法,比如亚马逊的Alexa和苹果的Siri。自动驾驶汽车系统可能会认错道路标志,因为只是实验人员贴上了一些几乎不会引起注意的小贴纸。
其结果是:强化企业防御的工具也可以被用来以新颖的方式攻破它们。以XEvil为例,它是一种可以用来破译扭曲和模糊字符的验证码,准确率高达90%。其是一种基于深度学习的机器视觉软件的副产品,该软件是用来指导自动驾驶汽车的,并还可以用来击败密码身份验证系统中常见的第二道防线。
对一切开放?
像许多AI模型一样,XEvil是开源的,使得“好家伙”和“坏家伙”都可以在其基础上进行简单的构建。无论是好是坏,大多数流行的机器学习模型都已发布到开源软件中,这意味着无法知道谁在使用它们。
这一事实引发了IBM Lodewijkx的不祥警告。“知识和技能正在民主化,”他指出。编程技能历来都是基于数据库的,但是机器学习中常见的基于模型的方法正迅速成为主流。“我们从大学雇佣的孩子们已经改变了他们的编程技能,”他说。“这也会影响犯罪方面。”
机器学习擅长检测模式的变化,但这种技术也可以用于覆盖轨迹。DivvyCloud的Totman说:“目前,许多罪犯的签名都是基于他们一贯的犯罪行为。”“罪犯可以利用机器学习随机化他们的模式,混入其中以避免被发现。”
反恶意软件制造商担心AI可能会制造出自变异的恶意软件,“这种软件可以调整检测到的恶意软件的代码,编译并重新部署,以避免进一步的检测,”Malwarebytes实验室主任Adam Kujawa说。“这可能发生在眨眼之间,大大增加了我们经常处理的恶意软件的数量。”
大规模假新闻
随着网络犯罪日益成为专业人士和“网络流氓”的领地,AI的潜在滥用问题变得更加令人不安。2016年美国总统大选期间出现的虚假新闻现象,由于“深假(deep-fake)”技术的出现而变得更加严重。“深假”技术通过对图像、视频和声音文件的处理,使事件和行为看似从未真正发生过。到目前为止,这些应用仅限于让名人处于尴尬之中,但同样的技术同样能应用于损害高管和政治人物的声誉。
这又回到了谁将从AI中获益更多的问题:白帽子(white hats, “白客”)还是黑帽子(black hats, “黑客”)?
目前还没有达成共识。几乎所有人都同意的一点是,新工具将提高正在进行的军备竞赛的利害关系。IDC的Westervelt表示:“攻击者将利用AI来创建更好的钓鱼邮件,但安全公司也将更善于发现它们。”
以同样的方式,云计算使强大的计算机和软件可为一般公司与群众所用,而收益于AI民主化安全工的受组织却往往防御薄弱,Mark Weiner,Balbix的CMO说道。“我认为它会帮助支持很多不那么成熟的组织,其好处大于它会带给坏家伙的机会”,他补充到。
网络安全类风投公司Allegis Cyber管理总监Robert Ackerman认为,黑客将迫使组织更多地集中精力保护数据,而不是防止渗透。他说,如今的网络安全实践是“一道有1000个漏洞的堤坝,而我们正四处奔走,试图将它们全部堵住”。
有一些希望。Ackerman继续说到,同态加密( homomorphic encryption)等技术将受到青睐。同态加密技术使数据能够在加密状态下进行处理。还有另一些人则看到了对抗性机器学习的潜力,它让模型相互竞争,以试图加强防御。
但所有这些活动都是在多云、移动设备和无数物联网设备的使用带来的复杂性日益增加的背景下进行的。这可不是好兆头。Westervelt说:“连CIO都想对他们的数据进行更精细地控制,更不用说人们如何共享和使用这些数据了,这变得非常复杂。”
在网络安全领域,复杂性是罪犯们的好朋友。