聊天机器人机器学习安全的重要性-深度学习聊天机器人

人工智能是一个不断发展的行业，其动力来自大型科技公司、新创业公司和大学研究团队。虽然人工智能技术正在飞速发展，但围绕机器学习安全的规定和故障保护却是完全不同的情况。

无法保护机器学习模型免受数据中毒等网络攻击可能会造成极大的损失。聊天机器人漏洞甚至可能导致私人用户数据被盗。以下将探讨机器学习网络安全的重要性。此外，我们将说明聊天机器人安全商Scanta公司如何通过其虚拟助手保护聊天机器人。

为什么机器学习安全性很重要?

保护机器学习模型免受网络攻击类似于确保车辆通过安全检查。仅仅因为汽车可以行驶并不意味着在公共道路上行驶是安全的。无法保护机器学习模型可能导致数据泄露或更糟的情况。

一个很好的例子是McAfee公司技术人员如何入侵特斯拉的一种自动驾驶汽车。特斯拉早期的路标检测系统模型使它容易受到网络攻击。技术人员只需在特斯拉汽车上加上几英寸的黑色胶带，就能让它误读时速35英里的标志。这导致车辆将其解释为85英里/小时的标志。其结果，每当汽车加速超过35英里/小时就会踩下刹车。

自动驾驶汽车中的漏洞可能导致致命事故。对于聊天机器人和虚拟助手来说，缺乏机器学习安全性可能会导致大量私人客户数据泄露、网络钓鱼攻击以及对企业的代价昂贵诉讼。而这正是达美航空发生的事情。

在2019年，达美航空公司起诉其聊天机器人开发人员，原因是该公司在2017年发生了乘客数据泄露事件。黑客获得了对达美航空公司聊天机器人系统的访问权限，并修改了源代码。这使他们可以抓取用户输入的数据。这次事故对达美航空公司造成了巨大的损失，导致数百万美元用于调查漏洞并保护受影响的客户。

聊天机器人中的机器学习安全漏洞

聊天机器人特别容易受到机器学习攻击，因为它们之间经常发生用户交互，而这些交互通常是完全不受监督的。Scanta公司对聊天机器人面临的最常见的网络攻击进行了阐述。

Scanta公司首席技术官Anil Kaushik表示，他们看到的最常见的攻击之一是通过对抗性输入进行的数据中毒攻击。

什么是数据中毒?

数据中毒是黑客对机器学习模型的训练数据进行污染的一种机器学习攻击。他们通过注入对抗性输入来实现这一点，这些输入是故意改变数据样本的，目的是诱使系统产生错误的输出。

像客户服务聊天机器人这样经过用户输入数据进行持续训练的系统尤其容易受到此类攻击。大多数现代的聊天机器人都可以自动操作并在没有人工干预的情况下回答客户的询问。通常情况下，除非查询升级为人员，否则永远不会监视聊天机器人与用户之间的对话。缺乏监督使得聊天机器人成为黑客利用的主要目标。

为了帮助企业保护其聊天机器人和虚拟助手，Scanta公司不断改进其机器学习安全系统VA Shield。

Scanta公司由Chaitanya Hiremath于2016年创立，是一家科技公司，最初是增强现实游戏和社交媒体应用程序的开发商。他们在增强现实(AR)行业的成功甚至在探索频道上崭露头角。但是，Scanta最近转向为聊天机器人和虚拟助手提供机器学习安全服务。

Scanta如何保护聊天机器人和虚拟助手

Scanta公司的VA Shield是一种机器学习安全系统，可以在模型、数据集和对话级别保护聊天机器人。Scanta公司首席技术官AnilKaushik说，“VA Shield使用机器学习防御机器学习攻击。我们为每个用户进行行为分析，并标记任何异常行为。行为分析是针对最终用户以及聊天机器人的。分析所有输入、输出和输入输出组合实体，以检测任何恶意活动。”

在对话级别，Scanta公司评估聊天机器人的输出，以阻止恶意攻击并捕获业务见解。他说，“场景分析是一个简单的概念，其中聊天机器人的响应是在场景中根据请求进行查看的，”为了进行这些分析，我们使用历史数据。例如，查看了用户的历史请求特征和来自聊天机器人的响应，以及聊天机器人的响应特征。”

为什么常规的IT团队无法处理这些攻击?

Scanta公司首席执行官Chaitanya Hiremath表示，拥有自己IT团队的公司会外包机器学习安全服务。这些IT团队难道不能自己纳入机器学习安全协议吗?Hiremath说，“我们已经与许多公司进行了交谈，得知这些机器学习威胁是大多数人不知道的事情，我感到非常惊讶，现实是许多人甚至不知道这是他们必须防止的事情。大多数IT团队和安全解决方案都提供网络安全和Web应用程序防火墙等功能。这种类型的安全性不同于Scanta提供的安全性。我们在讨论和介绍的内容处于不同的水平。这远远超出了消除训练数据的偏见。”

在以上提到的达美航空示例中，网络攻击者入侵了聊天机器人并修改了源代码，并且能够访问私人客户数据。Hiremath说，“这是因为没有人监视正在进入聊天机器人的内容和正在发生的内容，这是当今机器学习技术构建方式的结果。但是，必须有一种机制来解释是否有恶意。我们将此系统称为零信任框架。必须确保所有方面都受到保护。这与保护数据库或网络一样重要。”

人们的日常生活和个人数据越来越与计算机系统交织在一起。随着现代社会数字化的日益发展，提高数据安全性成为当务之急。特别是像GDPR这样的组织制定的数据法律，企业比以往任何时候都更重要地保护其私有数据和客户数据。

Scanta公司和机器学习安全性的未来

Hiremath说，“我们希望成为机器学习安全性的领导者，并帮助各个行业的企业保护他们创建的机器学习系统。我们不仅仅将其视为应用程序的插件或附件。在三到五年内，我们看到这成为其自己的行业，我们希望成为该领域的市场领导者之一。机器学习安全性有大量用例。现在，我们希望专注于虚拟助手和聊天机器人。我们不仅希望成为聊天机器人安全性的领导者，而且还希望成为其他机器学习系统的领导者。我们目前正在进行研发，以找出我们可以帮助他们保护的其他领域。”

机器学习模型的更高安全性将使数据科学界和人工智能技术的日常用户受益。在2020年上半年，由于存在固有的种族偏见和执法部门可能滥用的证据，IBM公司抵制面部识别技术。重要的是，像IBM、达美公司和特斯拉公司这样的大型企业应退后一步，将安全性和社会影响放在开发之前。

希望有更多类似Scanta公司出现在机器学习领域，为开发机器学习技术的公司和使用它们的人们创建更安全的人工智能系统。