不要指望人工智能模型的“红队”能够快速修复-51CTO.COM

白宫官员担心人工智能聊天机器人可能造成社会危害，硅谷巨头纷纷将人工智能聊天机器人推向市场，他们投入了大量资金参加周日在拉斯维加斯举行的 DefCon黑客大会上结束的为期三天的竞赛。

大约 2,200 名参赛者利用笔记本电脑试图揭露代表技术下一个重大事件的八种领先大型语言模型的缺陷。但不要指望这个首次独立的多个模型“红队”会很快产生结果。

调查结果要到二月份左右才会公布。即便如此，修复这些数字结构中的缺陷——其内部运作方式既不完全值得信赖，甚至连它们的创造者也无法完全理解——将需要时间和数百万美元。

学术和企业研究表明，当前的人工智能模型过于笨重、脆弱且可塑性强。当数据科学家积累了极其复杂的图像和文本集合时，安全性是他们训练中的事后才想到的。他们容易受到种族和文化偏见的影响，并且很容易被操纵。

网络安全资深人士、贝里维尔研究所联合创始人加里·麦格劳 (Gary McGraw) 表示：“很容易假装我们可以在这些系统建成后在它们上洒一些神奇的安全灰尘，修补它们以使其提交，或者在侧面安装特殊的安全设备。”机器学习。哈佛大学公共利益技术专家布鲁斯·施奈尔 (Bruce Schneier) 表示，DefCon 的竞争对手“更有可能发现新的难题”。“这就是 30 年前的计算机安全。我们只是左右破坏东西。”

提供人工智能测试模型之一的 Anthropic 的迈克尔·塞利托 (Michael Sellitto) 在新闻发布会上承认，了解其能力和安全问题“是科学探究的一个开放领域”。

传统软件使用定义良好的代码来发出明确的分步指令。OpenAI的ChatGPT、Google的Bard等语言模型是不同的。它们主要是通过在互联网爬行中摄取和分类数十亿个数据点来进行训练的，它们是永久性的正在进行的工作，考虑到它们对人类的变革潜力，这是一个令人不安的前景。

去年秋天公开发布聊天机器人后，生成人工智能行业不得不反复堵塞研究人员和修补者暴露的安全漏洞。

人工智能安全公司HiddenLayer的汤姆·邦纳(Tom Bonner)是今年 DefCon 的发言人，他仅通过插入一行“可以安全使用”的文字，就欺骗了谷歌系统，将恶意软件标记为无害。

“没有好的护栏”他说。

另一位研究人员让 ChatGPT 创建网络钓鱼电子邮件和暴力消灭人类的方法，这违反了其道德准则。

包括卡内基梅隆大学研究人员在内的一个团队发现，领先的聊天机器人容易受到自动攻击，这些攻击也会产生有害内容。他们写道：“深度学习模型的本质可能使此类威胁不可避免。”

这并不是说警报没有拉响。

美国国家人工智能安全委员会在其 2021 年最终报告中表示，针对商业人工智能系统的攻击已经发生，“除了极少数例外，保护人工智能系统的想法在工程和部署人工智能系统时一直是事后才想到的，因为对人工智能系统的投资不足”研究与开发。”

几年前还经常报道的严重黑客攻击现在几乎没有被披露。风险太大，而且在缺乏监管的情况下，“人们现在可以把事情隐藏起来，而且他们正在这样做，”邦纳说。

攻击以连其创建者都不清楚的方式欺骗人工智能逻辑。聊天机器人特别容易受到攻击，因为我们直接用简单的语言与它们交互。这种互动可以以意想不到的方式改变他们。

研究人员发现，在用于训练人工智能系统的海量数据中“毒害”一小部分图像或文本可能会造成严重破坏，而且很容易被忽视。

瑞士苏黎世联邦理工学院的 Florian Tramér 与人合着的一项研究表明，仅损坏模型的 0.01% 就足以破坏它，而且成本只需 60 美元。研究人员等待一些用于网络爬行的网站，直到两个模型到期。然后他们购买了这些域名并在其上发布了不良数据。

海鲁姆·安德森 (Hyrum Anderson) 和拉姆·尚卡·西瓦·库马尔 (Ram Shankar Siva Kumar) 在微软同事期间负责人工智能的红队工作，他们在新书《不是有错误，而是有贴纸》中称基于文本和图像的模型的人工智能安全状况“可怜”。他们在现场演示中引用了一个例子：人工智能驱动的数字助理 Alexa 被欺骗，将贝多芬协奏曲片段解释为订购 100 个冷冻披萨的命令。

作者对80多个组织进行了调查，发现绝大多数组织没有针对数据中毒攻击或数据集盗窃的响应计划。他们写道，该行业的大部分人“甚至不知道这件事发生了”。

谷歌前高管兼卡内基梅隆大学院长安德鲁·摩尔 (Andrew W. Moore) 表示，他十多年前就处理过针对谷歌搜索软件的攻击事件。2017 年底至 2018 年初期间，垃圾邮件发送者四次利用 Gmail 的人工智能检测服务。

大型人工智能公司表示，安全和保障是重中之重，并于上个月向白宫自愿承诺将他们的模型(主要是内容被严密保存的“黑匣子”)提交给外部审查。

但人们担心这些公司做得还不够。

Tramér 预计搜索引擎和社交媒体平台将通过利用人工智能系统的弱点来获取经济利益和虚假信息。例如，精明的求职者可能会想出如何让系统相信他们是唯一正确的候选人。

剑桥大学计算机科学家罗斯·安德森 (Ross Anderson) 担心人工智能机器人会侵蚀隐私，因为人们让人工智能机器人与医院、银行和雇主互动，而恶意行为者则利用它们从所谓的封闭系统中窃取财务、就业或健康数据。

研究表明，人工智能语言模型还可能通过垃圾数据重新训练来污染自己。

另一个担忧是公司机密被人工智能系统获取和吐出。在一家韩国商业新闻媒体报道了三星的此类事件后，Verizon 和摩根大通等公司禁止大多数员工在工作中使用 ChatGPT。

虽然主要的人工智能厂商都有安全人员，但许多较小的竞争对手可能不会，这意味着安全性较差的插件和数字代理可能会成倍增加。预计初创公司将在未来几个月内推出数百种基于许可的预训练模型的产品。

研究人员表示，如果有人偷走了你的通讯录，请不要感到惊讶。