译者 | 布加迪
审校 | 重楼
对抗性攻击对机器学习系统的可靠性和安全性构成了严重威胁。通过对输入进行微小的变动,攻击者就可以导致模型生成完全错误的输出。防御这种攻击是一个很活跃的研究领域,但大多数提议的防御措施都存在重大的缺点。
这篇来自加州大学伯克利分校研究人员的论文则介绍了一种名为PubDef的新防御方法,在这个问题上取得了一些进展。在保持干净输入准确性的同时,PubDef在面对现实攻击时获得了更高的稳健性。本文解释了这项研究的背景、PubDef的工作原理、结果及其局限性。
对抗性威胁领域
人们研究了许多类型的对抗性攻击,最常见的是白盒攻击。在这里,攻击者可全面访问模型的参数和架构。这让他们得以计算梯度,以精确地设计导致错误分类的输入。像对抗性训练这样的防御措施已经被提议,但它们在面对干净输入时性能会大大降低。
迁移攻击更现实。攻击者使用可访问的代理模型来设计对抗性示例。他们希望这些迁移骗过受害者的模型。迁移攻击很容易执行,并且不需要访问受害者模型。
基于查询的攻击对模型进行重复查询以推断其决策边界。一些防御措施通过监视使用情况来检测和限制这些攻击。
总的来说,迁移攻击在实践中非常合理,但无法通过典型的防御措施来加以解决,比如对抗性训练或限制查询的系统。
博弈论观点
图1. 该论文的配图显示了一个威胁模型,低成本攻击者使用公共模型进行迁移攻击,还显示了PubDef防御
PubDef专门旨在抵抗来自公开可用模型的迁移攻击。作者将攻防之间的交互描述为一种游戏:
- 攻击者的策略是选择一个公共源模型和攻击算法来设计对抗性示例。
- 防御者的策略是为模型选择参数,使其具有稳健性。
- 博弈论为最佳策略的推理提供了工具。重要的是,防御者可以同时针对来自多个源模型的攻击进行训练。这种类似集成的方法使模型对各种攻击具有稳健性。
PubDef的工作原理
PubDef通过以下方式训练模型:
1. 选择一组不同的公开可用源模型。
2. 使用训练损失,最大限度地减少来自这些源模型的迁移攻击的错误。
这种对抗性训练过程调整模型,以抵抗从公共源迁移过来的特定威胁模型。
训练损失根据当前的错误率对每个攻击动态加权。这侧重于训练最有效的攻击。
源模型的选择涵盖不同的训练方法:标准、对抗性和破坏稳健性等。这提供了对未知攻击的广泛覆盖。
试验结果
论文作者们在CIFAR-10、CIFAR-100和ImageNet数据集上针对264个不同的迁移攻击评估了PubDef。
结果显示,PubDef明显优于之前的防御措施,比如对抗性训练:
- 在CIFAR-10上,PubDef达到了89%的准确率,而对抗性训练只达到了69%的准确性。
- 在CIFAR-100上,准确率为51%比33%。
- 在ImageNet上,准确率为62%比36%。
值得注意的是,PubDef实现了这一改进,并且面对干净输入的准确性几乎没有下降:
- 在CIFAR-10上,准确率仅从96.3%下降到96.1%。
- 在CIFAR-100上,准确率从82%下降到76%。
- 在ImageNet上,准确率从80%下降到79%。
图2. PubDef实现了这一改进,面对干净输入的准确性几乎没有下降
因此,与对抗性训练相比,PubDef提供了更好的稳健性,对未受扰动的数据的性能影响要小得多。
局限性和未来工作
PubDef特别关注来自公共模型的迁移攻击,解决不了白盒攻击等其他威胁。另外一些限制如下:
- 依赖模型保密。
- 可以通过训练一个私人代理模型来加以规避。
- 需要防御基于查询的攻击的其他方法。
鉴于预期范围,PubDef提供了与实际攻击者能力相一致的实用防御。但还需要做进一步的工作,才能处理其他威胁,并减轻对保密的依赖。
总的来说,这项工作在可部署防御方面取得了重大进展。通过针对一个合理的威胁模型,稳健性的提高几乎是免费的,精确度损耗最小。这些想法有望推动进一步的研究,从而产生更有效和实用的防御措施。
结论
对抗性攻击为部署可靠的机器学习系统提出了一个紧迫的挑战。虽然已提议了许多防御措施,但很少有防御措施在面对干净输入不降低性能的情况下在稳健性方面取得实质性进展。
PubDef代表着朝开发可以实际部署在实际系统中的防御迈出了大有希望的一步。在处理其他类型的攻击和对模型保密减轻依赖的程度方面仍有工作要做。然而,这里介绍的技术(即通过博弈论为模型建立交互、针对各种威胁进行训练,以及关注于可行的攻击)为进一步的进展提供了蓝图。
对抗性攻击可能仍然是机器学习安全的一个问题。随着模型不断渗入到医疗保健、金融和交通等关键领域,对有效防御的需求变得更加迫切。PubDef表明,如果力求防御与实际威胁相一致,可以在无需兼顾取舍的情况下大幅提升稳健性。开发实用的防御措施,将额外成本降到最低,这是安全可靠地部署机器学习安全的最切实可行的途径。
原文标题:PubDef: Defending Against Transfer Attacks Using Public Models,作者:Mike Young