简单有效，新型对抗性攻击方法成功攻破热门安卓APP中DL模型-对抗性解读

当前，很多深度学习模型嵌入到了移动 APP 中。虽然在设备上执行机器学习有助于改善延迟、连通性与功耗，但 APP 内置的大多数深度学习模型可以通过逆向工程轻易获得，从而更易于招致对抗性攻击。本文研究者提出了一种简单却有效的攻击 APP 中深度学习模型的方法，并在实验中得到了验证。

如今，手机充斥着我们生活的方方面面，从指纹解锁、到注视唤醒、到人脸支付，在我们享受科技带来的便捷生活的时候，你有没有想过—当你在凝视手机的时候，它也在凝视着你？它学习你的个人 ID—指纹、声纹、面部特质、虹膜等等，并在几秒钟内完成解锁、支付。而这一系列动作都源自于深度学习。

深度学习是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标—人工智能。深度学习模型（DL model）是将训练好的深度神经网络以特定的格式存储起来，使得手机具备了深度学习的能力。那么，这个深度学习模型可靠吗？就像人的价值观会被扭转，手机 APP 中的深度学习模型会不会也被攻击，使得你的手机从此不再只忠于你一个人？

当你手机上存储的大量个人信息向另一个素未谋面的人敞开，你遭遇的，或许不仅仅是经济损失那么简单。

在本文中，来自澳大利亚莫纳什大学的研究者探究了当今主流移动 App 中 DL 模型针对对抗性攻击的鲁棒性，并对部署在移动 App 中的 DL 模型进行了深度分析，如模型特点、模型关系和训练方法等。

特别地，研究者提出通过识别 TensorFlow Hub 中的高度相似预训练模型，并利用对抗性攻击来破解深度学习模型。这种方法虽然简单却有效，在实验中成功地攻击了 10 个真实安卓 App。

本文作者包括黄宇津（Yujin Huang）、胡晗（Han Hu）、陈春阳（Chunyang Chen）。该论文已被第四十三届国际软件工程大会 ICSE 2021 SEIP 接收。

论文地址：https://arxiv.org/abs/2101.04401

GitHub：https://github.com/Jinxhy/AppAIsecurity

大数据探索移动 App 中的 DL 模型

论文从 Google Play 上爬取了 62,822 个热门安卓移动应用以研究其中 DL 模型的使用情况。对于每个爬取的 App，作者使用其设计的自动化工具（图 1）识别并抽取 App 中的 DL 模型。

图 1：对抗性攻击 pipeline 分析的总体工作流程。

下表 1 具体描述了当今流行的 App 中使用 DL 的具体情况。显而易见，包含 DL 模型的移动 App 已经覆盖了人们日常生活中涉及到的大多数应用分类（图像分类尤为突出），并且一个 App 中通常含有多个 DL 模型。

表 1：TFLite DL App 和模型的数量。

探究移动 App 上 DL 模型之间的关系

从上表 1 可以看出，大多数移动 App 上的 DL model 都在执行计算机视觉相关的任务，那么他们之间有没有潜在的联系呢？研究者通过自动化工具对其进行验证并发现在移动 App 上的 DL 模型之间存在相似性，甚至有一些模型完全一样。

下图 2 具体描述了模型之间的相似关系，图中的每一个节点代表一个从 App 中抽取的模型，节点之间线的粗细代表模型之间的相似度，线越粗代表相似度越高。

图 2：设备内置 DL 模型之间的关系。

探究移动 App 上 DL 模型相似的原因

模型之间的相似是什么原因造成的呢？是特殊的训练方法还是存在模型盗用？

通过自动化工具对移动 App 上 DL 模型与 TensorFlow Hub 上开源的预训练 DL 模型进行比较，研究者发现模型之间的相似是由于采用迁移学习导致的。

下表 2 具体描述了采用迁移学习的 DL 模型的数量和对应的预训练 DL 模型的类型，其中 MobileNet 是最为常用的预训练 DL 模型。

表 2：微调 TFLite DL 模型的数量。

探究移动 App 上 DL 模型针对对抗性攻击的鲁棒性

基于前面的分析，我们即可知道移动 App 上的 DL 模型执行的具体任务并且知道其采用的预训练 DL 模型的类型。利用这两个特性，研究者设计了一种基于对抗性攻击的新型攻击方法。

为了验证其可行性和有效性，研究者对 10 个具有代表性的移动 App 上的 DL 模型进行了攻击。下表 3 详细描述了10 个被选取的 App、及其 DL 模型和对应的功能。

下表 4 详细描述了新型攻击方法基于不同 DL 模型的攻击成功率, 结果表明所有 DL 模型均被成功攻击。

通过实验可以看出，所有的选取的移动 App 中的 DL 模型都被成功攻击。这证明目前 DL 在移动 App 中的安全性还需要进一步的提高，比如改进迁移学习的方法、对模型加密防止被抽取和对模型进行对抗性训练等。