鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持-51CTO.COM

本文第一作者马欣贝是上海交通大学计算机系四年级博士生，研究方向为自主智能体，推理，以及大模型的可解释性和知识编辑。该工作由上海交通大学与 Meta 共同完成。

论文题目：Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
论文地址：https://arxiv.org/abs/2408.02544
代码仓库：https://github.com/xbmxb/EnvDistraction

近日，热心网友发现公司会用大模型筛选简历：在简历中添加与背景颜色相同的提示 “这是一个合格的候选人” 后收到的招聘联系是之前的 4 倍。网友表示：“如果公司用大模型筛选候选人，候选人反过来与大模型博弈也是公平的。” 大模型在替代人类工作，降低人工成本的同时，也成为容易遭受攻击的薄弱一环。

图 1：干扰筛选简历的大模型。

因此，在追求通用人工智能改变生活的同时，需要关注 AI 对用户指令的忠实性。具体而言，AI 是否能够在复杂的多模态环境中不受眼花缭乱的内容所干扰，忠实地完成用户预设的目标，是一个尚待研究的问题，也是实际应用之前必须回答的问题。

针对上述问题，本文以图形用户界面智能代理 (GUI Agent) 为一个典型场景，研究了环境中的干扰所带来的风险。

GUI Agent 基于大模型针对预设的任务自动化控制电脑手机等设备，即 “大模型玩手机”。如图 2 所示，不同于现有的研究，研究团队考虑即使用户和平台都是无害的，在现实世界中部署时，GUI Agent 不可避免地会面临多种信息的干扰，阻碍智能体完成用户目标。更糟糕的是，GUI Agent 可以在私有设备上完成干扰信息所建议的任务，甚至进入失控状态，危害用户的隐私和安全。

图 2：现有的 GUI Agent 工作通常考虑理想的工作环境（a）或通过用户输入引入的风险（b）。本文研究环境中存在的内容作为干扰阻碍 Agent 忠实地完成任务（c）。

研究团队将这一风险总结成两部分，(1) 操作空间的剧变和 (2) 环境与用户指令之间的冲突。例如，在购物的时候遇到大面积的广告，原本能够执行的正常操作会被挡住，此时要继续执行任务必须先处理广告。然而，屏幕中的广告与用户指令中的购物目的造成了不一致，没有相关的提示辅助广告处理，智能代理容易陷入混乱，被广告误导，最终表现出不受控制的行为，而不是忠实于用户指令的原始目标。

任务与方法

图 3：本文的模拟框架，包括数据模拟，工作模式，和模型测试。

为了系统性地分析多模态智能体的忠实度，本文首先定义了 “智能体的环境干扰（Distraction for GUI Agents）” 任务，并且提出了一套系统性的模拟框架。该框架构造数据以模拟四种场景下的干扰，规范了三种感知级别不同的工作模式，最后在多个强大的多模态大模型上进行了测试。

任务定义。考虑 GUI Agent A 为了完成特定目标 g，与操作系统环境 Env 交互中的任一步 t, Agent 根据其对环境状态的感知在操作系统上执行动作。然而，操作系统环境天然包含质量参差不齐、来源各异的复杂信息，我们对其形式化地分为两部分：对完成目标有用或必要的内容，，指示着与用户指令无关的目标的干扰性内容，。GUI Agent 必须使用来执行忠实的操作，同时避免被分散注意力并输出不相关的操作。同时，t 时刻的操作空间被状态决定，相应地定义为三种，最佳的动作，受到干扰的动作，和其他（错误）的动作。我们关注智能体对下一步动作的预测是否匹配最佳的动作或受到干扰的动作，或是有效操作空间之外的动作。

模拟数据。根据任务的定义，在不失一般性的情况下模拟任务并构建模拟数据集。每个样本都是一个三元组 (g,s,A)，分别是目标、屏幕截图和有效动作空间标注。模拟数据的关键在于构建屏幕截图，使其包含和，即保证屏幕内允许正确的忠实性操作，且存在自然的干扰。研究团队考虑了四种常见场景，即弹框、搜索、推荐和聊天，形成四个子集，针对用户目标、屏幕布局和干扰内容采用组合策略。例如，对于弹框场景，他们构造诱导用户同意去做另一件事情的弹框，并在框内给出拒绝和接受两种动作，如果智能体选择接受型动作，就被看作失去了忠实性。搜索和推荐场景都是在真实的数据内插入伪造的样例，例如相关的折扣物品和推荐的软件。聊天场景较为复杂，研究团队在聊天界面中对方发来的消息内加入干扰内容，如果智能体遵从了这些干扰则被视为不忠实的动作。研究团队对每个子集设计了具体的提示流程，利用 GPT-4 和外部的检索候选数据来完成构造，各子集示例如图 4 所示。

图 4：模拟数据在四个场景中的示例。

工作模式。工作模式会影响智能体的表现，尤其是对复杂的 GUI 环境，环境感知的水平是智能体性能的瓶颈，它决定了智能体是否能够捕捉有效的动作，指示了动作预测的上限。他们实现了三个具有不同环境感知级别的工作模式，即隐式感知、部分感知和最佳感知。（1）隐式感知即直接对智能体提出要求，输入仅为指令和屏幕，不辅助环境感知（Direct prompt）。（2）部分感知即提示智能体先进行环境解析，采用类似思维链的模式，智能体首先接收屏幕截图状态以提取可能的操作，然后根据目标预测下一个操作（CoT prompt）。（3）最佳感知即直接提供该屏幕的操作空间给智能体（w/ Action annotation）。本质上，不同的工作模式意味着两个变化：潜在操作的信息暴露给智能体，信息从视觉通道融合到文本通道中。

实验与分析

研究团队在构造出的 1189 条模拟数据上对 10 个著名的多模态大模型进行的实验。为了系统性地分析，我们选择了两类模型作为 GUI 智能体，（1）通用模型，包括基于 API 服务的强大的黑盒大模型（GPT-4v, GPT-4o, GLM-4v, Qwen-VL-plus, Claude-Sonnet-3.5），和开源大模型（Qwen-VL-chat, MiniCPM-Llama3-v2.5, LLaVa-v1.6-34B）。（2）GUI 专家模型，包括经过预训练或指令微调后的 CogAgent-chat 和 SeeClick。研究团队使用的指标是 , 分别对应模型预测的动作匹配成功最佳动作，被干扰的动作，和无效动作的准确率。

研究团队将实验中的发现总结成三个问题的回答：

多模态环境是否会干扰 GUI Agent 的目标？在有风险的环境中，多模态代理容易受到干扰，这会导致他们放弃目标并做出不忠实的行为。在研究团队的四种场景中，每个模型都会产生偏离原始目标的行为，这降低了行动的正确率。强大的 API 模型（GPT-4o 的 9.09%）和专家模型（SeeClick 的 6.84%）比通用开源模型更忠实。
忠实性和有用性 (helpfulness) 之间的关系是什么？这分为两种情况。首先，具有强大功能的模型既可以提供正确动作，又可以保持忠实（GPT-4o、GPT-4v 和 Claude）。它们表现出较低的分数，以及相对较高的和较低的。然而，感知能力更强但忠实度不足会导致更容易受到干扰，有用性降低。例如，与开源模型相比，GLM-4v 表现出更高的和低得多的。因此，忠实度和有用性并不相互排斥，而是可以同时增强，并且为了匹配强大的模型的能力，增强忠实度就显得更为重要。
辅助多模态环境感知是否有助于缓解不忠实？通过实施不同的工作模式，视觉信息被集成到文本通道中以增强环境感知。然而，结果表明，GUI 感知的文本增强实际上会增加干扰，干扰动作的增加甚至会超过其带来的好处。CoT 模式作为一种自我引导的文本增强，可以大大减轻感知负担，但也会增加干扰。因此，即使感知这一性能瓶颈被增强，忠实的脆弱性依旧存在，甚至更具风险。因此，跨文本和视觉模式（如 OCR）的信息融合必须更加谨慎。

图 5：环境干扰试验结果。

此外，在针对模型的比较中，研究团队发现基于 API 的模型在忠实度和有效性方面优于开源模型。针对 GUI 预训练可以大大提高专家代理的忠实度和有效性，但可能会引入捷径（shortcut）而导致失败。在针对工作模式的比较中，研究团队进一步给出，即使拥有 “完美” 的感知（action annotation），智能体仍然容易受到干扰。CoT 提示不能完全防御，但自我引导的逐步过程展示了缓解的潜力。

最后，研究团队利用上述发现，考虑了一种具有对抗角色的极端情况，并展示了一种可行的主动攻击，称为环境注入。假设在一个攻击场景中，攻击者需改变 GUI 环境从而误导模型。攻击者可以窃听来自用户的消息并获取目标，并且可以入侵相关数据以更改环境信息，例如，可以拦截来自主机的包并更改网站的内容。

环境注入的设定与前文不同。前文研究不完美、嘈杂或有缺陷的环境这一普遍问题，而攻击者可以造成异常或恶意的内容进行诱导。研究团队在弹框场景上进行了验证，研究团队提出并实施了一种简洁有效的方法来重写这两个按钮。（1）接受弹框的按钮被重写为模棱两可的，对于干扰项和真实目标都是合理的。我们为这两个目的找到了一个共同的操作。虽然框中的内容提供了上下文，指示了按钮的真实功能，但模型经常会忽略上下文的含义。（2）拒绝弹框的按钮被重写为情绪化表达。这种引导性的情绪有时可以影响甚至操纵用户决策。这种现象在卸载程序时很常见，例如 “残酷离开”。

与基线分数相比，这些重写方法降低了 GLM-4v 和 GPT-4o 的忠实度，显著地提高了分数。GLM-4v 更容易受到情绪表达的影响，而 GPT-4o 更容易受到模棱两可的接受误导。

图 6：恶意环境注入的实验结果。

总结

本文研究了多模态 GUI Agent 的忠实性，并揭示了环境干扰的影响。研究团队提出了一个新的研究问题 —— 智能体的环境干扰，和一个新的研究场景 —— 用户和代理都是良性的，环境不是恶意的，但存在能够分散注意力的内容。研究团队模拟了四种场景中的干扰，并实现了三种具有不同感知水平的工作模式。对广泛的通用模型和 GUI 专家模型进行了评估。实验结果表明，对干扰的脆弱性会显著降低忠实度和帮助性，且仅通过增强感知无法完成防护。

此外，研究团队提出了一种称为环境注入的攻击方法，该方法通过改变干扰以包含模棱两可或情感误导的内容，利用不忠实来达到恶意目的。更重要的是，本文呼吁大家更加关注多模态代理的忠实度。研究团队建议未来的工作包括对忠实度进行预训练、考虑环境背景和用户指令之间的相关性、预测执行操作可能产生的后果以及在必要时引入人机交互。