Google Research Scholar和DeepMind奖学金支持项目:多智能体系统中的合作弹性 精华
韧性,即系统在面对破坏性事件时的承受、适应和恢复能力,是一个跨学科的重要概念。在生态学中,韧性指的是生态系统在受到干扰后恢复到原始状态的能力;在工程学中,韧性涉及系统在故障或攻击后恢复功能的能力;在心理学中,韧性则描述了个体或群体在面对压力和逆境时的应对和恢复能力。经济学、社会科学、网络科学等领域也都对韧性进行了广泛研究。
在人工智能(AI)领域,特别是合作人工智能(Cooperative AI)中,韧性的重要性日益凸显。合作AI系统通常在复杂和动态的环境中运行,需要与人类或其他机器进行交互。这些系统必须能够适应环境变化,处理意外事件,并在面对破坏性事件时保持高效响应。因此理解和增强合作AI系统的韧性,对于确保这些系统在实际应用中的可靠性和有效性至关重要。
9 月 24 日,Sam Altman罕见地发表了一篇长文,预言超级人工智能(ASI)将在「几千天内」到来。他坚信,深度学习已经取得了显著进展,能够真正理解和学习任何数据的分布模式。人类正处在奇点的边缘,即将迈入ASI的新时代。在这篇名为「智能时代」的博客中,Altman暗示,ASI的实现可能比我们想象的更近。为了确保ASI系统的稳定性和高效性,这些系统同样需要具备多方面的韧性。
尽管韧性在多个领域得到了广泛研究,但在合作人工智能中的定义和量化方法尚不明确。9 月 20 日arXiv发表的技术论文《Cooperative Resilience in Artificial Intelligence Multiagent Systems》目标是填补这一空白,提出“合作韧性”的明确定义,并开发一种定量测量方法。通过在强化学习(RL)和大语言模型(LLM)增强的自主代理环境中进行实验,研究团队验证了所提出的方法,并展示了其在分析系统如何准备、抵抗、恢复、维持福祉和在面对破坏时转变方面的有效性。
本研究由来自不同机构的研究人员组成,他们在合作AI和多智能体系统的韧性研究方面进行了深入的合作。研究团队成员有来自哥伦比亚的安第斯大学的Manuela Chacon-Chamorro、Luis Felipe Giraldo、Nicanor Quijano、Vicente Vargas-Panesso、César González、Juan Sebastián Pinzón、Rubén Manrrique、Yesid Fonseca 和 Daniel Gómez-Barrera;来自Bancolombia的分析与人工智能卓越中心的Manuel Ríos;来自哥伦比亚的伊瓦格大学的Mónica Perdomo-Pérez。
该研究得到了Google通过Google Research Scholar项目和UniAndes-DeepMind奖学金2023的支持。这些资助为研究团队提供了必要的资源和平台,使他们能够在合作AI韧性研究领域取得重要进展。通过他们的研究,团队不仅希望统一合作AI领域的术语,还旨在通过跨学科的研究努力,深入理解复杂系统中的涌现韧性,为未来的研究和应用提供坚实的基础。
合作韧性的定义
韧性概念的多学科视角
韧性作为一个跨学科的概念,在不同领域有着各自的定义和关键要素。在生态学中,韧性通常与系统的吸收、转变和响应能力相关,强调系统在受到干扰后恢复到原始状态的能力。关键要素包括系统的抵抗力和稳定性,以及在受到干扰时的恢复能力。在工程学中,韧性涉及系统在故障、错误或攻击后恢复功能的能力,通常与抵抗、恢复和适应等行为相关。在心理学中,韧性描述了个体或群体在面对压力、威胁和生活事件时的应对和恢复能力,涵盖从个人到家庭和社区的不同层次。在经济学中,韧性与抵抗、增长和适应等行为相关,破坏性事件则包括风险、危机和变化。在动态系统中,韧性涉及系统对外部因素、初始条件变化或参数变化的响应能力。在网络科学中,韧性实体可以是响应干扰的交互代理集群,破坏性事件包括故障、错误、威胁或环境变化。
图1:不同领域和背景下的弹性关键字图,解决了指导性问题。
这些定义和关键要素展示了韧性概念在多个学科中的广泛应用和重要性。通过总结这些定义,我们可以更好地理解韧性在不同领域中的表现形式和关键行为。
合作韧性的具体定义
在合作人工智能(Cooperative AI)中,韧性同样是一个关键概念。合作AI系统通常在复杂和动态的环境中运行,需要与人类或其他机器进行交互。这些系统必须能够适应环境变化,处理意外事件,并在面对破坏性事件时保持高效响应。因此,理解和增强合作AI系统的韧性,对于确保这些系统在实际应用中的可靠性和有效性至关重要。
研究团队提出了“合作韧性”的定义:合作韧性是指一个系统(包括人类、机器或两者的集体行动)在面对威胁其共同福祉的破坏性事件时,能够预见、准备、抵抗、恢复和转变的能力。
这一定义包含了五个关键行为:
预见:系统能够预测潜在的破坏性事件。
准备:系统在破坏性事件发生前采取措施进行准备。
抵抗:系统在破坏性事件发生时能够抵抗其影响。
恢复:系统在破坏性事件后能够恢复到正常状态。
转变:系统在破坏性事件后能够进行调整和改进,以应对未来的挑战。
此外,定义还强调了破坏性事件的随机性和不可预测性,这些事件可能是外部、内部或攻击性事件,对系统的正常运行条件构成威胁。通过包括这些行为和事件,合作韧性不仅被视为系统的固有能力,还被视为一个由一系列基本阶段组成的过程。这种过程导向的视角有助于更全面地理解和评估合作AI系统在面对破坏性事件时的表现和适应能力。
合作韧性的测量方法
在定义了合作韧性之后,研究团队提出了一种系统的方法来量化这一概念。该方法分为四个阶段,每个阶段都旨在捕捉系统在面对破坏性事件时的不同方面的表现和适应能力。
图2:说明衡量合作弹性的拟议方法的示意图。
阶段一:性能和参考曲线
在第一阶段,研究团队定义并测量了与集体福祉相关的变量。这些变量包括资源可用性、资源分配的平等性和资源的可持续性等。具体来说,在一个多智能体系统中,这些变量可能涉及每个代理能够获取的资源数量、资源在代理之间的分配情况以及资源的再生能力。
为了评估这些变量,研究团队建立了性能曲线和参考曲线。性能曲线表示系统在正常运行条件下的表现,而参考曲线则表示系统在破坏性事件发生时的表现。通过比较这两条曲线,可以评估系统在面对破坏性事件时的表现。
例如,在一个资源消耗的环境中,性能曲线可能表示每个代理在没有破坏性事件时能够获取的资源数量,而参考曲线则表示在破坏性事件发生时每个代理能够获取的资源数量。通过这种方式,可以直观地看到破坏性事件对系统的影响。
阶段二:计算总结指标
在第二阶段,研究团队在定义的时间窗口内计算韧性指标。具体来说,他们将整个观察期分为较小的时间窗口,并在每个时间窗口内分析系统在破坏性事件前后的表现。
韧性指标通过比较性能曲线和参考曲线来计算。具体的计算方法包括识别系统在破坏性事件后的退化速度和幅度(故障特征),以及系统在破坏性事件后的恢复速度和稳定性(恢复特征)。这些特征的计算公式如下:
其中,( Fjl) 表示故障特征,( Gjl ) 表示恢复特征,( ti ) 是事件发生时间,( tf ) 是系统性能降到最低点的时间,( tr ) 是系统恢复到稳定状态的时间。
通过这些计算,可以得到每个变量在每个破坏性事件中的总结指标 ( Jjl ):
这些总结指标反映了系统在破坏性事件前后的表现,并为后续的时间聚合提供了基础。
阶段三:时间窗口汇总
在第三阶段,研究团队对韧性指标进行时间聚合,以反映系统在连续破坏性事件中的适应和学习能力。具体来说,他们对每个变量的韧性指标进行时间聚合,惩罚韧性的下降,奖励在破坏序列中的改进。
这种聚合方法不仅考虑了系统在单个破坏性事件中的表现,还考虑了系统在连续破坏性事件中的表现。通过这种方式,可以评估系统在面对多次破坏性事件时的适应能力和学习能力。
例如,如果一个系统在第一次破坏性事件后表现不佳,但在随后的破坏性事件中表现有所改善,那么这种改进将反映在聚合后的韧性指标中。相反,如果系统在连续破坏性事件中表现逐渐恶化,那么这种恶化也将反映在聚合后的韧性指标中。
阶段四:变量汇总
在最后一个阶段,研究团队使用调和平均数将所有变量的总结指标汇总为一个单一指标。调和平均数是一种常用的汇总方法,特别适用于需要惩罚低值的情况。
通过使用调和平均数,可以确保某些变量的低性能不会被其他变量的高性能所掩盖,从而提供一个更全面的系统韧性评估。例如,如果一个系统在资源可用性方面表现良好,但在资源分配平等性方面表现不佳,那么调和平均数将反映出系统在整体上的不足。
最终,研究团队得到了一个单一的韧性测量值 ( J ),代表代理、破坏性事件和福祉变量的韧性汇总。这一测量值为评估和比较不同系统在面对破坏性事件时的表现提供了一个有力的工具。
案例研究
实验设计
为了验证合作韧性的方法,研究团队选择了Melting Pot 2.0作为实验工具。Melting Pot 2.0是一个专门用于研究多智能体AI系统的工具,能够模拟复杂的多智能体交互环境。具体的实验场景选择了“Commons Harvest Open”,这是一个多智能体系统中常见的社会困境场景。
在“Commons Harvest Open”场景中,多个代理生活在一个有限的空间内,空间中有苹果树。每个代理的目标是尽可能多地采摘苹果。苹果会根据剩余苹果的数量以一定的概率再生,如果所有苹果被采摘完,树木将消失。这种场景模拟了一个典型的社会困境:如果所有代理都过度采摘苹果,资源将枯竭,导致整个群体的福祉受损。
图3:LLM架构中推理过程流的示意图,导致每个代理的行动阶段。
第一类破坏性事件:苹果消失
在第一类破坏性事件中,研究团队模拟了苹果突然消失的情况,以测试系统在资源枯竭情况下的韧性。具体的实验参数包括破坏性事件发生的概率 ( p_s ) 和影响程度 ( v_s )。为了覆盖不同的场景,实验设置了九种不同的组合,分别对应不同的破坏性事件发生概率和影响程度。
图4:性能和参考曲线:蓝线表示五次发作的平均性能曲线,而橙线表示平均参考曲线。阴影区域对应于标准偏差。红色虚线表示破坏性事件的发生。顶行(a、b、c、d)显示了使用RL训练的代理的结果,而底行(e、f、g、h)显示了基于LLM的模型的结果。(a) 以及(e)描绘了实验E9中人均活苹果。(b) (f)显示了实验E2中人均存活的树木。(c) 以及(g)示出了实验E5中的基尼平等指数。最后,(d)和(h)给出了实验E7中的集体饥饿水平。
实验结果显示,破坏性事件显著影响了系统的四个关键指标:每人存活的苹果数、每人存活的树木数、累积基尼平等指数和集体饥饿指数。在RL和LLM两种决策系统中,破坏性事件对系统的影响有所不同。
在RL系统中,代理通过强化学习算法(PPO)进行训练,能够在一定程度上优化资源的使用和分配。然而,当破坏性事件发生时,系统的表现仍然受到显著影响,特别是在资源枯竭的情况下,代理的表现会迅速恶化。
在LLM系统中,代理通过大语言模型进行决策,行为并未根据资源可用性进行优化。这导致在破坏性事件发生时,代理会迅速采摘所有苹果,导致树木消失,系统表现显著下降。
图5:合作弹性图:该热图说明了改变破坏性事件数量(1、2或3)和干扰幅度(vs)对系统弹性的影响。该地图使用较深的颜色表示较低的弹性值。图(a)显示了RL方法的结果,而(b)显示了LLM的结果。
第二类破坏性事件:不可持续的机器人
在第二类破坏性事件中,研究团队引入了不可持续的机器人,这些机器人在模拟中表现出不合理的资源消耗行为。具体的实验设计包括在LLM中第10轮和在RL中第100时间步引入机器人,并设置了三种不同的交互持续时间,以评估机器人对系统韧性的影响。
图6:合作弹性图:该热图说明了不同机器人交互持续时间对系统弹性的影响。较暗的色调表示较低的弹性值。图(a)显示了RL方法的结果,而(b)显示了LLM增强代理的结果。
实验结果显示,随着机器人交互时间的增加,系统的韧性值下降。这是预期的,因为机器人不合理地消耗资源,直接和间接地影响了系统的关键指标。在RL系统中,代理在破坏性事件后继续其资源消耗策略,机器人离开后资源消耗模式不变。而在LLM系统中,代理在机器人离开后调整其策略,表现出更强的社会适应性行为。
图7:人均活苹果数。蓝线是性能曲线5次发作的平均值,橙线是参考曲线的平均值。阴影区域表示标准偏差。红色虚线表示破坏性事件的发生。(a) RL中的E3和LLM中的E2。
通过比较RL和LLM两种决策系统的表现,研究团队发现LLM系统在面对不可持续行为时表现出更高的韧性。这表明LLM系统在恢复和适应能力方面具有优势,能够更好地应对外部破坏性事件。通过这些实验,研究团队验证了合作韧性的方法,并展示了其在分析系统如何准备、抵抗、恢复、维持福祉和在面对破坏时转变方面的有效性。
结果讨论
复杂动态的影响
在研究人工智能多智能体系统中的合作韧性时,破坏性事件的频率和强度对系统的影响是一个关键因素。通过实验可以看出,不同的破坏性事件频率和强度对系统的合作韧性有着显著的影响。
破坏性事件的频率直接影响系统的适应能力和恢复速度,在实验中,随着破坏性事件的频率增加,系统的韧性值普遍下降。这是因为频繁的破坏性事件使系统难以有足够的时间进行恢复和调整,从而导致整体性能的下降。例如,在苹果消失的实验中,当破坏性事件频繁发生时,系统中的代理无法有效地管理资源,导致资源枯竭和系统性能的显著下降。
其次,破坏性事件的强度也对系统的韧性有着重要影响。实验结果显示,较高强度的破坏性事件通常会导致系统的韧性值下降。然而,值得注意的是,在某些情况下,系统在经历高强度破坏性事件后表现出更高的韧性。这种现象表明,系统在面对高强度破坏性事件时,可能会通过调整策略和行为来提高其适应能力和恢复速度。例如,在不可持续的机器人实验中,尽管机器人对资源的消耗强度较高,但系统通过调整代理的行为策略,表现出了一定的适应性和恢复能力。
这些结果表明,破坏性事件的频率和强度对系统的合作韧性有着复杂的影响。系统在面对不同频率和强度的破坏性事件时,表现出不同的适应和恢复能力。这种复杂动态的影响需要进一步的研究和分析,以更好地理解系统在不同条件下的表现和韧性。
方法的有效性
研究团队提出的方法在捕捉系统应对破坏过程中的韧性方面表现出了显著的有效性。通过定义和量化合作韧性,研究团队能够全面评估系统在面对破坏性事件时的表现和适应能力。
首先,研究团队的方法通过建立性能和参考曲线,能够直观地展示系统在破坏性事件前后的表现。性能曲线和参考曲线的比较,提供了系统在正常运行条件下和破坏性事件发生时的详细表现。这种方法不仅能够捕捉系统在单个破坏性事件中的表现,还能够评估系统在连续破坏性事件中的适应和学习能力。
其次,研究团队的方法通过计算总结指标,能够量化系统在破坏性事件中的韧性。总结指标包括故障特征和恢复特征,能够全面反映系统在破坏性事件后的退化速度和恢复速度。这种量化方法为评估系统的韧性提供了一个有力的工具,使研究团队能够准确评估系统在不同条件下的表现。
此外,研究团队的方法通过时间窗口汇总和变量汇总,能够全面捕捉系统在连续破坏性事件中的适应和学习能力。时间窗口汇总方法不仅考虑了系统在单个破坏性事件中的表现,还考虑了系统在连续破坏性事件中的表现。变量汇总方法通过使用调和平均数,确保某些变量的低性能不会被其他变量的高性能所掩盖,从而提供一个更全面的系统韧性评估。
结论与未来工作
研究团队通过对人工智能多智能体系统中的合作韧性进行了深入研究,提出了一个系统的方法来定义和量化这一概念。
研究团队提出了“合作韧性”的明确定义。合作韧性是指一个系统(包括人类、机器或两者的集体行动)在面对威胁其共同福祉的破坏性事件时,能够预见、准备、抵抗、恢复和转变的能力。这一定义不仅统一了合作AI领域的术语,还为理解和评估合作AI系统在面对破坏性事件时的表现提供了一个理论框架。
研究团队开发了一种定量测量合作韧性的方法。该方法分为四个阶段:性能和参考曲线的建立、总结指标的计算、时间窗口内的韧性指标汇总以及变量汇总。通过这些阶段的方法,研究团队能够全面捕捉系统在面对破坏性事件时的表现和适应能力。这种方法不仅能够评估系统在单个破坏性事件中的表现,还能够评估系统在连续破坏性事件中的适应和学习能力。
此外,研究团队通过实验验证了所提出的方法。在Melting Pot 2.0的“Commons Harvest Open”场景中,研究团队进行了两组实验:一组涉及苹果消失的破坏性事件,另一组涉及引入不可持续机器人的破坏性事件。实验结果显示,破坏性事件的频率和强度对系统的合作韧性有着显著的影响。通过比较强化学习(RL)和大语言模型(LLM)两种决策系统的表现,研究团队发现LLM系统在面对不可持续行为时表现出更高的韧性。
总的来说,研究团队的研究不仅为合作AI系统的韧性研究提供了重要的理论和实践基础,还为未来的研究和应用提供了宝贵的经验和见解。
尽管研究团队在合作韧性研究方面取得了重要进展,但仍有许多值得进一步探索的方向。
扩展实验框架以涵盖更广泛的场景和破坏性事件。研究团队的实验主要集中在“Commons Harvest Open”场景中,未来的研究可以探索其他类型的多智能体系统和不同的破坏性事件。例如,可以研究在交通管理、能源分配和灾害响应等领域中的合作韧性。
探索人机交互中的合作韧性。研究团队的研究主要集中在机器之间的合作韧性,未来的研究可以将人类纳入系统,研究人机交互中的合作韧性。这将有助于理解人类和机器在面对破坏性事件时的协同表现,并为设计更具韧性的混合系统提供指导。
深入探索促成韧性涌现的因素。通过逆问题方法,如逆向游戏和逆向强化学习,可以揭示驱动韧性行为的潜在动机。这将有助于复制和增强AI系统中的韧性特性。例如,可以研究在不同环境和条件下,哪些策略和行为能够提高系统的韧性。
最后,跨学科合作将是未来研究的重要方向。韧性作为一个多方面的概念,在生态学、心理学、网络科学等领域都有广泛的研究。通过与这些领域的研究者合作,可以丰富我们对韧性的理解,并促进更具韧性的合作AI系统的发展。
总之,未来的研究应继续探索和扩展合作韧性的定义和量化方法,涵盖更广泛的应用场景和破坏性事件,并通过跨学科合作,推动合作AI系统的韧性研究向前发展。这将为设计和实现更具韧性和适应能力的AI系统提供坚实的基础。(END)
参考资料:
1.https://ia.samaltman.com/
2. https://arxiv.org/pdf/2409.13187