9月19日,Jim Fan转发了一篇来自复旦NLP团队对基于LLM的Agent的综述。
Agent是能够感知自身所处环境、自我决策并采取行动的人工智能实体。
该论文介绍了基于LLM Agent的一般概念框架,包括大脑、感知和行动;以及LLM Agent的应用场景、由LLM Agent组成的社会等。
还讨论了LLM Agent领域中的一系列关键议题和开放性问题。
有趣的是,在arXiv上提交的前两版论文中,注明了与米哈游合著,论文中则以原神中的海灯节为例,介绍了一个理想中的由AI Agent组成的社会。
论文地址:https://arxiv.org/pdf/2309.07864
这篇论文从9月15号发布到GitHub上后,短短五天就收获了1K star,并被评为LLM Agent的必读论文。
在20号时,更是登上了GitHub的趋势榜。
项目地址:https://github.com/WooooDyy/LLM-Agent-Paper-List
对什么是「智能」的讨论,从图灵时代就开始了。
1950年,阿兰·图灵发表了一篇名为《计算机器与智能(Computing Machinery and intelligence)》的论文。
在论文的开篇,他提出一个问题:「机器能思考吗?」
答案毋庸置疑,并且图灵将智能这一概念扩展到了人工实体中,并提出了著名的「图灵测试」。
随后的几十年,人们朝着让机器获得与人类智能相当或超越的AGI(通用人工智能)目标不断前进。
现在,性能最强大的人工智能GPT-4被称为是最接近AGI的人工智能。
但现今主流的人工智能都是基于NLP(自然语言处理)技术的LLM(大语言模型),往往只能应用于特定的领域,对其他领域一窍不通,还常常产生「幻觉」。
图灵奖得主Yann LeCun多次公开批评现有的人工智能只是一群训练有素的「随机鹦鹉」(stochastic parrots),称不上真正的智能。
他认为真正通往AGI的将是「世界模型」,能够自主感知环境、进行计划、做出行动。
如果说通往AGI的终点是「世界模型」,那么现在最接近终点的是能够自主行动的Agent。
LLM Agent发展史
从NLP走向AGI要经过几个阶段?
答案是五个,即语料库、互联网、感知、具身和社会属性。目前,大语言模型正处于第二阶段,具有互联网规模的文本输入和输出。
如果想要更进一步,就要为LLM赋予感知能力和行动能力。
接下来,如果这些具有感知和行动力的自主LLM Agent之间能够进行互动、通过协作解决更复杂的问题,或反应现实世界中的社会行为,它们就拥有了社会属性。
人类也可以参与AI Agent组成的社会。
以原神海灯节为例,上图中香菱和瑶瑶在厨房里筹备饭菜、胡桃和辛焱开演唱会进行表演,甘雨和刻晴在商量做灯笼的事宜。
玩家(主控)可以任选一个场景与AI Agent进行互动。
因此,AI Agent被认为是实现AGI的最有潜力的选项。
但,什么是Agent?
Agent的中文含义是「代理」,这个概念起源于哲学,最早可以追溯到亚里士多德和休谟。
「代理」描述了一种拥有欲望、信念、意图和采取行动能力的实体。将这个概念迁移到计算机科学中,即意指计算机能够理解用户的意愿并能自主地代表用户执行任务。
随着AI的发展,Agent在AI研究中找到了自己的位置,用来描述表现出智能行为并具有自主性、反应性、主动性和社交能力的实体。
当人们能用概念来描述一个对象时,更加的深入的研究就开始了。
Agent有了自己的定义和内涵后,「智能体」的研究成为了AI社区的焦点。
基于LLM的Agent
对Agent的深入研究从20世纪中期开始,人们的努力取得了一定的成就,但Agent的应用场景极为受限,只能实现特定的任务。
而人们想要的AGI是通用的、能适用于广泛的场景中的,而不是一个专精的工具。
也许专精的工具也能发挥出相当大的威力,但工具无法自主地适应世界,只能被使用。
而模型想要拥有自主性,像生物那样适应各种复杂的环境,通用能力是必要的关键。
这包含知识记忆、长期规划、有效泛化和高效交互等能力。
随着各类人工智能的发展,大语言模型(LLM)脱颖而出,成为了具备一般通用能力的种子选手。
纯粹的LLM处于AGI之路的第二阶段,即具有互联网规模的文本输入和输出。
但LLM在知识获取、指令理解、泛化、规划和推理方面都表现出了强大的能力,并且它还能于人类进行有效的自然语言交互。
这是相当重要的优势,LLM因此被选为Agent系统的起点。在人类为其赋予更广阔的感知空间和行动空间后,LLM就可能到达更高的层次。
基于LLM的Agent的通用概念框架关键,包含了三个部分:大脑、感知和行动。
与人类相似,大脑也是AI Agent的核心,它由LLM组成。在智能体中,LLM负责存储记忆和知识,还承担着信息处理、决策等不可或缺的功能。
因此,LLM可以让Agent呈现出推理和计划的过程,并很好地应对未知任务,反映出智能代理的泛化性和迁移性。
Agent的感知空间应从纯文本拓宽到包括文本、视觉和听觉等多模态领域,这样使其能更有效地从周围环境中获取与利用信息。
在Agent的行动方面,除了常规的文本输出,还要赋予Agent具身能力、使用工具的能力,使其能够更好地适应环境变化,通过反馈与环境交互,甚至能够塑造环境。
Agent的实际应用场景
这里主要介绍三种Agent的应用场景:单Agent部署、多Agent交互和人与Agent交互。
单个Agent拥有多种能力,可以在各种应用方向上表现出优异的任务解决能力。
单Agent的应用被划分为三个层次:
首先是任务导向的部署中,Agent可以协助人类用户解决日常的基本任务,此时它们需要具备基本的指令理解和任务分解能力。
根据现有的任务类型,代理的实际应用可分为模拟网络环境和模拟生活场景。
其次是在面向创新的开发中,Agent 展示了在科学领域进行自主探索的潜力。
尽管来自专业领域的固有复杂性和训练数据的缺乏给代理构建带来阻碍,但目前已经在化学、材料、计算机等领域取得进展。
在面向生命周期的部署中,Agent具有不断探索、学习和利用新技能的能力,以确保能在开放世界中长期生存。
以《我的世界》游戏为例,游戏中的生存挑战被认为是现实世界的缩影,已成为开发和测试代理综合能力的独特平台。
当多Agent进行互动时,它们可以通过合作或对抗性互动实现进步。
在合作互动中,Agent以无序或有序的方式进行协作,以实现共同目标。
在对抗性互动中,代理以针锋相对的方式展开竞争,以提高各自的性能。
此外,在人-Agent 交互过程中,人类的反馈可以使 Agent 更高效、更安全地执行任务,同时 Agent 也可以为人类提供更好的服务。
人类与Agent的互动可以分为两种模式。
在指导者-执行者范式(左)中,人类提供指导或反馈,而代理则充当执行者。
在平等合作范式(右图)中,Agent 像人类一样,能够与人类进行移情对话,并参与非合作任务。
最后是由Agent组成的社会。
Agent的社会可以简单分为两个要素:Agent和环境。
在个体层面,Agent能够表现出计划、推理和反思等内化行为。它还表现出内在的人格特质,包括认知、情感和性格。
但一个代理可以和其他代理组成群体,并表现出群体行为,如合作。
在环境层面,无论是虚拟环境还是物理环境,包含人类行动者和所有可用资源,对于单个代理而言,其他代理也是环境的一部分。Agent 具有通过感知和行动与环境互动的能力。
网友热议:AI Agent,启动!
也许是原神和「技术宅拯救世界」的米哈游的「出境」,网友们对这篇论文可谓是十分上心。
有网友甚至想一天内读完这篇80多页的论文:
「我很想知道有没有人能在一天内读完并理解这篇论文,但我会尝试一下的。」
另一位网友作为原神玩家直接就是:
「原神,启动!」
虽然在这篇论文中并没有提到AI Agent在游戏中的应用,但是米哈游和原神的出现,让网友们十分兴奋,开始畅想AI Agent对游戏的影响。
「这不仅是原神的未来,也会是所有游戏的未来。
让AI Agent成为故事中我们的伙伴,他们会用自己的价值观对玩家的选择做出反应,而不是靠固定的脚本。」
也有网友对游戏和AGI的未来进行了一番畅想:
「如果AGI需要具身代理,那么游戏将会是实现的它的最佳场所。」