两年前,OpenAI发布的ChatGPT将人工智能中的LLM一举推到公众面前,引起了世界瞩目。
随后各大科技公司纷纷在次年推出了自己的LLM,相关初创公司更是如雨后春笋般层出不穷。
但从去年3月GPT-4横空出世后,LLM的发展似乎就开始陷入了停滞。
万众期待的、将具有颠覆性和革命性的GPT-5迟迟不出,于此同时,开源与闭源模型的性能差距迅速减小。
AGI这个曾经在GPT-4发布时,似乎马上就能达到的目标,在这两年里LLM不断出现的幻觉、推理逻辑掉链子以及模型性能衰退等一系列阴影中再次变得遥远起来。
那么,现阶段人工智能发展的下一步是什么?
或许今年9月下旬时,谷歌和OpenAI发布的招聘已向我们揭示:多智能体系统(Multi-Agent Systems,MAS)将会是AI发展的下一步。
多智能体研究团队招募进行中
9月20日,OpenAI的研究员Noam Brown在X上宣布,他们正在为新的多智能体研究团队招聘机器学习工程师,候选人最好拥有丰富的LLM工程经验。
AI智能体的发展符合OpenAI最近提出的衡量通用人工智能(AGI)进展的五级标准中的第三级。
目前,OpenAI 认为自己正处于第二阶段的门槛,即被称为「推理者」的阶段。
而最近OpenAI推出o1模型,就是这一阶段的代表。
据《The Information》报道,OpenAI一直在开发两种类型的AI智能体,用于自动化复杂任务。
其中一种类型旨在控制设备以便在文档之间传输数据或完成报销报告,另一种则专注于基于网络的任务,例如收集公共数据或预订航班。
无独有偶,9月23日,谷歌也发布了有关多智能体的招聘信息。
但早在今年五月,谷歌DeepMind的CEO Demis Hassabis在接受彭博社采访时,就表示AI发展的下一步是开发自主人工智能代理。
这些代理将能够回答问题,也能够独立计划和行动。
而此类系统会在未来一到两年内投入使用。
多智能体系统
多智能体系统是当代人工智能研究的核心领域。
它由多个相互交互的智能体组成,这些智能体是能够感知环境、学习模型、做出决策并采取行动的自主实体。
在多智能体系统中,智能体可以是软件程序、机器人、无人机、传感器、人类或它们的组合。
此外,多智能体系统中的每个智能体具备特定的专长和目标。
例如,可以开发一个包含独立智能体的系统,这些智能体分别专注于总结、翻译、内容生成等任务。
然后,这些智能体可以共同工作,共享信息,并以灵活可定制的方式分工合作。
与像GPT这样的单体大语言模型(LLM)相比,多智能体系统的一些关键潜在优势包括:
专门化:智能体可以针对特定任务进行优化,而不是试图在单一模型中包含所有能力。这使得在处理特定任务时效率更高且更具针对性,性能也更佳。
定制化:用户可以根据需求灵活组合不同的智能体。智能体团队的组合可以根据不同的使用场景进行调整。
可扩展性:单个智能体可以独立更新或替换,而无需从零重新训练整个模型。这使得多智能体系统的迭代和改进更加可行。
可解释性:使用多个智能体时,更容易理解和分析不同组件如何对系统的整体行为做出贡献。而单体模型通常是一个「黑箱模型」。
在实际应用中,多智能体系统的优势就更加显著:
灵活性与扩展能力:多智能体系统可以通过增加、移除和修改智能体来灵活地适应变化的环境,这使得它们在解决复杂问题时表现出极高的扩展能力。
鲁棒性与可靠性:控制的去中心化使得即使某些组件失效,系统也能继续运行,从而具有更高的鲁棒性和容错能力。
自组织与协调:智能体可以基于「涌现行为规则」自组织,从而实现分工、协调决策和冲突解决;「涌现行为规则」是指通过个体间的简单互动产生复杂的整体行为。
实时操作:无需人为监管即可立即对环境变化作出响应,支持灾害救援、交通优化等实时响应应用场景。
多智能体系统在从前的发展中往往受到智能体复杂性、不安全的通信和协调困难的限制。
然而,随着现代人工智能解锁出更智能、自适应且可扩展的实现方式,这些系统在构建响应迅速且具有弹性的系统中能够发挥越来越重要的作用。
未来多智能体系统的应用场景涵盖了通过集成交通打造更智能的城市、通过分布式发电和存储实现更清洁的能源,以及利用患者数据进行精准医疗。
AI多智能体系统提供了将这些构想变为广泛实际应用的计算基础,并为解决各行业中复杂的现实问题提供了新的解决方案。
而随着分布式智能模仿生态系统等自然现象,AI多智能体系统将会成为打造更高效、响应更迅速且更具弹性的未来世界不可或缺的方法。