ACL2024:一个开源的通用语言代理训练框架LUMOS 原创

发布于 2024-6-24 16:08
浏览
0收藏

ACL2024:一个开源的通用语言代理训练框架LUMOS -AI.x社区

想象一下,拥有一个不仅能回答问题,还能浏览网页、解决复杂数学问题、编写代码,甚至能推理图像和基于文本的游戏的数字助手。听起来好得难以置信?好吧,准备好迎接人工智能的未来,因为随着LUMOS的引入,它变得更加易于获取和透明。

在一项突破性的发展中,来自艾伦人工智能研究所、UCLA和华盛顿大学的研究人员推出了LUMOS,这是一个开源框架,有望彻底改变我们与语言代理的交互方式。与现有的闭源解决方案不同,LUMOS提供了前所未有的可负担性、透明度和可重复性,使其成为人工智能世界的一个游戏规则改变者。

ACL2024:一个开源的通用语言代理训练框架LUMOS -AI.x社区

但LUMOS到底是什么,为什么它在人工智能社区引起如此轰动?系好安全带,因为我们将深入探讨这项卓越创新的细节,探索它如何工作、它能做什么,以及为什么它比你想象的更重要。

当前的语言代理通常依赖于GPT-4或ChatGPT等大型闭源语言模型作为核心组件。虽然功能强大,但这些模型价格昂贵,需要更多的透明度,并提供有限的可重复性和可控性。

LUMOS框架采用了不同的方法,利用开源大型语言模型(LLMs)作为基础模型。它采用了一个统一和模块化的架构,由三个关键组件组成:规划模块、基础模块和执行模块。

规划模块将复杂任务分解为一系列用自然语言表达的高级子目标。例如,对于"她手中的设备来自哪个国家?"这样的多模态问题,规划模块可能会生成两个子目标:"识别设备品牌"和"回答设备品牌的国家"。

然后,基础模块将这些高级子目标转换为可由执行模块中的各种工具执行的可执行低级操作。例如,第一个子目标可能会被转化为"VQA(, 品牌是什么..?)"这样的操作,以使用视觉问答工具从图像中识别设备品牌。

执行模块包含一系列现成的工具,包括API、神经模型和虚拟模拟器,可以执行基础化的操作。这些执行操作的结果随后被反馈到规划和基础模块中,实现迭代和自适应的代理行为。

LUMOS的一个关键优势是其模块化设计,可以轻松升级并广泛适用于各种交互任务。通过分离规划、基础和执行组件,研究人员可以改进或替换单个模块而不影响其他模块。

为了训练LUMOS,研究人员整理了一个大规模、高质量的数据集,包含超过56,000个注释,这些注释源自各种复杂交互任务的多样化真实推理理由,包括问答、数学、编码、网页浏览和多模态推理。这些注释是通过使用GPT-4和其他先进的语言模型将现有基准转换为与LUMOS架构兼容的统一格式获得的。由此产生的数据集是最大的开源代理微调资源之一,使较小的语言模型能够有效地被训练为语言代理。

在跨九个数据集的评估中,LUMOS展现了几个关键优势。它在每种任务类型的保留数据集上超越了多个更大的开源代理,在某些情况下甚至超越了GPT代理在问答和网页任务上的表现。LUMOS还优于其他训练方法(如思维链和非模块化集成训练)产生的代理。值得注意的是,LUMOS展示了令人印象深刻的泛化能力,在涉及新环境和操作的未见任务上显著优于30B规模(WizardLM-30B和Vicuna-v1.3-33B)和特定领域的代理。

凭借其开源性质、竞争性表现和强大的泛化能力,LUMOS代表了在开发用于复杂交互任务的可负担、透明和可重复的语言代理方面的重大进步。

译自(有删改):https://www.marktechpost.com/2024/04/01/lumos-an-open-source-generalizable-language-agent-training-framework/


本文转载自公众号AIGC最前线   

原文链接:​​https://mp.weixin.qq.com/s/Hv6sECtrkTQvxS5q9XdXCw​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2024-6-24 16:11:31修改
收藏
回复
举报
回复
相关推荐