2024年AI代理的突破:CoAgents如何引领人机协同新潮流? 原创
01 概述
现代大型语言模型(LLMs)的规模和能力,让我们仅仅将它们用于文本摘要、文本补全、代码补全等普通任务,似乎有些局限。它们的真正潜力在于围绕这些模型构建系统,让它们能够:
- 访问、检索和过滤相关来源的数据,
- 分析和处理这些数据以做出实时决策等。
RAG(Retrieval-Augmented Generation)是构建此类复合AI系统的一个重要步骤:
但RAG遵循程序化流程(作为程序员,您定义步骤、要搜索的数据库、要检索的上下文等),它并未完全释放出这些复合AI系统所期望的自主性。
因此,2024年的主要焦点是构建AI代理——能够推理、思考、规划、确定相关来源并在需要时从中提取信息、采取行动,甚至在出现问题时自我修正的自主系统。
虽然这听起来很有前景,但目前的问题是:
- 我们离构建完全自主的AI代理还有很长的路要走。
- 更具体地说,当代理需要执行一个包含多个步骤的复杂任务时,过程中的一个小错误就会使整个操作脱轨。
为了避免这种情况,它们需要反馈机制,例如人机协同(HITL),以指导它们完成步骤(IBM在这篇博客中对此进行了广泛讨论)。
顾名思义,人机协同工作流程结合了AI代理和人类的力量。
CoAgents是由CopilotKit开发的全开源解决方案,提供了构建此类工作流程所需的所有基础设施。
02 CoAgents
CoAgents的核心驱动力是LangGraph,这是一个使用图结构定义、协调和执行LLM代理的框架。
CoAgents更进一步,提供了将LangGraph与HITL工作流程连接起来构建更可靠AI代理的所有功能。
以下是一些关键特性:
1) 流式中间代理状态
使用CoAgents,可以在代理执行提示时,将其中间状态流式传输到应用程序UI。
这样,用户就可以看到代理在后端正在做什么,并验证它是否正在采取正确的步骤,而不仅仅是盯着一个加载旋转器。
2) 代理与应用程序之间的共享状态
流式传输AI代理的中间状态并不完全有帮助,对吧?我的意思是,沟通正在发生的事情当然是有益的,但如果需要,人类应该被允许与这些状态互动。
因此,状态必须在应用程序状态(对人类可见)和代理状态(代理的内部状态)之间双向同步,以允许代理和人类协作完成任务。
3) 代理问答
任何由人机协同驱动的代理的一个明显期望是,如果它对某事不确定或需要用户提供一些额外的细节以达成最终状态,它应该能够向用户提出问题。
使用此功能,任何AI代理都可以轻松地以两种方式提出这样的问题:
4)代理引导(即将推出)
一旦代理产生了其状态,可能需要我们回到中间状态,纠正一些事情,并从那个特定的检查点重新运行。
这个功能即将发布(加入抢先体验以保持更新),将让我们能够做到这一点:
03 结语
凭借今天的技术和技巧,任何现有的GPT或LLaMAs或Mistrals都可以(几乎)可靠地:
- 使用LoRA/QLoRA等进行微调以适应额外信息。
- 使用基于RAG的技术增加额外信息。
此外,通过Tree-of-thoughts、Reflexion等技术,我们能够向模型引入“规划/推理技巧”,以利用更多的代理行为。
参考:
- https://blog.dailydoseofds.com/p/copilotkit-coagents-build-human-in
- https://github.com/login?return_to=%2FCopilotKit%2FCopilotKit
本文转载自公众号Halo咯咯 作者:基咯咯
原文链接:https://mp.weixin.qq.com/s/CuWqU3AYdYsDlXBvAlGeHg