嘉宾丨薛磊
撰稿丨诺亚
出品 | 51CTO技术栈(微信号:blog51cto)
本文整理自九章云极DataCanvas资深算法工程师薛磊在WOT2024大会上的主题分享。
在AI技术日新月异的当下,智能体(Agent)技术正迅速崛起,成为AI领域的一大热点。Agent技术在各行业应用场景中表现出巨大潜力,然而伴随着机遇的同时,Agent技术的发展以及应用落地也面临着诸多挑战。
在近期落幕的WOT全球技术创新大会上,九章云极DataCanvas的资深算法工程师薛磊,聚焦于Agent的构建与落地,从理论框架到实践案例,分享了他在Agent领域的洞见和经验,探讨了Agent技术在当今人工智能生态中的定位与价值。
1.概述:AI Agent是如何兴起的
首先就AI Agent是什么,薛磊做了简要概述。
就定义来说,Agent一词起源于拉丁语中的"Agere",意思是“to do”。在现代人工智能领域,Agent被定义为能够自主理解、规划决策、执行复杂任务的智能体。就组成来说,Agent通常由大型语言模型(LLM)加上规划、记忆、工具调用和执行能力组成。某种程度上,两者可以类比为人类的大脑和双手。
在大模型时代,Agent技术得到了显著的发展和应用。一方面,大模型相当于Agent的“大脑”,提供了处理复杂任务所需的智能和知识。另一方面,大模型的兴起降低了使用AI Agent的门槛,使得更多的人和应用能够利用这些技术。
那么,Agent是如何工作的呢?简单来说,Agent的整体框架由三个关键部分组成:大脑、感知、行动。
- 大脑:由大型语言模型组成,负责存储知识、记忆,并进行信息处理和决策。
- 感知:感知模块扩展了Agent的感知空间,使其能够处理文本、听觉和视觉等多种模态的输入。
- 行动:行动模块接收大脑模块发送的行动序列,并执行与环境交互的行动。
这些组成部分使Agent能够像人类一样进行思考、感知和行动。在薛磊看来,虽然通用大模型在许多领域都表现出色,但Agent可以针对特定的垂直领域进行优化和扩展。作为一个模块,Agent可以作为辅助工具,被集成到更大的系统中,辅助不同行业、职业以及个人,其设计和功能使其能够在不同的应用场景中发挥关键作用,同时保持灵活性和可扩展性。
2.组成:量身定制一个框架
随后,薛磊重点介绍了Agent框架。
在计算领域,Agent框架指导智能体如何感知环境、如何做出决策、如何采取行动。换句话说,它提供了一种组织智能体行为、决策及交互的方法,使它们能够适应环境变化并高效达成目标。
当前有许多主流的Agent流程框架中,而ReAct是应用比较广的。ReAct为什么受欢迎呢?
究其原因:一是提升交互质量。ReAct允许模型在执行任务的过程中生成推理轨迹,这意味着模型可以边思考边行动,同时记录下自己的思考过程;二是适应复杂任务。ReAct框架下的模型可以在执行过程中动态调整策略,这使得它们能够处理那些多步骤、具有不确定性和动态变化的任务;三是通过将推理和行动相结合,ReAct增强了模型的决策能力。模型不仅依赖于静态的预先训练知识,还可以根据新信息进行实时学习和调整,这在处理复杂多变的场景时尤为重要。
薛磊提到,九章云极自研Agent框架有五个核心部分,分别是Session、Agent、Action、Tool、Planner。
图片
- Session:代表用户与Agent的交互会话,作为思维的主线,记录用户与Agent交互的整个生命周期。
- Agent:作为交互的核心,负责理解和响应用户的需求,触发相应的计划和行动。
- Planner:负责制定计划和策略,根据用户的需求和上下文信息,规划Agent的行动步骤。
- Action:涉及到Agent执行具体动作的能力,包括调用内部或外部的工具来完成任务。
- Tool:工具或资源,供Agent在执行任务时调用,如搜索引擎、数据库或其他应用程序。
关于自研框架的交互过程,薛磊做了进一步说明。
当用户通过对话或其他方式向Agent提出需求或问题时,Agent通过Prompt工程中的意图识别技术,理解用户的意图。Planner再根据用户的意图和上下文信息,制定行动计划。之后Agent根据计划,通过Action调用相应的Tool执行任务。执行完毕后,Agent将结果反馈给用户,如果需要,还可能进行多轮对话以优化结果。
而在整个交互过程中,Alaya-Session会充当这个过程的记录者。它记录用户与Agent的每一次会话,包括用户的请求、Agent的响应以及交互过程中的所有细节。一来它记录用户的交互历史,这种记忆功能使得Agent能够在后续的交互中利用历史数据,提供更加个性化和连贯的服务;二来通过结合历史上下文和当前会话的信息,Alaya-Session可以帮助Agent更准确地把握用户意图。
图片
3.构建:打造出色的Agent系统
不过,薛磊也提到,在开发Agent框架的过程中,团队使用了多种开源工具来辅助构建和测试他们的系统。其中ChatGPT4作为优秀的工具,在过程中发挥了重要作用,但随着开发和测试的深入,使用ChatGPT4等工具的费用、调用次数或其他限制条件开始成为问题。
当无法继续依赖这些工具时,记录会话过程中的所有信息就变得尤为重要。记录的数据将用于对模型进行后期微调,以改进其性能和适应性。这可能涉及到调整模型以更好地适应特定的任务或优化其在特定场景下的表现。同时,通过分析记录的数据,开发者可以对框架进行初步选择或调整,以确定哪些组件或策略最有效,哪些需要改进。
薛磊表示,在构建和优化Agent框架的过程中,团队从以下几个关键方面进行了处理,以确保系统的高效性和智能性。
其一,基座大模型。基座大模型相当于Agent的“大脑”,决定着任务的起因、结果和成功率。它在处理垂直领域的专有名词时尤为重要。例如,在电信行业中,套餐的名称和价格是特定领域的术语,这些在通用大模型中可能不被理解。因此,需要对基座大模型进行特定领域的训练和优化。
其二,知识库。知识库是Agent的“记忆”,包括永久记忆和瞬间记忆。它通过向量检索、系数检索、混合检索和状态记忆等技术,存储和检索历史会话和事件信息,为Agent提供决策支持。
其三,Prompt工程。Prompt工程是Agent交互的核心。它不仅仅是为大模型设定角色和任务,更是一种新式的编程方式。通过精心设计的提示词,可以引导大模型理解和执行复杂的任务。比如,任务拆解是Planner的基础能力,而这些都需要提示词的方向的扩展。
其四,Action/工具。Action主要涉及到调用工具和接口,执行具体的任务。通过统一的形式和方法调用,简化了Action的执行过程,使其更加高效。
图片
通过这些方面的综合处理和协同工作,九章云极自研的Agent框架能够实现高效、准确的交互和任务执行,同时保持灵活性和扩展性。这些组件共同构成了一个完整的AI Agent系统,使其能够在各种复杂应用场景中提供服务。
4.落地:三大应用挑战与解决方案
虽然拥有出色的Agent框架是一个很好的开始,但要实现Agent应用的真正落地,还需要面对一系列的挑战。最初,人们普遍对Agent的能力抱有很高的期望。但在开发实践中,常常会发现,Agent在运行看似正常的情况下,却未能如预期那样执行任务。
针对这种情况,薛磊总结了九章云极在推进Agent应用落地过程中所面临的三大挑战,并分享了相应的解决方案。
挑战一:基座大模型的不可控性
未经专业训练和微调的大型基础模型在执行复杂操作指令时表现出较弱的理解和规划能力。另外,不可忽视的是成本高和部署难的问题。
解决方案
- 垂直大模型:训练专注于特定领域的大型模型,以提高对特定任务的理解和执行能力。
- 大模型+小模型:结合使用大型基础模型与小型专业模型,利用小型模型处理特定任务,而大型模型负责分发和协调。
挑战二:不可避免的大模型幻觉现象
大模型在执行任务时可能会出现幻觉问题,特别是在缺乏先验知识和训练数据的情况下,常常会导致任务拆解和计划制定过程中出错。
解决方案
- 模型微调:通过对模型进行特定领域的训练,使其专注于某个专业领域,这样它能在该领域内达到较高的准确度。
- Prompt工程:通过精心设计的提示来引导模型的输出,确保其按照预期的方式回答问题
- DingDb多模数据库:这是九章云极自研的多模向量库,它能够同时处理结构化数据和非结构化数据,实现数据的统一管理和查询。使用多模态数据库来提供辅助的记忆功能,帮助模型更好地理解和执行任务。
挑战三:效率低下,交互缓慢
大模型推理速度不快,Agent通常需要多次调用大模型来完成任务,导致整体体验缓慢,用户等待时间长。还有,任务识别调用出现问题时,可能会导致多次问答的循环发生,导致交互的迟滞和用户的困惑。
解决方案
- 模型加速:即通过优化方法减少不必要的输入,从而降低模型的计算负担。
- 容错自查:即利用较小规模的模型对大型模型的结果进行复查验证,以提高准确性和效率。
5.案例:“辅助办公AI PPT”是如何运作的
随后,薛磊简单分享了三个Agent应用。
第一,会议预定。会议预定Agent遵循标准化的工作流程。用户与Agent对话时,Agent会提取关键词,并检查是否包含会议参与者、时间及地点等必要信息。如果信息完整,Agent会调用预定接口完成会议安排;若信息不全,则继续询问直到获取所有必需信息。
图片
第二,智能信息收集。智能信息收集Agent主要负责从对话中提取关键信息(如姓名、地点等),并通过设置提示信息、信息验证和反馈机制来确保数据的准确性。例如,在保险报案场景中,Agent会引导用户提供详细的报案信息,并对提供的信息进行验证,以确保信息的有效性和完整性。
图片
第三,辅助办公 AI PPT。此应用帮助用户通过对话生成PPT演示文稿。它结合了大模型的Planner功能,能够根据用户的需求生成PPT大纲和内容。用户通过对话启动PPT生成流程,Agent根据用户的意图和提供的信息(如主题、内容等)生成PPT大纲。用户可以上传文档或提供主题,系统会根据这些信息生成PPT内容。
图片
薛磊介绍,AI PPT应用流程基于大模型的Planner,Planner分为两大类:有状态的Planner和无状态的Planner。与大多数在线AI PPT创建工具相似,九章云极目前尝试的是有状态的Planner,它们都有预设的流程。不过,九章云极的Planner采用了有状态的设计,这意味着它能够根据用户的对话历史做出响应。
用户可以通过自然语言与系统交流,而且这种对话是灵活的。这意味着用户不仅可以按照既定的流程进行,还可以随时跳出流程,进行闲聊或其他操作。这种灵活性得益于前端路由机制,它可以根据用户的指令来决定是否继续当前的流程。
图片
通过这种方式,辅助办公AI PPT应用能够更加灵活地响应用户需求,并有效生成高质量的PPT文档。
6.结语:面向未来的思考
最后,薛磊提到了他对于未来Agent发展趋势的几点思考。在他看来,以下三个方向值得关注:
其一,Multi- Agents的集成爆发。多智能体系统中,这些智能体可以是不同的软件程序、机器人、传感器等,它们各自具备一定的智能和自主性。MAS的核心思想是通过多个智能体的协作与协调,共同完成一个复杂任务,从而实现单个智能体无法完成的目标。
其二,跨平台部署。随着开源生态的蓬勃发展,以及模型能力的持续提升,未来PC端和移动端将广泛部署更加智能、个性化且功能丰富的系统级Agent,为用户提供无缝、高效的跨平台服务体验。
其三,多模态能力的扩展。目前这一领域正处于快速发展阶段。GPT-4o的出现也令人振奋。未来Agent将超越传统的文本对话,通过整合动作识别、语言理解、情感分析等多模态交互能力,并与硬件设备深度融合,实现更加自然、直观且智能的交互体验,真正成为人们日常生活中不可或缺的智能伙伴。