
工作流代理新突破:FlowAgent的合规性与灵活性解析
在对话系统研究领域,工作流代理的设计与实现始终充满了挑战与机遇。传统的任务导向对话系统(TOD)通常采用模块化流水线架构,将自然语言理解(NLU)、对话状态跟踪(DST)以及自然语言生成(NLG)功能分离开来。但是这种方法由于误差传播问题,效率往往不高。随着大型语言模型(LLMs)的兴起,基于LLMs的端到端对话系统逐渐成为主流,通过工作流引导的互动进行整体对话管理,显著提高了任务成功率。
对话系统从模块化流水线到端到端LLM范式的演变过程中,传统系统因NLU、DST和NLG模块间的误差传播问题,效率受限。而现代LLM方法通过工作流引导的互动,提升了整体对话管理能力。这一转变不仅需要新的评估指标来衡量任务成功率,还激发了对系统合规性和灵活性的双重关注。
在实际应用中,LLMs展现出广阔前景,但对话系统在执行任务时需遵循特定规则和程序。传统的基于规则的方法尽管提供了较高的合规性,但往往以牺牲灵活性为代价。相对地,基于提示的方法虽能提升灵活性,但在合规性上存在不足。为了解决这一矛盾,来自腾讯优图实验室和复旦大学的联合研究团队提出了新的框架——FLOWAGENT,通过引入程序描述语言(PDL),在提升灵活性的同时,确保对话系统的合规性。
他们的论文《FLOWAGENT: Achieving Compliance and Flexibility for Workflow Agents》提供了对现有LLM基于工作流代理系统的系统分析,重点关注合规性和灵活性。基于此分析,研究团队提出了PDL语法,将自然语言和代码结合,灵活描述节点关系和工作流程序。研究团队引入了FLOWAGENT框架,通过创建PDL驱动的控制器,实现动态平衡合规性和灵活性。在三个数据集上的实验表明,FLOWAGENT在预定义工作流内外均能平衡合规性和灵活性。研究团队还构建了一个综合评估基准,增加现有数据集以评估工作流代理在超出工作流(OOW)场景中的性能。研发团队开源了其代码,该代码地址:https://github/Lightblues/FlowAgent。
研究团队成员来自两个机构:腾讯优图实验室(Tencent YouTu Lab)和复旦大学(Fudan University)。来自腾讯优图实验室的成员包括Yuchen Shi、Siqi Cai、Zihan Xu、Yulei Qin、Gang Li、Hang Shao、Ke Li和Xing Sun;复旦大学的成员有Jiawei Chen和Deqing Yang。这些成员共同合作,致力于通过FLOWAGENT框架实现工作流代理的合规性和灵活性。
相关工作
随着大型语言模型(LLM)的发展,对话系统在理解和生成自然语言方面的能力得到了显著提升。任务导向对话系统(TOD)经历了从模块化流水线到端到端LLM范式的演变。传统系统在处理用户请求时,将自然语言理解(NLU)、对话状态跟踪(DST)和自然语言生成(NLG)分为不同的模块,这些模块之间的误差传播往往会影响系统的整体性能。然而现代的LLM方法通过在单一框架中处理所有这些任务,避免了模块间的误差传播问题。
任务导向对话系统的早期方法主要依赖于模块化流水线架构,将对话过程拆分为多个独立的组件:自然语言理解(NLU)负责解析用户输入,对话状态跟踪(DST)负责记录对话上下文,自然语言生成(NLG)负责生成系统响应。虽然这种方法具有一定的灵活性,但由于每个模块独立工作,误差容易在模块之间传播,导致系统性能不稳定。
近年来,随着LLMs的崛起,任务导向对话系统逐渐向端到端范式转变。在这种新范式下,LLMs能够在一个统一的框架内完成所有任务,从而避免了模块间误差传播的问题。现代方法通过工作流引导的互动实现整体对话管理,提高了任务的成功率和系统的鲁棒性。
传统的任务导向对话系统虽然在一定程度上提高了系统的灵活性,但其模块化结构导致了误差在各个模块之间传播,影响了系统的整体性能。此外,这种方法在处理复杂任务时,往往需要大量的手动规则和预定义的模板,难以适应多变的用户需求和场景。
图1:不同工作流格式的比较
相比之下,现代的LLM方法通过在单一框架中处理所有任务,显著提高了系统的性能和灵活性。LLMs利用其庞大的预训练参数,能够更灵活地与用户互动,满足多样化的需求。同时,LLM驱动的对话系统通过工作流引导的互动实现整体对话管理,提高了任务的成功率和系统的鲁棒性。
随着LLMs的发展,基于LLM的代理在各个领域得到了广泛应用。LLM驱动的代理通过工具使用和动态规划增强任务执行能力,提高了系统的整体性能。代理工作流架构的研究主要集中在两大范式:工作流生成和工作流执行。
工作流生成方法通过LLM的推理能力创建流程,这种方法灵活性较高,但在合规性上存在一定挑战。而工作流执行方法则在预定义结构内操作,通过明确的节点和状态转换规则控制工作流的进展,确保系统的合规性。研究团队主要关注工作流执行范式,将工作流视为预定义的知识,通过PDL语法灵活描述节点关系和工作流程序,以实现系统的高效管理和控制。
尽管现有的LLM驱动代理在一定程度上提高了任务执行能力,但在处理复杂的用户需求和场景时仍然存在挑战。基于规则的方法虽然提供了较高的合规性,但往往以牺牲灵活性为代价。而基于提示的方法虽然能够提高灵活性,但在合规性上存在不足。因此,如何在提高系统灵活性的同时,确保其合规性,成为了一个亟待解决的问题。
研究团队通过引入FLOWAGENT框架和程序描述语言(PDL),旨在解决这一矛盾。PDL结合了自然语言的适应性和代码的精确性,灵活描述工作流节点关系和程序逻辑。FLOWAGENT框架通过PDL驱动的控制器,实现了系统合规性和灵活性的动态平衡。实验结果表明,FLOWAGENT在处理超出工作流(OOW)场景时,表现出强大的合规性和灵活性,解决了现有方法在复杂场景下的不足。
方法论
在这一部分中,研究团队详细介绍FLOWAGENT的核心组成部分,包括程序描述语言(PDL)语法以及FLOWAGENT架构。
程序描述语言(PDL)语法
PDL是一种用于表示工作流的语言,旨在结合自然语言的灵活性和代码的精确性,以便更好地描述复杂的任务流程。PDL主要由以下三个部分组成:
元信息:包含工作流的基本信息,如名称和描述。这部分信息用于标识工作流,并为其提供简要介绍,帮助用户快速理解工作流的目的和作用。
节点定义:描述代理可以访问的资源,这些资源包括API节点(用于外部工具调用)和ANSWER节点(用于用户交互)。API节点用于执行特定的操作,如调用外部工具或服务;ANSWER节点则用于与用户进行交互,获取必要的信息。
程序描述:定义任务的程序逻辑,以自然语言和伪代码的混合形式表达。程序描述部分详细说明了工作流的执行步骤和逻辑关系,确保任务能够按照预定的流程顺利完成。
图2:医院预约工作流中FLOWAAGENT的两个示例会话
PDL的关键特性在于其灵活性和准确性。首先,PDL通过先决条件属性,定义了节点之间的依赖关系。例如,在医院预约工作流中,科室查询节点需要先完成医院选择节点,以确保流程的顺序性和逻辑性。其次,PDL结合自然语言和代码,在保证清晰易懂的同时,确保了工作流的精确性和可操作性。
图3:PDL中的节点定义示例
FLOWAGENT架构
FLOWAGENT是一个增强工作流代理行为控制的执行框架,通过引入PDL,实现了工作流代理的高效管理和控制。FLOWAGENT的设计包含多个模块和控制器,以确保系统的合规性和灵活性。
首先,决策前控制器和决策后控制器在FLOWAGENT架构中起到了关键作用。决策前控制器在代理做出决策前,通过评估当前状态并向LLM提供反馈,主动指导代理的行为。例如,根据依赖图识别不可达节点,防止代理执行无效操作。决策后控制器则在代理做出决策后,通过评估拟议的代理行动的有效性,提供硬约束,确保代理的行为符合预定的工作流逻辑。
图4:PDL中的过程描述示例
算法流程描述了FLOWAGENT的整体执行过程。每轮开始时,系统会接收用户查询并更新会话历史。然后系统遍历所有决策前控制器,分析当前状态并提供反馈。接下来,代理生成响应或工具调用,再遍历所有决策后控制器,验证代理的决策。如果决策通过验证,系统将更新会话历史并生成面向用户的响应;否则,系统会根据控制器的反馈调整代理的行为,直到生成符合预期的响应。
评估和数据
合规性评估
为了验证FLOWAGENT的有效性,研究团队进行了严格的合规性评估。合规性评估方法包括轮次级和会话级两种。在轮次级评估中,系统对每一个参考会话中的轮次进行评估,将该轮次的前缀提供给机器人,并预测当前的响应,然后将预测的响应与实际的响应进行比较,计算出通过率。对于涉及工具调用的轮次,还评估了代理在工具选择和参数填充方面的性能,使用精确度、召回率和F1评分来衡量其表现。
在会话级评估中,研究团队使用LLM模拟用户与机器人的交互,从而尽可能降低人工评估成本。为了确保这些模拟会话准确反映现实世界的复杂性,定义了详细的用户资料,包括人口信息、对话风格和与工作流相关的用户需求。在生成的每个会话中,进行二元评估以验证用户的主要工作流目标是否实现,得出成功率。此外,通过跟踪启动和完成的子任务数量,得出任务进度指标。会话的端到端评估使用了与Xiao等(2024)推荐一致的提示,同时在精确度、召回率和F1评分方面评估LLM代理在工具调用方面的性能。
实验结果及其分析
在轮次级评估和会话级评估中,FLOWAGENT在任务完成、任务进度和工具使用性能等方面均优于其他基线方法。表3和表4中的结果表明,FLOWAGENT在处理超出工作流(OOW)场景时,表现出更高的灵活性和鲁棒性。通过详细分析这些实验结果,可以看出,FLOWAGENT在确保系统合规性的同时,提高了代理在复杂场景中的适应能力。
灵活性评估
为了评估FLOWAGENT在实际应用中的灵活性,研究团队针对OOW场景进行了分类和评估。OOW场景主要包括意图切换、程序跳跃和无关回答三种类型。在意图切换场景中,用户可能突然改变原始意图请求或需求,包括修改API槽/参数和取消需求。在程序跳跃场景中,用户不按照既定工作流程顺序提供信息和表达确认,包括跳过步骤或回跳。在无关回答场景中,用户故意避免直接回复代理提出的问题,例如用话题转换和反问答复。
基于这些分类,通过在轮次级和会话级评估中插入OOW用户干预,评估代理在这些特定交互中的即时适应响应和整体性能。实验结果显示,FLOWAGENT在处理OOW场景时表现出强大的灵活性和适应能力。特别是在会话级评估中,FLOWAGENT在任务成功率、任务进度和工具使用性能等方面均优于其他基线方法,展示了其在复杂场景中的出色表现。
数据集构建
为了评估FLOWAGENT框架的性能,研究团队基于现有数据集和业务相关数据构建了三个测试数据集:SGD、STAR和In-house。这些数据集来源于公开数据集和内部数据,通过详细的构建过程,确保数据集的代表性和多样性。
表1显示了这些数据集的统计信息,包括工作流数量、会话数量、轮次数量、用户资料数量、用户意图数量和OOW查询数量等。通过详细分析这些数据集,可以看出它们涵盖了广泛的任务场景和用户需求,能够有效评估FLOWAGENT在不同场景下的表现。
实验
在这一部分,研究团队将详细解析FLOWAGENT的实验设置和结果分析,深入了解其性能和效果。
实验设置
基线方法的选择 为了评估FLOWAGENT的性能,研究团队选择了ReAct作为基线方法进行对比。ReAct是一种利用思维和行动结合来做出决策的方法,将环境的反馈视为观察,这属于基于提示的方法类别。为了表示工作流,研究团队选择了三种格式:自然语言(NL)、代码和流程图,分别表示为ReActNL、ReActcode和ReActFC。为了确保公平比较,实验中重用了FlowBench推荐的提示。
实现细节 在会话级评估中,研究团队使用GPT-4o-mini进行用户模拟。对于机器人,初步测试了两个代表性模型系列:GPT系列和Qwen系列。研究表明,小模型不适合复杂工作流任务,因此选择了GPT-4o和Qwen2-72B进行演示。在评估过程中,使用GPT-4-Turbo进行判断,以确保评估的准确性和公正性。更多实现细节见附录C.1。
图5:不同模型指标比较的可视化
实验结果
会话级实验结果分析 实验结果表明,FLOWAGENT在任务合规性方面优于其他三个基线方法。在会话级评估中,FLOWAGENT在任务完成、任务进度和工具使用性能等方面均表现出色,显著优于ReActNL、ReActcode和ReActFC。尤其是在处理超出工作流(OOW)场景时,FLOWAGENT表现出了更高的灵活性和鲁棒性。在图5(a)中,可以清晰地看到FLOWAGENT在不同设置下的任务进度指标,突出了其在OOW场景中的优势。
轮次级实验结果分析 在轮次级评估中,FLOWAGENT同样表现出卓越的合规性和灵活性。Qwen2-72B的轮次级实验结果显示,FLOWAGENT框架在任务成功率、任务进度和工具使用性能等方面均取得了最佳成绩。不仅在预定义工作流内表现出色,在处理OOW场景时也展示了强大的适应能力和灵活性。图5(b)中,成功率指标的对比结果进一步验证了FLOWAGENT的卓越性能。
消融实验分析 为了验证控制器在FLOWAGENT框架中的重要性,研究团队进行了消融实验。在OOW设置中,实验结果表明,移除决策后控制器Cpost或决策前控制器Cpre均会对模型性能产生负面影响,验证了控制器在确保工作流合规性方面的关键作用。表5中的实验结果显示,控制器的存在显著增强了模型的合规性和稳定性,确保代理在复杂场景中的稳步进展。
结论
研究团队详细探讨基于大型语言模型(LLM)的工作流代理系统FLOWAGENT,通过引入程序描述语言(PDL)和一套控制器,FLOWAGENT在确保合规性的同时提高了系统的灵活性。PDL结合了自然语言的适应性和代码的精确性,使得工作流的表示更加灵活和精确。FLOWAGENT框架通过PDL驱动的控制器,有效地管理工作流代理的行为,确保了系统的合规性和灵活性。
实验结果表明,FLOWAGENT在多个数据集上均表现出色,显著优于其他基线方法。在会话级和轮次级评估中,FLOWAGENT在任务成功率、任务进度和工具使用性能等方面均取得了最佳成绩。特别是在处理超出工作流(OOW)场景时,FLOWAGENT展示了强大的适应能力和灵活性。
此外,消融实验验证了控制器在确保工作流合规性方面的关键作用。无论是决策前控制器还是决策后控制器,其存在都显著增强了模型的合规性和稳定性,确保代理在复杂场景中的稳步进展。
尽管FLOWAGENT在合规性和灵活性方面取得了显著进展,但仍存在一些局限性。首先,目前的研究主要集中在手动构建的工作流上,评估也仅限于这些人工定义的设置。未来的研究应探索动态工作流合成,以适应多变和复杂的用户需求,而无需人工干预。
其次,尽管本研究使用模拟用户交互评估了代理在OOW场景下的性能,但其现实世界的适用性仍需在更广泛的真实用户需求谱系中进行测试。未来的研究应进一步丰富对话多样性,并在真实用户环境中验证FLOWAGENT的性能和适应能力。(END)
参考资料:https://arxiv.org/pdf/2502.14345
本文转载自独角噬元兽,作者: FlerkenS
