Agent Planning大揭秘:轻松拿捏多计划选择!
在人工智能的世界里,我们经常面临一个挑战:如何让机器像人类一样,面对复杂任务时,能够生成多种可能的解决方案,并从中选择最优的计划呢?这正是“多计划选择”(Multi-Plan Selection)要解决的问题。今天,咱们就来聊聊这个有趣的话题。
首先,想象一下,如果我们的智能Agent面对一个复杂的问题,它可能会生成多个计划。但是,这些计划可能各不相同,甚至有些可能根本不可行。这时候,多计划选择就派上用场了。它包括两个主要步骤:多计划生成和最优计划选择。
在多计划生成阶段,LLMs会尝试生成一系列可能的计划。这就像是在头脑风暴,尽可能多地提出解决方案。主流的方法会利用生成模型在解码过程中的不确定性,比如通过温度采样或top-k采样来获得多个不同的推理路径。在Tree-of-thought的研究中, 提到了2种生成planing的策略:sample、propose, sample策略与 Self-consistency策略一致,在解码过程中,LLM会采样多个plan。propose则是通过在提示中使用少量示例明确指导LLM生成各种plan。
接下来是最优计划选择阶段,这里Agent需要从多个候选计划中选择一个最好的。这个过程就像是在一堆方案中挑选出最闪亮的那一个。不同的策略会采用不同的启发式搜索算法,比如简单的多数投票策略,或者利用树结构来辅助多计划搜索。在Self-consistency中使用了一个简单的直觉,即复杂问题的解决方案很少且是唯一的。Self-consistency 应用了一种朴素的多数投票策略,将得票最多的计划视为最优选择。在Tree-of-Thought中利用树状结构支持树搜索算法,如传统的bfs和dfs。在选择要扩展的节点时,使用LLM评估多个动作并选择最优的一个。
但是,多计划选择虽然在理论上看起来很美,实际上却面临着一些挑战。首先,它会增加计算需求,尤其是对于大模型来说,计算成本可能会非常高。其次,依赖于LLM来评估计划的性能,这本身还存在不确定性,需要进一步的验证和调整。
不过,别担心,尽管存在这些挑战,多计划选择的优势也是显而易见的。它能够提供更广泛的潜在解决方案探索,帮助Agent在广阔的搜索空间中找到最佳路径。而且,随着技术的发展,我们有理由相信,这些问题都将得到解决。
本文转载自 探索AGI,作者: 猕猴桃