图解LLM-Agent大模型智能体
LLM-Agent 大模型智能体热度空前,但智能体是什么、为什么、怎么办,行业还没有统一认知,典型的小学语文课本里“小马过河”的现实版。
是什么
一、OpenAI 工程师Lilian Weng的定义 2023.6.23
规划
子目标和分解:将大型任务分解为更小的、可管理的子目标。
反思和改进:对过去的行动进行自我批评和自我反省,从错误中学习。
记忆
短期记忆:上下文学习都是利用模型的短期记忆来学习。
长期记忆:长期保留和回忆信息的能力。
工具使用
调用外部API来获取模型权重中缺少的额外信息。
二、复旦大学学者的调研总结 2023.9.19
大脑
Brain作为记忆和决策中心。
感知
Perception解释外部刺激,从文本到更多模态的形式。
行动
Action执行来自“大脑”的决定。
三、NVIDIA 工程师Tanay Varshney的看法 2023.11.30
智能体核心
核心逻辑和行为特征的中央协调模块,或“关键决策模块”,包括
目标:包含总体目标和目的。
工具手册:可访问的所有工具的“用户手册”。
规划指南:不同规划模块的使用细节。
动态记忆:推断时动态填充与用户过去对话中最相关的记忆项。
角色(可选):最终响应中注入典型的特质。
记忆
短期记忆:回答用户的单个问题时所经历的行动和想法的账本。
长期记忆:用户和智能体之间发生的事件的行动和想法的账本。
工具
用来执行任务的定义良好的可执行工作流。
规划
任务和问题分解
反思或批评
LLM大模型之前,Agent就有不少研究,LLM 让这一构想有了更现实的可能。以上是今年影响面较大的三篇内容,其中有明显的时间线,反映了行业认知的持续深化。NVIDIA 工程师的版本更简洁明了。
为什么
一、幻觉,大模型天生可能一本正经的胡说。哈工大与华为学者的调研 2023.11.9
数据引起
缺陷数据源(错误信息与偏见,知识边界)
数据利用不足(知识捷径,知识召回失败)
训练所致
预训练带来(架构缺陷,次优训练目标)
对齐产生(能力错位,信念错位)
推理引入
缺陷的解码策略(内在采样随机性)
不完美解码表征(上下文注意力不足,Softmax瓶颈)
二、前后左右不一的自一致性 self-consistency
单视角横向自一致性
单视角纵向自一致性
同上下文,单条线,先后同输入的输出预期一致
多视角纵横一致性
不同上下文,多条线,先后同输入的输出,特定情况下预期一致
三、记忆的短期性,上下文窗口限制
没有超出上下文窗口的记忆
只能“记住”给定的有限上下文中的内容,没有其他独立的记忆存储。
上下文窗口作为LLM的瞬时记忆
完全依赖于上下文窗口来获取任何之前的信息。
怎么办
一、从LLM外部解决问题的思路,典型做法,检索辅助生成RAG
RAG
模型利用从文档中检索到的相关信息辅助生成过程。
附加知识库
为模型提供额外的信息输入,适用于知识密集型任务。
两个关键阶段
利用编码模型基于问题检索相关文档,如BM25、DPR、ColBERT等方法。
使用检索到的上下文作为条件生成内容。
RAG局限
不适用于教会模型理解广泛的领域或学习新的语言、格式或风格。
微调技术
通过深入学习内化知识,适合需要复制特定的结构、风格或格式。
二、解铃还须系铃人,从LLM内部系统性解决问题的思路
解铃还须系铃人,有针对性的为幻觉来源对症下药,将是今后管控幻觉的关键措施。这里没用“消除”一词,从上文认知框架笔者推断,可将幻觉降低到“不可见”范围,但很难消除为零。
针对语料中的偏差与错误,语料的全面数据治理十分必要,既要丰富详实,又要不偏不倚;加大算力提高模型精度,增强嵌入及后续训练的信息区分度;
改进Transformer-Attention归一化算法,优化降低自由能损失,最大程度降低信息折损;自回归预测将受益于归一化优化,从而提升内部概率先验精确性;
构建重整化流的数学公式,推导出其流动的方向,并计算可能的不动点,从而借助新语料,对不动点做微扰,促进其进入更有序的相空间,实现可控的可预测的涌现;
RLHF训练结合提示工程探索不同上下文有效提示语,改进decoder模型,促进大模型内部采样使用Wasserstein距离作为概率分布近似的度量;
探测研究内部世界模型结构,进而可以控制模型温度,指导动态Bayes推理更贴切的采样概率分布,进一步亦可通过检索增强生成(RAG)效果,提高自一致自评估能力。
三、内外兼修,多种概念架构层出不穷
伯克利学者增强上下文窗口 Context Window 的思路
增加一个分层的外部上下文和相应管理功能函数。
LLM处理器以主上下文为输入,并输出由解析器解释的文本:输出或函数调用,函数调用在主上下文和外部上下文之间移动数据。
普林斯顿学者的工作也比较有启发性
定义了一组交互模块和过程。
决策程序执行智能体的源代码。
此源代码由与 LLM (提示模板和解析器)、内部存储器(检索和学习)和外部环境(Grounding) 交互的过程组成。
写在最后
逻辑上人脑包括两个重要系统:
系统1 负责刺激响应,系统2负责深度思考。
大模型LLM功能目前相当于系统1,智能体Agent类似系统2。
两者相辅相成,协同一致,处理复杂问题两者都不可或缺。
笔者倾向于从LLM内部解决现有问题的思路,三个关键点:
·Self-awareness,非自我意识,而是加强LLM对学到的范畴的结构和关系的理解;
·范畴内和跨范畴采样改进,依据更好的“范畴的结构和关系的理解”优化采样算法;
·构建内部工作空间,管理短中长期多层次记忆与范畴交互,推理规划与使用工具;
参考文献
1.LLM Powered Autonomous Agents https://lilianweng.github.io/posts/2023-06-23-agent/
2.The Rise and Potential of Large Language Model Based Agents: A Survey https://arxiv.org/pdf/2309.07864.pdf
3.Introduction to LLM Agents https://developer.nvidia.com/blog/introduction-to-llm-agents/
4.A Survey on Hallucination in Large Language Models:Principles, Taxonomy, Challenges, and Open Questions https://arxiv.org/pdf/2311.05232.pdf
5.ENHANCING LARGE LANGUAGE MODELS IN CODING THROUGH MULTI-PERSPECTIVE SELF-CONSISTENCY https://openreview.net/pdf?id=hUs8YHAUEr
6.Survey of Hallucination in Natural Language Generation https://arxiv.org/pdf/2202.03629.pdf
7.Retrieval-Augmented Generation for Large Language Models: A Survey https://arxiv.org/pdf/2312.10997.pdf
8.Cognitive Architectures for Language Agents https://arxiv.org/pdf/2309.02427.pdf
9.https://promptengineering.org/statistical-or-sentient-understanding-the-llm-mind/
10.MEMGPT: TOWARDS LLMS AS OPERATING SYSTEMS https://arxiv.org/pdf/2310.08560.pdf