什么是AI Agent,以及怎么实现AI Agent? 原创
最近发现有些人还不了解什么是AI Agent,或者是看了Agent的概念,但还是不知道什么是AI Agent,今天我们就来详细介绍一下什么是AI Agent。
什么是AI Agent?
这篇关于Agent的文章,即是对AI Agent的介绍,也是为了记录自己对AI Agent的理解。
网上的介绍说,AI Agent中文翻译叫智能体,是一种能够感知环境,进行决策和执行动作的智能实体。
看了以上的定义,可能很多人还是觉得一头雾水,这都是什么玩意,能不能说点人能看懂的东西。
那下面我们就用大白话介绍AI Agent,大家都说大模型的功能很强大,能回答问题,绘画等等;但如果你想让大模型去工地搬砖怎么办?它又没手没脚,而且也不知道该往哪搬啊。
难道因为这个原因,就不让大模型去工地搬砖了吗?这显然是不可能的,发展科技的目的就是为了人类服务的;所以就需要一种让大模型能够搬砖的方法。当然,类似的还有让大模型去帮忙处理工作,去控制生产等等。
所以,简单来说所谓的AI Agent就是一种让大模型能够与现实世界接触的方法,让大模型能够去替代人类处理一些工作与问题,这就是AI Agent。
那么,说起来简单Agent就是让大模型去干活;但回到技术上来看,大模型没有手脚,你想让它干活它就能干活了?这显然是不可能的,因此就需要一种方式——函数调用。
因为目前是信息时代,各种企业生产都开始慢慢接入工业互联网中;在以前干活时需要员工在流水线上操作,而现在只需要让员工点点鼠标即可。
而这一切都是通过API的方式进行的,因此只需要给大模型设计一个能够使用API的功能,就可以让大模型去干这些事情,而这就是函数调用;函数调用是实现AI Agent的基础之一。
ok有了函数调用也就意味着大模型有了现实中的手和脚,但我们知道大模型目前的能力还有限;它还无法做到像真正的人类一样聪明,面对复杂的问题它还是无法处理。因此,虽然大模型有了“手脚”,但它依然什么都干不了,因为没有一个能够指挥它的大脑。
因此,就需要一种方式来提高大模型这个大脑的逻辑思维能力,在遇到问题时,大模型能够根据自己的逻辑思维能力进行判断和处理。
而由此也诞生了一些新的技术,比如说思维链(CoT)技术等;目的就是让大模型具备任务分解的能力,把一个复杂的工作任务拆解成多个简单的可行的小任务;而这就是大模型的推理能力。
还有,目前的大模型没有记忆功能,也就是说你每次和它说话都是全新的, 没有上下文,这也是目前大模型的一个短板;因此你想连续和它交流就需要有一种解决这个问题的办法,这个办法就是怎么让大模型具备上下文记忆的能力,比如连续对话的能力。
如果没有记忆能力,那么AI Agent会发生什么事情?
那就会出现,上一秒大模型让做的事情,下一秒它自己就忘了;而这就会导致重大的生产事故。而目前大模型的记忆能力主要是通过外部存储库实现的——比如说向量数据库。
而有了以上三个东西,函数调用——大模型现实中的手脚;逻辑推理能力——大模型任务分解和规划的能力;以及记忆能力——大模型上下文理解和连续对话的能力。大模型就可以像真正的人类一样,去完成各种复杂的任务。
最后,还需要一个东西,那就是行动力;在大模型具备这些能力之后,我们就可以通过对话或其它方式,让大模型按照具体的任务去行动;也就是先调用逻辑推理模型去分析和拆解任务;然后使用函数调用去实现外部功能的控制;最后使用向量数据库报错连续对话。
因此,这才有了AI Agent的一个经典架构图:
即:工具模块(函数调用),规划模块和记忆模块;最后大模型通过这三个模块来处理现实中的任务。
而具体这几个模块之间,怎么实现,使用了哪些技术,这就是另一个话题了。
本文转载自公众号AI探索时代 作者:DFires