吴恩达大佬关于智能体趋势的最新观点!

发布于 2024-11-29 15:17
浏览
0收藏

大语言模型(LLM)通常被优化用来回答人们的问题。但是现在有一个趋势是模型也在被优化以适应智能体工作流程。这将大大提升智能体的性能! 

在ChatGPT在问答方面取得突破性成功之后,大量的LLM开发都集中在提供良好的消费者体验上。因此,LLM被调教来回答问题("为什么莎士比亚要写《麦克白》?")或遵循人类提供的指令("解释为什么莎士比亚写了《麦克白》")。指令微调数据集中的很大一部分都在引导模型为人类编写的问题和指令提供更有帮助的回应,这些问题和指令类似于人们可能会向面向消费者的LLM提出的问题,比如ChatGPT、Claude或Gemini的网页界面所提供的服务。 

但智能体的工作负载需要不同的行为。AI软件可能会在迭代工作流程中使用模型来反思自己的输出、使用工具、制定计划,并在多智能体环境中协作,而不是直接为消费者生成回应。主要的模型开发商越来越多地优化模型,使其也能用于AI智能体。 

以工具使用(或函数调用)为例。如果有人询问LLM当前的天气,它无法从训练数据中得出所需的信息。相反,它可能会生成一个API调用请求来获取这些信息。即使在GPT-4原生支持函数调用之前,应用程序开发者就已经在使用LLM生成函数调用,但需要编写更复杂的提示(比如ReAct提示的变体),告诉LLM有哪些函数可用,然后让LLM生成一个字符串,由单独的软件程序解析(可能使用正则表达式)来确定是否要调用函数。 

在GPT-4和随后许多其他模型原生支持函数调用之后,生成这样的调用变得更加可靠。如今,LLM可以决定调用函数来搜索信息用于检索增强生成(RAG)、执行代码、发送电子邮件、在线下单等等。 

最近,Anthropic发布了其模型的一个版本,能够使用计算机,通过鼠标点击和按键操作计算机(通常是虚拟机)。我很享受使用这个演示。虽然其他团队一直在提示LLM使用计算机来构建新一代RPA(机器人流程自动化)应用程序,但主要LLM提供商原生支持计算机使用是一个重大进步。这将帮助很多开发者! 

随着智能体工作流程的成熟,我观察到以下趋势:  

  • 首先,许多开发者正在提示LLM执行他们想要的智能体行为。这允许快速、丰富的探索!
  • 在较少的情况下,从事高价值应用程序开发的开发者会对LLM进行微调,使其更可靠地执行特定的智能体功能。例如,即使许多LLM原生支持函数调用,它们也是通过接收可用函数的描述,然后(希望)生成输出标记来请求正确的函数调用。对于生成正确函数调用很重要的关键任务应用,针对应用程序特定函数调用进行微调可以显著提高可靠性。(但请避免过早优化!今天我仍然看到太多团队在应该花更多时间在提示上之前就急于进行微调。)
  • 最后,当某项功能(如工具使用或计算机使用)对许多开发者来说显得有价值时,主要的LLM提供商正在将这些功能直接构建到他们的模型中。尽管OpenAI的o1-preview的高级推理有助于消费者,但我预计它在智能体推理和规划方面会更加有用。

大多数LLM主要是为了提供良好的消费者体验而优化回答问题的能力,我们已经能够将它们"嫁接"到复杂的智能体工作流程中来构建有价值的应用程序。LLM为原生支持特定智能体操作而构建的趋势将大大提升智能体的性能。我相信在这个方向上的重大智能体性能提升将在未来几年内实现。 

本文转载自 AI 思与行​,作者:cc

收藏
回复
举报
回复
相关推荐