Agents需要一个代码解释器

译文 精选
人工智能
在他们的类比中,完全依赖LLM的代理可以被认为是在没有慢思考的情况下操作,即在没有深入思考的情况下来快速生成文本。下面是一个例子,说明即使是简单的任务也可能需要一些系统,而不能凭直觉回答。

作者 | Vasek Mlejnsky

编译 | 言征

出品 | 51CTO技术栈(微信号:blog51cto)

构建人工智能代理很难。你将与幻觉作斗争,让agents智商不掉线,并引导他们使用正确的工具。

不过,方法也不难,其中一种就是赋予代理代码执行能力。

以下是为什么你的人工智能代理应该有一个代码解释器的一些原因。

一、额外技能

具有代码解释器的代理可以获得诸如对CSV文件执行统计分析或绘制图表之类的功能。

当你向不同的代理请求相同的东西时,很明显,那些具有底层代码解释器的代理有多大的不同。如果不运行代码,几乎不可能完成以下任务:

  • 分析NVIDIA的股票并预测其发展。
  • 和人一起玩扑克游戏。
  • 订一张机票。

我们先来看一下Perplexity(一个没有代码解释器的代理)如何处理数据分析任务。即使提供了数据文件,代理也无法完成任务——它所能做的最好的事情就是提供关于应该运行什么代码的建议。

图片图片

以下是带有底层代码解释器的ChatGPT将如何处理相同的任务…

图片图片

…还包括安装新软件包和生成图表。

图片图片

请注意,最终用户不需要意识到应用程序在幕后执行编码任务,因为主要目标(如“为我预订航班”)通常不围绕编码。

二、复杂推理

大型语言模型(LLM)擅长生成文本,但难以进行推理和复杂思考。

谷歌的团队对丹尼尔·卡尼曼的名著《思考,快与慢》进行了有趣的类比。执行代码的能力使代理具有慢思考(努力、逻辑和计算)与快思考(直觉和自动)的能力,并通过代理在没有代码解释器的情况下的行为来表示。

在他们的类比中,完全依赖LLM的代理可以被认为是在没有慢思考的情况下操作,即在没有深入思考的情况下来快速生成文本。下面是一个例子,说明即使是简单的任务也可能需要一些系统,而不能凭直觉回答。

图片图片

三、减少LLM幻觉

最近的一篇论文证实,即使在给出推理提示的情况下,LLM也会对多步骤任务产生幻觉。作为论文研究结果的后续,一位软件工程师展示了使用代码解释器式LLM引擎如何成功地将幻觉减少一个数量级。他发现,代码解释器可以将GPT-4幻觉率从<10%降低到<1%。

代码解释器可以处理上传和下载,编写代码从源文件中查找数据并得出结论,而不是像更简单的代理通常那样自由推理。

对抗LLM幻觉的其他方法包括RAG、微调和增加LLM上下文窗口的大小。

四、自己测试代码

另一个巨大的挑战是LLM代码的生成。当代理不仅可以生成代码,还可以在运行代码时,它就能够测试自己输出的功能并对其进行迭代。

五、使用代码解释器构建

作为围绕LLM构建的新生态系统的一部分,我们将看到代码解释器为更多的人工智能代理和应用程序提供动力,在LLM中,代码解释器代表了代理大脑的关键部分。有关构建的灵感,不妨参阅流行的开源产品,如Open Interpreter或AutoGen。

图片图片

当然,仍然有一些挑战需要克服,例如找到一种安全和最佳的方式来运行LLM生成的代码,这可以通过在独立的云环境中执行进程来解决。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2022-06-29 09:02:31

go脚本解释器

2022-01-05 08:58:08

Python解释器编程语言

2024-01-31 08:16:38

IPythonPython解释器

2012-08-14 10:44:52

解释器编程

2018-08-26 05:38:44

路由器调制解调器网络设备

2018-12-04 13:30:28

Javascript编译原理前端

2013-04-25 09:55:21

进程线程

2013-03-04 10:22:30

Python

2019-09-18 15:09:50

进程线程操作系统

2022-04-28 13:56:10

元宇宙虚拟交易NFT

2023-09-26 16:44:14

光模块

2014-01-09 09:42:56

Python语言检测器

2022-06-28 08:17:10

JSON性能反射

2022-07-14 16:18:32

massCode开源

2014-05-15 09:45:58

Python解析器

2023-12-25 15:28:57

Python工具pywebio

2023-09-15 16:34:41

数据管理数据治理

2014-01-21 09:42:32

Python代码对象

2020-07-21 08:42:16

搞垮服务器日志

2009-08-06 10:55:46

C#代码解释器
点赞
收藏

51CTO技术栈公众号