开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star

轻薄滴假象

发布于 2024-4-3 12:16

浏览

0收藏

最近，有很多人在为 AI 代替自己的工作而担忧。

上个月火遍 AI 圈的「首位 AI 程序员」Devin，利用大模型能力已经掌握了全栈技能，仅需要人类给出自然语言指令，就可以自动完成复杂的代码任务。

Devin 展示的能力非常惊艳，不过这款工具出自走闭源路线的创业公司，现在只有一小部分获得了内测名额的人才能使用。

本周二，来自普林斯顿大学 NLP 组的研究人员放出了 SWE-agent —— 一个开源版 AI 程序员，不到一天就获得了上千的 GitHub Star 量。

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star-AI.x社区

SWE-agent 是一款用于自主解决 GitHub 存储库中问题的新系统。它在 SWE-bench 上获得了与 Devin 相似的准确度，平均耗时为 93 秒。

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star-AI.x社区

项目网站：https://swe-agent.com/
GitHub：https://github.com/princeton-nlp/SWE-agent

该项目的作者 John Yang 表示，相关论文的预印版也将在 4 月 10 号上传。

从原理上看，SWE-agent 通过将大模型（例如 GPT-4）转变为软件工程智能体，可以修复真实 GitHub 存储库中的错误和问题。

在完整的 SWE-bench 测试集上，SWE-agent 解决了 12.29% 的问题，实现了 SOTA 性能。

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star-AI.x社区

为了提供开发过程中的自动化，SWE-agent 通过与专用终端交互来工作，它可以打开、搜索文件内容，使用自动语法检查、编辑特定行，也可以编写并执行测试。

该项目的开发者精心设计了 UI 界面，并在 GitHub 上进行了介绍。

智能体 - 计算机接口 (ACI)

研究团队设计了简单的以大模型（LM）为中心的命令和反馈格式，使大模型能够更方便地浏览存储库、查看、编辑和执行代码文件，这被称为智能体 - 计算机接口 (ACI)。研究团队还构建了 SWE 智能体存储库，以便轻松迭代存储库级编码智能体的 ACI 设计。

就像语言模型需要良好的提示工程（prompt engineering）一样，良好的 ACI 设计在使用智能体时会带来更好的结果。没有经过良好调整的 ACI 的基线智能体的表现比 SWE-agent 差得多。

SWE-agent 包含研究团队在智能体 - 计算机接口设计过程中发现的非常有用的功能，包括：

1. 添加一个在发出编辑命令时运行的 linter，如果代码语法不正确，则不会让编辑命令通过。

2. 为智能体提供一个专门构建的文件查看器。研究团队发现此文件查看器在每轮仅显示 100 行时效果最佳，并且该文件编辑器具有上下滚动以及在文件中执行搜索的命令。

3. 为智能体提供专门构建的全目录字符串搜索命令。研究团队发现该工具简洁地列出匹配项非常重要 —— 只需列出至少有一个匹配项的每个文件。该研究表明，向模型显示有关每个匹配的更多上下文对于模型来说太混乱了。

4. 当命令的输出为空时，返回一条消息：「您的命令已成功运行，但未产生任何输出」。

未来发布的论文将详述更多信息。

安装与使用

要使用 SWE-agent，首先要设置好如下条件：

1. 安装 Docker，并在本地启动 Docker；

2. 安装 Miniconda，并使用 conda env create -fenvironment.yml 创建 swe-agent 环境；

3. 使用 conda activate swe-agent 激活；

4. 运行 ./setup.sh 创建 swe-agent docker 镜像；

5. 在此存储库的根目录下创建一个 keys.cfg 文件并填写以下内容：

OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'
ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'
GITHUB_TOKEN: 'GitHub Token Here (required)'

SWE-agent pipeline 包含两个步骤：

第一步：SWE-agent 接收输入的 GitHub 问题，并返回尝试修复它的拉取请求（pull request）；
第二步：评估拉取请求以验证它确实解决了问题（目前仅适用于 SWE-bench 基准测试中的问题）。

如果想在整个 SWE-bench 上运行和评估，最简单的方法是使用 x86 机器。

python run.py --model_name gpt4 \
  --data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml

python run.py --model_name gpt4 \
  --per_instance_cost_limit 2.00 \
  --config_file ./config/default.yaml

如果想运行 SWE-bench 中的单个问题，可以使用 --instance_filter：

python run.py --model_name gpt4 \
  --instance_filter marshmallow-code__marshmallow-1359

本文转自机器之心，作者：机器之心

原文链接:https://mp.weixin.qq.com/s/1nQhMYYeMg7oRiABcaVZlw

标签

开源 AI

相关推荐

一个命令工具让GPT-4干掉Devin和RAG！Jim Fan：提示工程2.0没必要了！

51CTO技术栈 • 1807浏览 • 0回复
谷歌美女程序员手搓矩阵乘法内核

duhorse • 2699浏览 • 0回复
GPT-4 Turbo更新：视觉能力+无限制使用

echo_ning • 2471浏览 • 0回复
看懂网飞版「三体」！Reka Core登场：挑战GPT-4、Claude 3

duhorse • 1450浏览 • 0回复
Meta 发布Llama 3，能力直逼GPT-4,一己之力拉高开源大模型水位

51CTO技术栈 • 2542浏览 • 0回复
他12岁就能写代码，为数百万程序员引路~

wx65af60231fbe2 • 1315浏览 • 1回复
国产开源MoE指标炸裂：GPT-4级别能力，API价格仅百分之一

Crystalcxt • 1302浏览 • 0回复
OpenAI开源GPT-4 SAE，提供1600万个解释模式

Aceryt • 2397浏览 • 0回复
超越GPT-4o，Claude 3.5一夜封王！10倍编码速度逆天，全网最全实测来了

duhorse • 2669浏览 • 0回复
一张图生成绘画全过程，两天狂揽1.4k Star

轻薄滴假象 • 1456浏览 • 0回复
清华大学最新深度时序模型综述+5k star开源代码！

海因斯DK • 2431浏览 • 0回复
最强AI程序员砸饭碗：84秒跑通代码，像人一样思考！团队仅5人

Crystalcxt • 881浏览 • 0回复
【好礼赢不停】1024程序员嘉年华！在这里集结

AI.x社区官方账号 • 1.0w浏览 • 15回复
PHP程序员学习AI的学习心得

庞然大悟 • 554浏览 • 0回复
首个AI Agent程序员商业化，比ChatGPT Pro贵2倍

Aceryt • 812浏览 • 0回复
小模型界o1来了：微软推出Phi-4，数学推理能力太逆天！14B模型击败GPT-4o！还印证了AI墙的一个重要推断

51CTO技术栈 • 756浏览 • 0回复
击败99.9%的程序员！o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天

51CTO技术栈 • 1586浏览 • 0回复
OpenAI砸碎了程序员的饭碗

AI论文解读 • 443浏览 • 0回复
世界第一位AI程序员Devin：20项任务只完成了3项！14项任务彻底失败！

51CTO技术栈 • 394浏览 • 0回复

轻薄滴假象

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star

智能体 - 计算机接口 (ACI)

安装与使用

目录