实测打脸!世界第一位AI程序员Devin:20项任务只完成了3项!14项任务彻底失败! 原创
编辑 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
10个月过去,世界“首位AI程序员”究竟如何了?
近日, Answer.AI 团队中经常试验 AI 开发工具的测试团队秉着“百闻不如一见”的精神,与最受Twitter追捧的编程神器共事了一个月,结果非常惨烈。
“作为 Answer.AI 团队中经常试验 AI 开发工具的一员,Devin 给人的感觉有些不同。如果它能实现承诺的一半,它就能改变我们的工作方式。但尽管 Twitter 上充满了热情,我们却找不到太多关于人们实际使用它的详细记录。所以我们决定对它进行测试,在各种现实世界的任务中对其进行测试。这就是我们的故事——一次彻底的、现实世界的尝试,尝试使用 2024 年最受炒作的 AI 产品之一。
图片
不过,经过20项实际的工作测试任务后,“首位AI软件工程师”的服务在真实工作水平表现相当糟糕。
隶属于 Answer.AI(由 Jeremy Howard 和 Eric Ries 创立的 AI 研发实验室)的三名数据科学家对 Devin 进行了测试,发现它只成功完成了 20 项任务中的 3 项。
1.20项只完成了三项,Devin真实实力不堪一击
在本月初(1月8日),由 Hamel Husain、Isaac Flath 和 Johno Whitaker 发表了一项针对Devin的综合分析中,Devin 开局不错,成功地将数据从 Notion 数据库提取到 Google 表格中。
图片
AI 代理还设法创建了一个行星跟踪器,用于检查有关木星和土星历史位置的说法。
但随着三名研究人员继续测试,他们遇到了问题。
研究人员在他们的报告中解释说:
“看似简单的任务通常需要几天而不是几小时,Devin会陷入技术死胡同或产生过于复杂、不可用的解决方案。“更令人担忧的是,Devin 倾向于推进实际上不可能的任务。”
例如,他们引用了Devin在被要求将多个应用程序部署到基础设施部署平台 Railway 时如何不理解、如何不受支持,并花了一天多的时间尝试不奏效的方法,此外还产生不存在的功能等类似的幻觉。
在提交给 Devin 的20项任务中,AI软件工程师只圆满地完成了其中的 3 项——上面提到的两项任务和研究如何使用 Python 构建 Discord 机器人的第三项挑战。其他3项任务产生了不确定的结果,14个项目彻底失败。
图片
研究人员表示,Devin提供了完美的用户体验,在奏效时令人印象深刻。
“但问题是——它很少奏效,在我们尝试的20项任务中,我们看到14次失败,3 次结果不确定,只有 3 次成功。”他们写道。
“更令人担忧的是,我们无法预测哪些任务会成功。即使是类似于我们早期胜利的任务也会以复杂、耗时的方式失败。看似有希望的自主性变成了一种负担——Devin会花几天时间寻找不可能的解决方案,而不是识别根本的障碍。”
我们在实际使用AI工具中会反复观察到这样一种现象甚至是模式:无法预测哪些任务会成功。
所以,社交媒体的吹捧热情和公司估值与现实世界的真实效用并不匹配。
但我们还是需要可靠的、可交付的产品和服务来推动增长,不是吗?
截至目前,Devin背后的公司Cognition AI没有回应置评请求。
2.Devin自主执行任务的原理
“Devin”被誉为自主编程智能体,于 2024 年 3 月推出。该机器人的创建者是一家名为 Cognition AI 的机构,它声称“Devin 可以端到端地构建和部署应用程序”,以及“可以自主查找和修复代码库中的错误”。该工具于 2024 年 12 月正式发布,起价为每月 500 美元。
根据 Cognition 官方文档的描述,Devin 是一名自主的 AI 软件工程师,可以编写、运行和测试代码,帮助软件工程师完成个人任务或团队项目,它可以审查 PR、支持代码迁移、响应随叫随到的问题、构建 Web 应用程序,甚至执行个人助理任务,例如在 DoorDash 上订购午餐,以便您可以专注于您的代码库。
原理上大概是这样:该服务使用 Slack 作为其命令的主接口,这些命令被发送到其所在的计算环境,一个托管终端、浏览器、代码编辑器和规划器的 Docker 容器。AI 代理支持与外部服务的 API 集成。例如,这允许它通过 SendGrid 代表用户发送电子邮件。
Devin 是一个“复合 AI 系统”,这意味着它依赖于多个底层 AI 模型,其中包括 OpenAI 的 GPT-4o,并且之后会有更过的模型加入。
从理论上讲,用户能够要求Devin执行将代码迁移到 Jupyter Notebook 开发平台 nbdev 等任务,并期望它能够成功完成这些任务。但这可能要求太高了。
3.早期就被曝视频造假,问题还很多
去年3月,Devin 在爆火不久后,就被人曝料早期评估发现了问题。起因是Cognition AI 发布了一段宣传视频,引起了业界的广泛关注,据称该视频展示了 AI 编码员可以在自由职业者平台 Upwork 上自主完成项目来赚钱。
图片
但很快,软件开发人员 Carl Brown 分析了该视频,并在他的 Internet of Bugs YouTube 频道上揭穿了它:自己对于视频中操作只需要36分钟,而用Devin则至少需要6小时甚至可能超过一天的时间。
另外,Devin 还因涉嫌包含关键安全问题而被另一位 YouTube 代码专家点名批评。
只能说,即便是较为成熟的编程赛道,要做一款另用户真正满意的自主Agent,任重道远。
参考链接:https://www.answer.ai/posts/2025-01-08-devin.html#appendix-tasks-attempted-with-devin
本文转载自51CTO技术栈,作者:言征