全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

人工智能
本周,一家 Y Combinator 支持,名为 Cosine 的创业公司宣布推出自己的全新自主 AI 工程师 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试 SWE-Bench 上的得分为 30%,而 Devin 的得分仅为 13.8%。

大模型正在「替代人类程序员」的道路上快速前进。

今年 3 月,人工智能软件工程师 Devin 引爆了 AI 社区,该产品由 OpenAI 的 GPT-4 基础大型语言模型(LLM)提供支持,可以在收到自然语言文本指令后自主编写和编辑代码。

但在生成式 AI 领域,快速发展是主旋律,现在技术又迭代了。

本周,一家 Y Combinator 支持,名为 Cosine 的创业公司宣布推出自己的全新自主 AI 工程师 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试 SWE-Bench 上的得分为 30%,而 Devin 的得分仅为 13.8%。

新工具甚至超过了亚马逊的 Q 和 Factory 的 Code Droid 的 19%,现在是全球性能最好的 AI 程序员。

图片

Genie 在 SWE-Bench 基准上的表现,以及与其他 AI 代码模型的比较。

「这个模型远不止是一个基准跑分而已:它是以像人类 SWE(软件工程师)一样思考和行动为目标从头开始训练的,」Cosine 的联合创始人兼首席执行官 Alistair Pullen 表示。

图片

会修 Bug,能写代码的 Genie

作为一种先进的 AI 软件工程模型,Genie 可以按照人类工程师的指示自主处理各种编码任务,包括 bug 修复、功能构建、代码重构、代码测试等。

Genie 可以完全自主运行,也可以与用户协作完成任务。

它支持多种编程语言,在技术报告中显示,其中包括 JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby。

Cosine 声称 Genie 可以模拟人类工程师的认知过程。「让它观察人类工程师是如何工作的,并模仿这个过程。」Alistair Pullen 表示。

一直以来,安全问题是大家比较关心的,Genie 生成的代码存储在用户的 GitHub 仓库中,因而 Cosine 不会保留代码副本,从而避免了随之而来的安全风险。

此外,Cosine 的软件平台已经集成了 Slack 和系统通知,它就像一位 AI 同事,提醒用户状态或标记 issues。

Alistair Pullen 演示了如何使用 Genie 来解决实际问题。目标是 GitHub 上的一个 issue,我们只需要直接往里丢链接,AI 会自动分析问题,自动开始思考解决这个问题需要用到哪些文件,一直到满足要求为止。

图片

然后,Genie 会开始尝试将问题分解成很多解决步骤,随后生成代码。

图片

接着就是跑代码了,如果生成的代码有问题,它就自动寻找出问题的地方进行分析、修改,然后再尝试运行。

图片

最后输出结果:两个文件、17 次测试,仅用时 84 秒。

图片

这不知道比人类程序员要快上多少倍了。

长上下文由 OpenAI 模型提供支持

与许多依赖基础模型并辅以少量工具的 AI 模型不同,Genie 是通过专有流程开发的。

就模型而言,Genie 基于(目前)非通用的 GPT-4o 变体构建而成,OpenAI 允许 Cosine 将其作为实验访问计划的一部分进行训练。

通过技术报告我们得知,当研究者开始构建 Genie 之初,他们只能在 16-32k 范围内微调相对较短的上下文窗口模型。

为了解决这一问题,团队人员对这些模型进行了大量的早期探索,并在超过 1 亿个 token 的大量数据集上对它们进行训练,虽然发现架构具有一定优势,但还是面临模型在特定时间内可以处理的信息量的限制。

在尝试了各种压缩 / 分块方法后,团队认为唯一的解决方案是使用更大的上下文模型,尽管当时没有可供使用的模型。

幸运的是,不久之后,能够确保训练长上下文的 OpenAI 模型出现了。

Cosine 在其博客文章中表示,他们花了将近一年的时间来整理数据集,在最近的训练运行中,Genie 接受了数十亿个 token 数据的训练,选择的数据包含了用户目前最关心的编程语言。以下是训练 Genie 的过程中不同编程语言数据所占的比例:

图片

以下是 Bug 修复、重构等不同功能的数据占比:

图片

在价格方面,据 Pullen 透漏, Genie  最初定价将分为两个层级:

  • 入门级选项,定价大约在 20 美元左右。这个层级会有一些功能和使用限制,适合个人和小型团队使用;
  • 企业级选项,提供扩展功能,使用几乎不受限制,好比拥有了一个精通代码的 AI 同事。但这个层级的定价将更高。

Genie 的推出对软件开发团队具有深远的影响,特别是那些希望提高生产力并减少花在日常任务上的时间的团队。凭借其自主处理复杂编程挑战的能力,Genie 可能会改变工程资源的分配方式,使团队能够专注于更具战略性的计划。

 Pullen 表示,对于他来说,工程资源不再成为限制是一个巨大的推动力,特别是在创办公司以来。他认为,一个能够快速进入未知代码库并解决未见过的问题的 AI 同事,其价值显而易见,并且对世界有着巨大的影响。 

未来,该公司打算扩大其模型组合,包括用于简单任务的小模型和能够处理更复杂挑战的大模型。此外,Cosine 还计划将其工作拓展到开源社区。 

现在 Genie 已向部分用户推出,但更广泛的访问权限还未完全开放。

申请地址:https://cosine.sh/register

创始团队:只有五人

提出 Genie 的创业公司 Cosine 由 Pullen、Sam Stenner 和 Yang Li 于 2022 年创立,其使命是通过应用人类推理的方式来解决复杂问题,从而突破 AI 的界限。显然,他们的努力是从软件工程开始。


图片

其中,Yang Li 是一名华人,他硕士毕业于牛津大学,在 2021 年曾入选过福布斯 30 Under 30 欧洲区名单。

Cosine 已经从 Uphonest 和 SOMA Capital 筹集了 250 万美元的种子资金,Lakestar、Focal 等公司也参与其中。

团队规模虽小,但 Cosine 已经在 AI 领域取得了重大进展,而 Genie 只是一个开始。

「我们坚信能够为任何工作和行业构建起人类级别的推理能力,」Pullen 在公告文章中表示。「软件工程只是最直观的起点,我们很快将会展示出我们正在研究的其他一切。」

参考内容:

https://venturebeat.com/ai/4-considerations-to-help-organizations-implement-an-ai-code-of-conducts/

https://cosine.sh/blog/genie-technical-report

https://cosine.sh/blog/state-of-the-art

责任编辑:庞桂玉 来源: 机器之心
相关推荐

2024-08-13 13:50:00

数据模型

2024-11-28 15:51:19

GPT-4o微软

2016-11-24 15:32:35

云计算

2024-11-06 15:20:00

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-06-11 14:47:23

2024-06-11 07:26:28

2024-05-14 11:29:15

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2024-04-03 12:18:45

AI训练

2024-05-24 14:04:04

2024-12-19 09:00:00

模型数学训练

2024-05-30 12:50:05

2024-07-04 15:30:07

2024-06-21 09:51:17

2024-05-14 08:23:27

GPT-4oAI技术

2024-07-31 13:20:14

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-06-27 12:45:30

点赞
收藏

51CTO技术栈公众号