教AI开发软件:IBM开源数据集Project CodeNet,含有1400万个代码示例

新闻 人工智能
IBM已组建了一个庞大的源代码库,用于教机器学习程序学习编程。

 [[399492]]

蓝色巨人希望为基于AI的编程工具创建含有丰富训练资源的ImageNet。

IBM已组建了一个庞大的源代码库,用于教机器学习程序学习编程。

这个数据集名为Project CodeNet,含有1400万个代码示例,共5亿行代码,涉及的编程语言超过55种:从Java、C和Go到COBOL、Pascal和FORTRAN,不一而足。老实讲,其中四分之三以上的代码是用C ++和Python编写的。

这些源代码不是从生产级应用程序或开发中的应用程序获取的,而是从参赛者向在日本组办的两大编程竞赛:Aizu和AtCoder提交的软件作品收集而来的。在这些竞赛中,参赛者需要编写必要的代码,以便将一组特定的输入转换成一组所需的输出。大约一半的代码示例按预期的那样运行,其余被标记为是错误的解决方案、非构建(non-building)或有缺陷。

比如说,理想情况下,您将训练一个AI工具,可以识别出好的程序、拒绝坏的程序。700万个代码示例包括了输入和所需的输出。

IBM希望CodeNet仿效ImageNet(用于训练计算机视觉应用程序的图片和标签数据库),并成为教软件明白软件开发蓝图的领先数据集——即代码实际上外观如何、与其他代码相比如何。IBM希望CodeNet可以用于训练诸如此类的开发工具:可以搜索应用程序和库来源以查找所需的例程,可以将一种语言转换成另一种语言,或者识别错误或正确的实现机制。

IBM在本周召开Think线上大会时宣布了该项目,称:“IBM相信CodeNet项目将充当颇有价值的基准数据集,用于源码到源码的转换,并将遗留代码库转换成现代代码语言,从而帮助公司企业加快AI的应用。”

IBM和MIT-IBM Watson AI实验室团队联合开发了该数据集,撰写了一篇论文介绍相关工作,并将所有整理后的材料放在了该项目在GitHub的页面(https://github.com/IBM/Project_CodeNet)上。

“该数据集不仅在规模上很独特,在它有助于基准测试的编程任务的多样性上也很独特:从代码相似性和分类以获得代码推荐算法方面的进步,到一大批编程语言之间的代码转换,再到代码性能改进技术方面的进步,”研究人员在报告中这样总结道。

 

 

责任编辑:张燕妮 来源: 云头条
相关推荐

2021-10-25 10:58:24

AI 代码人工智能

2021-05-19 09:26:03

代码开源IBM

2011-09-01 09:07:30

程序员

2012-07-04 15:05:14

ibmdw

2011-07-25 18:40:43

iPad iPad开发 界面

2022-11-06 15:42:16

软件开发KPI团队

2021-03-31 08:00:00

开发工具游戏

2009-08-14 15:10:47

C# Windows服

2018-06-08 09:00:00

开发软件程序员

2016-12-30 13:52:29

2010-03-04 17:59:38

2017-01-17 16:39:50

2010-09-10 09:05:03

XNAWindows Pho

2011-06-22 14:11:47

Flash

2011-06-09 13:45:26

惠普甲骨文安腾

2011-03-08 13:05:40

编程语言Java

2012-05-22 22:53:54

ipad

2022-02-12 00:05:53

开发软件硬件

2012-12-11 16:27:00

软件项目

2013-05-22 10:14:17

开发者软件开发自闭症患者
点赞
收藏

51CTO技术栈公众号