本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
7月7日,一位网友在推特上公开炮轰GitHub:
这位用户贴出了一封GitHub的邮件回复。
邮件中,GitHub官方确认了他们会使用所有GitHub公开代码来训练Copilot,并且不区分License类别。
而在之前,明明官方有过“Copilot是在GPL代码的基础上训练出来的”这种说法,但之后GitHub的CEO又表示:
每天都有数百名GitHub的开发者在使用Copilot,如果预览版进展顺利的话,我们将计划在未来某个时候将其扩展为付费产品。
完全就是一副视General Public License如无物的样子。
这位博主讽刺到,遵守版权的只有穷人和无产者,富人和大公司想怎么做都可以。
这个消息一出,网友们直接炸了。
“我们不区分License”
不区分License类别,这意味着什么?
不管是使用了以下哪一份协议的代码,GitHub都有可能拿来训练Copilot。
△图源博客《如何选择开源许可证?》
如果未来Copilot真的变成付费商品,那么对于很多并不允许被修改后拿去商用的源代码来说,这毫无疑问是一种侵权行为。
更何况还包括了整个GitHub里的所有代码!
在GitHub自己的服务协议(ToS)里,他们可都表示“这份协议并没有给GitHub出售您内容的权利”:
不过有人觉得事情没那么严重:
他们没有真正出售代码,他们卖的是一种代码组合的模式。
确实,GitHub官方有说过Copilot“通常不会精确复制代码块”。
但马上就有人反驳:
可是大量的例子表明Copilot就是在逐字复制-粘贴代码块,实质上不就是在出售别人的代码吗?
而且,要是Copilot自动生成的代码就是从别处一字不差的照搬来的呢?
又或者来自某个不允许被商用的源代码,而用户又拿着这些自动生成的代码去商用了呢?
不仅是GitHub自己违背版权,这种不顾License的商用也有可能让用户在无意识间面临被起诉的风险。
而GitHub Copilot的下载页面中,并没有与此相关的法律风险的提示。
最开始曝出这一事件的博主表示:
GitHub以及微软认为,个人和小型社区项目的版权是没有价值的。这也就是为什么他们会和自由软件们打成一片;他们从来都没打算尊重过我们的权利。
而目前,GitHub还没有对这件事作出回应。
抄袭可耻,AI无罪?
Copilot上周二由GitHub和OpenAI联合发布。
至此,发布不到两周,Copilot就深陷“版权侵犯”的质疑之中。
在发布之初时,GitHub称:
Copilot可以分析文档中的字符串、注释、函数名称以及代码本身,从而生成新的匹配代码,包括之前调用的特定函数。
简单来说,这就是个“自动代码生成器”。
刚刚发布时有人把Copilot拉去刷Leetcode的题库,结果这位“AI程序员”每次都能通过Leetcode的测试,代码生成速度还近乎实时:
只要写下一段注释,Copilot就能补全剩下的代码,并提出改进的建议。
不仅能为真的程序员节省查找时间,还能提高编程效率,看起来好像真的很美好。
但GitHub的CEO的那句要把Copilot商用的未来期望马上就引来了满城风雨。
马上就有一位网友表示:
根据他们自己的说法,Github Copilot是在GPL代码的基础上训练出来的,这不就是把开源代码洗成商业产品吗。
而这位程序员也提到,Copilot并没有做到它说的“不会精准复制某个代码块”。
两天后,另一位网友就验证了这一说法。
在这段网友放出的视频中,只打出Fast Inverse Square Root(平方根倒数速算法)四个字,Copilot就“完美复刻”《雷神之锤3》里的那段著名的算法:
甚至连那句WTF的经典注释都没有放过。
随后,矛盾进一步深化。
7月3日,有开发者站出来抵制GitHub Copilot,表示自己再也不会使用GitHub来托管代码:
这位抵制者认为:
我不同意GitHub在未经授权和未经许可的情况下,使用受版权保护的源代码作为其Copilot产品的训练数据。该产品将受版权保护的源代码放入使用者的软件中,而不告知他们源代码的许可,这导致了对版权所有者作品的未经授权和未经许可的不当使用。
而现在,官方确认的“不顾开源许可证,以GitHub上所有开源代码来训练”这一事实,更是引爆了整个社区。
现在,已经有科技公司明确表示:禁止员工使用GitHub Copilot。