本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
Copilot“抄袭”风波,大家想必瓜吃得够饱了。
这回我们来聊点严肃的。
GitHub在没有版权持有者许可的情况下,用托管在GitHub上的开源代码训练Copilot——这合法吗?
托管在GitHub上的代码,需要受到GitHub服务条款的约束。
所以用托管在GitHub上的开源代码训练Copilot,GitHub是不是就理所当然地不会有侵犯版权的问题?
不然不然,据国外网友的吃瓜讨论,这当中至少存在以下两条争议。
咱们一条一条地撸。
GitHub的就是微软的?
虽然Copilot是GitHub联合OpenAI发布的产品,但它却不是GitHub的一部分,反而却是VS Code编辑器的一个插件。
没有VS Code,你根本使用不了Copilot!
利用GitHub上开源代码训练出来的Copilot,却在VS Code编辑器上帮用户自动生成代码,这岂不是Copilot在GitHub之外分发GitHub上的代码吗?
难怪有国外网友大呼:
这怎么可能不是微软寄生在GitHub上所有代码上,让VS Code变得更好呢?
有人会驳道,VS Code不是微软推出的开发工具吗?而在微软2018年6月斥75亿美元买下GitHub后,GitHub不就已经是微软的了?
自家人开发的AI程序员插件,怎么不能装在自家推出的代码编辑器上了?
一位国外网友表示,这完全取决于服务条款中的人称主语的界定。
在GitHub的服务条款里,GitHub对“GitHub”、“We”、“Us”作出了明确界定。
其中,包括GitHub公司,以及它们的联属公司、董事、子公司、承包商、许可方、管理人员、代理和员工。
这位国外网友愤怒地质问:
这里面包括OpenAI吗?包括VS Code开发团队吗?包括微软的所有人吗?
训练Copilot是合理使用?
网友认为,GitHub用托管于其上的开源代码训练Copilot合不合法,最大的争执点在于服务条款上对代码托管和许可使用范围的界定。
按知识产权律师Kate Downing的说法,不管你使用了什么样的许可证,你都同意了GitHub托管你的代码,并使用你的代码来提升它们的产品和服务。
但很明显,训练Copilot不在向托管代码的用户提供的服务之内,也没有用来帮助GitHub改进它们的代码托管服务。
在这种情况下,版权侵权的问题将在很大程度上取决于合理使用的概念。
如果GitHub能证明Copilot的出现对编程行业具有很大的变革性,进而证明用开源代码训练Copilot是一种合理使用,那么法院很有可能会支持GitHub的这一行为。
这种情况也有过先例。
谷歌从2004年开始对图书进行了大规模数字化,为研究人员提供了搜索书籍的服务,用户可以迅速搜索到书中自己想要的内容。
没有取代书本身的作用,也没有从版权人那里拿走任何东西。
谷歌图书让读者更容易接触到作品,也为图书作者开辟了更广阔的市场。
法庭确实认为这是合理使用,谷歌图书的出现非常有变革性。
2013年11月,在与美国作家协会历经8年缠斗后,谷歌取得突破性进展——美国曼哈顿巡回法院宣布谷歌的数字图书馆计划合法。
不过也有网友认为谷歌图书和Copilot有巨大不同,无法相提并论。
如果你从谷歌图书中复制了一段引文,这段文字仍然归属原作者。它不会因为托管在谷歌图书上就归你所有了。
谷歌图书没有声称你拥有搜索结果的一丝版权,但Copilot却声称你拥有100%生成代码的版权。
如果Copilot生成的代码复制自被强copyleft许可证(即 GPL v2,GPL v3)覆盖的代码,没有署名,也没有许可证,这样也算是合理使用吗?
而且,GitHub的服务条款明确规定了它们没有将用户托管的代码片段出售给其他人的权利。
如果未来Copilot真地变成了付费产品,对于很多并不允许被修改后拿去商用的开源代码来说,这肯定是一种侵权行为。
还能白嫖Copilot吗?
除了瞧着GitHub从屠龙少年终成恶龙,广大吃瓜群众最关心的还是——我能继续白嫖Copilot给我写代码嘛?
Kate Downing提醒,Copilot建议的代码越长越复杂,就越有可能是从大神那里抄过来的。
不开源的商用软件搬用Copilot抄来的代码,而没有按照开源许可证的要求执行,就会给公司招来法律风险。
偷懒需谨慎,抄袭误一生!
还是自己写来得稳当!