GitHub Copilot 发布不足一周时间,却引发了前所未有的争议。此前,就有试用者发现了 Copilot 复制粘贴代码的实锤,甚至带着原代码的「WTF」注释,所谓「原生 AI 代码生成工具」的宣传显得略微尴尬:
现在,这种矛盾似乎更进一步,已经有开发者站出来抵制 GitHub Copilot 了,并表示自己以后也不会再用 GitHub 平台托管代码:
「我不同意 GitHub 在未经授权和未经许可的情况下,使用受版权保护的源代码作为其 Copilot 产品的训练数据。该产品将受版权保护的源代码放入使用者的软件中,而不告知他们源代码的许可,这导致了对版权所有者作品的未经授权和未经许可的不当使用。」
这位开发者认为,Copilot 产品的这个特点是对版权所有者权利的严重侵犯,因此他不再继续使用 GitHub 的服务,转为在 https://thelig.ht/code/ 上托管自己所有的开源编程工作。
Copilot 最受质疑的地方,一直是对原代码的版权侵犯问题。有人曾在推特上公开讨论:GitHub Copilot 难道不是将开发者的开源代码清洗一番,然后转化为自己的商业化产品?
GPL 协议的核心是要对源码进行公开,但这并不意味着「没有版权」,也不意味着可以被「不受限地复制」,而且代码版权的保护不仅涉及复制和粘贴,同时也涵盖衍生作品。
GitHub 公开表示过,GitHub Copilot 接受了大量 GPL 代码的训练,它所知道的所有内容和知识都是从这些代码中提取的,不可能不包括「衍生」的部分。看起来,「它通常不会大块复制」的说法不足以应对公众质疑。
尽管人类开发者也会阅读开源代码并学习,但这和 AI 模型的「学习」完全不是一回事。至少人类会去理解抽象层面的知识并广泛借鉴其他知识,而 AI 可能只是出于营销目标。
「我真的厌倦了科技行业将神经网络当作神奇黑箱的做法,利用它吐出一些全新的东西,然后将免费软件视作理所当然的东西。与此同时,再支付 15 万美元的薪水请人编写广告投放系统……」
有开发者说:「GitHub 抓取了你的代码,帮你进一步训练后再向你收取 Copilot 的费用。为了一家利用千万开发者工作成果的公司,人们正在欢呼,这真令人失望。」
同样的争议,也曾发生在 GPT-3 等模型之上。人工智能时代的开源工作,正面对着全新的挑战。说到底,建立简单的自托管存储库,就能解决问题吗?
有人就认为不必为此退出 GitHub,至少这个行为不能达成目标:「GitHub 可以从任何地方向它提供开源代码,而且美国版权法允许这样做。」
「总的来说,像 Copilot 这样的工具是对人类有益的,我们需要更多而不是更少的分享。」
「即使自己托管,也会有人拿走你的代码并将其上传到 Github。很快,Github 存储库就会拥有比你的私人存储库更多的贡献者。因此,不能通过简单的自托管存储库来避免 Copilot 的侵犯。」
「唯一的选择,就是对 GitHub 采取法律手段删除这些存储库,不过这样又费时又费钱。」
面对种种迎面而来的挑战,个人开发者还有更好的办法吗?