8月31日消息, OpenAI本周回应了两起几乎相同的集体诉讼,原告包括多位作家。他们声称ChatGPT非法使用盗版书籍进行训练,侵犯了他们的作品版权。OpenAI反驳称原告误解了版权的范围。
OpenAI在驳回动议中要求美国加州的地区法院驳回所有指控,只保留与直接侵犯版权相关的指控。参与诉讼的作家包括莎拉·西尔弗曼(Sarah Silverman)、保罗·特伦布莱(Paul Tremblay)、莫娜·阿瓦德(Mona Awad)、克里斯·戈登(Chris Golden)和理查德·卡德雷(Richard kadrey)。
OpenAI认为,原告的其他指控,包括间接侵犯版权、违反《数字千年版权法》(DMCA)、不正当竞争、疏忽和不当得利等,应从诉讼中剔除。
OpenAI声称原告误解了版权的范围,未考虑到限制和例外情况,而这些限制和例外适当地为人工智能领域的创新留出了空间,比如现在处于人工智能前沿的大语言模型。
OpenAI表示,即使原告的书籍只是ChatGPT庞大数据集的一小部分,创新者以变革方式使用受版权保护的材料并不侵犯版权,与那些试图通过分发受版权保护的材料直接获利的剽窃者不同。OpenAI辩称,它的目标是“教会其大模型推导出人类语言背后的规则”,以此来帮助人们“节省工作时间”、“让日常生活变得更轻松”,或者通过在ChatGPT中输入提示来自娱自乐。
OpenAI认为,版权法的目的是促进科学和实用艺术的进步,保护作者表达思想的方式,而不是保护思想本身、作者所表达的信息中的事实,或其他创造性的组成部分。OpenAI引用了一起涉及谷歌图书的著名版权案件,提醒法院,统计信息如词频、句法模式和主题标记超出了版权保护的范畴。
OpenAI写道:“根据由此产生的司法先例,在创作一种新的、不侵权的作品之前,‘批量复制某件作品’并不构成侵权,即使新作品与原作品存在竞争关系。”
OpenAI特别希望让法院相信,原告的间接侵犯版权指控属于“错误的法律结论”。原告们认为,ChatGPT的每个输出都是衍生作品,“无论输出与培训作品之间是否有任何相似之处”。
OpenAI在驳回动议中举例说明为何ChatGPT的每一个输出都不应视为衍生作品。该公司辩称,与作者作品相关的ChatGPT输出类似于图书报告或书评。
OpenAI还反驳称,原告未能证明OpenAI在涉嫌侵犯其作品版权方面获得了直接经济利益。
OpenAI声称原告指控自相矛盾
OpenAI还试图驳回ChatGPT的训练模型违反《数字千年版权法》(DMCA)的指控。
根据作者的说法,任何复制他们作品但不包括版权管理信息(CMI)(如作者姓名或出版年份)的ChatGPT输出,都违反了版权法。原告指控OpenAI故意删除了作品中的版权管理信息。
对此,OpenAI反驳称,作者的投诉属于“陈词滥调”,并且“完全没有给出任何合理解释”,比如“OpenAI如何在其训练数据中删除作者姓名和出版年份”,“OpenAI为什么会这样做”,或者“原告相信这种情况发生的基础是什么”。
OpenAI表示,没有证据表明公司故意删除了版权管理信息,原告的指控中存在许多自相矛盾的事实,包括原告的书籍被OpenAI完整复制的指控。
OpenAI指出,如果从训练数据中删除版权管理信息,可能是技术过程的意外副产物,类似于搜索引擎从互联网上获取图像时未获取相关版权管理信息的情况。OpenAI认为,这种偶然删除版权管理信息的做法不应承担责任,并不能支持OpenAI掩盖不法行为或隐瞒侵权行为的指控。
最后,OpenAI认为,原告依据DMCA提出的指控应该被驳回。即使假设ChatGPT的每个输出都是衍生作品,DMCA也不禁止在没有原始作品附带版权管理信息的情况下发布衍生作品。相反,DMCA只禁止在分发原始作品或其副本时删除版权管理信息。
OpenAI还表示,原告对OpenAI提出的不正当竞争、疏忽和不当得利等指控也应被驳回,因为这些指控都被联邦版权法所覆盖。
如果OpenAI成功推翻了大部分原告的指控,法院只需决定OpenAI的训练模型是否直接侵犯了版权法。这可能意味着,ChatGPT的训练数据违反了法律,要么涉及复制和分发原始作品,要么在未经授权或未进行充分修改的情况下发布了衍生作品。
然而,原告们不太可能轻易放弃这场斗争。约瑟夫·萨维里律师事务所(Joseph Saveri Law Firm)在总结他们指控的网站上写道,对他们来说,生成式人工智能是一个巨大的骗局,无助于人类智能的进一步发展,而是代表了人类智能的副本,已经被重新打包并与其创造者分离