举报人「自杀」，OpenAI表示震惊！NYU教授发长文悼念：警钟仍在回响-51CTO.COM

几天前，消息曝出，曾在OpenAI工作四年，指控公司侵犯版权的Suchir Balaji，上月底在旧金山公寓中被发现死亡，年仅26岁。

Suchir Balaji曾参与了ChatGPT后训练、GPT-4预训练，以及o1推理的研发工作。

今年10月，他在自己的一篇博文和「纽约时报」的专访中指出，OpenAI在使用新闻和其他网站的信息训练其AI模型时，违反了「合理使用」原则。

目前，OpenAI的发言人已经证实了Balaji的离世，并在邮件中表达了沉痛的哀悼。

而正与OpenAI CEO奥特曼陷入法律纠纷的马斯克，则在X平台上发了一个耐人寻味的「Hmm」。

在消息曝出当日，马库斯迅速在X上发帖悼念：

「Suchir Balaji是个很好的年轻人。」

「这是悲剧。」

第二天，他专门撰写了一篇博客，来纪念Suchir Balaji。

纪念Suchir Balaji（1998 - 2024）

11月初，马库斯通过Zoom与毕业于伯克利的前OpenAI员工Suchir Balaji，进行了一次富有启发性的交谈。

让人痛心的是，他在短短三周之后，便离开了这个世界。

根据警方报告，这似乎是一起自杀事件。

马库斯表示，关于二人的通话内容，可以不违背保密原则地说：「Suchir Balaji对OpenAI和版权问题表示担忧；而正是由于这些共同的顾虑，他们才得以相识。」

在10月的个人博客里，Balaji发表了一篇文章，探讨了我们这个时代最重要的问题之一：生成式AI是否符合「合理使用」（fair use）的标准？

博文地址：https://suchir.net/fair_use.html

在这篇博文中，Balaji详细分析了美国《1976年版权法》第107条中定义的四个合理使用因素，特别关注了以下两个因素：

1. 使用的目的和性质：Balaji指出，ChatGPT等生成式AI模型的商业性质可能不利于被视为合理使用。

2. 对受版权保护作品潜在市场或价值的影响：他引用了一些研究，论证ChatGPT的出现可能对某些在线知识社区（如Stack Overflow）的流量和用户参与度产生负面影响，进而影响这些平台的市场价值。

其实，AI训练数据的版权问题早已存在。一年前，当《纽约时报》起诉OpenAI并证实了其输出内容与网站上的部分报道高度相似时，OpenAI在文本和版权方面的问题就已经开始凸显。

类似的现象也出现在图像和视频生成领域。今年一月，马库斯和Reid Southen在《IEEE Spectrum》上揭示了图像生成软件（如Midjourney和DALL-E）存在的类似问题。

他们发现的最令人震惊的现象是，即便没有直接点名，系统也会产生类似抄袭商业角色的复制品。

比如，输入「意大利水管工」就会生成任天堂的马里奥角色，而指令里完全没有提到马里奥这个名字。

相比之下，真正的艺术家理应会创造一个全新的、原创的水管工形象。

将近一年过去了，明显的侵权问题依然存在。

OpenAI最新发布的视频生成模型Sora与其他AI一样，显然是在大量受版权保护的材料上进行了训练。

与前代产品相似，它也会不时产生缺乏创意、近似抄袭的输出，就像Southen生成的这些例子：

超级英雄复仇的电影场景

一个有意大利人的横版游戏

无独有偶，TechCrunch也在几天前指出了相同的问题。报道称，OpenAI从未公开Sora所使用的训练数据来源，但从目前的结果来看，至少有部分数据可能来自Twitch直播和电子游戏实况。

法律专家警告：OpenAI疑似将游戏内容用作Sora训练数据恐将引发法律争议

比如，它可以生成类似于使命召唤和反恐精英风格的第一人称射击游戏片段。

还有充满90年代《忍者神龟》风格的街机格斗游戏片段。

Sora似乎还对Twitch直播的格式有所了解。下面这张视频截图中可以看到，大体的布局和细节都得到了还原。

甚至，这张截图中出现了著名Twitch主播Raúl Álvarez Genes（网名Auronplay）的影像，甚至连他左臂的纹身都被「复刻」了出来。

这些版权问题的严重性已经不言而喻。Suchir的担忧确实切中要害。

然而，挑战既定观念总是要付出代价的。

正如《印度时报》所指出的，Suchir「对OpenAI涉嫌侵犯版权的公开批评...使他的离世备受关注，引发人们对敢于反对强大科技企业的人所承受的压力和挑战的深思」。

虽然我们无从得知他离世的真正原因，但愿人们不会忘记Suchir的担忧和他展现的勇气。

加州SB-1047举报人保护法案被否决令人遗憾。社会确实需要采取更多措施来保护像Suchir Balaji这样的人。

最后，让我们引用Suchir在十月份博客结论中的一段话作为结尾：

在合理使用的四个构成要素中，似乎没有任何一项支持ChatGPT可以合理使用其当前的训练数据。
然而，这些论据本质上并非仅针对ChatGPT，类似的论点同样适用于各个领域中的众多生成式AI产品。