交钱！StackOverflow：类ChatGPT们用我数据训练得付费-51CTO.COM

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

ChatGPT，遭到了一波反向收费。

而管OpenAI要钱的，正是全球最大程序员问答网站StackOverflow。

理由是这样的：

你们拿我家的数据去训练AI了。

无独有偶，在StackOverflow之前，Reddit近日也发出了类似的信号——计划开始向访问其API的公司收费。

Reddit老板给出的理由更是直白：

我们的数据非常有价值，不想免费提供给科技巨头们。

不得不说，这波围绕类ChatGPT展开的“商战”着实有点意思。

不过围观的网友们就不那么乐观了：

唯一没有获利的……好像就是用户了。

我们都知道，训练一个像诸如ChatGPT这样的AI，背后定然需要海量的数据。

无论是OpenAI、谷歌、微软、Meta或是其它公司都是如此。

但这些科技巨头们一般获取这些数据的方式都是从网上抓取，也因此不会给对应数据背后的公司掏钱。

他们所获取的数据来源，就包括了StackOverflow、Reddit在内的数千个在线“资源”。

然后科技巨头们就会将这些数据“喂”给大模型，让对话AI变得更聪明、更智能。

待产品们成熟可以“上岗”之后，科技巨头们就会开启付费模式，例如我们熟知的ChatGPT Plus、GitHub Copilot等等。

但在这么一个过程中，像StackOverflow和Reddit这样的网站，就有点惨了。

首先，就是我们刚才提到的，这些AI拿着他们家的数据做训练，变得更强更优秀。

其次，这些AI的诞生似乎对于它们来说并没有太大的益处，反倒可能会变成非常有竞争力的对手。

于是乎，Reddit就率先不干了，CEO Steve Huffman直接撂下狠话：

想白嫖，没门！得交钱。

而后StackOverflow的CEO Prashanth Chandrasekar也公开赞成Reddit的做法。

不仅如此，他还认为这些大语言模型（LLM）的开发人员还违反了自家网站用户们的权益。

因为在StackOverflow条款中有这样的明确规定：

用户拥有他们在Stack Overflow上发布内容的所有权，但所有内容均受知识共享许可的约束，该许可要求以后使用这些数据的任何人都说明其来源。

Chandrasekar认为，日后科技巨头们拿着自家的类ChatGPT的产品去出售的时候，开发人员是解释不清用了StackOverflow哪些用户的问答去训练的模型：

因此，他们违反了知识共享许可。

据了解，StackOverflow和Reddit目前都没有对数据收费做明确的公示，而且价格也没有定下来。

但另一方面，各种大语言模型背后的企业，也正在努力降低开发的成本。

将来若是训练数据都要收费了……那这部分成本又将会有谁来买单呢？

反正Reddit CEO的表态是：

爬取Reddit数据产生了价值，却不将任何价值返还给我们的用户，这是个问题。

虽然目前StackOverflow和Reddit都没有明确训练数据的价格，但有媒体猜测，他们可能会借鉴马斯克推特的“定价路线”。

例如在这个月，马斯克就提高了访问推特数据的价格——42000美元/5000万条推文。

更戏剧性的是，马斯克前一阵子还以“OpenAI非法使用推特数据训练”为由，准备起诉OpenAI。

而不仅是文字领域，在图片生成领域，因训练数据而产生的纠纷也是屡见不鲜。

例如Getty Image就在此前起诉了OpenAI的对手Stability AI。

理由是涉嫌使用超过1200万张照片且之前没有寻求过许可。

……

至于像StackOverflow和Reddit最终将如何定价，还需要等待他们官方的表态。

但值得明确的一点是，随着这一波AIGC热潮的到来，其背后的各种“规矩”，是值得深入探讨、商定了。