点击参加51CTO网站内容调查问卷
作者丨Matt Asay
编译丨千山
日前,Stack Overflow悄悄改变了一项长期政策——它不再将社区贡献的数据上传到互联网档案馆,并要求版主们将“重新启用数据转储”添加到他们的要求列表中。首席技术官Jody Bailey说,这样做是为了“保护Stack Overflow数据不被构建LLM的公司滥用。”
关于人工智能内容,由社区运营的开源问答平台Codidact早就指出,“使用人工智能生成的内容,特别是大语言模型(LLM)生成的内容,构成了对平台的滥用,版主有权删除此类内容并发出他们认为合适的警告。”
在科技领域,我们最终都是寄生虫。
正如Drupal的创造者Dries Buytaert多年前所说,与其说我们是“制造者”,不如说我们是“接受者”。Buytaert指的是开源社区的常见做法:“接受者不会对他们所接受的开源项目做出有意义的贡献”,而这伤害了他们所依赖的项目。即使是最热心的开源贡献者,也比她贡献的要多。
谷歌、脸书和推特这些平台出现了同样的“寄生”趋势,它们都依赖于他人生产的内容。可以说,今天的生成人工智能(GenAI)更是如此。
Sourcegraph开发人员Steve Yegge曾夸张地宣称,“LLM不仅是自社交网络、智能手机或云以来最大的变化,它们更是自万维网以来最大的事情。”
他的说法或许有其正确性。这些大型语言模型本质上是寄生的:它们依赖于抓取其他人的代码存储库(GitHub),技术答案(Stack Overflow),文献等等。
正如在开源中发生的那样,内容创建者和聚合器开始阻止LLM访问其内容。例如,鉴于网站流量下降,Stack Overflow加入了Reddit的行列,要求LLM创建者为使用其数据来训练LLM付费。这是一个大胆的举动,让人想起出版商为抵御谷歌和脸书而在开源和付费墙中进行的许可战。但它会起作用吗?
1、被“过度放牧”的开放地带
我确信技术寄生虫的历史早于开源。自Linux或MySQL诞生之初,就有一些公司从他人的贡献中获利。例如,最近在Linux中,Rocky Linux和Alma Linux都承诺与Red Hat Enterprise Linux(RHEL)实现“bug对bug的兼容性”,而对Red Hat的成功没有任何贡献。事实上,这两个RHEL克隆成功的自然结论是消灭它们的宿主,导致它们自己的灭亡,这就是为什么Linux领域有人称它们为开源界的“别有用心之人(dirtbag)”。
也许这句话可以表达很多意思,但你明白其潜台词。这与曾经面向AWS上提出的批评相同(一种日益失去相关性的“剥离采矿”批评),并引发了许多关于开源许可、商业模式以及开源可持续性的长期讨论。
当然,开源从未如此强大。不过,单独的开源项目的健康程度各不相同。一些项目(和项目维护者)已经想出了如何管理社区内的“接受者”;其他人则没有。然而,作为一种趋势,开源的重要性和实力还是不断增长。
2、当所有知识都被倒入机器
像摩根大通这样的大型企业正在花费数十亿美元,雇佣1000多名数据科学家、机器学习工程师等,以推动个性化、分析等领域产生对应价值的影响。尽管许多企业一直不愿公开接受像ChatGPT这样的东西,但现实情况是,他们的开发人员已经在使用LLM来提高生产力。
这些收益的代价现在才刚刚变得清晰起来。也就是说,像Stack Overflow这样的公司的成本,历来是生产力提高的来源。
就像Similarweb详述地那样,自2022年1月以来,Stack Overflow的流量平均每月下降6%,2023年3月急剧下降13.9%。将这种下降归咎于ChatGPT和其他GenAI驱动的工具可能过于简单,但如果认为它们没有参与其中,那也过于天真。
只要问问Intentional.io的创始人、Stack Overflow 排名前2%的用户Peter Nixey就明白了。他的答案已经惠及逾170万名开发人员。尽管他在Stack Overflow上表现突出,但Nixey说,“我不太可能再在那里写任何东西了。为什么?因为像ChatGPT这样的LLM可能会耗尽Stack Overflow上的知识库。
“当我们停止将知识汇集在一起,而是直接将其倒入机器中时,会发生什么?”Nixey提出了这样的问题。他所说的“机器”指的是ChatGPT等GenAI工具。
例如,从像GitHub Copilot这样的AI工具中获得答案的确很棒,该工具在GitHub存储库,Stack Overflow Q&A等上面进行了训练。但是区别于Stack Overflow,这些问题是私下里问的,不会产生公共信息存储库。
Nixey据此发出了灵魂一问:“如果说GPT-4(在Stack Overflow上)接受了2021年之前所有问题的训练,那么GPT-6将在什么上面进行训练?”
3、问题所在:单向的高速公路
看到问题所在了吗?这不是小事,而且它可能比我们在开源领域经历过的讨价还价,更为严重。
“如果这种模式在其他地方复制,我们的集体知识的方向从外向到人类转到向内进入机器,那么我们对它的依赖将取代我们以前对机器的所有依赖。”Nixey如此说道。委婉地说,这是一个问题。他强调说:“就像快速增长的COVID-19变种一样,人工智能将仅仅凭借增长而成为知识的主要来源。“如果我们以Stack Overflow为例,曾经属于我们的人类知识库可能会被简化为模型内部的权重。”
这其中牵涉到很多利害关系,而不仅仅是不断流入人工智能的大量现金。我们还需要评估像ChatGPT这样的东西生成的信息的相对价值。
值得一提的是,Stack Overflow 在2022年12月禁止了ChatGPT派生的答案,因为它们文本冗长、信息贫乏。“由于从ChatGPT获得正确答案的平均比率太低,发布ChatGPT创建的答案对网站以及寻找正确答案的用户造成了极大的伤害。”
像ChatGPT这样的东西并不是为了产生正确的信息而设计的,而只是简单的符合数据模式的概率信息。换言之,开源可能充满了“dirtbag”,但如果没有稳定的良好的训练数据流,LLM可能会简单地用垃圾信息来补充自己,变得不那么有用。
整体而言,这并不是贬低LLM和GenAI的承诺。与开源、出版商等一样,我们可以感谢OpenAI和其他公司帮助我们利用集体制作的信息,同时仍然为Reddit等贡献者欢呼,因为他们期望为他们所扮演的角色付费。开源经历了它的许可战,看起来我们将在GenAI的世界里遇到类似的事件,不过其后果将影响更广、更加不可预估。
参考链接:https://www.infoworld.com/article/3697733/chatgpt-s-parasitic-machine.html