在过去的几年,科技巨头似乎能够垄断规模不断增长的大型语言模型(LLM)市场。最近一些大型科技公司的财报电话会议表明,他们在人工智能开发方面仍掌握着控制权。微软发布的公告尤其表明,该公司已经通过其人工智能服务创造了数十亿美元的业务,包括通过Azure OpenAI服务和OpenAI在其云基础设施上运行的工作负载。
然而,谷歌最近泄露的一份内部文件表明,由于大型语言模型的快速进步,大型科技公司的市场地位并不像看起来那么稳固。谷歌在这份文件指出:“我们没有护城河,OpenAI也没有。”
而人工智能市场的动态正在逐渐从“越大越好”转变为“越便宜越好”、“效率越高越好”以及“越定制越好”。虽然基于云的大型语言模型和生成式人工智能产品总有自己的市场,但客户现在也有开源的选择可以探索。
大型语言模型的“护城河”
2020年发表的有关GPT-3论文预测了大型语言模型规模化的前景。GPT-3有1750亿个参数,这个大型语言模型可以做很多它没有训练过的事情。GPT模型的发展表明,如果继续创建更大的大型语言模型,并在更大的数据集上训练它们,将能够创建更有能力的模型。
GPT-3的成功增强了人们对创建更大语言模型的兴趣。几篇研究论文探讨了大型语言模型的迷人特性,包括它们的涌现能力。与此同时,人工智能研究实验室竞相创造越来越大的模型。Gopher(280Bparams)、LaMDA(137Bparams)、PaLM(540Bparams)和Megatron-Turing(530Bparams)就是一些例子。
但与此同时,大型语言模型社区经历了一个令人不快的变化。随着研究重点转向创建规模更大的大型语言模型,开发和创新的成本急剧上升。像GPT-3这样的大型语言模型需要花费数百万美元来训练和运行。因此,大型语言模型的工作仅限于少数资金充足的科技公司和与之相关的人工智能实验室。
随着人工智能实验室越来越依赖于营利性组织的资金支持,他们面临着越来越大的压力,需要将自己的技术实现货币化。这促使他们围绕自己的技术创造产品。与此同时,他们需要在自己的产品周围建造“护城河”。而“护城河”就是防止竞争对手复制企业的产品和业务的防御机制。
大型语言模型的关键护城河是:(1)训练数据;(2)模型权重;(3)训练和推理成本。大型科技公司已经在(3)中占据优势,因为它们是能够支付训练和运营大型大型语言模型费用的少数几家公司。即使是像BLOOM和OPT175-B这样的GPT-3的开源替代品,对于那些无力购买或租用数千个GPU的资金紧张的科技公司来说,通常难以承担其运行成本。
然而,为了也能够获得其他两个领域的优势,科技公司将这个领域推向了更加晦涩和更少共享的方向。OpenAI可能是最具代表性的例子,它从一个对外发布所有研究成果的人工智能实验室,变成了一家向其大型语言模型出售API访问权限的初创公司,该公司甚至不再公布有关其训练数据和模型架构的细节。
在很长一段时间里,这似乎是一场底层竞争,大型科技公司向大型语言模型投入更多资金,使这一领域更加隐秘。
开源大型语言模型
随着控制大型语言模型的权力集中在几家大型科技公司手中,开源社区对此做出了回应。在ChatGPT的发布表明在不同的应用程序中遵循大型语言模型的指令越来越有希望之后,他们的努力得到了回报。在过去的几个月,人们看到了几款开源大型语言模型的发布,它们挑战了大型科技公司已经建立的整个商业模式。
这些ChatGPT的开源替代品证明了几个关键点。首先,如果在非常大的数据集上进行训练,具有数十亿个参数的大型语言模型可以在性能方面与非常大的模型竞争。其次,可以用很少的预算和少量的数据来微调小型的大型语言模型。最后,开源大型语言模型的发展速度比封闭生态系统要快得多,因为不同的团队可以在彼此的工作基础上进行构建。
这些大型语言模型中的参数大多数在70亿到130亿个之间,可以在强大的消费级GPU上运行。有趣的是,这场运动是由Meta开发的开源大型语言模型系列LLaMA的发布引发的。不久之后,不同的研究人员发布了Alpaca和Vicuna,这两个模型是在LLaMA的基础上创建的,它们经过了微调,可以像ChatGPT一样遵循指令。
LLaMA的许可证禁止将其用于商业目的。Databricks的Dolly2通过建立在EleutherAI的Pythia模型之上解决了这个问题。Open Assistant是一个完全开放的模型,可以访问所有内容,包括代码、模型权重和训练数据。
这些模型还利用了低秩自适应(LoRA)等技术,可以将训练成本降低1000多倍。
这些模型为希望在其应用程序中使用大型语言模型的企业提供了替代方案。现在,他们可以使用低成本的模型,这些模型可以在他们自己的服务器上运行,并且可以用很少的预算经常更新他们自己的数据。
这对大型科技公司意味着什么?正如谷歌在备忘录中所警告的那样,“由于可以承受大型语言模型的研究费用,在技术上保持竞争优势变得更加困难。世界各地的研究机构正在以彼此的工作为基础,以广度优先的方式探索解决方案空间,远远超出我们的能力。当外界的创新稀释了我们开发的大型语言模型的价值时,我们努力保守自己的秘密,或者可以尝试相互学习。”
封闭式大型语言模型的市场会发生什么变化?
显然,大型科技公司无法垄断大型语言模型市场。但这并不意味着基于云的语言模型市场将会消失。正如人工智能研究员Andrej Karpathy指出的那样,开源大型语言模型生态系统仍然面临一些问题,包括预训练基础模型的高成本。
与此同时,开源大型语言模型并不适合所有人。对于那些没有内部机器学习人才,并希望通过几个API调用快速将大型语言模型集成到其应用程序中的企业来说,无服务器黑盒解决方案仍然非常有吸引力。与此同时,像微软和谷歌这样的科技巨头通过他们的应用程序和客户群拥有非常强大的分销渠道。
但是,开源社区的努力将扩大市场规模,使在新的环境(例如笔记本电脑)中使用大型语言模型成为可能。与此同时,它们将在一定程度上使市场实现商品化,迫使科技巨头向客户提供更具竞争力的价格。大型语言模型领域的发展非常迅速,拭目以待未来几周和几个月会发生什么将是一件有趣的事情。