斯坦福教授曼宁：AI巨模型训练成本动辄几十万，穷博士和小公司用不起了-曼斯坦恩计划

Glean 是一家从事搜索业务的创业公司，一直很想使用最新的 AI 算法来改进公司的产品。

　　Glean 提供 Gmail、Slack 和 Salesforce 等应用程序进行搜索的工具，用于解析语言的新 AI 技术，可以帮助公司的客户更快地发掘正确的文件或对话。

　　但是训练这样一个尖端的人工智能算法需要花费数百万美元。因此 Glean 使用更小、能力更弱的 AI 模型，这些模型无法从文本中提取出尽可能多的含义。

　　Glean 对此也是颇为无奈。

　　「对于预算较少的小企业来说，很难获得与谷歌或亚马逊等公司相同精度的结果，对于这些小公司而言，要想搞出最强大的人工智能模型是不可能的。」公司表示。

　　过去十年中，AI 产生了一系列令人兴奋的突破，目前已经可以在复杂的游戏中击败人类，可以在特定条件下驾驶汽车穿过城市街道，响应口头命令，并根据简短的提示编写连贯的文本。

　　一方面，这些进步在很大程度上是因为算法有了更多的文本作为训练数据。另一方面，为了消化这些数据，使用了更多的芯片。

　　这是要花钱的。

　　以 OpenAI 的语言模型 GPT-3 为例，这是一个大型的、数学模拟的神经网络，从网络上抓取大量文本进行训练后，GPT-3 可以以惊人的连贯性预测哪些词应该填在其他词前后，生成流畅的文本，而且是开箱即用的。

　　GPT-3 在回答问题、总结文本和纠正语法错误等任务上明显优于以前的 AI 模型。与上一代的 GPT-2 相比，性能实现了 1000 倍的增长。不过，据估计，训练 GPT-3 的成本接近 500 万美元。

　　「如果 GPT-3 既方便又便宜，会大大增强我们的搜索引擎，那会非常非常强大。」

　　对于希望拥抱 AI 转型传统企业来说，训练高级 AI 的成本不断上升也同样是一个问题。

　　Dan McCreary 在健康 IT 公司 Optum 领导一个团队，该团队使用语言模型来分析通话记录，识别哪些患者风险较高，哪些应该及早推荐转诊。

　　他说，现在即使训练一个 GPT-3 大小千分之一的语言模型，也会很快耗尽团队的预算。他们需要的模型针对特定任务进行训练，成本可能超过 50000 美元，这笔钱要付给云计算公司，作为租用其计算机和程序的租金。

　　McCreary 表示，云计算供应商没有理由降低成本。现在他正在考虑自己购买加速人工智能训练的专用芯片。

　　现在，许多学术实验室和创业公司可以直接下载并使用最新的理念和技术。比如在图像处理方面取得突破的算法来自学术实验室，使用现成的硬件和公开共享的数据集开发。

　　然而，随着时间的推移，越来越清楚的一点是，AI 的进步与底层计算机性能的指数级增长息息相关。

　　有了算力，才有创新。没有钱，就没有算力。

　　现在，一些大企业进一步把这个趋势推得越来越高。近日，微软表示，它和英伟达合作，构建了一个比 GPT-3 大两倍的语言模型。

　　MLCommons 是一个跟踪 AI 专有芯片性能变化的机构。该机构的执行董事大卫·坎特 (David Kanter) 表示：「未来训练 AI 的成本绝对会继续上升。」

　　Mosaic ML 的技术可以帮助大公司将模型提升到一个新的性能水平，也可以帮助没有深厚 AI 专业知识、也没那么有钱的小公司利用 AI 技术。

　　利用最新技术的成本不断上升，可能会将创新留给最大的公司和租赁工具和算力的公司，从而减缓创新的步伐。

　　「我认为这种情况确实会阻碍创新。」专门研究人工智能和语言的斯坦福大学教授克里斯·曼宁说。

　　「当只有少数几个地方才能研究这些大模型的内部结构时，出现创造性新成果的几率一定会大大降低。」

　　曼宁说，就在十年前，他的实验室有足够的计算资源来探索任何项目。「一个努力工作的博士生就可能会做出最先进的工作，而现在，这个窗口已经关闭了。」

　　与此同时，不断上涨的算力成本，促使人们寻找更有效的 AI 算法训练方式。目前已经有数十家公司开发用于训练和运行 AI 程序的专用计算机芯片。

　　所以，特斯拉设计自己的车载芯片，也许只是为了训练自动驾驶的 AI 模型。

　　Mosaic ML 是一家源自 MIT 的初创公司，主要开发提高机器学习训练效率的软件和技术。

　　一种技术是对神经网络进行「修剪」，消除网络结构中的低效率部分，创建一个功能类似、但规模小得多的网络。

　　早期的结果表明，这种方法应该可以将训练 GPT-3 之类的网络所需的计算机功率减少一半，从而降低开发成本。

　　Mosaic ML 计划将大部分技术开源，同时也为降低 AI 技术成本的公司提供咨询服务。Carbin 说，未来可能会有一种这样的产品，一款能够在训练模型的准确性、速度和成本方面实现权衡的工具。

　　「不过目前，还没有人真正知道如何将所有这些方法组合在一起。」他说。