Glean 是一家从事搜索业务的创业公司,一直很想使用最新的 AI 算法来改进公司的产品。
Glean 提供 Gmail、Slack 和 Salesforce 等应用程序进行搜索的工具,用于解析语言的新 AI 技术,可以帮助公司的客户更快地发掘正确的文件或对话。
但是训练这样一个尖端的人工智能算法需要花费数百万美元。因此 Glean 使用更小、能力更弱的 AI 模型,这些模型无法从文本中提取出尽可能多的含义。
Glean 对此也是颇为无奈。
「对于预算较少的小企业来说,很难获得与谷歌或亚马逊等公司相同精度的结果,对于这些小公司而言,要想搞出最强大的人工智能模型是不可能的。」公司表示。
过去十年中,AI 产生了一系列令人兴奋的突破,目前已经可以在复杂的游戏中击败人类,可以在特定条件下驾驶汽车穿过城市街道,响应口头命令,并根据简短的提示编写连贯的文本。
一方面,这些进步在很大程度上是因为算法有了更多的文本作为训练数据。另一方面,为了消化这些数据,使用了更多的芯片。
这是要花钱的。
以 OpenAI 的语言模型 GPT-3 为例,这是一个大型的、数学模拟的神经网络,从网络上抓取大量文本进行训练后,GPT-3 可以以惊人的连贯性预测哪些词应该填在其他词前后,生成流畅的文本,而且是开箱即用的。
GPT-3 在回答问题、总结文本和纠正语法错误等任务上明显优于以前的 AI 模型。与上一代的 GPT-2 相比,性能实现了 1000 倍的增长。不过,据估计,训练 GPT-3 的成本接近 500 万美元。
「如果 GPT-3 既方便又便宜,会大大增强我们的搜索引擎,那会非常非常强大。」
对于希望拥抱 AI 转型传统企业来说,训练高级 AI 的成本不断上升也同样是一个问题。
Dan McCreary 在健康 IT 公司 Optum 领导一个团队,该团队使用语言模型来分析通话记录,识别哪些患者风险较高,哪些应该及早推荐转诊。
他说,现在即使训练一个 GPT-3 大小千分之一的语言模型,也会很快耗尽团队的预算。他们需要的模型针对特定任务进行训练,成本可能超过 50000 美元,这笔钱要付给云计算公司,作为租用其计算机和程序的租金。
McCreary 表示,云计算供应商没有理由降低成本。现在他正在考虑自己购买加速人工智能训练的专用芯片。
现在,许多学术实验室和创业公司可以直接下载并使用最新的理念和技术。比如在图像处理方面取得突破的算法来自学术实验室,使用现成的硬件和公开共享的数据集开发。
然而,随着时间的推移,越来越清楚的一点是,AI 的进步与底层计算机性能的指数级增长息息相关。
有了算力,才有创新。没有钱,就没有算力。
现在,一些大企业进一步把这个趋势推得越来越高。近日,微软表示,它和英伟达合作,构建了一个比 GPT-3 大两倍的语言模型。
MLCommons 是一个跟踪 AI 专有芯片性能变化的机构。该机构的执行董事大卫·坎特 (David Kanter) 表示:「未来训练 AI 的成本绝对会继续上升。」
Mosaic ML 的技术可以帮助大公司将模型提升到一个新的性能水平,也可以帮助没有深厚 AI 专业知识、也没那么有钱的小公司利用 AI 技术。
利用最新技术的成本不断上升,可能会将创新留给最大的公司和租赁工具和算力的公司,从而减缓创新的步伐。
「我认为这种情况确实会阻碍创新。」专门研究人工智能和语言的斯坦福大学教授克里斯·曼宁说。
「当只有少数几个地方才能研究这些大模型的内部结构时,出现创造性新成果的几率一定会大大降低。」
曼宁说,就在十年前,他的实验室有足够的计算资源来探索任何项目。「一个努力工作的博士生就可能会做出最先进的工作,而现在,这个窗口已经关闭了。」
与此同时,不断上涨的算力成本,促使人们寻找更有效的 AI 算法训练方式。目前已经有数十家公司开发用于训练和运行 AI 程序的专用计算机芯片。
所以,特斯拉设计自己的车载芯片,也许只是为了训练自动驾驶的 AI 模型。
Mosaic ML 是一家源自 MIT 的初创公司,主要开发提高机器学习训练效率的软件和技术。
一种技术是对神经网络进行「修剪」,消除网络结构中的低效率部分,创建一个功能类似、但规模小得多的网络。
早期的结果表明,这种方法应该可以将训练 GPT-3 之类的网络所需的计算机功率减少一半,从而降低开发成本。
Mosaic ML 计划将大部分技术开源,同时也为降低 AI 技术成本的公司提供咨询服务。Carbin 说,未来可能会有一种这样的产品,一款能够在训练模型的准确性、速度和成本方面实现权衡的工具。
「不过目前,还没有人真正知道如何将所有这些方法组合在一起。」他说。