就当下来看,AI领域实现突破性进展的深度学习模型,其规模越大,能耗和成本也随之增加。自然语言处理模型GPT-3就是个典型的例子,为了能够在准确性与速度方面与人类相匹敌,该模型包含1750亿个参数、占用350 GB内存并产生高达1200万美元的模型训练成本。而且单从成本来看,大家应该就能体会到它所消耗的海量能源。
更要命的是,这些模型在实际生产环境中(即推理阶段)还需要耗费更多能源以不断产出分析结论。根据英伟达的估算,神经网络模型运行所产生的成本有80%至90%来自推理阶段、而非训练阶段。
因此有观点认为,要保持AI技术的快速进步,我们必须想办法找到一条具备环境可持续性的道路。但事实证明,我们完全可以将大规模模型缩减为能够运行在日常工作站或服务器上的大小,且几乎不影响准确性与速度。
下面,我们先来聊聊为什么机器学习模型总是这么庞大臃肿。
当前,计算能力每3到4个月即翻一番
十多年前,斯坦福大学的研究人员发现,用于为视频游戏中的复杂图形提供处理支持的处理器(GPU)能够在深度学习模型中提供极高的计算效率。这一发现掀起一轮“军备竞赛”,各厂商争相为深度学习应用程序开发出越来越强大的专用硬件。与之对应,数据科学家们创建的模型也越来越庞大,希望借此带来更准确的处理结果。两股力量相互缠绕,也就形成了如今的态势。
来自OpenAI的研究证明,目前整体行业都处于这样的升级循环当中。2012年至2018年期间,深度学习模型的计算能力每3到4个月就翻一番。这意味着六年时间内,AI计算能力增长达惊人的30万倍。如前所述,这些算力不仅可用于训练算法,同时也能在生产环境中更快带来分析结果。但MIT的最终研究则表明,我们达到计算能力极限的时间可能远远早于大家的想象。
更重要的是,资源层面的限制导致深度学习算法开始成为极少数组织的专属。我们当然希望使用深度学习从医学影像中检测癌细胞变化、或者在社交媒体上自动清除仇恨言论,但我们也确实无法承受体量更大、耗电量更高的深度学习模型。
未来:少即是多
幸运的是,研究人员们发现了多种新方法,能够使用更智能的算法缩小深度学习模型,并重新调整训练数据集的使用方式。如此一来,大型模型也能够在配置较低的小规模生产环境内运行,并继续根据用例提供必要的结果。
这些技术有望推动机器学习大众化,帮助那些没有充足金钱或资源的组织也能训练算法并将成果投入生产。这一点对于无法容纳专用AI硬件的“边缘”用例显得尤其重要,包括摄像机、汽车仪表板以及智能手机等小型设备。
研究人员们一直尝试删除神经网络内的某些非必要连接,或降低某些数学运算的复杂性等方式缩小模型体积。这些更小、更快的模型能够在任意位置以类似于大型模型的准确度与性能保持运行。如此一来,我们不再需要疯狂追求极致算力,也就有望缓解对环境的重大破坏。事实上,缩小模型体量、提升模型效率已经成为深度学习的未来发展方向。
另一个重要问题,则体现在针对不同用例在新数据集上反复训练大型模型方面。迁移学习技术有望消除此类问题——这项技术以预训练完成的模型作为起点,能够使用有限的数据集将模型知识“迁移”至新任务当中,因此我们不必从零开始重新训练初始模型。这既是降低模型训练所需算力的重要手段,也将极大缓解AI发展给自然环境带来的能源压力。
底线在哪?
只要有可能,模型应当、也必须寻求“瘦身”以降低算力需求。
另外,模型得到的知识应该可以回收并再次利用,而不必每次都从零开始执行深度学习训练过程。最终,一切有望降低模型规模、削减算力消耗(而不会影响性能或准确性)的方法都将成为解放深度学习能量的重要新机遇。
如此一来,任何人都能够以较低的成本在生产环境中运行这些应用程序,同时极大减轻对自然环境造成的压力。当“大AI”开始变小时,其中必将蕴藏无数新的可能。对于这样的前景,我们充满期待。