人工智能(AI)技术的环境影响,近期引发了人们的普遍关注——我坚信,这也将成为AI在未来十年内的一大核心难题。这场对话始于艾伦AI研究所的最新研究,他们主张优先考虑“绿色AI”的实现通道,即更多关注AI系统的能源效率。
这项研究的动机在于,艾伦研究所发现目前AI领域的各类重大进步背后,都有惊人的碳排放量作为支撑。OpenAI发表于2018年的博文指出,自2012年以来,全球超大规模AI训练所带来的计算量增长了30万倍。尽管该文没有计算模型训练带来的碳排放,但有人敏锐发现了问题核心并给出答案。根据Emma Strubel及其同事发表的论文,美国人平均每年排放二氧化碳约3万6千吨。与之对应,训练并开发一套运用神经结构搜索技术的机器翻译模型,总计将产生62万6千吨二氧化碳。
遗憾的是,从环境角度来看,这些所谓“红色AI”项目造成的实际后果可能比报告上的更加糟糕。实际上,AI项目的时间、能源以及资金总成本通常要比带来最终成果的阶段性成本高出一个数量级。
现实情况在于,红色AI项目还存在重要度、大量集中的趋势(例如开发新型对象检测模型以改善复杂环境中的自主导航能力,或者从大量非结构化Web数据中学习富文本表示等),这意味着只有大型科技企业以及一部分学术机构才有能力掌握如此庞大的计算资源。换言之,超大的数据规模与高昂的计算成本,将导致小体量玩家完全插不上手。
那么,我们该如何推动绿色AI的发展?或者说,我们应不应该不惜代价优先推动绿色AI项目?
红色AI不一定是坏事
当今,大部分所谓“红色AI”项目,都将目标定在推动自然语言处理、计算机视觉以及其他重要AI领域的科学发展层面。虽然这类项目的碳成本确实可观,但对社会产生的积极影响同样值得期待。
例如,人类基因组计划(HGP)花费27亿美元,耗时长达13年,绘制出完整的人类基因组图。业界曾有观点,认为人类基因组计划太过复杂、成本高昂而且缺少短时间内带来科学突破的潜力。但如今,我们完全能够利用测序技术在数小时内绘制出特定个体的基因组图,成本约为100美元。而这项技术的存在,正是以人类基因组计划的主要成果(参考基因组)为前提。尽管当初的计划效率低下,但仍为未来可能全面实现的个性化医疗铺平了道路。
同样,衡量红色AI项目的成本与成果也至关重要。红色AI实验带来的大量产出(例如,用于对象识别的图像表示,以及自然语言处理中的单词嵌入)也有望在更广泛的应用中发挥巨大的推动作用。
通往绿色AI的道路
但无论具有怎样的潜在科学回报,红色AI项目都注定存在不可持续性,由此带来的环境问题终将抹杀一切。仍然以之前提到的项目为例,人类基因组计划虽然成功完成了人类基因测序工作,但只有成本更低的新型DNA预测技术才有可能使其真正得到推广。换言之,AI社区必须在构建深度学习模型时,充分考虑到彻底能耗的必要性。
下面我分享一点个人拙见,聊聊推动行业转向绿色AI的几个可行步骤:
强调可重复性:可重复性与中间成果的共享,对于提升AI开发效率至关重要。AI研究成果通常不会公开代码,否则其他研究人员会发现自己即使掌握同样的代码也无法完成结果重现。此外,研究人员在开源工作中可能面临种种内部障碍。正是这些因素,导致如今人工智能领域的发展仍然以红色AI项目为主导——这类项目能够用“暴力”解决可重复性问题,同时阻止一切有效共享。但情况正在缓慢变化,NeruIPS等主影响力会议已经在要求参会者提交可重复的代码与研究论文。
提高硬件性能:最近几年,专用型硬件迎来了一大波迅猛发展,它们不仅在深度学习任务当中带来更佳的性能水平,同时也显著增强了能源效率(即每瓦性能产出)。AI社区对于GPU的旺盛需求,促使谷歌公司开发出TPU,并将其推向芯片市场帮助用户打造属于自己的专用方案。在接下来的几年内,相信英伟达、英特尔、SambaNova、Mythic、Graphcore以及Cerebras等厂商都将把硬件设计目标集中在AI类工作负载层面。
理解深度学习:我们都知道深度学习技术行之有效,但这项已经拥有数十发展历史的技术之上,仍然笼罩着层层迷雾。目前的研究团体并不完全理解深度学习为何有效以及如何起效。揭开深度学习背后的基础科学,并对其优势及局限性做出正确表征,无疑有助于帮助从业者开发出更加准确高效的模型方案。
深度学习民主化:将深度学习的准确度极限推向新的高度当然令人兴奋,但俗话常说,“完美是优秀的天敌。”现有模型在广泛对接应用场景时已经拥有充足的准确度,而且几乎各个行业及科学领域都可以从深度学习工具中受益。如果各个领域的人们都能接触到这项技术,我们绝对能够在性能与能效等层面迎来无数令人惊讶的创新。
加强合作:世界上大多数企业都没有构建AI技术体系的能力,但这些企业的领导者已经意识到,他们有必要将AI乃至深度学习技术介入未来的产品与服务当中。企业应当积极与初创公司、孵化器项目以及高校建立合作伙伴关系,避免单枪匹马面对AI发展战略这一强敌。
虽然今天我们经常能在硅谷的大街上看到跑来跑去的无人驾驶汽车,并心生一种技术高峰已然到来的错觉——但请醒醒,我们的AI探索之旅才刚刚迈出第一步。
在航空领域,二十世纪初的飞行“先锋时代”表现出重要项目分布于世界各地,但整体进展非常缓慢的特征。而到五十年后的飞行“喷气时代”,航空业经历了新的持续发展新周期——飞机变得更大、更安全、更快也更省油。为什么?因为工程学(例如涡轮发动机)与社会结构(例如监管机构)的根本性进步,为飞行的民主化进步带来了必要的实现前提与推广基础。
2020年代,AI技术有望取得更令人难以置信的进步。但就基础设施与能源利用效率来看,我们恐怕仍处于“先锋时代”。随着AI研究的发展,我们必须努力为模型打造出最佳平台、工具与方法,确保其易于访问且能够轻松重现。只有这样,高能效AI才能获得不断前进的动力。