今年的谷歌I/O开发者大会,AI一如既往仍是核心主题,CEO Sundar Pichai表示谷歌有责任在这个信息爆炸、技术不断革新的时代里担负起推动科技创新的使命,而AI就是其中一种途径。作为能给谷歌AI产品提供强大计算服务支持的“幕后英雄“——TPU,今年已升级至3.0版,并在本次大会上闪亮登场。
TPU作为一种专为机器学习设计的芯片,从2016年***代助AlphaGo成功打败李世石开始,就注定会成为万众瞩目的科技界“大佬“,拥有不平凡的一生。2017年TPU顺势升级至第二代,TPU2.0单个浮点运算能力高达180teraflops,主要采用云服务Cloud TPU的形式对外赋能。但谷歌似乎觉得这个速度还未达到一个”大佬“应有的水准,直接使用新的高速网络将64个TPU组合成究极进化版——“TPU Pod”机器学习超级计算机,浮点运算能力飙升至11.5 petaflops。一个简单对比,谷歌在其2017年发布的TPU技术细节论文中提到,虽然应用范围受限,但TPU的平均处理速度比当前的GPU或CPU快15~30倍,性能功耗比高出约30~80倍(TPU:我不是针对谁,我是说在座的各位都……)。到如今TPU3.0发布,谷歌宣称TPU3.0 pod的功率是TPU2.0 pod的8倍,每个TPU3.0 pod可提供超过 100 petaflops的运算能力,但在系统接口和行为方面,TPU3.0尽可能保留了第二代的特征,对于其它GPU和CPU巨头来说,3.0的提升不大可谓让他们送了一口气。
虽然此次的TPU升级算不上改头换面,甚至称为TPU2.5的发布更为合适,但我们仍需要高亮其中的一个细节,那就是TPU3.0让谷歌不得不也***次在其数据中心中使用液冷技术。液冷技术并不是一个全新的概念,它在卫星、火箭发动机等航天领域也已有很长的运用历史,在IT基础设施领域国内外众多厂商也有很多较为成功的实践。总体来说,市场上对于液冷技术的研究和实验源于这项技术可以大大降低能耗、减少数据中心的支出成本,像谷歌这样坦诚其芯片的运行温度过高而不得不使用液冷技术的情况其实并不常见。
通过对比TPU2.0 pod(左)和 TPU3.0 pod(右)的机架可以发现,3.0机架的TPU数目是原来的两倍,而且机架的computing unit (板卡)间距大大减少。谷歌曾称部署TPU2.0的数据中心温度约在 80°F (26.6666℃)到 95°F(30℃) 之间,因此必须使用高效庞大的风冷散热器才能达到降温目的,可以想见,当升级至TPU3.0,部署密度大幅提升的情况下,还想获得较好的降温效果也确实只能直接借助液冷手段。此外,谷歌采用的是开放式机架,并没有形成封闭的尽量小的风循环机架环境,这样一来使用风冷散热对抗如此高密度的热插槽的成本其实非常高昂。
谷歌将数据中心降温方式向液冷方向转变,这不得不行的一步或许是受TPU3.0高密度规格的形势所迫,但从成本节约的角度来看,这也未尝不是一种更好的选择。而液冷技术本身的研究和革新似乎也会被加速推进,毕竟当它作为不可替代的角色被推到舞台中间时,不行也得行。
总体来看,一方面,数据中心的各种成本越来越高,另外一方面,业界能够实现的计算密度越高越高。如何在单位体积内部署更多的计算能力是摆在我们面前的很现实的问题,也许液冷将会使这个问题得到很好的解答。
ODCC将在液冷方面开展更多的工作,敬请期待。