随着信息化的普及,数据量暴增对互联网产生了新的挑战,同时,机器学习、人工智能、无人驾驶、工业仿真等领域的崛起,使得通用CPU在处理海量计算、海量数据/图片时遇到越来越多的性能瓶颈,如并行度不高、带宽不够、时延高等。目前***的解决方法就是特定的事情让特定的硬件去做,因此越来越多的场景开始引入GPU、FPGA等硬件进行加速,异构计算应运而生。
华为云于2017年推出异构计算服务,包含GPU、FPGA多款实例满足客户不同场景需求。华为云异构计算理念是不做单纯的堆砌硬件,提倡深入硬件、联合软件做深度优化,让异构计算的性能提升达到***,从而提供无短板的异构计算服务。近日,在2018年首届中国高性能云计算创新大赛中,华为云GPU P1型云主机以高出竞品40%的性能优势摘得《性能优秀奖》,同时首批获得GPU云主机可信云认证,再次向业界证明了华为云异构计算的硬实力!
二十余载的技术积淀与创新,构筑企业级全栈能力
为了让异构计算发挥***性能优势,需要对硬件设计特定的算法以及软件优化,才能够***化硬件能力,就是业界常说的软硬结合。要做到真正的软硬结合,需要同时具备硬件、软件、算法、调优等多方面的积累,而华为正是少数同时具备此能力的厂商,华为有20多年的硬件积累,在虚拟化领域也有超过十年的积累。
下面通过两个小例子,看看华为怎么做到真正意义上的软硬结合:
- 硬件平台:华为云使用专为云环境优化的Atlas智能硬件平台,Atlas平台能够针对异构场景进行定向优化。比如在某些HPC或深度学习训练等的场景下,不仅需要超强的计算能力,还需要在GPU/FPGA之间传输大量的数据,多个GPU/FPGA之间的拓扑结构对传输带宽和时延的影响至关重要。Atlas 智能平台可以对GPU/FPGA的拓扑结构动态编排,根据实际客户业务选择最适合的拓扑结构,使整个系统的综合性能发挥到***。
- 虚拟化平台:虚拟化是云计算的基石,直接影响着客户实际的性能体验。硬件经过虚拟化之后,性能下降在所难免, 尤其像NVMe、GPU、FPGA这些超高性能的器件,在虚拟化下的性能损失非常严重。华为云虚拟化专家团队在Atlas硬件平台的基础上,通过优化硬件直通能力,能够做到性能无损。例如GPU p2p能力,友商虚拟化后的性能损失74%,而华为可以做到性能无损。
同等的硬件,领先的技术能力
***的GPU云服务器,不只是提供市面上***的GPU这么简单,只有真正做到软硬结合,才能让用户有***的性能体验。以GPU互联为例,从下图我们可以对比不同的技术带来的巨大性能差异。选取同等规格P100卡的双GPU实例,华为云GPU互联带宽是友商的2.5倍,而这个性能差异对实际业务影响巨大,以生物分子仿真业务Amber数据来看,高带宽能力能够将4*GPU的计算能力进一步提升151%。
GPU p2p互联带宽对比图
华为云异构计算集合了整个华为的全栈优势,并集结了华为芯片、硬件、FPGA、GPU、虚拟化、算法等各个领域专家的智慧,真正做到了软硬结合,对公有云的全栈优化,让客户真正体验到软硬结合的优势。
性能状态了然于心
P1型云服务器接入华为云监控服务,能够详细监控云服务器的各项性能指标。除了CPU、内存等各项指标外,用户能够在云监控服务平台上查看详细的GPU性能状态,比如GPU占用率等。用户还可以根据需要设置告警,例如GPU占用率持续冲高告警。
如下图,用户能获取指定时间段内的GPU性能状态,根据这些性能趋势对业务作进一步的性能调优。也能够看出性能的忙闲程度,对业务做更好的规划。
GPU性能状态监控图
匠心打造,只做精品
华为云异构计算从成立之初,就立志打造业界精品,P1型云服务器于2017年8月30日公测上线,公测期间异构计算的专家团队不断倾听客户的反馈意见,贴合客户场景对产品进行持续优化,最终为用户呈现满意的产品。
在2018年首届中国高性能云计算创新大赛中,华为云GPU P1型云主机以高出竞品40%的性能优势摘得《性能优秀奖》,******异构计算,再一次用实践证明了用匠心打造的华为云异构计算服务才是真真正正的精品。
稳扎稳打,做新计算时代的佼佼者
华为云异构计算的宗旨是稳扎稳打只做精品,针对图像图像、人工智能、基因测序、视频转码、图片压缩等领域打造新计算时代的爆款。而华为云的精品策略也确实打动了一大批客户,以至于在免费公测期间就已经有了付费客户。
华为云异构计算服务的理念就是不堆硬件,提供无短板的异构计算服务,我们也非常愿意把十余年的积累开放出来,帮助客户将软硬结合应用到实际业务中,将客户体验提升到新的高度。
点击了解华为云GPU加速云服务器:https://www.huaweicloud.com/product/gpu.html