直播周回顾日记Day2:高性能计算云时代 自在如风不为硬件所缚

企业动态
亚马逊云科技运用其云上优势,为客户提供长期HPC计价模式,助力客户实现成本压缩。

6月21日,亚马逊云科技联合51COT共同推出的这是我的架构——直播周系列节目第二季第二集精彩继续。本集邀请到的是亚马逊云科技高级解决方案架构师杨志浩和亚马逊云科技高性能计算产品经理耿煜,由他们共同分享“云端ARM助力HPC客户摆脱硬件束缚,实现创新”的技术智慧和实践经验。基于亚马逊云科技自研的Graviton实例如何在高性能计算场景下实现降本增效,让我们一起回顾本期直播:

金风慧能的云上之旅

直播一开始杨志浩向我们介绍了金风慧能依托云上Graviton 2实例实现高性能计算的案例。金风慧能专注于提供新能源数字化、智能化产品及解决方案,以安全和提质增效为核心目标,覆盖风电场运行的全生命周期。其气象预报和功率预测产品正是部署在基于亚马逊云科技Graviton实例,Graviton在HPC场景下的优越性能,为金风慧能实现降本增效提供了有力支撑。杨志浩简单介绍了金风慧能气象应用场景的架构,通过将来自气象局、亚马逊云科技托管的公开数据集和观测仪器的数据进行处理、计算、分析,对天气情况进行预报,并预测风电场发电量,实现高效、精准的电力调度。

为了满足海量数据的快速、准确处理,同时兼顾业务成本,金风慧能的选择是亚马逊云科技Graviton。通过将WRF全流程部署在基于Graviton 2的ARM架构计算平台上,保证了计算前后的一致性,满足长期稳定快速运行的算力集群。据杨志浩介绍,Graviton 2独特的长期运算价格模式,非常适用于金风慧能每日全天候的计算需求。与传统HPC不同,亚马逊云科技的云上HPC能够为客户提供更加灵活弹性的购买方式,客户通过预留实例能够获得更高性价比。亚马逊云科技针对云上HPC的快速部署,还推出了Paraller Cluster服务,为客户提供单任务多节点,多队列不同实例类型并行计算的灵活选择。对于数据存储问题,亚马逊云科技的FSx for Lustre为客户提供数据流转存储全套解决方案,同时满足未来单任务多节点运行的共享存储需求。在Graviton 2全套HPC架构的助力下,相较于传统的本地数据中心解决方案,金风慧能的综合成本降低了70%。

云计算为高性能计算赋能

随着数据时代不断加速前进,客户对运算能力的要求日渐提高。然而传统的数据中心解决方案由于其建设周期长、成本高,大大增加了企业成本,阻滞了生产效能。云计算架构的灵活优势,帮助HPC突破了硬件束缚。耿煜为我们讲述了美国笛卡尔实验室的案例,借助云计算,笛卡尔实验室仅用24分钟就完成172,692个core集群的构建,计算峰值达到理论最大峰值的70%,整个测试仅花费2万美金。耿煜坦言道,如果是采用传统的数据中心建设方案,全部费用大概需要2,000~3,000万美金。云上HPC作为全球范围内高性能计算客户的新宠儿,具备灵活的资源调度和无限的运算能力,同时有效降低成本,为客户带来了全新的云上体验。

ARM身兼重任,HPC更上一层楼

2018年亚马逊云科技发布了自研的第一代ARM架构Graviton处理器,并很快推出第一款支持Graviton的实例。而在此之前,x86架构处理器曾是亚马逊云科技的唯一选择。从x86到ARM,Graviton是否能够承担云计算的核心重任?客户又是否能获得平滑的切换?耿煜给出的答案是肯定的。耿煜谈道,从亚马逊云科技视角看,亚马逊云科技正在不遗余力的打造基于Graviton的整个云上HPC生态。从市场来看,包括工业制造、电子芯片设计、生命科学、能源、地质、天气,包括智能驾驶等等很多场景实际上都在用ARM架构构建整个集群。从HPC场景看,HPC相关软件也在不断地向ARM的架构进行适配。

亚马逊云科技定制化解决方案

耿煜为我们展示了HPC工作负载的四个维度。第一个维度是解耦合工作负载,相对应的维度就是分布的/网络化工作负载,表现出松耦合的特征。从数据存储的体量上来看,有些场景是依赖于海量的数据,有些则是较轻量的数据存储。亚马逊云科技基于这四个维度对客户需求进行划分,针对不同需求提供全生命周期的定制化ARM架构解决方案。

HPC降本增效亚马逊全程保驾护航

耿煜介绍了5类亚马逊云科技推出的HPC场景服务。第一类是亚马逊云科技最为重要的产品之一——Amazon EC2弹性计算实例,云上客户可以使用最高达24TB的内存的计算实例,满足对于单节点性能有很高要求的客户,搭载的Graviton 2处理器,提高40%的性价比,非常适合高网络吞吐且可以适配ARM的计算优化型工作负载。第二类是Parallel Cluster,能够帮助客户一键式创建集群,客户只需要编写简单的脚本,就能完成集群的快速配置,根据不同任务需求,还可以弹性调整集群大小。第三类是Elastic Fabric Adapter,能为客户提供高达400G的网络存储。第四类是FSx系列,将HPC场景下的集群分布式文件系统适配到用户常用的几大类中,在云上可以提供本地物理服务器构建的节点所达不到的性能,且其性能随着存储容量线性增长,非常适用于HPC任务受制于存储的客户。第五类是Amazon Batch,协助客户完成容器化集群的构建。亚马逊云科技通过这5大类服务,为客户对性价比、高性能、安全性的需求提供了全套解决方案。

灵活自在,成本无忧

区别于传统HPC短期计价,亚马逊云科技运用其云上优势,为客户提供长期HPC计价模式,助力客户实现成本压缩。耿煜介绍道,亚马逊云科技在为客户设计HPC架构时,通常会根据客户是否有经常性的任务、突发型任务,并且根据任务需求量、任务是否允许中断,为客户量身定制解决方案。同时亚马逊云科技也支持短期HPC计算算力采购需求,耿煜呼吁,鼓励客户更多地使用亚马逊云科技的云上资源,达到更高的成本优化。

这是我的架构——直播周系列节目第二季第二集完美收官,明天各路大咖又将带来怎样的思想碰撞,敬请期待!


责任编辑:张燕妮
相关推荐

2022-05-13 14:16:05

云计算

2022-07-06 11:32:46

大数据

2022-05-17 14:03:52

低代码开发

2022-06-29 21:08:49

云科技

2022-05-16 15:59:44

云计算

2022-05-12 18:29:21

自动驾驶

2011-06-14 13:10:11

2022-05-17 15:59:00

云计算数据

2022-07-05 14:08:28

云计算

2022-06-29 20:55:28

云科技

2011-05-16 15:22:35

Platform

2011-05-18 11:02:55

2015-09-09 10:43:07

高性能计算浪潮

2011-10-21 14:20:59

高性能计算HPC虚拟化

2011-10-25 13:13:35

HPC高性能计算Platform

2011-06-15 13:45:51

IBM云计算高性能计算

2015-09-28 13:02:41

浪潮

2010-11-01 12:56:02

云计算高性能计算

2012-01-16 09:00:18

云计算高性能计算

2011-05-23 15:32:46

Platform
点赞
收藏

51CTO技术栈公众号