2017地表上最快的计算机
基于HPCC平台神威太湖一号(Sunway TaihuLight) 全球***理论性能超过每秒10亿亿次。看看斯坦福大学的Dell HPC集群如下图:https://www.top500.org/site/50628
在螺蛳粉的故乡, 创造着这样一个汽车神话,它不是汽车里速度最快的,它也不是汽车里***雅豪华的,但是它曾经创造了一台车成为全球销量最多的车型, 如今依旧在书写着传奇。然而随着中国经济的不断发展,国富民强,人们对汽车的要求不仅仅停留在代步,经济紧凑的阶段。更多的车型以及内饰的需求如同雪花般的经过经销商飞向客户的研发部门。如何加快产品的研发迭代速度,缩短设计和分析的循环周期,如何更快的满足客户和市场的需求成为摆在客户研发领导面前的一道难题。公司领导按照奥林匹克的精神对研发部门提出了“更快,更高,更强”的奋斗目标。可是研发部门也面临着难题,按照车厂要求,整车级别网格尺寸为8~10mm,所以强度疲劳方面***网格数量大概500W,安全的模型算上假人的话,大约350w单元。带假人计算时,他们用12个CPU测试计算时间大约24小时。 CFD(整车级别)网格数量约3500W, 32个CPU计算时间为60小时左右。一个设计人员提交作业需要等待24小时-- 60小时, 而且都是协同作业,一人工作,大家等待?这个速度严重拖累了这个现代化车厂的后腿, 业界老大哥丰田的精益模式是2.5分钟就能下线一辆汽车的, 急需呼唤神龙!
记得某位伟人曾经说过,要想解决问题就必须深入到生产战斗的一线去,那小D也来看看一个汽车设计工程师一天是如何度过的。在吃过了美味的螺蛳粉后,工程师打开了它的戴尔工作站,一堆熟悉的图标映入了眼帘,打开了UG设计软件,从公司的PDM(产品数据管理系统)系统上下载了今天的工作文档,手指在鼠标和键盘上飞舞,一辆心仪的汽车设计图纸就完工了。
紧接着,工程师就会使用工具软件(Hypermesh)对模型进行网格划分,这道工序他们亲切的称为前处理。做完了前处理以后,就交给我们的CAE软件求解了。CAE软件五花八门就像一个大江湖,但是按照门派分,大致可以分成 结构分析、NVH、碰撞安全、CFD(空气动力学分析、热管理分析、成员舒适性分析)、约束产品五大门派。谈到这5大门派,其实常用的武功(软件)多达几十种之多,主要的软件及分类下表:
接着当您看到工作站的硬盘灯在狂闪,CPU利用率一直居高不下的时候,您应该意识到求解器正在努力的算啊算。当求解完成后CAE的结果需要用CAD技术生成形象的图形输出,如生成位移图,应力,温度,压力分布的彩色明暗图,我们称它为后处理。一旦后处理做完了,工程师会喝上一杯美美的咖啡,然后完成***的CAE分析报告,整个工作就告一段落了。
看完了工程师的一天的工作流程之后,相信聪明的您肯定发现这个流程中的瓶颈在哪里了?对的,单台工作站的硬件配置是有限的,计算一个小零件或者一个车门运算量或许还能承受,但对于数据量较大的整车模型,工作站就明显有点力不从心了。这个时候CAE协同计算平台就成了我们需要呼唤的那条神龙。一个合格的CAE协同计算平台需要包括以下子模块:
- VDI远程可视化设计桌面
- CAE虚拟仿真(网格划分及前后处理)
- HPC高性能计算(FEA&CFD仿真分析)
- 交互式作业、批处理作业提交与管理
- 批量作业提交与管理
- 仿真数据管理(仿真数据自动按照软件、项目、类型、作业自动化管理)
- 仿真项目管理功能
- 仿真数据备份管理
- 集群管理与监控(支持集群界面化的系统用户、部门、部门角色添加和管理)
- HPC许可证资源管理
从以上模块可以看出来,一个CAE协同计算平台基本涵盖了一个CAE工程师一天工作所要做的所有的事情,包括前后处理,计算,仿真数据管理,备份以及平台监控等等。戴尔的CAE协同计算平台逻辑拓扑图如下,从底层的硬件平台到OS/编译环境再到平台软件,戴尔可以提供端到端的整体解决方案。
这篇文章里面我们着重阐述戴尔高性能计算解决方案,高性能运算就是利用一个集群中的多台机器共同完成同一件任务,使得完成任务的速度和可靠性都远远高于单机运行的效果,弥补了单机性能上的不足。本文我们将会从网络,计算服务器,存储,集群软件分别描述高性能计算解决方案的主要构成部分。
高性能计算网络
高性能计算的网络可以分成3类:
- 计算网络:各服务器之间进行通讯交互的计算网络,推荐采用高速、低延迟的戴尔56GB Infiniband 网络交换机加以配套的HBA卡和IB线缆,以保证将集群软件在分发任务到多个计算节点的过程中保证各节点之间能够高速传输数据。
- 存储网络:CAE软件将计算任务提交到计算节点,计算节点通过计算最终会产生很大的文件数据,为了高效的存储这些数据,存储端采用光纤交换网络保证计算节点的数据可以快速的存放到存储中。整个存储网络要求高带宽低延时。
- 管理网络:除了计算网络,存储网络外,我们还有管理网络,通过戴尔的以太网交换机,将各个计算节点, 存储结点, 光纤存储都纳入到Dell OpenManage Essentials管理平台进行统一管理并结合自带的告警平台进行监控,降低管理员的运维压力。
高性能计算服务器
计算是高性能运算的核心模块,它的功能就是执行计算。不同的CAE软件对于CPU和内存的需求各不相同,我们也会把计算节点分为胖/瘦节点,以胖节点为例,它就适用于对内存、处理性能要求高的计算任务,在实际应用中可以需要根据需求和预算来决定采用什么样的配置。因为一个计算节点的失效通常不会影响其他节点,所以计算节点不需要冗余的硬件保护。
分布式高性能存储
存储采用在高性能计算领域普遍使用的Lustre 分布式存储解决方案,2台戴尔R730服务器作为Lustre存储元数据节点,保证高可用性,多台R730组成Lustre对象数据节点,在保证节点的高可用性的前提下,数据分别从不同的节点高速传输到存储中。从整个架构上消除存储设计的瓶颈,为后续的数据持续增长,快速横向扩展提供便利条件。
高性能集群软件
戴尔联合优质合作伙伴提供具有大量用户实际使用案例的高性能集群软件,覆盖统一访问门户,集群运维管理,监控,计算任务的分发,计算任务的调度,许可证管理,统计记账,计算数据管理等等功能。同时个性化的能够结合CAE软件提供集成接口等功能,更好的方便后续用户管理和运维高性能计算集群环境。
解决方案拓扑:
解决方案产品:
- M1000e
- 10Gb Dell MXL Blade Switch
- M630
- M830
- R730
- Brocade 300
- Powervault MD3400
- IB Switch(MSX6036)
- Dell HPCC services
- Lusture
解决方案效果:
实施完一期的HPCC 后,作业效率大大提高,项目目标提前完成,该部门多次受到表扬, 工程师有时间在享受完一碗正宗的螺蛳粉后,思考更多的项目创新。
戴尔的高性能计算解决方案——我们眼中的“利器”不但是为中国汽车生产制造贡献了一份力量,同时还在众多如气象地震分析、石油勘探、基因工程、动漫特技渲染、生物制药等涉及国家科技及普及民生的众多领域,承担了技术改良和发展的责任。戴尔一直在高性能计算领域处于***地位,致力于设计开放、性能出色及高性价比的解决方案,为客户带来更大的灵活性、更高价值及更便捷的业务运营。