武汉大学超算采购项目
近日,烽火FitServer 高密度计算服务器及高速网络解决方案在“武汉大学100G高速网络及网格计算集群采购项目”中一举中标,提供“计算、存储、分析、运维”一站式解决方案。此次中标与实施,标志着烽火在服务器领域从服务器生产商转化为***超算解决方案提供商。
武汉大学(简称武大)是国家教育部直属重点综合性大学,属于首批国家“985工程”和“211工程”双***建设高校。学校参与了三峡工程、南水北调、西电东输等***重点工程项目的科学研究和工程建设,在南北极科学考察、重大传染性疾病防治等科技领域中不断取得新的突破,马协型、红莲型杂交稻、高频地波监测雷达、GPS全球卫星定位与导航、高性能混合动力电池等应用型科技成果不仅具有重大的科学理论价值,还产生了巨大的社会经济效益。
HPC平台作为武大科研不可或缺的工具,通过对实际情况对其进行深入分析和研究,学校现有高算平台已经不能满足当前的科研工作需求,亟需建设现代化的高速交换网络,以实现内部网络的带宽提升,延时降低,形成高效稳定的高算网络平台,满足日益增长的高算带宽和低延时需求。100G高速网络及网格计算集群项目就是HPC平台升级的重要一步。
网格计算集群,是对高算平台的加速和补充,能针对特定的应用做到有效的加速,不但可以提升计算能力和速度,还能减轻HPC平台的压力,做到资源的合理利用,降低整体HPC平台的建设TCO。武大100G高速网络及网格计算集群总体设计以“高性能、高可靠性、高安全性、良好的可扩展性、可管理性和统一的网管系统”为原则,目标是建立一套稳定可靠、开放、可有效管理的100G高算网络系统,计算节点采用融合架构,整个系统易于扩充、通用、方便计算节点接入,能够满足各项高算系统要求,支持大规模业务量并行处理。
计算节点部分
网格计算集群节点采用FitServer 高密度计算服务器,是专门为HPC设计的半宽、单处理器插槽,支持***等级并行计算的高性能产品。这款产品不但可以支持***的Intel® Xeon Phi™ 协处理器家族,还可选配高达100G的Intel® Omni-Path™ fabric内部高速互联网络组件。节点主板支持6根内存插槽,2个PCIe Gen 3插槽及其他扩展口。FitServer 高密度计算服务器产品与Intel® Xeon Phi™ 协处理器、Intel® Omni-Pathfabric三者搭配,能最小化计算节点性能瓶颈。
网络部分
在考虑网络拓扑结构、网络传输效率、稳定可靠性等因素,武大100G网络的接入随着集群的发展还会有增长。本次采用小交换机堆叠的胖树两层架构设计,核心层和接入层2:1的阻塞比建设网络,兼顾性能和整体投入,后续扩展也可以在保证性能的同时轻易将接入节点数量增加到1500节点以上,即便还有大于2000节点接入需求,所有采购的交换机也可转为接入交换机,达到资源的有效利用。
核心采用4台100G Intel Omni-Path Edge Switch 100 Series 48 Por(简称:48口OPA交换机)交换机作为核心层,其中2台交换机配置管理模块。10台接入交换机分别通过100G的光纤接入核心层中的交换机,这样,既完成了互连,又增强了设备的可靠性,确保网络不会出现单点故障。
对于高算网络平台,全实现全面的安全管理也是在方案设计时考虑的问题。在本次方案中设计了管理节点交换机,配置两台带管理功能的交换机确保管理平台的高可用,并配置Intel® Omni-Path Fabric Suite Fabric Manager GUI系统,该网管平台提供了一个直观的,可伸缩的仪表面板与分析工具,用于监测全网运行的OPA交换机和端口,对整个100G的网络做到图形化界面管理,大大减轻运维人员的工作量,提升管理效率。
技术服务与培训
随着烽火服务器存储产品逐渐应用于国内外客户,公司建立起立足中国并辐射全球的服务体系。烽火将利用强大的技术研发实力、完善的质量保证体系、先进的生产工艺和测试方案,为客户提供先进、稳定、可靠的基础建设产品及解决方案。同时,在升级服务器存储产品硬件的基础上,不断改进服务质量,从设备安装调试、工程维护、用户培训等各个环节,确保用户得到高效快捷的售后技术服务。