在全球科技创新日新月异的今天,亚马逊云科技再次站在了技术变革的前沿。在 re:Invent 2024 大会上,亚马逊云科技进一步拓宽了其基础设施创新的边界,从自研芯片到高性能服务器,从革命性的网络架构到绿色数据中心的设计,亚马逊云科技正在以其创新的技术实力,开启了全栈云和 AI 服务的无限可能。
纵向扩展创新:提升计算性能,助力 AI 训练突破极限
在云计算和 AI 领域,计算能力始终是推动技术进步的核心因素。随着生成式 AI 和大模型的复杂度不断增加,芯片性能的提升变得尤为关键。早在十年前,亚马逊云科技便开始布局自研芯片,并在这一领域持续深耕。通过自研芯片的战略,亚马逊云科技不仅提升了计算能力,还在降低成本和提高效率方面取得了显著进展。
在 re:Invent 2024 上,亚马逊云科技发布了全新的 Amazon Trainium2 AI 训练芯片。作为亚马逊云科技自研的最新一代 AI 专用芯片,Trainium2 采用了最新的技术架构,专门为大规模训练和实时推理需求进行了优化。
Trainium2 采用脉动阵列(Systolic Arrays)硬件架构,使得计算步骤之间能够避免频繁内存访问,直接将结果从一个计算单元传递到下一个,从而减轻内存带宽压力,优化计算资源。这一架构特别适合 AI 中常见的矩阵和张量操作。除此之外,Trainium2 还提供了 Neuron 内核接口(NKI),允许开发者直接访问硬件,编写计算内核,最大化计算密集型任务的性能。
Amazon Trainium2芯片除了芯片创新,亚马逊云科技在纵向扩展方面也取得了重要突破。传统的云计算扩展通常依赖于水平扩展,但随着 AI 模型和数据量的激增,单纯扩展集群已无法有效解决训练和推理的瓶颈。
因此,亚马逊云科技突破单服务器性能,推出 Amazon EC2 Trn2 实例和Amazon EC2 Trn2 UltraServers 服务器。Amazon EC2 Trn2 实例配备 16 个 Trainium2 芯片,提供高达 20.8 Petaflops 的浮点算力,特别适用于大规模生成式 AI 训练、超大语言模型(LLM)及其他计算密集型 AI 任务,从而大幅提升了训练和推理的效率。
亚马逊云科技全新推出 Amazon EC2 Trn2 UltraServers 服务器,配备 64 颗 Trainium2 芯片,采用 NeuronLink 超速互连技术,提供高达 83.2 Petaflops 的浮点算力,计算、内存和网络能力是单一实例的四倍,能够支持超大规模模型的训练和部署。正如亚马逊云科技高级副总裁Peter Desantis 所言,“如果你要构建一个万亿参数的 AI 模型,这就是你需要的服务器。”
Amazon EC2 Trn2 UltraServers 服务器
此外,亚马逊云科技还发布了新一代 Amazon Trainium3 训练芯片。Trainium3 是亚马逊云科技首款采用 3 纳米工艺制造的芯片,标志着在性能、能效和芯片密度方面的新突破。搭载 Trainium3 的 UltraServers 预计将比 Trn2 UltraServers 提供 4 倍的性能,帮助客户加快模型的迭代速度,并在部署时提供卓越的实时性能。首批基于 Trainium3 的实例预计将在 2025 年末上线,将进一步推动 AI 训练技术的进步。
横向扩展创新:突破性网络架构与路由协议,提升 AI 训练效率
随着 AI 集群规模的不断扩大,数据传输和网络效率变得愈发重要。正如 Peter Desantis 所言,“在 AI 集群的世界里,时间就是金钱。”为了应对大规模 AI 训练的挑战,亚马逊云科技在横向扩展方面进行了重要创新,推出了带宽高达 10Pb/s、延迟低于 10ms 的 10p10u 网络架构。
这一架构通过将 16 根光线电缆整合成单一连接器,在工厂完成复杂组装,从而减少了 54% 的安装时间。定制的光纤插头和光纤电缆确保了网络连接在机架到达数据中心前就已进行全面测试和验证,避免了调试布线的时间浪费,同时保护接口免受灰尘侵入。这些创新不仅提高了集群间的数据传输速度,也显著缩短了模型训练所需的时间。过去 12 个月,亚马逊云科技已安装超过 300 万条链路,使其成为扩展速度最快的网络之一。
此外,亚马逊云科技还推出了全新的 SIDR(Scalable,Intent Driven Routing)路由协议。传统网络协议在光链路发生故障时,恢复速度较慢,影响 AI 集群的高效运转。SIDR 协议结合了集中控制和去中心化响应,能够在故障发生时更迅速地恢复网络。通过预先生成“网络意图”,中央控制器可以将其推送到各交换机,确保交换机在故障发生时能自主决策并快速恢复网络。与传统的 BGP 和 OSPF 协议相比,SIDR 能够在不到 1 秒内恢复网络,速度是传统方法的 10 倍,大大提高了 AI 训练的可靠性和实时性。
通过这一系列的创新,亚马逊云科技有效解决了 AI 集群中网络故障恢复慢和数据传输瓶颈的问题,显著提升了 AI 训练的效率与可靠性。无论在故障发生时的快速恢复,还是在确保高效运行方面,这些技术都为大规模 AI 计算提供了坚实的支持。
绿色创新:高效冷却系统与低碳设计,推动云基础设施可持续发展
在推动云计算和 AI 技术发展的同时,绿色可持续性已成为亚马逊云科技基础设施创新的重要考量。随着数据处理能力和服务器功率密度的不断提升,如何在满足日益增长的计算需求的同时降低能源消耗和环境影响,已成为亚马逊云科技面临的关键挑战。
为应对这一挑战,亚马逊云科技持续优化数据中心设施,推出了简化的电气分配和机械系统设计,提升了基础设施的可用性,达到了 99.9999% 的高可靠性。这些改进不仅减少了电气故障对机架的影响,还通过优化电力分配降低了故障发生的频率。简化的系统不仅降低了复杂度,还增强了系统的稳定性,从而确保了数据中心在运营过程中的高效可靠性。
此外,亚马逊云科技还在冷却系统、机架设计和控制系统方面进行了一系列创新。为满足 AI 芯片对高密度计算的需求,亚马逊云科技引入了液体冷却系统,并在现有和新建数据中心中实施了“液体到芯片”的冷却方案,将空气冷却和液体冷却无缝集成,可以高效支持 AI 工作负载,同时降低运营成本。新型冷却系统不仅适用于如 Amazon Trainium2 AI 芯片,还能支持传统工作负载,确保不同应用场景下的最佳性能和效率。
为了进一步提升高密度 AI 工作负载的支持能力,亚马逊云科技优化了数据中心的机架布局和电力传输系统,预计未来两年内机架功率密度将提高 6 倍,显著提升计算能力。同时,亚马逊云科技还通过数据和生成式 AI 驱动的软件,精确预测服务器的最佳部署方式,从而最大化电力使用效率。
在建筑设计方面,亚马逊云科技采用了低碳钢和低碳混凝土,将数据中心的碳排放降低了 35%。此外,亚马逊云科技还在备用发电机中使用可再生柴油,这种生物降解且无毒的燃料能将温室气体排放量减少 90%,进一步推动了绿色计算和可持续发展的目标。
结语
Peter 表示,“持续的领先,来自于对硬件细节极致的追求。”通过在芯片、网络架构、数据中心设计等多个维度的持续创新,亚马逊云科技不仅提升了自身云计算基础设施的技术水平,也推动了整个行业的发展。
这些创新不仅让亚马逊云科技在市场竞争中占据了技术领先地位,也为客户提供了更强大、更灵活、更高效的服务支持,帮助各行各业加速数字化转型。亚马逊云科技的基础设施创新,正不断推动着云计算和 AI 领域的技术进步,改变着全球科技的格局。