DeepSeek的推出,让AI加速走入千行万业,各大厂商纷纷推出一体机。自2月13日以来,已有70多昇腾合作伙伴基于华为Atlas系列产品打造DeepSeek一体机,满足不同行业场景需求。昇腾近日推出新版本,以全新的MLA融合算子、专家并行/张量并行/数据并行等混合并行技术,大幅提升满血版DeepSeek一体机性能。
基于昇腾的满血DeepSeek一体机支持更大并发、更高吞吐。当前大模型行业应用在处理整篇文档理解、客服多轮对话、跨文档信息整合及代码分析等场景下,输入长度通常达到4096。基于昇腾的满血DeepSeek一体机在输入输出长度4096/1024典型场景下,系统输出吞吐达到1288 Token/s,相比半个月前增幅120%+,系统多用户并发数从64路增加到128路,提升到原来的2倍;在输入输出长度1024/1024典型场景下,系统输出吞吐达到1877 Token/s,系统多用户并发数从128路增加到192路,提升到原来的1.5倍。
MLA融合算子:在深度适配DeepSeek MLA架构下,有效降低了内存占用,提升算力和带宽利用率,有效提升系统吞吐
集合通信优化:通过优化多机集合通信,降低通信启动开销,提升通信带宽利用率,实现高效跨机EP并行,降低通信时延,提升整机吞吐
混合并行:支持EP/TP/DP混合并行,极大地优化了计算资源的分配和利用,使得各个计算节点之间能够更高效地协同工作,端到端输出时延大幅降低
技术创新对昇腾DeepSeek一体机性能提升起到关键作用,也代表系统解决方案能力是未来长期优化的重要方向。面向更大规模用户并发数、更大吞吐、更低时延需求,昇腾持续优化,通过大规模跨节点专家并行,为用户带来更强大、高效的使用体验。