在AI技术日新月异的今天,大型语言模型已成为推动AI发展的重要力量。2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3。这款开源模型采用了高达6710亿参数的混合专家(MoE)架构,每秒能够处理60个token,比V2快了3倍。一经发布,就在AI领域引起了轩然大波。
值得注意的是,DeepSeek-V3不仅支持GPU训练与推理,并且发布即支持昇腾平台,在昇腾硬件和MindIE推理引擎上实现高效推理,为用户提供了更多计算硬件的选择。
与GPT-4o不分伯仲,中国大模型领先全球
DeepSeek-V3是一款拥有6710亿总参数和每个令牌激活370亿参数的混合专家(Mixture-of-Experts,MoE)语言模型,由人工智能公司DeepSeek发布。它在继承DeepSeek-V2核心架构的基础上,进行了多项创新,显著提升了模型的性能与效率。
DeepSeek-V3采用了创新的知识蒸馏方法,将DeepSeek R1系列模型中的推理能力迁移到标准LLM中,显著提高了模型的推理性能。
根据DeepSeek公布的测试结果,其运行了多项基准测试来比较性能,V3模型已明显优于包括Meta公司的Llama-3.1-405B和阿里云的Qwen 2.5-72B等一众领先开源模型。在大多数基准测试中,它甚至部分超越了OpenAI的闭源模型GPT-4o。
根据DeepSeek公布的资料显示,V3在知识类任务上的水平相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。在美国数学竞赛(AIME 2024,MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅超过了其他所有开源闭源模型。在生成速度上,DeepSeek-V3的生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍的提升,能够带来更加流畅的使用体验。
由于DeepSeek-V3模型首次在大规模模型上验证了FP8训练的可行性和有效性,通过协同优化有效克服了跨节点MoE训练中的通信瓶颈,因此使得DeepSeek-V3在保持高性能的同时,实现了训练成本的极大降低。据DeepSeek官方透露,该模型的训练成本仅为557.6万美元,远低于同类模型的数亿美金训练成本。
作为开源大模型,DeepSeek-V3支持多种开源框架的本地部署,包括SGLang、LMDeploy和TensorRT-LLM,为开发者提供了丰富的选择。与此同时,DeepSeek-V3还支持更多推理引擎,为用户提供了更多计算产品的选择,推动了中国AI产业的创新与发展。
原生支持昇腾AI,为用户提供更多计算产品选择
DeepSeek-V3不仅在技术上取得了重大的突破,而且还实现了对更多推理引擎的原生支持。以昇腾平台为例,DeepSeek-V3发布即支持昇腾平台,让用户能够在昇腾硬件和MindIE推理引擎上实现高效推理,为国内用户提供了软硬件一体化的解决方案。
在魔乐社区上,已经发布了在昇腾硬件和MindIE推理引擎上实现DeepSeek-V3模型的推理的部署方式,用户可以根据操作手册,进行服务框架的调优、监控运维、指定NPU卡、在单机上启动多实例等,优化服务性能和定制运行环境,充分发挥昇腾硬件设备的算力,提升模型推理的效率。(点击了解详细部署方式)
作为昇腾针对AI全场景业务的推理引擎,MindIE在通信加速、解码优化、量化压缩、最优并行、调度优化等方面展现出了显著的优势。
首先,通过高效的RPC(Remote Procedure Call,远程过程调用)接口,MindIE实现了业务层与推理引擎之间的快速通信。这一接口支持Triton和TGI等主流推理服务框架,使得应用部署更加便捷,能够在小时级内完成。
通信加速示意图
其次,在解码优化方面,MindIE提供了针对LLM(Large Language Model,大语言模型)和文生图(SD模型)等特定应用场景的加速参考代码和预置模型。这些优化措施使得MindIE在解码阶段能够更快地生成推理结果,提高了整体性能。特别是针对大模型推理,MindIE支持Continuous Batching、PageAttention、FlashDecoding等加速特性,进一步提升了推理效率。
解码优化示意图
在量化压缩方面,MindIE中的量化方法基于业界先进的量化技术,如SmoothQuant、AWQ等,这些技术能够在保持模型精度的同时,显著减少模型大小和计算量。
量化压缩示意图
另外,MindIE提供了最优并行策略,以充分利用多核处理器和GPU等硬件资源。在并行计算方面,MindIE支持Tensor Parallelism(张量并行)等策略,这些策略能够使得模型在多个处理器核心上并行运行,从而加快推理速度。通过最优并行策略,MindIE能够在保持模型精度和稳定性的同时,实现更高的推理性能。
最优并行策略示意图
在调度优化方面,MindIE提供了多并发请求的调度功能,能够高效地处理大量并发请求。此外,MindIE还支持统一内存池管理KV缓存,这一功能能够减少内存碎片和访问延迟,提高内存利用率。在任务调度方面,MindIE基于调度策略实现用户请求组batch,通过合理的任务分配和调度,使得资源得到充分利用,提高了整体性能。
调度优化 两阶段混合调度解码 示意图
由于DeepSeek-V3能够原生支持昇腾硬件和MindIE昇腾推理引擎,使得用户能够更加轻松地部署和使用DeepSeek-V3模型,进一步推动了AI技术在各个领域的广泛应用。
加速AI技术创新发展,中国大模型迎来新机遇
51CTO认为,DeepSeek-v3的成功,不仅展示了中国在AI创新方面的实力,提升了中国大模型在全球科技竞争中的地位,并且降低了大模型的开发门槛,促进了中国AI软硬件产业的发展,全面推动了AI技术的创新与发展。
首先,DeepSeek-V3充分展示了中国在AI创新方面的实力,提升了中国大模型在全球科技竞争中的地位。随着DeepSeek-V3的成功,越来越多的国际目光将聚焦到中国AI领域,为中国公司争取更多的合作机会和市场空间。
其次,DeepSeek-V3的开源策略和API定价策略,降低了AI技术的应用门槛,促进了技术分享和行业内的合作。开源的DeepSeek-V3不仅促进了AI技术的分享与交流,也进一步降低了行业内的应用门槛,为广大开发者和企业提供了更为经济实惠的选择。
此外,DeepSeek-V3的成功也为中国大模型在垂直领域的深耕细作提供了范例。DeepSeek-V3可以应用于智能家居、智能客服、安防、医疗、写作辅助等多个场景,这为中国大模型在垂直领域的发展提供了广阔的空间和无限的可能。
最后,DeepSeek-V3由于支持更多推理引擎,有助于构建更加完善的AI生态系统。通过与更多推理引擎的紧密合作,DeepSeek-v3可以更好地适应国内用户的需求,推动中国AI技术的普及和应用。
总结:
DeepSeek-V3的成功,不仅展示了中国在AI领域的创新实力,更为中国大模型的未来发展带来了前所未有的新机遇。随着技术的不断进步和应用场景的不断拓展,中国大模型将在全球科技竞争中发挥越来越重要的作用,为人们的生活带来更多的便利和乐趣。
展望未来,随着人工智能技术应用场景的不断扩展,AI行业将迎来更为广阔的发展空间。DeepSeek-V3的成功只是开端,中国大模型将在技术进步和广泛应用的推动下,不断实现新的突破。为此,我们有理由相信,中国大模型在未来的发展中能够不断创新和进步,为全球AI技术的未来发展贡献更多的中国智慧和力量。