全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一-51CTO.COM

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2^[1]，全球最强开源 MoE 模型来了。

DeepSeek-V2 是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由 236B 个参数组成，其中 21B 个参数用于激活每个标记。与 DeepSeek 67B 相比，DeepSeek-V2 性能更强，同时节省了 42.5% 的训练成本，减少了 93.3% 的 KV 缓存，最大生成吞吐量提高到 5.76 倍。

DeepSeek 是一家探索通用人工智能（AGI）本质的公司，并致力于将研究、工程和商业三者融为一体。

DeepSeek-V2 的综合能力

在目前大模型主流榜单中，DeepSeek-V2 均表现出色：

中文综合能力（AlignBench）开源模型中最强：与 GPT-4-Turbo，文心 4.0 等闭源模型在评测中处于同一梯队
英文综合能力（MT-Bench）处于第一梯队：英文综合能力（MT-Bench）与最强的开源模型 LLaMA3-70B 处于同一梯队，超过最强 MoE 开源模型 Mixtral 8x22B
知识、数学、推理、编程等榜单结果位居前列
支持 128K 上下文窗口

全新的模型结构

当 AI 的潜力被不断挖掘，我们不禁要问：什么是推动智能进步的关键？DeepSeek-V2 给出了答案 —— 创新架构与成本效益的完美结合。

DeepSeek-V2，以 236B 的总参数和 21B 激活，大致达到了 70B~110B Dense 模型的能力，同时显存消耗仅为同级别模型的 1/5~1/100。在8卡H800机器上，每秒可处理超过 10 万tokens 的输入，输出超过每秒 5 万 tokens。这不仅是技术上的飞跃，更是成本控制的革命。

在 AI 技术飞速发展的今天，DeepSeek-V2 的出现，不仅代表了技术的突破，更预示着智能应用的普及化。它将 AI 的门槛降低，让更多企业和个人能够享受到高效智能服务。