
回复
DeepSeek开源周并未结束,One More Thing:DeepSeek-V3/R1 推理系统概述以及高达545%的成本利润率:
🔧 跨节点EP驱动的批量扩展
🔄 计算-通信重叠
⚖️ 负载均衡
⚡ 每个H800节点每秒73.7k/14.8k输入/输出 tokens
🚀 成本利润率545%
图片
DeepSeek-V3 / R1 推理系统的优化目标是:更大的吞吐,更低的延迟。
图片
由于DeepSeek-V3/R1模型具有高度稀疏性,每层256个专家中仅激活8个,因此必须采用大的overall batch size来为每个专家提供足够的expert batch size,以实现更大的吞吐和更低的延迟。具体实现包括:
为了掩盖由多机多卡专家并行引入的通信开销,系统采用了双batch重叠策略,以提高整体吞吐量:
图片
图片
由于采用了大规模并行(包括数据并行和专家并行),需要为每个GPU分配均衡的计算负载和通信负载,以避免性能瓶颈和资源浪费:
DeepSeek V3和R1的所有服务均使用H800 GPU,并采用与训练一致的精度格式(FP8和BF16),以最大程度保证服务效果。在最近的24小时内,DeepSeek V3和R1推理服务的峰值占用为278个节点,平均占用226.75个节点。尽管理论上一天的总收入为$562,027,成本利润率545%,但实际收入会因V3的定价较低、收费服务占比和夜间折扣等因素而有所不同。
图片
https://zhuanlan.zhihu.com/p/27181462601
https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_mo
本文转载自PaperAgent