AI导读:

DeepSeek官方账号在知乎首次发布推理系统概览,公开核心优化方案及财务数据,理论上一天总收入可达$562,027,成本利润率高达545%。所有服务均采用H800 GPU,通过动态调整节点资源实现效率最大化。

3月1日,Deepseek官方账号在知乎首次发布《DeepSeek-V3/R1推理系统概览》技术文章,公开了其推理系统的核心优化方案及成本利润率等关键财务数据,这一举动引发了业内的广泛关注。据DeepSeek透露,若所有tokens均按DeepSeek R1的定价计算,理论上一天的总收入可达$562,027,成本利润率高达545%。

DeepSeek官方指出,DeepSeek V3和R1的所有服务均采用H800 GPU,并使用与训练一致的精度,以确保服务效果的最大化。同时,通过动态调整节点资源,实现了效率的最优化。

在最近24小时(北京时间2025/02/27 12:00至2025/02/28 12:00)内,DeepSeek V3和R1推理服务占用的节点总和达到峰值278个,平均占用226.75个节点(每个节点含8个H800 GPU)。假设GPU租赁成本为2美金/小时,则每天的总成本为$87,072。

DeepSeek进一步透露,若所有tokens均按DeepSeek R1的定价计算,理论上一天的总收入为$562,027,成本利润率高达545%。其中,DeepSeek R1的定价为:$0.14/百万输入tokens(缓存命中),$0.55/百万输入tokens(缓存未命中),$2.19/百万输出tokens。然而,DeepSeek也承认实际收入并未达到这一水平,因为V3的定价更低,且收费服务仅占一部分,夜间还会有折扣。

此外,DeepSeek还公布了DeepSeek-V3/R1推理系统的概述。为实现更大的推理吞吐量与更低的延迟,DeepSeek采用了大规模跨节点专家并行(Expert Parallelism / EP)方案。EP不仅使batch size大幅增加,提高了GPU矩阵乘法的效率,还使专家分散在不同的GPU上,降低了延迟。通过EP增大batch size、隐藏通信延迟于计算之后,并执行负载均衡,DeepSeek成功应对了EP带来的系统复杂性挑战。

(文章来源:广州日报)