国产开源之光：DeepSeek-V3划重点

DeepSeek-V3 采用了 671B 参数 MoE 架构，配备约 37B 激活单元，训练使用14.8T Token数据。

今年早些曾经有过几篇文章关注过DeepSeek：

开源模型社区又一位重量级选手掀桌子

对标 OpenAI o1：DeepSeek 发布最新推理模型

一路走来，从一个低调、但能引起行业普遍降价的选手，到现在的国产+开源之光引发全球瞩目。最近刚刚其最新的DeepSeek-V3发布后，海内外一片刷屏。本篇就划几处重点：

1、V3参数量、训练数据。

一句话介绍：DeepSeek-V3 采用了 671B 参数 MoE 架构，配备约 37B 激活单元，训练使用14.8T Token数据。

2、刷榜成绩：数学代码能力显著优异。

数学能力 / MATH 500、AIME 2024 等测试：显著优于 Claude 3.5 Sonnet 和 GPT-4o；

代码能力 / Codeforces：同样优于其他主流大模型，刷新了SOTA。

3、极佳训练成本优势：总计消耗了 278.8 万 GPU 小时。按照 NVIDIA H800 每小时 2 美元的租赁价格计算，训练成本约为 560 万美元。（相比之下，Llama 3模型的计算消耗了3930万H100小时...）

低训练成本可能是本次DeepSeek-V3在海外产生的最大反响的一点：

DeepSeek-V3的训练仅使用了2048张H800 （然而，H800 的互连带宽较低：300 GB/s，对比 H100 的 900 GB/s，这在训练过程中可能成为性能瓶颈，因为节点间的通信效率会受到影响，为此DeepSeek提出了多种优化方案，例如自主研发通信内核而非依赖张量并行，以及采用混合精度（FP8）训练等技术来提升效率。）