- https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
- https://arxiv.org/abs/2412.19437
- https://github.com/deepseek-ai/DeepSeek-V3
- https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b
原文:https://zhuanlan.zhihu.com/p/14890557782
DeepSeek-V3 是一款性能卓越的混合专家(MoE) 语言模型,整体参数规模达到 671B,其中每个 token 激活的参数量为 37B。评估结果表明,DeepSeek-V3 在性能上超越了其他开源模型,并能够与主流闭源模型相媲美。
引言
近年来,LLM 经历了快速迭代和演进,逐步缩小了与通用人工智能(AGI) 的差距。除了闭源模型外,开源模型阵营也在取得重大进展,包括 DeepSeek 系列、LLaMA 系列、Qwen 系列和 Mistral 系列,这些模型正在努力缩小与闭源模型的性能差距。
为了进一步突破开源模型的能力边界,研究团队开发了 DeepSeek-V3,这是一个基于 MoE 架构的大模型,总参数量达到 671B,其中每个 token 会激活 37B 个参数。
基于提升性能和降低成本的双重目标,在架构设计方面,DeepSeek-V3 采用了MLA来确保推理效率,并使用 DeepSeekMoE来实现经济高效的训练。这两种架构在 DeepSeek-V2 中已经得到验证,证实了它们能够在保持模型性能的同时实现高效的训练和推理。
除了延续这些基础架构外,研究团队还引入了两项创新策略来进一步提升模型性能。
首先,DeepSeek-V3 首创了无辅助损失的负载均衡策略,有效降低了负载均衡对模型性能的负面影响。另外,DeepSeek-V3 采用了多 token 预测训练目标,这种方法在评估基准测试中展现出了显著的性能提升。
为了提高训练效率,该研究采用了FP8 混合精度训练技术并对训练框架进行了全面优化。低精度训练作为一种高效的训练方案,其发展与硬件性能的提升密切相关。本研究首次在超大规模模型上成功验证了 FP8 混合精度训练框架的有效性。通过采用 FP8 计算和存储技术,显著提升了训练速度并降低了 GPU 内存占用。
在训练框架方面,研究团队开发的 DualPipe 算法实现了高效的流水线并行处理,减少了流水线停滞,并通过计算和通信并行处理的方式降低了训练过程中的通信开销。这种优化确保了即使在模型规模进一步扩大的情况下,只要维持适当的计算通信比例,就能在不同节点间实现细粒度专家分配,同时将全节点间的通信开销降至接近于零。
此外,研究团队优化了跨节点的全节点通信内核,充分利用了 InfiniBand(IB) 和 NVLink 的带宽性能。通过精细的内存优化,使得 DeepSeek-V3 的训练无需依赖成本高昂的张量并行技术。
这些技术改进的综合运用实现了极高的训练效率。
在预训练阶段,DeepSeek-V3 使用了 14.8T 高质量且多样化的 token 进行训练。整个预训练过程表现出了出人意料的稳定性,不仅没有出现不可恢复的损失突增,也未发生需要回滚的情况。
随后,模型进行了两个阶段的上下文长度扩展:第一阶段将最大上下文长度提升至 32K,第二阶段进一步扩展至 128K。
接着,研究团队对 DeepSeek-V3 基础模型进行了后训练,包括 SFT 和 RL,以增强模型对人类偏好的理解并进一步提升其性能。在后训练阶段,通过从 DeepSeek R1 系列模型中提取推理能力,同时精确控制模型的输出质量和长度比例。
DeepSeek-V3 在全面的基准测试评估中表现突出。尽管其训练成本较低,但综合评估结果显示,DeepSeek-V3-Base 已成为当前性能最强的开源基础模型,尤其在代码和数学领域表现卓越。其对话版本不仅超越了其他开源模型,还在多个标准和开放式基准测试中展现出与领先闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相匹敌的性能。
值得注意的是,DeepSeek-V3 实现了极具竞争力的训练成本(详见表1),这得益于在算法、框架和硬件层面的整体优化设计。
在预训练阶段,每处理1T token 仅需 180K H800 GPU 小时,即在配备 2048 个 H800 GPU 的集群上仅需 3.7 天。因此,整个预训练阶段在不到两个月内完成,总计使用了 2664K GPU 小时。
加上上下文长度扩展所需的 119K GPU 小时和后训练阶段的 5K GPU 小时,DeepSeek-V3 的完整训练总共消耗了 2.788M GPU 小时。按照每 GPU 小时 2 美元的 H800 GPU 租用价格计算,总训练成本仅为 557.6 万美元。需要说明的是,这些成本仅包含 DeepSeek-V3 的正式训练环节,不包括前期架构研究、算法验证和数据实验等相关支出。
本研究的主要创新点包括:
架构创新
在 DeepSeek-V2 高效架构的基础上,创新性地提出了无辅助损失的负载均衡策略,有效降低了负载均衡过程对模型性能的影响。
开发并验证了多 token 预测(MTP)训练目标,证实了其对模型性能的提升作用,该技术还可用于推测解码来加速推理过程。
高效预训练
开发了 FP8 混合精度训练框架,首次在超大规模模型上验证了 FP8 训练的可行性和效果。
通过算法、框架和硬件的综合优化,突破了跨节点 MoE 训练中的通信瓶颈,实现了计算与通信的高度重叠。这种优化大幅提升了训练效率,降低了训练成本,同时支持了更大规模模型的训练而无需额外开销。
仅用 2.664M H800 GPU 小时就完成了 DeepSeek-V3 在 14.8T token 上的预训练,打造出当前最强大的开源基础模型。预训练后的其他训练阶段仅需 0.1M GPU 小时。
后训练——DeepSeek-R1 知识蒸馏
该研究提出了一种创新的知识蒸馏方法,将思维链 (CoT) 模型(特别是 DeepSeek R1 系列)的推理能力转移到标准 LLM 中,尤其是 DeepSeek-V3。这一方法成功地将 R1 的验证和反思机制整合到 DeepSeek-V3 中,显著提升了其推理能力,同时有效控制了输出的风格和长度。
核心评估成果
知识领域评估:
- • 在教育类基准测试中,DeepSeek-V3 的表现超越了所有开源模型,在 MMLU、MMLU-Pro 和 GPQA 测试中分别获得了 88.5、75.9 和 59.1 的优异成绩。这一性能水平已与领先闭源模型 GPT-4o 和 Claude-Sonnet-3.5 相当,显著缩小了开源与闭源模型的性能差距。
- • 在事实性知识评测中,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 测试中都展现出领先于其他开源模型的优势。特别值得注意的是,虽然其英语事实知识(SimpleQA)略逊于 GPT-4o 和 Claude-Sonnet-3.5,但在中文事实知识(中文 SimpleQA)方面却超越了这些模型,凸显了其在中文知识领域的特殊优势。
技术能力评估:
- • 在数学领域,DeepSeek-V3 在所有非 CoT 模型(包括开源和闭源)中取得了最优性能。值得注意的是,在 MATH-500 等特定测试中,其表现甚至超越了 GPT-4o,充分展示了其出色的数学推理能力。
- • 在编程领域,DeepSeek-V3 在 LiveCodeBench 等编程竞赛基准测试中表现最为突出,确立了其在该领域的领先地位。在软件工程相关任务中,尽管略低于 Claude-Sonnet-3.5,但仍大幅领先于其他模型,展示了其在各类技术评测中的综合实力。
架构
DeepSeek-V3 的基本架构具有两个核心特征:
1.采用 MLA 实现高效推理
2.使用 DeepSeekMoE 实现经济高效的训练。
此外,该研究还开发了MTP训练目标,这一创新在评估基准测试中展现出显著的性能提升。
在其他未特别说明的架构细节方面,DeepSeek-V3 延续了 DeepSeek-V2 的设计方案。
基本架构
DeepSeek-V3 的基础架构建立在 Transformer 框架之上。为实现高效推理和降低训练成本,该模型采用了经 DeepSeek-V2 验证的 MLA 和 DeepSeekMoE 技术。相比 DeepSeek-V2,本研究在 DeepSeekMoE 中创新性地引入了无辅助损失负载均衡策略,有效降低了负载均衡过程对模型性能的影响。
图2展示了 DeepSeek-V3 的基本架构,本节将简要介绍 MLA 和 DeepSeekMoE 的技术细节。
多头潜在注意力机制
DeepSeek-V3 在注意力机制方面采用了 MLA 架构。设向量维度为d,注意力头数为𝑛ℎ,每个头的维度为 𝑑ℎ,在特定注意力层中第t个 token 的注意力输入表示为 h𝑡 ∈ Rd 。MLA 的核心创新在于对注意力键和值进行低秩联合压缩,以降低推理过程中的键值(KV)缓存开销:
其中:
- ctKV∈Rdc 表示键和值的压缩潜在向量
- dc(≪dhnh) 表示 KV 压缩维度
- WDKV∈Rdc×d 为维度下投影变换矩阵
- WUK,WUV∈Rdhnh×dc 分别为键和值的维度上投影变换矩阵
- WKR∈RdhR×d 用于生成携带旋转位置编码(Rotary Positional Embedding, RoPE)的解耦键
- RoPE(·)表示旋转位置编码矩阵的应用操作
- [·;·]表示向量连接操作
在 MLA 中,生成过程仅需缓存高亮标记的向量ctKV 和 ktR,这种设计显著降低了 KV 缓存空间,同时保持了与标准MHA相当的性能水平。
对于注意力查询(Query)部分,模型同样采用低秩压缩技术,这种设计有效降低了训练过程中的激活值内存占用:
其中:
- ctQ∈Rd′c 表示查询的压缩潜在向量
- d′c(≪dhnh) 表示查询压缩维度
- WDQ∈Rd′c×d 和 WUQ∈Rdhnh×d′c 分别为查询的维度降维和升维变换矩阵
- WQR∈RdRhnh×d′c 用于生成携带旋转位置编码的解耦查询矩阵
最终,通过组合注意力查询(qt,i )、键 (kj,i)和值( vCj,i ),得到注意力机制的最终输出 Ut:
其中𝑊𝑂 ∈ R𝑑×𝑑ℎ𝑛ℎ为输出维度变换矩阵。
DeepSeekMoE 及其无辅助损失负载均衡机制
DeepSeekMoE的基础架构:在前馈网络(Feed-Forward Networks, FFN) 部分,DeepSeek-V3 采用了 DeepSeekMoE 架构。相比传统的 MoE 架构(如 GShard),DeepSeekMoE 采用了更细粒度的专家分配机制,并创新性地将部分专家设置为共享专家。假设第 t个 token 的 FFN 输入为ut,其输出h′t的计算过程如下:
其中:
- Ns和 Nr 分别表示共享专家和路由专家的数量
- FFNi(s) 和 FFNi(r)(·) 分别代表第 i 个共享专家和路由专家的处理函数
- Kr 表示被激活的路由专家数量
- , 代表第 i 个专家的权重系数
- si,t 表示 token 与专家间的相关度
- ei 代表第 i 个路由专家的特征向量
- Topk(·,K) 函数返回第 t 个 token 与所有路由专家计算得到的相关度分数中最高的 K 个值。
无辅助损失负载均衡:对于 MoE 模型,不平衡的专家负载将导致路由崩溃,并在专家并行场景中降低计算效率。传统解决方案通常依赖辅助损失来避免不平衡负载。然而,过大的辅助损失会损害模型性能。为了在负载平衡和模型性能之间实现更好的权衡,研究团队开创了一种无辅助损失负载均衡策略来确保负载平衡。
具体而言,研究团队为每个专家引入了一个偏置项bi,并将其添加到相应的亲和度分数si,t中以确定 top-K 路由:
在这种设计中,偏置项仅用于路由选择,而门控值(用于与 FFN 输出相乘)仍基于原始相关度分数 si,t 计算。训练过程中,系统会实时监控每个训练步骤中所有批次的专家负载分布。在每个步骤结束时,对于负载过高的专家,其偏置项会减少 γ ;对于负载不足的专家,其偏置项会增加 γ ,其中 γ 是控制偏置更新速率的超参数。
通过这种动态调整机制,DeepSeek-V3 在训练过程中实现了专家负载的均衡分布,其性能优于传统仅依靠辅助损失来实现负载均衡的模型。
序列级辅助损失补充机制: 虽然 DeepSeek-V3 主要采用无辅助损失策略来实现负载均衡,但为了防止单个序列中出现显著的负载不均衡现象,模型还引入了补充性的序列级平衡损失:
其中平衡因子 α 是一个超参数,在 DeepSeek-V3 中被设置为极小值; 1(·) 表示指示函数; T 代表序列中的 token 总数。这种序列级平衡损失机制有助于保持单个序列内专家负载的均衡性。
节点约束路由机制: 类似于 DeepSeek-V2 的设备限制路由策略,DeepSeek-V3 采用了受控路由机制来优化训练过程中的通信开销。具体而言,系统限制每个 token 最多只能分配给 M 个计算节点,这些节点的选择基于每个节点上专家的最高 Kr/M 相关度分数总和。
在这种约束下,MoE 训练框架能够实现计算与通信的近乎完全并行处理。
完整的 Token 保留机制: 得益于高效的负载均衡策略,DeepSeek-V3 在整个训练过程中都保持着良好的负载平衡状态。因此,训练过程中不存在 token 丢弃现象。同时,通过特定的推理部署策略,DeepSeek-V3 在推理阶段同样实现了完整的 token 保留。
多 token 预测机制 (Multi-Token Prediction, MTP)
DeepSeek-V3 创新性地采用了 MTP 目标,将预测范围扩展到每个位置的多个后续 token。
这种设计具有双重优势:
首先,MTP 目标通过增加训练信号的密度可能提高数据利用效率;其次,它使模型能够提前规划表征,从而更准确地预测后续 token。
如图3所示,该实现方案与先前研究的方法有所不同:前者使用独立输出头并行预测 D 个额外 token,而 DeepSeek-V3 采用顺序预测方式,并在每个预测层级保持完整的因果关系链。
MTP 模块架构: 具体实现中,模型采用 D 个串联模块来预测 D 个额外的 token。每个 MTP 模块(第k个)包含以下组件:
- 共享向量层 Emb(·)
- 共享输出头 OutHead(·)
- Transformer 处理单元 TRM(·)
- 维度映射矩阵 Mk∈Rd×2d
对于输入序列中的第 i 个 token ti ,在第 k 层预测时,模型首先将两个向量进行组合:该 token 在第 (k−1) 层的特征表示 hik−1∈Rd 和第 (i+k) 个 token 的向量 Emb(ti+k)∈Rd ,通过线性变换进行融合:
其中[·;·]表示向量拼接操作。需要特别说明的是,在 k=1 时,hik−1 代表主模型输出的特征表示。值得注意的是,每个 MTP 模块都与主模型共享同一个向量层。经过组合的特征向量 hi′k 随后输入到第 k 层的 Transformer 处理单元,生成该层的输出特征表示 hik :
其中 T 代表输入序列的长度, i:j 表示包含两端的切片操作。接着,系统将hik输入到共享输出层,计算第 k 个预测 token 的概率分布 Pi+1+kk∈RV (V 为词表大小):
输出层 OutHead(·) 首先通过线性变换将特征表示转换为 logits,然后使用 Softmax(·) 函数计算第 k 个预测 token 的概率分布。与向量层类似,每个 MTP 模块的输出层也与主模型共享。这种保持预测因果链的设计思路与 EAGLE 相近,但两者目标不同:EAGLE 主要用于推测解码,而本研究中的 MTP 主要用于优化训练效果。
MTP 训练目标优化: 系统为每个预测层级计算交叉熵损失 LMTPk :
其中,T 表示输入序列长度,ti 代表第 i 个位置的目标 token,ik[ti] 表示第 k 个 MTP 模块对 ti 的预测概率。最终,通过计算所有层级 MTP 损失的平均值并乘以权重系数 λ ,得到总体 MTP 损失 LMTP ,作为 DeepSeek-V3 的补充训练目标:
推理阶段的MTP:应用 MTP 机制的主要目的是提升基础模型的性能,因此在实际推理阶段可以不使用 MTP 模块,基础模型能够独立完成正常推理。此外,这些 MTP 模块也可以被重新配置用于推测解码,从而降低模型生成的时间延迟。
基础设施
计算集群架构
DeepSeek-V3 的训练环境是一个配备 2048 个 NVIDIA H800 GPU 的大规模计算集群。
该集群中的每个计算节点包含 8 个 GPU,这些 GPU 通过节点内的 NVLink 和 NVSwitch 实现高速互连。节点之间则采用 InfiniBand (IB) 技术进行高效通信。
训练框架设计
模型训练基于自主研发的 HAI-LLM 框架,这是一个经过优化的高效轻量级训练系统。DeepSeek-V3 的并行策略包含三个层面:16 路流水线并行(Pipeline Parallelism, PP)、跨 8 个节点的 64 路专家并行(Expert Parallelism, EP),以及 ZeRO-1 数据并行(Data Parallelism, DP)。
为实现高效训练,该框架进行了多方面的工程优化:
- 开发了 DualPipe 流水线并行算法,相比现有 PP 方法,该算法显著减少了流水线停滞现象。更重要的是,它实现了前向和后向过程中计算与通信阶段的重叠,有效解决了跨节点专家并行带来的通信负载问题。
- 优化了跨节点全对全通信内核,充分利用 IB 和 NVLink 带宽,同时减少了通信所需的流式多处理器(SMs)资源占用。
- 通过精细的内存管理优化,使得模型训练无需依赖开销较大的张量并行(Tensor Parallelism, TP)技术。
DualPipe 技术与计算通信协同优化
在 DeepSeek-V3 中,跨节点专家并行机制引入了显著的通信开销,导致计算与通信比例接近1:1,影响了训练效率。
为解决这一问题,模型采用了创新性的 DualPipe 流水线并行算法。该算法通过两个关键优化实现性能提升:有效融合前向和后向计算的通信阶段,同时减少流水线阻塞。
DualPipe 的核心创新在于实现了单个前向和后向计算块内的计算通信重叠。具体来说,每个计算块被划分为四个功能模块:
- 注意力机制
- 全节点数据分发
- MLP 处理
- 全节点数据整合
特别地,在后向计算块中,注意力和 MLP 模块都被进一步细分为输入梯度计算和权重梯度计算两个部分,这一设计借鉴了 ZeroBubble 的思路。此外,还包含专门的 PP 通信模块。
如图4所示,通过优化排列这些功能模块,并精确调控用于通信和计算的 GPU 流处理器资源分配比例,系统能够在运行过程中有效隐藏全节点通信和 PP 通信开销。
完整的 DualPipe 调度机制如图5所示。它采用创新的双向流水线调度策略,实现了从流水线两端同时输入微批次数据,使得大部分通信过程能够与计算过程完全重叠。这种设计确保了即使在模型规模进一步扩大的情况下,只要维持适当的计算通信比例,就能在节点间实现细粒度的专家分配,同时将全节点通信开销降至接近于零。
值得注意的是,即使在通信负载相对较轻的常规应用场景中,DualPipe 仍然展现出显著的效率优势。表2对比了不同 PP 方法在流水线阻塞和内存使用方面的表现。
数据显示,相比 ZB1P 和 1F1B,DualPipe 大幅减少了流水线阻塞,而峰值活性内存仅增加了 1/PP 。虽然 DualPipe 需要维护两份模型参数副本,但由于训练过程采用了大规模 EP,这一冗余并未导致显著的内存开销增加。
与 Chimera 相比,DualPipe 的实现要求更为灵活,仅需要流水线阶段数和微批次数能被 2 整除,而不要求微批次数必须能被流水线阶段数整除。
此外,DualPipe 的一个重要特性是,随着微批次数量的增加,其流水线阻塞和激活内存占用都不会相应增加。
跨节点all-to-all通信的高效实现
为了确保 DualPipe 具有充足的计算性能,系统采用了定制化的高效跨节点全对全通信内核(包括分发和组合功能),以节省用于通信的 SMs 数量。
这些内核的实现与 MoE 门控算法和集群的网络拓扑结构进行了协同设计。具体而言,在该集群中,跨节点 GPU 通过 IB 实现全连接,节点内通信则通过 NVLink 处理。NVLink 提供 160GB/s 的带宽,约为 IB(50GB/s)的 3.2 倍。为了有效利用 IB 和 NVLink 的不同带宽特性,系统限制每个 token 最多分发到 4 个节点,从而减少 IB 流量。对于每个 token,当确定其路由决策后,首先通过 IB 传输到目标节点上具有相同节点内索引的 GPU。一旦到达目标节点,系统确保其通过 NVLink 即时转发到承载目标专家的特定 GPU,避免被后续到达的 token 阻塞。
通过这种方式,IB 和 NVLink 的通信实现完全重叠,每个 token 能够在不产生 NVLink 额外开销的情况下,在每个节点上平均高效选择 3.2 个专家。这意味着,虽然 DeepSeek-V3 实际只选择 8 个路由专家,但它可以将这个数字扩展到最多 13 个专家(4 个节点 × 3.2 个专家/节点),同时保持相同的通信成本。
总体而言,在这种通信策略下,仅需 20 个 SMs 就足以充分利用 IB 和 NVLink 的带宽。具体而言,系统采用了线程专门化技术,将 20 个 SMs 划分为 10 个通信信道。
在分发过程中,(1)IB 发送、(2) IB 到 NVLink 转发和(3) NVLink 接收由各自的线程组处理。分配给每个通信任务的线程组数量根据所有 SMs 的实际工作负载动态调整。
类似地,在组合过程中,(1) NVLink 发送、(2) NVLink 到 IB 转发和累积,以及(3) IB 接收和累积也由动态调整的线程组处理。此外,分发和组合内核与计算流重叠,因此还考虑了它们对其他 SM 计算内核的影响。具体而言,系统采用了定制的 PTX 指令并自动调整通信块大小,这显著降低了 L2 缓存的使用和对其他 SMs 的干扰。
极致的内存节省与最小开销
为了减少训练期间的内存占用,系统采用了以下技术:
RMSNorm 和 MLA 上投影的重计算。在反向传播期间重新计算所有 RMSNorm 操作和 MLA 上投影,从而避免了持久存储其输出激活的需求。这种策略虽带来少量开销,但显著减少了存储激活所需的内存。
CPU 中的指数移动平均(EMA)。在训练期间,系统在 CPU 内存中保留模型参数的EMA,用于学习率衰减后对模型性能的早期估计。EMA 参数存储在 CPU 内存中,并在每个训练步骤后异步更新。这种方法使维护 EMA 参数不会产生额外的内存或时间开销。
MTP的共享向量和输出头。采用 DualPipe 策略,将模型的最浅层(包括向量层)和最深层(包括输出头)部署在相同的PP等级上。这种安排使 MTP 模块和主模型之间能够物理共享参数和梯度,实现共享向量和输出头。这种物理共享机制进一步提高了内存使用效率。
FP8 训练
基于低精度训练领域的最新进展,本研究开发了一种细粒度混合精度框架,采用 FP8 数据格式训练 DeepSeek-V3。
尽管低精度训练技术展现出巨大潜力,但其实际应用常受到激活值、权重和梯度中异常值的制约。虽然推理量化技术取得重要突破,但在大规模语言模型预训练中成功应用低精度技术的案例仍然有限。
为了应对这一挑战并有效扩展 FP8 格式的动态范围,本研究采用了细粒度量化策略:
采用 1×Nc 元素的条状分组或Nc×Nc元素的块状分组。
通过提高精度累积过程,大幅降低了反量化带来的计算开销,这对实现高精度 FP8 通用矩阵乘法(GEMM)至关重要。此外,为降低 MoE 训练中的内存和通信开销,系统采用 FP8 格式进行激活值的缓存和分发,同时使用 BF16 格式存储低精度优化器状态。
该框架在与 DeepSeek-V2-Lite 和 DeepSeek-V2 规模相近的两个模型上进行了验证,训练数据量约为 1T token(详见原文附录B.1)。结果表明,与 BF16 基准相比,FP8 训练模型的相对损失误差始终保持在 0.25% 以下,这完全在训练随机性的可接受范围内。
混合精度框架
本研究在已有低精度训练技术的基础上,设计了专门的 FP8 训练混合精度框架。在这一框架中,大部分计算密集型操作采用 FP8 执行,而关键操作则保持原有数据格式,以实现训练效率和数值稳定性的最优平衡。
整体框架结构如图6所示。
首先,为提高模型训练速度,大部分核心计算操作(尤其是 GEMM 运算),均采用 FP8 精度实现。这些 GEMM 运算接收 FP8 格式的张量输入,输出 BF16 或 FP32 格式的结果。如图6所示,线性运算相关的三个 GEMM 操作,包括 Fprop(前向传播)、Dgrad(激活值反向传播)和 Wgrad(权重反向传播),均采用 FP8 执行。这种设计策略理论上将计算速度提升至原有 BF16 方法的两倍。同时,FP8 格式的 Wgrad GEMM 使得激活值能够以 FP8 格式存储用于反向传播,显著降低了内存使用量。
虽然 FP8 格式在效率方面具有优势,但某些运算由于对计算精度较为敏感,仍需要更高精度的支持。另外,部分计算开销较小的运算可以采用更高精度而不会显著影响整体训练效率。
因此,经过详细评估,系统对以下模块保持原有精度(BF16 或 FP32):向量层、输出层、MoE 门控模块、标准化运算和注意力运算模块。这种针对性的高精度保留策略确保了 DeepSeek-V3 训练过程的动态稳定性。为进一步保障数值计算的稳定性,主要权重参数、权重梯度和优化器状态均采用更高精度存储。虽然这些高精度组件会带来一定的内存开销,但通过在分布式训练系统中跨多个 DP 层级进行高效数据分割,这些额外开销得到了有效控制。
量化和乘法精度优化
基于混合精度 FP8 框架,研究团队开发了多种策略来提升低精度训练的准确性,主要从量化方法和乘法计算两个方面进行优化。
细粒度量化技术: 在低精度训练框架中,由于 FP8 格式的指数位较少导致其动态范围受限,经常出现数值溢出和下溢的问题。传统方法是将输入张量的最大绝对值映射到 FP8 格式的最大可表示值,将输入分布对齐到可表示范围内。然而,这种方法使得低精度训练对激活值中的极端值特别敏感,可能导致量化精度显著下降。
为解决这一问题,该研究提出了一种更细粒度的量化方法。如图7(a)所示,该方法采用两种不同的分组策略:
- 激活值采用 1×128 条状分组和缩放(每个 token 的每 128 个通道)
- 权重采用 128×128 块状分组和缩放(每 128 个输入通道对应 128 个输出通道)
这种方法通过在更小范围内调整缩放因子,显著提高了量化过程对极端值的适应能力。原文附录B.2 中详细分析了在块状基础上对激活值进行分组和缩放时可能出现的训练不稳定现象。
该方法的一项重要创新是在 GEMM 操作的内部维度引入组级缩放因子。虽然标准 FP8 GEMM 不直接支持这一功能,但通过与精确 FP32 累积策略的结合,实现了高效的执行。值得注意的是,这种细粒度量化策略与微缩放格式的理念高度契合,而 NVIDIA 新一代 GPU(Blackwell 系列)的 Tensor Cores 已宣布将支持更细粒度的微缩放格式。这一设计为适配最新 GPU 架构的未来研究提供了重要参考。
累积精度优化: 低精度 GEMM 运算常见的下溢问题主要通过高精度累积来解决,通常采用 FP32 精度。然而,在 NVIDIA H800 GPU 上,FP8 GEMM 的累积精度仅能保持约 14 位有效数字,远低于 FP32 的累积精度。这个问题在内部维度 K 较大时尤为显著,这正是大规模模型训练中的常见情况,因为批量规模和模型宽度都有所增加。例如,在 K=4096 的两个随机矩阵 GEMM 运算测试中,Tensor Cores 的有限累积精度导致最大相对误差接近 2%。尽管存在这些问题,部分 FP8 框架仍将有限累积精度作为默认选项,这严重制约了训练精度的提升。
为解决这一问题,系统采用了 CUDA Cores 提升策略来获得更高的计算精度。如图7(b)所示,在 Tensor Cores 执行 MMA(矩阵乘法累加)时,中间结果先使用有限位宽累加。当达到 NC 间隔时,这些部分结果会转移到 CUDA Cores 的 FP32 寄存器中进行全精度累加。结合细粒度量化在内部维度 K 上的组级缩放因子,系统能够在 CUDA Cores 上高效完成反量化过程,仅带来极少的额外计算开销。
这种设计虽然降低了单个线程组的 WGMMA 指令发出率,但在 H800 架构上通过并发执行两个 WGMMA 得到了优化:一个线程组执行提升操作的同时,另一个可以执行 MMA 操作。这种重叠执行机制保证了 Tensor Cores 的高效利用。实验证明,将 NC 设为 128 个元素(即 4 个 WGMMA)是在不引入显著开销的前提下,能够有效提升精度的最小累积间隔。
在数值表示方面,不同于先前工作采用的混合 FP8 格式(Fprop 使用 E4M3,Dgrad 和 Wgrad 使用 E5M2),本研究在所有张量计算中统一采用 E4M3 格式以提高精度。这种设计的可行性源于细粒度量化策略(平铺和块状缩放),通过在较小元素组内共享指数位来有效缓解有限动态范围的影响。
为确保量化精度并简化框架设计,系统采用在线量化方法,而不是像其他张量级量化框架那样使用基于历史记录的延迟量化。系统对每个1×128激活平铺或 128×128 权重块实时计算最大绝对值,据此确定缩放因子并完成 FP8 格式的在线量化。
低精度存储与通信优化
在 FP8 训练框架的基础上,通过将缓存的激活值和优化器状态转换为更低精度格式,系统进一步优化了内存占用和通信开销。
优化器状态的精度优化: 系统在 AdamW 优化器中使用 BF16 代替 FP32 格式来记录一阶和二阶动量,这种改变并未带来明显的性能损失。同时,为确保训练过程的数值稳定性,主要权重参数(优化器存储)和梯度值(用于批量累积)仍保持 FP32 格式。
激活值精度优化: 如图6所示,Wgrad 运算采用 FP8 执行。为降低内存占用,系统在线性运算的反向传播中使用 FP8 格式缓存激活值。但在实现低成本高精度训练时,以下运算需要特殊处理:
- 注意力层后的线性层输入:这些激活值同时用于注意力运算的反向传播,因此对精度特别敏感。系统为这些激活值专门设计了 E5M6 数据格式。在反向传播时,这些激活值的量化模式从 1×128 转换为 128×1 。为避免引入额外的量化误差,所有缩放因子都采用 2 的整数次幂。
- MoE 中 SwiGLU 运算的输入:为优化内存使用,系统仅缓存 SwiGLU 运算的输入,在反向传播时重新计算输出。这些激活值采用 FP8 格式存储,并通过细粒度量化方法实现内存效率和计算精度的最优平衡。
低精度通信优化: 通信带宽限制是 MoE 模型训练中的主要性能瓶颈。为解决这一问题,系统在执行 MoE 上投影前将激活值转换为 FP8 格式,再进行数据分发,这种方式与 MoE 上投影中的 FP8 前向传播保持兼容。与注意力层后的线性层输入处理方式相同,这里的激活值缩放因子也采用 2 的整数次幂。同样的处理方式也应用于 MoE 下投影前的激活值梯度计算。考虑到训练精度的重要性,前向和反向传播中的组合运算环节都保持 BF16 格式,以确保训练管道关键环节的计算精度。
推理和部署
DeepSeek-V3 部署在 H800 集群上,集群中每个节点内的 GPU 通过 NVLink 互连,集群内所有 GPU 通过 IB 实现全连接。为同时确保在线服务质量(SLO)和高吞吐量,该系统采用了将预填充和解码阶段分离的部署策略。
预填充
预填充阶段的最小部署单元配置为 4 个节点 32 个 GPU。
注意力机制部分采用 4 路张量并行(TP4)配合序列并行(SP),结合 8 路数据并行(DP8)。较小的 TP 规模有效控制了通信开销。
MoE 部分采用 32 路专家并行(EP32),确保每个专家能处理足够规模的批量数据,提升计算效率。MoE 的全节点通信采用与训练阶段相同的方式:先通过 IB 在节点间传输 token,再通过 NVLink 在节点内 GPU 间传递。特别地,浅层的密集 MLP 采用单路张量并行以降低 TP 通信开销。
为实现 MoE 部分各专家间的负载平衡,系统需要确保每个 GPU 处理相近数量的 token。为此,采用了冗余专家部署策略,对高负载专家进行复制和冗余部署。
系统基于在线部署时收集的统计数据识别高负载专家,并定期调整(如每 10 分钟)。确定冗余专家后,基于负载观测数据在节点内 GPU 间重新分配专家,在不增加跨节点通信开销的前提下,尽可能实现 GPU 间的负载均衡。
DeepSeek-V3 在预填充阶段配置了 32 个冗余专家,每个 GPU 除原有的 8 个专家外,还分配一个额外的冗余专家。此外,为提升吞吐量并降低全对全和 TP 通信开销,系统同时处理两个计算负载相近的微批次,将一个批次的注意力和 MoE 计算与另一个批次的数据分发和聚合重叠。
目前正在探索专家动态冗余机制,使每个 GPU 分配更多专家(如 16 个),但每次推理仅激活其中 9 个。在每层全对全操作开始前,系统实时计算全局最优路由方案。由于预填充阶段本身计算量较大,计算路由方案的额外开销几乎可以忽略。
解码
在解码阶段,系统将共享专家作为一种路由专家处理。这意味着每个 token 在路由时会选择 9 个专家,其中共享专家被视为一个必然选择的高负载专家。
解码阶段的最小部署单元由 40 个节点 320 个 GPU 构成。注意力部分采用 TP4 配合 SP,结合 DP80,而 MoE 部分使用 EP320。MoE 部分,每个 GPU 仅分配一个专家,其中 64 个 GPU 专门负责冗余专家和共享专家。分发和聚合环节的全节点通信通过 IB 直接点对点传输实现低延迟。同时,系统引入 IBGDA 技术进一步降低延迟并提升通信效率。
与预填充阶段类似,系统基于在线服务的专家负载统计数据,定期确定冗余专家配置。由于每个 GPU 仅分配一个专家,无需进行专家重新分配。系统也在研究解码阶段的动态冗余策略,但这需要对全局最优路由方案的计算算法进行更细致的优化,并与分发内核进行融合以减少开销。
此外,为提升吞吐量并降低全节点通信开销,系统正在探索在解码阶段同时处理两个计算负载相近的微批次。与预填充不同的是,在解码阶段注意力机制占用更多时间,因此系统将一个批次的注意力计算与另一个批次的分发、MoE 处理和数据聚合进行重叠。
在解码阶段,每个专家处理的批量规模相对较小(通常不超过 256 个 token),系统瓶颈在于内存访问而非计算能力。由于 MoE 部分只需加载单个专家的参数,内存访问开销较小,因此即使分配较少的 SMs 也不会显著影响整体性能。基于这一特点,系统只需分配少量 SMs 用于分发、MoE 处理和数据聚合,避免影响注意力部分的计算速度。
硬件设计建议
基于全对全通信和 FP8 训练方案的实践经验,研究团队对 AI 硬件厂商提出以下芯片设计建议。
通信硬件 DeepSeek-V3 通过实现计算与通信的并行处理,在计算过程中有效隐藏了通信延迟。这种设计相比串行计算和通信方式,显著降低了对通信带宽的要求。然而,目前的通信实现需要占用大量宝贵的 SMs 资源(如在 H800 GPU 的 132 个 SMs 中占用 20 个),这限制了计算吞吐能力。
另外,将 SMs 用于通信导致张量核心资源的严重浪费。目前,SMs 在全对全通信中主要承担以下任务:
- 在 IB 和 NVLink 网络间转发数据,同时汇聚来自单个 GPU 发往同一节点内多个 GPU 的 IB 数据流。
- 在 RDMA 缓冲区(注册的 GPU 内存区域)与输入/输出缓冲区间传输数据。
- 执行全对全组合的归约运算。
- 在跨 IB 和 NVLink 网络向多个专家传输分块数据时管理细粒度内存布局。
期望未来硬件厂商能开发专门的硬件,将这些通信任务从计算核心 SM 中分离出来,设计成类似 NVIDIA SHARP 的 GPU 协处理器或网络协处理器。同时,为降低应用开发难度,希望这种硬件能从计算单元的角度统一管理 IB(横向扩展)和 NVLink(纵向扩展)网络。通过这种统一接口,计算单元只需提交简单的通信请求,就能在整个 IB-NVLink 统一网络中轻松实现读取、写入、多播和归约等操作。
计算硬件
张量核心中的 FP8 GEMM 累积精度提升: 当前 NVIDIA Hopper 架构的张量核心在实现 FP8 GEMM 时采用定点累积方式,通过基于最大指数的右移操作对尾数积进行对齐后再相加。实验显示,该设计在符号填充右移后仅使用每个尾数积的最高 14 位,并舍弃超出范围的位。然而,例如要从 32 个 FP8 × FP8 乘法的累积中获得精确的 FP32 结果,至少需要 34 位精度。因此,建议未来芯片设计提高张量核心的累积精度以支持全精度累积,或根据具体训练和推理算法的精度需求选择合适的累积位宽,以在保证计算效率的同时将误差控制在可接受范围内。
支持平铺和块状量化:现有 GPU 仅支持整体张量量化,缺乏对平铺和块状等细粒度量化的硬件支持。当前实现中,达到NC间隔时需要将部分结果从张量核心复制到 CUDA 核心,进行缩放因子乘法运算,再添加到 CUDA 核心的 FP32 寄存器中。虽然结合精确 FP32 累积策略显著降低了反量化开销,但张量核心和 CUDA 核心间频繁的数据移动仍然制约了计算效率。因此,建议未来芯片支持细粒度量化,使张量核心能够直接接收缩放因子并实现组级缩放的 MMA 操作。这样可以直接在张量核心内完成全部的部分和累积与反量化计算,直到生成最终结果,避免频繁的数据迁移。
支持在线量化:尽管研究证实了在线量化的有效性,但当前硬件难以有效支持这一技术。现有流程中需要从 HBM 读取 128 个 BF16 激活值(上一步的计算结果)进行量化,将量化后的 FP8 值写回 HBM,然后再次读取用于 MMA 操作。为解决这一低效问题,建议未来芯片将 FP8 格式转换与 TMA 访问集成为单一融合操作,实现在激活值从全局内存传输到共享内存过程中完成量化,避免频繁的内存读写。同时建议支持线程束级格式转换指令以提升性能,促进层标准化与 FP8 转换的更好融合。另一种方案是采用近内存计算方法,将计算逻辑放置在 HBM 附近,使 BF16 元素在从 HBM 读入 GPU 时直接转换为 FP8,从而将片外内存访问减少约 50%。
支持转置GEMM操作: 现有架构难以实现矩阵转置与 GEMM 操作的有效融合。目前的工作流中,前向传播阶段的激活值需要先量化为 1×128 FP8 平铺格式并存储。在反向传播时,系统必须读取矩阵,执行反量化,进行转置操作,再重新量化为 128×1 平铺格式,最后存入 HBM。为优化内存操作效率,建议未来芯片设计中,对训练和推理中常用的精度格式,支持在 MMA 操作前直接从共享内存进行转置读取。这一改进配合 FP8 格式转换和 TMA 访问的融合机制,将大幅优化量化处理流程。
预训练
数据构建
相比 DeepSeek-V2,本次预训练语料库在提升数学和编程样本占比的同时,扩大了英语和中文之外的多语言覆盖范围。
数据处理流程也经过改进,在保持语料多样性的同时降低了数据冗余。系统采用文档打包方法维持数据完整性,但训练过程中不使用跨样本注意力掩码。最终训练语料库包含 14.8T 经 tokenizer 处理的高质量多样化 token。
在 DeepSeekCoder-V2 的训练中发现,填充中间(FIM)策略在保持下一个 token 预测能力的同时,还能让模型基于上下文准确预测中间文本。因此 DeepSeek-V3 的预训练也采用了这一策略。具体实现上,使用前缀-后缀-中间(PSM)框架构建如下数据结构:
<|fim_begin|> pre<|fim_hole|> suf<|fim_end|> middle<|eos_token|>。
该结构在预打包阶段应用于文档级别,FIM 策略的应用比率为 0.1,与 PSM 框架保持一致。
DeepSeek-V3 采用词表大小为 128K 的字节级 BPE tokenizer 。为提高多语言压缩效率,对预分词器和训练数据进行了相应调整。与 DeepSeek-V2 相比,新的预分词器引入了标点符号和换行符的组合 token。然而这种设计在处理无终端换行符的多行提示词时可能产生 token 边界偏差,尤其是在少样本评估场景。为此,训练时对一定比例的组合 token 进行随机分割,使模型接触更多特殊情况来减轻这种偏差。
超参数设置
模型架构参数
系统采用 61 层 Transformer 结构,隐藏维度为 7168。所有可学习参数采用标准差 0.006 的随机初始化。
在 MLA 结构中,注意力头数量 nh 设为 128,每个头的维度 dh 为 128。KV 压缩维度 dc 为 512,查询压缩维度 d′c 为 1536。解耦的查询和键部分,每个头的维度 dhR 设为 64。
除前三层外,所有 FFN 层都替换为 MoE 层,每个 MoE 层配置 1 个共享专家和 256 个路由专家,专家的中间隐藏维度为 2048。
在路由专家中,每个 token 激活 8 个专家,且最多分配到 4 个节点。多 token 预测深度 D 设为 1,即每个 token 除预测下一个精确 token 外,还需预测一个额外 token。
与 DeepSeek-V2 类似,DeepSeek-V3 在压缩潜在向量后添加了 RMSNorm 层,并在宽度瓶颈处引入额外缩放因子。在此配置下,模型总参数量达到 671B,其中每个 token 激活 37B 参数。
训练参数
模型采用 AdamW 优化器,参数设置为: β1=0.9 , β2=0.95 ,权重衰减为 0.1。预训练阶段最大序列长度为 4K,在 14.8T token 上进行训练。
学习率调度采用以下策略:首先在前 2K 步内从 0 线性增加至 2.2×10−4 ;保持该学习率直至处理完 10T 训练 token;随后在 4.3T token 区间内按余弦衰减曲线降至 2.2×10−5 。在最后 500B token 的训练中,先用 2.2×10−5 的固定学习率训练 333B token,再以 7.3×10−6 的学习率完成剩余 167B token。
梯度裁剪范数设为 1.0。批量大小采用动态调整策略,在前 469B token 训练过程中从 3072 逐步增加至 15360,此后保持不变。模型采用流水线并行将不同层分配到不同 GPU,每层的路由专家均匀分布在 8 个节点的 64 个 GPU 上。节点限制路由中,每个 token 最多分配至 4 个节点( M=4 )。
在无辅助损失负载均衡方面,前 14.3T token 的偏置更新速度 γ 设为 0.001,剩余 500B token 设为 0。平衡损失参数 α 设为 0.0001,仅用于防止单个序列内出现极端不平衡。MTP 损失权重 λ 在前 10T token 中为 0.3,剩余 4.8T token 中降至 0.1。
长上下文扩展
DeepSeek-V3 采用与 DeepSeek-V2 相似的方法实现长上下文处理能力。预训练完成后,系统使用 YaRN 进行上下文扩展,通过两个各包含 1000 步的额外训练阶段,将上下文窗口从 4K 依次扩展至 32K 和 128K。系统沿用了 DeepSeek-V2 的 YaRN 配置,仅将其应用于解耦的共享键 ktR 。两个阶段采用相同的超参数设置:尺度 s=40 , α=1 , β=32 ,缩放因子 0.1lns+1 。
第一阶段将序列长度设为 32K,批量大小为 1920。第二阶段将序列长度提升至 128K,相应地将批量大小调整为 480。两个阶段均采用与预训练末期相同的学习率 7.3×10−6 。
经过这两阶段的扩展训练,DeepSeek-V3 成功实现了对最长 128K 输入序列的高效处理。如图8所示,在完成监督微调后,模型在“大海捞针”(NIAH)测试中表现出色,在整个 128K 的上下文范围内均保持稳定的性能表现。
评估
评估基准
DeepSeek-V3 基座模型在以英语和中文为主的多语言语料库上完成预训练,因此评估工作主要针对英语、中文及多语言基准。
评估采用集成于 HAI-LLM 框架的内部评估系统,涵盖以下类别(下划线表示中文基准,双下划线表示多语言基准):
- 多学科选择题评估:MMLU、MMLU Redux、MMLU-Pro、MMMLU、C-Eval 和 CMMLU
- 语言理解与推理能力:HellaSwag、PIQA、ARC 和 BigBench Hard (BBH)
- 知识问答评估:TriviaQA 和 NaturalQuestions
- 阅读理解测试:RACE、DROP、C3 和 CMRC
- 指代消歧任务:CLUEWSC 和 WinoGrande
- 语言建模评估:Pile 中文理解与文化认知:CCPM
- 数学能力测试:GSM8K、MATH、MGSM 和 CMath
- 编程能力评估:HumanEval、LiveCodeBench-Base(0801-1101)、MBPP 和 CRUXEval
- 综合能力测试:AGIEval(包含英语和中文两个子集)
作为前期工作的延续,评估采用多种方法:部分数据集使用困惑度指标,包括 HellaSwag、PIQA、WinoGrande 等;部分采用生成式评估,如 TriviaQA、NaturalQuestions、DROP 等。对 Pile-test 采用语言建模评估方法,使用每字节比特数(BPB)作为统一度量标准,确保不同分词器模型间的公平比较。
评估结果
表3展示了 DeepSeek-V3 基座模型与主流开源基座模型的性能对比,包括 DeepSeek-V2-Base、Qwen2.5-72B- Base 和 LLaMA-3.1-405B-Base。所有模型均使用统一的内部评估框架和评估标准。需要说明的是,由于近几个月评估框架的更新,DeepSeek-V2-Base 的部分性能指标与此前报告略有差异。
综合评估显示,DeepSeek-V3-Base 全面超越 DeepSeek-V2-Base 和 Qwen2.5-72B-Base,并在绝大多数基准测试中领先 LLaMA-3.1-405B-Base,成为当前性能最强的开源基座模型。
具体性能对比如下:
- 相比 DeepSeek-V2-Base:通过模型架构优化、规模扩展和数据质量提升,DeepSeek-V3-Base 实现了显著性能提升。
- 相比 Qwen2.5-72B-Base:尽管仅使用一半的激活参数,DeepSeek-V3-Base 在英语、多语言、代码和数学领域均展现出明显优势。在中文评测中,除 CMMLU 外的其他测试也优于 Qwen-2.5-72B。
- 相比 LLaMA-3.1-405B-Base:即便对方拥有 11 倍的激活参数量,DeepSeek-V3-Base 在多语言、代码和数学领域仍表现更优。在英语和中文语言能力评测中表现相当或更佳,特别是在 BBH、MMLU 系列、DROP、C-Eval、CMMLU 和 CCPM 等测试中表现突出。
得益于高效的架构设计和全面的工程优化,DeepSeek-V3 实现了极高的训练效率。在现有训练框架和基础设施下,每处理1T token 仅需 180K H800 GPU 小时,远低于 72B 或 405B 密集模型的训练成本。
讨论
MTP策略的效果分析
表4显示了 MTP 策略的详细分析结果。
研究分别在两种规模的基准模型上验证了该策略的效果。小规模实验采用了总参数量为 15.7B 的基线 MoE 模型,使用 1.33T token 进行训练;大规模实验则采用总参数量为 228.7B 的基线 MoE 模型,使用 540B token 训练。在保持训练数据和其他架构不变的情况下,为基准模型增加深度为 1 的 MTP 模块进行对比实验。值得注意的是,由于在推理阶段会移除 MTP 模块,因此比较模型的推理开销完全相同。
结果表明,MTP 策略在绝大多数评估指标上都带来了持续的性能提升。
无辅助损失平衡策略的效果分析
表5展示了无辅助损失平衡策略的分析结果。
研究同样在两种规模的基线模型上进行了验证。小规模模型总参数量为 15.7B,使用 1.33T token 训练;大规模模型总参数量为 228.7B,使用 578B token 训练。这两个基准模型都采用纯辅助损失来实现负载平衡,使用带有 top-K 相关度归一化的 sigmoid 门控函数,其辅助损失强度的超参数分别与 DeepSeek-V2-Lite 和 DeepSeek-V2 保持一致。
研究在保持其他条件不变的情况下,移除所有辅助损失并引入无辅助损失平衡策略进行对比。结果显示,无辅助损失策略在大多数评估指标上都实现了更好的性能表现。
批次级与序列级负载平衡对比
无辅助损失平衡与序列级辅助损失的核心区别在于平衡范围:前者是批次级,后者是序列级。
批次级平衡提供了更灵活的约束条件,不要求每个序列内部实现领域平衡,这种灵活性使专家能够更好地适应不同领域的特点。为验证这一观点,研究分别记录和分析了一个 16B 的基于辅助损失模型和一个 16B 的无辅助损失模型在 Pile 测试集各领域的专家负载情况。如图9所示,无辅助损失模型确实展现出更明显的专家专业化特征。
为深入探究这种灵活性与性能提升之间的关联,研究还设计并验证了一种批次级辅助损失方法,该方法在训练批次而非序列层面实现负载平衡。实验表明,在达到相似的批次级负载平衡程度时,批次级辅助损失能够实现与无辅助损失方法相当的性能。
具体而言,在 1B MoE 模型上的验证损失分别为:序列级辅助损失 2.258,无辅助损失方法 2.253,批次级辅助损失 2.253。3B MoE 模型的实验也显示类似结果:序列级辅助损失模型的验证损失为 2.085,而无辅助损失方法和批次级辅助损失方法均达到 2.080。
尽管批次级负载平衡方法展现出稳定的性能优势,但在实际应用中仍面临两个效率挑战:
- 个别序列或小批量数据可能出现负载不均衡;
- 推理阶段可能因领域迁移导致负载失衡。
对于第一个挑战,通过采用大规模专家并行和数据并行的训练框架得到了有效解决,这确保了每个微批量都具有足够规模。对于第二个挑战,研究设计了带有冗余专家部署的高效推理框架来应对。
后训练
监督微调(SFT)
研究构建了包含 150 万个多领域实例的指令调优数据集,针对不同领域特点采用了相应的数据创建方法。
推理数据处理: 在数学、代码竞赛和逻辑谜题等推理类任务中,系统采用内部 DeepSeek-R1 模型生成数据。虽然 R1 生成的数据具有较高的准确性,但同时存在推理冗长、格式不规范和输出过长等问题。因此,研究的核心目标是在保持 R1 模型高准确性的同时,实现输出的清晰简洁。
具体实施方法如下:首先针对特定领域(如代码、数学或通用推理)开发专家模型,采用 SFT 和 RL 相结合的训练流程。该专家模型随后作为最终模型的数据生成器。
对每个训练实例,系统生成两类 SFT 样本:一类是问题与原始答案的直接配对,另一类则引入系统提示词,将其与问题和 R1 答案组合。系统提示经过优化设计,包含了引导模型生成具有自我反思和验证机制响应的指令。
在RL阶段,模型通过高温采样生成响应,即使在没有明确系统提示的情况下,也能有效融合 R1 生成数据和原始数据的特征。经过数百轮RL迭代,中间模型成功整合了 R1 的响应模式,显著提升了整体性能。随后,研究采用拒绝采样方法,利用专家模型作为数据源,为最终模型筛选高质量的 SFT 数据。这种方法既保持了 DeepSeek-R1 的高准确性,又确保了输出的简洁性和有效性。
非推理数据处理: 对于创意写作、角色扮演和基础问答等非推理任务,系统利用 DeepSeek-V2.5 生成响应,并通过人工标注确保数据质量。
SFT 训练配置: 研究对 DeepSeek-V3-Base 进行了两轮 SFT 数据集训练,采用余弦衰减的学习率调度策略,初始学习率为 5×10−6,逐步降低至 1×10−6。训练过程中采用多样本序列打包技术,同时通过样本掩码机制确保各样本间的独立性。
强化学习(RL)
奖励模型设计
在强化学习过程中,系统同时采用规则型和模型型两种奖励模型(Reward Model, RM)。
规则型奖励模型:对于可通过明确规则验证的任务,系统采用规则型奖励机制进行反馈评估。例如,在处理具有确定性答案的数学问题时,要求模型在特定格式(如方框内)给出最终答案,从而可以通过规则进行自动验证。同样,在处理 LeetCode 编程题时,系统可通过编译器执行测试用例生成客观反馈。这种基于规则的验证方法具有较高的可靠性,能有效防止模型的投机行为。
模型型奖励模型:对于具有标准答案但形式灵活的问题,系统使用奖励模型评估输出与标准答案的匹配程度。而对于创意写作等缺乏标准答案的任务,奖励模型则基于问题和回答的整体性给出评估反馈。该奖励模型基于 DeepSeek-V3 的 SFT checkpoint 进行训练。为增强模型可靠性,系统构建的偏好数据不仅包含最终评分,还包含推导评分的完整推理过程,这种设计有效降低了特定任务中的奖励扭曲风险。
群组相对策略优化(Group Relative Policy Optimization, GRPO)
系统采用与 DeepSeek-V2 相似的GRPO方法。这种方法不需要与策略模型规模相当的评论家模型,而是通过群组评分估计基线。具体实现中,对每个问题 q ,GRPO 从原策略模型 πθold 采样一组输出{o1,o2,···,oG} ,并通过最大化以下目标函数优化策略模型 πθ:
其中ε 和 β 表示超参数;πref 代表参考模型;Ai 表示优势函数,其计算基于每组内输出所对应的奖励序列 {r1,r2,…,rG}。
在RL过程中,系统融合了编程、数学、写作、角色扮演和问答等多领域的提示词任务。这种多样化的训练策略不仅提高了模型对人类偏好的适应性,还在基准测试中取得了显著提升,特别是在监督微调数据有限的场景下表现出色。
评估
评估方法设置
评估基准:除基础模型测试所用的基准外,系统还在下列基准上评估了指令调优模型的表现:IFEval、FRAMES 、LongBench v2、GPQA、SimpleQA、C SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench(选取 2024 年 8-11 月题目)、Codeforces、2024 年中国高中数学奥林匹克(CNMO)和 2024 年美国数学邀请赛(AIME)。
基准模型对比:系统选取了多个代表性模型作为性能对照基准,包括 DeepSeek-V2-0506、DeepSeek-V2.5-0905、Qwen2.5 72B Instruct、LLaMA-3.1 405B Instruct、Claude-Sonnet-3.5-1022 和 GPT-4o-0513。其中 DeepSeek-V2 系列选取最具代表性的版本,闭源模型则通过其官方 API 进行评估。
评估具体配置:在标准基准评估中,MMLU、DROP、GPQA 和 SimpleQA 采用 simple-evals 框架的标准提示词模板。MMLU-Redux 的零样本测试采用 Zero-Eval 提示词格式。其他数据集则遵循原始评估方案,使用数据集开发者提供的默认提示词模板。
在代码和数学能力评估方面
- HumanEval-Mul 数据集覆盖 Python、Java、Cpp、C#、JavaScript、TypeScript、PHP 和 Bash 共 8 种主流编程语言。
- LiveCodeBench(使用 2024 年 8-11 月数据)的评估同时采用CoT和直接输出两种方式。
- Codeforces 评估采用参赛者百分位数作为衡量标准。
- SWE-Bench verified 采用无代理框架进行评估。
- Aider 相关测试采用”diff”格式评估。
在数学能力测试中,AIME 和 CNMO 2024 使用采样温度 0.7,结果取 16 次运行的平均值,而 MATH-500 则采用贪婪解码策略。
所有评估中,模型的最大输出长度限制为 8192 个 token。
标准评估
表6的评估结果显示,DeepSeek-V3 在开源模型中表现最佳,且与 GPT-4o 和 Claude-3.5-Sonnet 等顶级闭源模型相比具有竞争力。
英语能力评估:在 MMLU(评估大语言模型多领域知识和任务能力的标准基准)中,DeepSeek-V3 与 LLaMA 3.1-405B、GPT-4o 和 Claude-Sonnet 3.5 等顶级模型表现相当,明显超越 Qwen2.5-72B。
在更具挑战性的 MMLU-Pro 教育知识评测中,DeepSeek-V3 的表现仅次于 Claude-Sonnet 3.5。
在经过标签修正的 MMLU-Redux 测试中,DeepSeek-V3 的表现领先其他模型。
在博士级评测 GPQA-Diamond 中,DeepSeek-V3 仅落后于 Claude 3.5 Sonnet,但大幅领先其他竞争模型。
在长文本理解方面,DeepSeek-V3 继续保持顶级水平。在 DROP 的少样本测试中达到 91.6 的 F1 分数,领先所有对比模型。在需要处理 10 万 token 上下文的 FRAMES 问答测试中,仅次于 GPT-4o 但显著优于其他模型,充分展示了其处理超长文本的能力。在最新发布的 LongBench v2 测试中的最优表现,进一步证实了这一能力。
在 SimpleQA 事实性知识测试中,DeepSeek-V3 虽然落后于 GPT-4o 和 Claude-Sonnet,但这主要源于其资源分配策略——更多训练资源用于中文知识学习,因此在 C-SimpleQA 中表现优异。在指令遵循能力评估中,相比前代 DeepSeek-V2 系列有显著提升,特别是在理解和执行特定格式要求方面。
代码与数学能力评估:在编程领域,DeepSeek-V3 的评估涵盖工程实践(SWE-Bench-Verified)和算法编程(HumanEval、LiveCodeBench)两个维度。
在工程类任务中,虽然未能超越 Claude-Sonnet-3.5-1022,但明显优于其他开源模型。作为开源模型,DeepSeek-V3 的强大能力将推动软件工程和算法开发领域的创新,帮助开发者和研究人员拓展开源模型在编程领域的应用边界。
在算法编程任务上,借助先进的知识蒸馏技术,DeepSeek-V3 在 HumanEval-Mul 和 LiveCodeBench 等测试中超越所有基线模型。
在数学能力测试中,DeepSeek-V3 为非 o1 类模型树立了新标准。在 AIME、MATH-500 和 CNMO 2024 等具有挑战性的测试中,其得分比第二名 Qwen2.5 72B 高出约 10 个百分点,这种显著优势充分验证了 DeepSeek-R1 知识蒸馏技术的有效性。
中文能力评估:在中英双语支持方面,Qwen 和 DeepSeek 是两个代表性的模型系列。
在中文 SimpleQA 事实性知识测试中,尽管 Qwen2.5 的训练数据量更大(18T token,超出 DeepSeek-V3 的 14.8T token 约 20%),DeepSeek-V3 仍领先 16.4 个百分点。
在 C-Eval(中文教育知识评估)和 CLUEWSC(中文指代消歧挑战)等测试中,两个模型表现相当,表明它们在中文推理和教育任务方面都达到了较高水平。
开放式评估
除标准基准测试外,系统还采用 LLM 作为评估者对模型的开放式生成能力进行评估,结果见表7。
评估严格遵循 AlpacaEval 2.0 和 Arena-Hard 的标准规范,使用 GPT-4-Turbo-1106 进行配对评估。
在 Arena-Hard 测试中,DeepSeek-V3 相对于 GPT-4-0314 基准取得了 86% 以上的优胜率,与 Claude-Sonnet-3.5-1022 等顶级模型表现相当,充分展示了其在处理复杂任务(包括编程和调试)方面的卓越能力。作为首个在 Arena-Hard 测试中突破 85% 的开源模型,DeepSeek-V3 显著缩小了与闭源模型的差距,为开源模型在高难度任务领域树立了新标准。
在 AlpacaEval 2.0 评测中,DeepSeek-V3 同样表现出色,超越了所有参评的开源和闭源模型,展示了其在写作和问答方面的优秀能力。特别是相比 DeepSeek-V2.5-0905 提升了 20%,证明了模型在基础任务处理能力上的显著进步。
生成式奖励模型性能
研究将 DeepSeek-V3 的评判能力与领先模型 GPT-4o 和 Claude-3.5 进行对比。如表8所示,在 RewardBench 评测中,DeepSeek-V3 达到了 GPT-4o-0806 和 Claude-3.5-Sonnet-1022 最优版本的水平,并超越了其他版本。
通过引入投票机制,DeepSeek-V3 的评判能力得到进一步提升。基于此,系统采用 DeepSeek-V3 配合投票机制对开放式问题进行评估反馈,有效提高了模型对齐过程的可靠性和稳定性。
讨论
DeepSeek-R1 知识蒸馏分析
研究基于 DeepSeek-V2.5 模型评估了 DeepSeek-R1 知识蒸馏的效果。对比实验中,基准模型使用短链式思维数据训练,而对照组使用专家检查点生成的数据。
表9的结果显示,蒸馏数据在 LiveCodeBench 和 MATH-500 基准测试中都带来了明显提升。
研究发现了一个重要的平衡点:知识蒸馏能提高性能,但同时会显著增加输出长度。为此,DeepSeek-V3 在蒸馏过程中采用了经过优化的参数配置,以平衡模型准确性和计算效率。
研究表明,从推理模型进行知识蒸馏是提升模型后期性能的有效方法。当前研究虽然主要关注数学和编程领域的知识蒸馏,但这种方法在其他领域也展现出广阔前景。其在特定领域的成功表明,长链式思维蒸馏技术有望提升模型在其他需要复杂推理的认知任务中的表现。未来研究将继续探索该方法在不同领域的应用。
自我奖励机制
奖励机制是强化学习中的核心要素,决定着优化方向。在编程或数学等可通过外部工具直接验证的领域,强化学习展现出显著效果。但在更一般场景中,直接通过规则编码构建反馈机制并不可行。因此,在开发 DeepSeek-V3 时,针对这类广泛场景,采用了宪制 AI 方法,使用模型自身的投票评估结果作为反馈。这种方法在对齐效果上取得显著成效,大幅提升了模型在主观评估中的表现。
通过引入额外的宪制规则,DeepSeek-V3 能够向预期方向优化。研究认为,将补充信息与语言模型结合作为反馈来源的范式具有重要意义。大语言模型能够将各类场景中的非结构化信息转化为有效奖励信号,促进模型的持续优化。除自我奖励外,研究团队也在探索其他通用且可扩展的奖励方法,以持续提升模型在通用场景中的能力。
MTP性能
DeepSeek-V3 通过 MTP 技术实现同时预测两个 token,结合推测解码框架显著提升了解码效率。关键问题是第二个预测 token 的可用性,评估显示在不同生成任务中,第二个 token 的接受率稳定保持在 85%-90%,表现出较高的可靠性。
这种高接受率使 DeepSeek-V3 的解码速度提升至原来的 1.8 倍(以每秒生成 token 数衡量)。
结论、局限性和未来发展方向
本研究介绍了 DeepSeek-V3 大规模混合专家语言模型,该模型总参数量达到 671B,每次处理激活 37B 参数,训练数据规模达 14.8T token。
模型在延续 MLA 和 DeepSeekMoE 架构优势的基础上,创新性地提出了无辅助损失负载均衡策略,并引入多 token 预测训练目标以提升性能。
通过采用 FP8 训练技术和精细的工程优化,模型实现了高效的训练过程。在后训练阶段,成功将 DeepSeek-R1 系列模型的推理能力迁移至新模型。
综合评估显示,DeepSeek-V3 不仅成为当前性能最强的开源模型,还达到了与 GPT-4o 和 Claude-3.5-Sonnet 等顶级闭源模型相当的水平。同时,模型维持了极具竞争力的训练成本,完整训练过程(包括预训练、上下文长度扩展和后训练)仅需 2.788M H800 GPU 小时。
尽管模型在性能和训练效率上表现出色,但仍存在一些局限性,特别是在部署方面:首先,为保证推理效率,模型的最小部署单元规模较大,可能超出小型团队的资源能力;其次,虽然当前部署方案使模型的端到端生成速度比上一代提升了两倍以上,但仍有优化空间。这些局限性有望随着硬件技术的进步得到自然解决。
秉持长期发展理念,DeepSeek 将继续坚持开源路线,稳步推进通用人工智能的研究。未来研究将重点关注以下方向:
- 持续优化模型架构,提升训练和推理效率,探索支持无限上下文长度的高效方案。同时突破 Transformer 架构的固有局限,拓展模型的建模能力边界。
- 深化训练数据的质量提升和规模扩展,探索新的训练信号来源,实现数据在多个维度的全面扩展。
- 加强模型的深层推理能力,通过扩展推理的广度和深度,提升模型的智能水平和问题解决能力。
- 建立更全面的多维度评估体系,避免过度优化特定基准测试集而产生的能力误判,确保模型评估的科学性和全面性。