2505 dpsk-V3-insight Paper

https://arxiv.org/abs/2505.09343

Sec2 从 3 个 challenge 出发，对 V3 的一些设计进行了解释
Sec3 讲了现在低精度的实现和 limitation
Sec4 从集群的 interconnection 出发，讲了一些设计的出发点、limitation、和如果 ScaleUp ScaleOut 融合能带来的好处
Sec5 从 ScaleOut 网络的角度，讲了为什么要用 multi-plane、如何实现低延迟网络
PS：Sec4/5 讲的应该不是一些新的 topic，比如 scaleup scaleout 融合、多径通信的 lossy+拥塞控制。是从业务方的角度陈述了一遍

文中标黄部分，是 dpsk V3 paper 中没怎么提到的点

(2.1) ChLG1：Memory Efficiency --> 解法是 FP8 训练（2.1.1 提了下但细节在 Sec 3）、MLA（2.1.2 减少 KV Cache Per token）、Linear Attn
(2.2) ChLG2：Cost-Effectiveness --> 解法是 MoE
(2.3) ChLG3：Increasing Inference Speed
- 首要目标最大化 throughtput --> dual micro batch overlap + PD 分离
- 同时也想最大化 Tokens Per Second --> 需要大 EP，但会引入 a2a，通信时延导致有理论上限（H800 400Gbps 用 dual micro batch overlap，67 tps）
- MTP
- Long CoT / RL 对 inference speed 需求 --> 解法还在探索
(2.4) Technique Validation：先小模型、再大模型 tuning、最后大模型 pre-train

(3.1) FP8 低精度混合训练：H800 TensorCore 累加精度不足 FP32 导致需要 fine-grained 量化，进而需要从 Tensor Core 向 Cuda Core 搬运中间结果，再在 CUDA core 中进行累加（dpsk V3 paper Fig. 7），这会打断 Tensor Core Warp level 的并行
(3.2) LogFMT 格式：一种比 FP8 更优的自适应的精度格式，但出入 Tensor Core 需要 BF16/FP8，所以引入 encode/decode 开销（包含很多 log/exp 计算，和带宽占用）