Outline
https://arxiv.org/abs/2505.09343
- Sec2 从 3 个 challenge 出发,对 V3 的一些设计进行了解释
- Sec3 讲了现在低精度的实现和 limitation
- Sec4 从集群的 interconnection 出发,讲了一些设计的出发点、limitation、和如果 ScaleUp ScaleOut 融合能带来的好处
- Sec5 从 ScaleOut 网络的角度,讲了为什么要用 multi-plane、如何实现低延迟网络
- PS:Sec4/5 讲的应该不是一些新的 topic,比如 scaleup scaleout 融合、多径通信的 lossy+拥塞控制。是从业务方的角度陈述了一遍
文中标黄部分,是 dpsk V3 paper 中没怎么提到的点
Sec 2:Design Principals of V3,从三个 challenge 出发
- (2.1) ChLG1:Memory Efficiency --> 解法是 FP8 训练(2.1.1 提了下但细节在 Sec 3)、MLA(2.1.2 减少 KV Cache Per token)、Linear Attn
- (2.2) ChLG2:Cost-Effectiveness --> 解法是 MoE
- (2.3) ChLG3:Increasing Inference Speed
- 首要目标最大化 throughtput --> dual micro batch overlap + PD 分离
- 同时也想最大化 Tokens Per Second --> 需要大 EP,但会引入 a2a,通信时延导致有理论上限(H800 400Gbps 用 dual micro batch overlap,67 tps)
- MTP
- Long CoT / RL 对 inference speed 需求 --> 解法还在探索
- (2.4) Technique Validation:先小模型、再大模型 tuning、最后大模型 pre-train
Sec 3:Low-Precision Driven Design
- (3.1) FP8 低精度混合训练:H800 TensorCore 累加精度不足 FP32 导致需要 fine-grained 量化,进而需要从 Tensor Core 向 Cuda Core 搬运中间结果,再在 CUDA core 中进行累加(dpsk V3 paper Fig. 7),这会打断 Tensor Core Warp level 的并行
- (3.2) LogFMT 格式:一种比 FP8 更优的自适应的精度格式,但出入 Tensor Core 需要 BF16/FP8,所以引入 encode/decode 开销(包含很多 log/exp 计算,和带宽占用)
Sec 4:Interconnection Driven Design