240315：从 GTC 2024 看 B100 强在哪里

几年前开始，英伟达就已再是一个卖显卡的半导体公司，已经变成了包含计算芯片、模组、主机、超算集群、通信、围绕AGI的软件服务生态的全链条恐怖巨兽。

回顾 Nvidia 的历代显卡

Tesla系列主要有5代显卡：P100、V100、A100、H100、B100。严格来说，从 V100 才算是真的起点，一是因为 P100 没有 Tensor Core 导致 fp16 算力很低。二是因为 NVSwitch 在 DGX-2 V100 上才推出，所以 P100 的 Nvlink 连接比较稀疏（cube-mesh），而且也就 8 卡内用，所以当时 8x P100 不比 8x Titan 强多少。

另外，每一代都有 PCIe 和 SXM（有IB）版本，性能略有差异，这里关注搭大集群的 SXM 版本。摘取了一些关键指标：

时间	2016	2017	2020	2022	2024
基础 GPU (SXM版)	P100 16nm 250W	V100 12nm 250W	A100 7nm 400W	H100 4nm 700W	B100 4np 700W
Arch	Pascal	Volta	Ampere	Hopper	Blackwell
FP/BF16 FLops （Dense）	-	125T (fp16 only)	312T	989T	1.8P
Memory	16GB=4*4GB HBM2	32GB=4*8GB HBM2	80GB=5*16GB HBM2e	80GB=5*16GB HMB3	192GB=8*24GB HBM3e
Memory Bandwitdh	732GB/s	900GB/s	1.9TB/s	3.3TB/s	8TB/s
Nvlink GPU-GPU	160 GB/s	300 GB/s	600 GB/s	900 GB/s	1.8TB/s
Num of GPUs under NVLink domain	8	8	8	8	576

单卡 fp/bf16 算力

现在比较成熟的方案还是 bf16 混合精度（参见关于低 bit 训练那些事）。bf16 算力给定了上限，要加快训练，就要提升 MFU (Model FLOPs Utilization) 。就能现在大模型训练已经到 50-60%，但这一块最多也就到 80%-90%了。

V100 到 B100 半精度 flops 7 年增长 14.4 倍，年化 46%。这 14.4 倍怎么来的？其中，晶体管数量扩大 8.5 倍（210亿~1780亿），单晶体管 flops 增大 1.7 倍（架构）。同时，总能耗增大 3 倍多（250w~700w但要扣除 HBM这些，算3.3），但单个晶体管能耗降低2.5倍（制程）。所以 14.4 = 制程2.5 * 单卡能耗3.3 * 架构1.7

未来怎么看？MFU不会有永续提升的空间（现在已经50%了），架构增长比较线性，制程取决于摩尔定律（接近gg）。所以之后单卡算力这块，还是看能耗继续变大 + 低 bit 计算

Memory 大小和速度

因为有 KV Cache，增量推理基本还是 Memory bound，可以对比下面的 B200/H200 fp8 的最大 throughput，基本就是显存速度快多少，推理吞吐就就快几倍（大概2.4倍）

Untitled

GB200 比 H200 图里快 30 倍，3个原因：1）对于 GPT-4 MoE 1.8T 32k，GB200 能跑的的并行策略更优（绿线中间vs.蓝线末端，这一块影响6倍，2）Memory 从3.3TB/s 到 8TB，快 2.4 倍，3）fp4 和 fp8 对比，提升2倍

未来怎么看？推理这一块要降低成本，只要是显存放得下，就尽可能少用卡（显存带宽 8TB vs. NVlink 1.8TB 还是显著高）。图里面如果大家都用 fp8 比，GB200 相比 H200 提速估计在 10 倍左右。从 4bit 往 3bit 推理量化，算法上还有比较大精度问题，2bit 再往下可能就比较困难了。未来推理这块，在 transformer 的设定下，主要看 HBM 了，要更大更快。推理速度决定推理成本，这又进一步决定了有多少应用可以商业化。