几年前开始,英伟达就已再是一个卖显卡的半导体公司,已经变成了包含计算芯片、模组、主机、超算集群、通信、围绕AGI的软件服务生态的全链条恐怖巨兽。

回顾 Nvidia 的历代显卡

Tesla系列主要有5代显卡:P100、V100、A100、H100、B100。严格来说,从 V100 才算是真的起点,一是因为 P100 没有 Tensor Core 导致 fp16 算力很低。二是因为 NVSwitch 在 DGX-2 V100 上才推出,所以 P100 的 Nvlink 连接比较稀疏(cube-mesh),而且也就 8 卡内用,所以当时 8x P100 不比 8x Titan 强多少。

NVLink-all-to-all-connectivity-1.png

另外,每一代都有 PCIe 和 SXM(有IB)版本,性能略有差异,这里关注搭大集群的 SXM 版本。摘取了一些关键指标:

时间 2016 2017 2020 2022 2024
基础 GPU (SXM版) P100 16nm 250W V100 12nm 250W A100 7nm 400W H100 4nm 700W B100 4np 700W
Arch Pascal Volta Ampere Hopper Blackwell
FP/BF16 FLops (Dense) - 125T (fp16 only) 312T 989T 1.8P
Memory 16GB=4*4GB HBM2 32GB=4*8GB HBM2 80GB=5*16GB HBM2e 80GB=5*16GB HMB3 192GB=8*24GB HBM3e
Memory Bandwitdh 732GB/s 900GB/s 1.9TB/s 3.3TB/s 8TB/s
Nvlink GPU-GPU 160 GB/s 300 GB/s 600 GB/s 900 GB/s 1.8TB/s
Num of GPUs under NVLink domain 8 8 8 8 576

单卡 fp/bf16 算力

现在比较成熟的方案还是 bf16 混合精度(参见 关于低 bit 训练那些事 )。bf16 算力给定了上限,要加快训练,就要提升 MFU (Model FLOPs Utilization) 。就能现在大模型训练已经到 50-60%,但这一块最多也就到 80%-90%了。

V100 到 B100 半精度 flops 7 年增长 14.4 倍,年化 46%。这 14.4 倍怎么来的?其中,晶体管数量扩大 8.5 倍(210亿~1780亿),单晶体管 flops 增大 1.7 倍(架构)。同时,总能耗增大 3 倍多(250w~700w但要扣除 HBM这些,算3.3),但单个晶体管能耗降低2.5倍(制程)。所以 14.4 = 制程2.5 * 单卡能耗3.3 * 架构1.7

未来怎么看?MFU不会有永续提升的空间(现在已经50%了),架构增长比较线性,制程取决于摩尔定律(接近gg)。所以之后单卡算力这块,还是看能耗继续变大 + 低 bit 计算

Memory 大小和速度

因为有 KV Cache,增量推理基本还是 Memory bound,可以对比下面的 B200/H200 fp8 的最大 throughput,基本就是显存速度快多少,推理吞吐就就快几倍(大概2.4倍)

Untitled

GB200 比 H200 图里快 30 倍,3个原因:1)对于 GPT-4 MoE 1.8T 32k,GB200 能跑的的并行策略更优(绿线中间vs.蓝线末端,这一块影响6倍,2)Memory 从3.3TB/s 到 8TB,快 2.4 倍,3)fp4 和 fp8 对比,提升2倍

未来怎么看?推理这一块要降低成本,只要是显存放得下,就尽可能少用卡(显存带宽 8TB vs. NVlink 1.8TB 还是显著高)。图里面如果大家都用 fp8 比,GB200 相比 H200 提速估计在 10 倍左右。从 4bit 往 3bit 推理量化,算法上还有比较大精度问题,2bit 再往下可能就比较困难了。未来推理这块,在 transformer 的设定下,主要看 HBM 了,要更大更快。推理速度决定推理成本,这又进一步决定了有多少应用可以商业化。