几年前开始,英伟达就已再是一个卖显卡的半导体公司,已经变成了包含计算芯片、模组、主机、超算集群、通信、围绕AGI的软件服务生态的全链条恐怖巨兽。
Tesla系列主要有5代显卡:P100、V100、A100、H100、B100。严格来说,从 V100 才算是真的起点,一是因为 P100 没有 Tensor Core 导致 fp16 算力很低。二是因为 NVSwitch 在 DGX-2 V100 上才推出,所以 P100 的 Nvlink 连接比较稀疏(cube-mesh),而且也就 8 卡内用,所以当时 8x P100 不比 8x Titan 强多少。

另外,每一代都有 PCIe 和 SXM(有IB)版本,性能略有差异,这里关注搭大集群的 SXM 版本。摘取了一些关键指标:
| 时间 | 2016 | 2017 | 2020 | 2022 | 2024 |
|---|---|---|---|---|---|
| 基础 GPU (SXM版) | P100 16nm 250W | V100 12nm 250W | A100 7nm 400W | H100 4nm 700W | B100 4np 700W |
| Arch | Pascal | Volta | Ampere | Hopper | Blackwell |
| FP/BF16 FLops (Dense) | - | 125T (fp16 only) | 312T | 989T | 1.8P |
| Memory | 16GB=4*4GB HBM2 | 32GB=4*8GB HBM2 | 80GB=5*16GB HBM2e | 80GB=5*16GB HMB3 | 192GB=8*24GB HBM3e |
| Memory Bandwitdh | 732GB/s | 900GB/s | 1.9TB/s | 3.3TB/s | 8TB/s |
| Nvlink GPU-GPU | 160 GB/s | 300 GB/s | 600 GB/s | 900 GB/s | 1.8TB/s |
| Num of GPUs under NVLink domain | 8 | 8 | 8 | 8 | 576 |
现在比较成熟的方案还是 bf16 混合精度(参见 关于低 bit 训练那些事 )。bf16 算力给定了上限,要加快训练,就要提升 MFU (Model FLOPs Utilization) 。就能现在大模型训练已经到 50-60%,但这一块最多也就到 80%-90%了。
V100 到 B100 半精度 flops 7 年增长 14.4 倍,年化 46%。这 14.4 倍怎么来的?其中,晶体管数量扩大 8.5 倍(210亿~1780亿),单晶体管 flops 增大 1.7 倍(架构)。同时,总能耗增大 3 倍多(250w~700w但要扣除 HBM这些,算3.3),但单个晶体管能耗降低2.5倍(制程)。所以 14.4 = 制程2.5 * 单卡能耗3.3 * 架构1.7
未来怎么看?MFU不会有永续提升的空间(现在已经50%了),架构增长比较线性,制程取决于摩尔定律(接近gg)。所以之后单卡算力这块,还是看能耗继续变大 + 低 bit 计算
因为有 KV Cache,增量推理基本还是 Memory bound,可以对比下面的 B200/H200 fp8 的最大 throughput,基本就是显存速度快多少,推理吞吐就就快几倍(大概2.4倍)

GB200 比 H200 图里快 30 倍,3个原因:1)对于 GPT-4 MoE 1.8T 32k,GB200 能跑的的并行策略更优(绿线中间vs.蓝线末端,这一块影响6倍,2)Memory 从3.3TB/s 到 8TB,快 2.4 倍,3)fp4 和 fp8 对比,提升2倍
未来怎么看?推理这一块要降低成本,只要是显存放得下,就尽可能少用卡(显存带宽 8TB vs. NVlink 1.8TB 还是显著高)。图里面如果大家都用 fp8 比,GB200 相比 H200 提速估计在 10 倍左右。从 4bit 往 3bit 推理量化,算法上还有比较大精度问题,2bit 再往下可能就比较困难了。未来推理这块,在 transformer 的设定下,主要看 HBM 了,要更大更快。推理速度决定推理成本,这又进一步决定了有多少应用可以商业化。