Grok 系列模型规格(依据公开资料、集群信息、训练时间、compute FLOPs 推算)
业界计算集群规模
以 FP8 算力换算,1 GB200 = 2.5 H,但一些场景下可以到 4(考虑显存变大 MFU 提升)
Grok-4 所使用的 RL Compute 拆解:数据量 和 MFU
表中,计算量预计值置信度较高(i.e. 多种方式交叉验证),模型大小 & 数据量为合理推算
计算公式:FLOPs ≈ 芯片算力训练时长MFU ≈ 6ND(未考虑 longCT 长序列训练)
| 时间 (按月) | 版本(模型大小 & 数据量) | 计算量预估 | GPU 规模 | 训练集群 | 关键节点 |
|---|---|---|---|---|---|
| 2023 3 xAI 成立 | |||||
| 2023 6 – 2023 10 | Grok‑1(开源) | ||||
| 大小 314B-86A | |||||
| 数据 ~ 10T | ~ 5e24 FLOPs (MFU ~ 20%) | ~ 8k A100 | Oracle Cloud | - xAI 使用 JAX 库和 Rust 语言,用自定义的训练栈从头开始训练 xAI |
2025年,最大集群的规模 200k H(xAI colossus),100k GB200(OpenAI Stargate,以 FP8 算力换算 等效 250k H)
2026年,多个 200k GB200 预计会上线
Stage 1 是 100k H100
互联采用 EtherNet 而不是 IB:每个 GPU 配备了一个 400GbE 的 Nvidia BlueField-3 SuperNIC,连接 64 口的 800 Gbps 以太网交换机 Spectrum-X SN5600
Stage 2 是 50k H100 + 50k H200(2025.01 上线)
150k H100 和 50k H200 互联