250714 Grok-4 DeepDive - Compute & Data

Takeaway

Grok 系列模型规格（依据公开资料、集群信息、训练时间、compute FLOPs 推算）
- Grok 系列模型大小
  - Grok-1 参数量 314B-A86B
  - Grok-2 参数量 A136B
  - Grok-3 总参数量 ~2T，平均激活 ~ 300B（可能采用动态激活）
  - Grok-4 预训练基本同 Grok-3，是 Grok-3 的 RL 强化版本
- Grok vs. 其他模型
  - Grok-4 是目前算力消耗最大的模型 ~ 6e26 FLOPs，预训练和后训练各一半，比 GPT4o、Grok-2、Sonnet 4 高一个数量级
  - 截止 25 年 7 月，Grok-3、Grok-4、Opus 4 是少数几个超过 1e26 算力的模型
- xAI 研发节奏：从去年 10 月 colossus 集群就位后明显加速，Grok-3 用了 6 个月，Grok-4 用了约 4 个月（但消耗算力翻倍）
业界计算集群规模

以 FP8 算力换算，1 GB200 = 2.5 H，但一些场景下可以到 4（考虑显存变大 MFU 提升）
- 2025年，最大集群的规模 200k H（xAI colossus），100k GB200（OpenAI Stargate Abilene - Oracle）
- 2026年，多个 200k GB200 规模集群会上线
Grok-4 所使用的 RL Compute 拆解：数据量和 MFU
- RL 单 token FLOPs 15~30x 预训练（取决于训练 epoch）
- Grok-4 RL 算力折算到 tokens 是 2~5T（取决于训练 epoch），按 80k 平均轨迹长度，对应数 10M 量级的轨迹数据，数 M 的 prompt
- Grok-4 RL 训练效率 6x Grok-3，预计 RL Training e2e MFU ~ 30%

Grok 系列模型规格

表中，计算量预计值置信度较高（i.e. 多种方式交叉验证），模型大小 & 数据量为合理推算

计算公式：FLOPs ≈ 芯片算力训练时长MFU ≈ 6ND（未考虑 longCT 长序列训练）

时间 (按月)	版本（模型大小 & 数据量）	计算量预估	GPU 规模	训练集群
2023 3 xAI 成立
2023 6 – 2023 10	Grok‑1（开源）
大小 314B-86A
数据 ~ 10T	~ 5e24 FLOPs (MFU ~ 20%)	~ 8k A100	Oracle Cloud	- xAI 使用 JAX 库和 Rust 语言，用自定义的训练栈从头开始训练 xAI

2023 年 10 月完成预训练（用时四个月），24 年 3 月 17 日开源权重 Neatprompts | | 2024 1 – 2024 7 | Grok‑2 数据 3x Grok-1，~ 30T 模型 1.6x Grok-1，实际 136B | ~ 3e25 FLOPs epoch.ai | 16k ~ 20k H100 | Oracle Cloud | 24 年 8 月 13 日发布 Beta 版本 xAI DataCenterDynamics aibusiness | | 2024 8 - 9 | 比较密集在忙 Colossus 集群的事，供电、稳定性、压测 etc. https://x.ai/colossus | | | | | | 2024 10 – 2024 12 | Grok‑3 数据 2x Grok-2，~ 60T 模型 2.5x Grok-2，~ A300B | 预训练 ≈ Grok‑2 × 10 ~ 1.5e26 FLOPs
1.5e26 FLOPs ~ 200M H100 GPU hours（20% MFU）
Forbes | 80k ~ 100k H100 x.ai | Colossus phase‑1 (100K H100) Supermicro | - 25 年初预训练结束，进入后训练 Tom's Hardware x.com
25 年 2 月 19 日发布 Preview 版本，但仍在后训练 xAI
25 年 4 月 launch Grok3 API | | 2025 3 – 2025 5 (预训练) 5 – 7 月 (超大规模 RL) | Grok‑4 数据 & 模型基本同 Grok-3 | 预训练 ≈ RL ≈ Grok‑3 预训练 ~ 1.5e26 FLOPs x.com | 150k – 200k H100/H200 | Colossus phase‑2 (150K H100 + 50K H200) xAI | 25 年 7 月 9 日正式发布 Infra + 算法让 RL 提效 6 倍 xAI |
Grok 模型大小、训练数据量推算
- Grok-1 参数量 314B-A86B，训练数据 ~ 10T
- Grok-2 参数量 A136B，训练数据 ~ 30T（依据同期模型所用训练数据量合理推测）
- Grok-3，相比 Grok-2，预训练算力 x10：
  - 合理推算，训练数据量 x2，单 token 训练开销 x2.5 → 总参数量 ~2T，平均激活 ~ 300B（API 定价上 x1.5 Grok-2，但 Grok-3 可能采用动态参数），和外部估计匹配 reddit
- Grok-4，是 Grok-3 的 RL 强化版本，预训练基本同 Grok-3
Grok vs. 其他模型的算力比较
- Grok-4 是目前算力消耗最大的模型，预估 ~ 3e26 FLOPs，预训练和后训练各占一半
- GPT4o、Sonnet 4、Grok-2，预估 3e25~5e25 FLOPs epoch.ai，相比 Grok-4 低一个数量级
- 截止 25 年 7 月，Grok-3、Grok-4、Opus 4 是少数几个超过 1e26 算力的模型

计算集群规模拆解

2025年，最大集群的规模 200k H（xAI colossus），100k GB200（OpenAI Stargate，以 FP8 算力换算等效 250k H）

2026年，多个 200k GB200 预计会上线

xAI Colossus 集群：150k H100 + 50k H200（同一AZ，300MW，液冷）

Stage 1 是 100k H100

互联采用 EtherNet 而不是 IB：每个 GPU 配备了一个 400GbE 的 Nvidia BlueField-3 SuperNIC，连接 64 口的 800 Gbps 以太网交换机 Spectrum-X SN5600
- 240722，通电上线，one month bottleneck & challenge
- 240811，25k full workload 上线
- 240901，42k full workload 上线
- 250101，Grok3 在 80k+ GPUs 上完成训练
Stage 2 是 50k H100 + 50k H200（2025.01 上线）
150k H100 和 50k H200 互联
- 两种芯片在同一个 AZ（single campus, not single building）semianalysis，并且 150k H100 确定可以同时跑一个任务 x.ai
- H200 把显存容量从 80 GB 提升到 141 GB，并用 HBM3e 将带宽提升到 4.8 TB/s；计算核心和功耗指与 H100 基本一致。RL 阶段，H100 和 H200 可以分别跑 Actor 和 Critic，或不同的 batch size

Takeaway

Grok 系列模型规格

计算集群规模拆解

xAI Colossus 集群：150k H100 + 50k H200（同一AZ，300MW，液冷）

xAI 未来集群规划