<aside> 💡
xai 周末发了 grok-4-fast,还有前段时间发的 grok-code-fast 分别 $0.5 $1.5 / 1M output,比 sonnet 便宜 30 / 10 倍,推理速度也很快(100+ FPS) 本篇,研究了下「推理TPS、token 价格、模型激活参数」三者之间的关系
Serving 同一个模型,要获得更大 TPS,per-token 价格会增加(用低并发换取更高 TPS,整体效率会变低)

TPS - token 价格,有一个“经济”区间
在 H 卡上要跑到一个不错的 TPS(~150),dpsk V3 这个尺寸是经济的,再大的话可能不经济了
together.ai 上,dpsk v3 有两种 serving 模式(价格相差3-5倍,tps 相差 5 倍),在经济区间内

Dense 实线: y = -0.3501 * x + 128.6389;MoE 虚线: y = -4.5058 * x + 200.3917
激活参数越大,TPS 越低
相同激活参数,MoE 的 TPS 在激活小的时候高于 dense,激活变大后低于 dense
MoE 相比 dense,TPS 随模型变大衰减更快 → 相同模型参数,TPS 经济区间的上限更低;相同 TPS,经济的模型激活大小更低

相同激活参数量,为什么在激活小的时候 MoE 的 TPS 整体高于 dense?

token价格 - 激活参数:Dense 实线: y = 0.0111 * x + 0.4278 ;MoE 虚线: y = 0.0414 * x + 0.4356