250924 大模型 serving -「TPS、token 价格、激活参数」三角

<aside> 💡

xai 周末发了 grok-4-fast，还有前段时间发的 grok-code-fast 分别 $0.5 $1.5 / 1M output，比 sonnet 便宜 30 / 10 倍，推理速度也很快（100+ FPS）本篇，研究了下「推理TPS、token 价格、模型激活参数」三者之间的关系

拟合了一个 TPS-per token price 的图，发现有一些意思，「开源模型 - GPT系列 - Claude系列」在统计上有比较显著差别。开源斜率最陡，是因为模型偏小且定价成本主导；Claude 斜率最缓，是因为模型大，然后还有价值溢价；GPT 介于两者之间
然后 per-token-price/(TPS·激活参数) 可能是一个比较好的反应真实模型 serving 经济性的指标，GPT 相比开源大概有 6-10 倍溢价 </aside>

开源模型「TPS、token 价格、激活参数」的三者关系

数据来源：together.ai 上面 serving 的开源模型 https://artificialanalysis.ai/providers/togetherai
为什么选 together.ai：上面大量的 serving 数据点可作为研究对象，并且作为一个 MAAS 企业，其定价能够比较反应 serving 的真实成本

Serving 同一个模型，要获得更大 TPS，per-token 价格会增加（用低并发换取更高 TPS，整体效率会变低）

https://arxiv.org/pdf/2506.04645v1
TPS - token 价格，有一个“经济”区间
- 在一个几倍的区间内（上面右图箭头区间内），增加 TPS 是”经济”的，i.e. TPS 增加多少倍，per-token price 大体增加多少倍。超过这个 TPS 经济区间后，再增加 TPS 会非常不经济，serving 成本将超指数增加
- 对于同样硬件，模型越大，最大的经济 TPS 变小（见上图不同曲线）
  - 在 H 卡上要跑到一个不错的 TPS（~150），dpsk V3 这个尺寸是经济的，再大的话可能不经济了
  - together.ai 上，dpsk v3 有两种 serving 模式（价格相差3-5倍，tps 相差 5 倍），在经济区间内
    
     https://artificialanalysis.ai/providers/togetherai

Dense 实线: y = -0.3501 * x + 128.6389；MoE 虚线: y = -4.5058 * x + 200.3917

激活参数越大，TPS 越低
相同激活参数，MoE 的 TPS 在激活小的时候高于 dense，激活变大后低于 dense
MoE 相比 dense，TPS 随模型变大衰减更快 → 相同模型参数，TPS 经济区间的上限更低；相同 TPS，经济的模型激活大小更低
相同激活参数量，为什么在激活小的时候 MoE 的 TPS 整体高于 dense？
- 其中一些小模型比如 gpt-oss-120B-A5B，Qwen3-Next-80B-A3B 因为在模型能力上很有竞争力，平台用更多资源进行高 TPS 部署，导致 TPS 和 price 都偏高
- 比如 gpt-oss-20B-A3B、Qwen3-next-80B-A3B、Llama 3.2 3B Turbo 都是 3B 激活，但 gpt-oss 和 Qwen3 价格和 TPS 都明显高

token价格 - 激活参数：Dense 实线: y = 0.0111 * x + 0.4278 ；MoE 虚线: y = 0.0414 * x + 0.4356