主要想看一下: 1)serving 时候的缓存命中,到底是放在哪种存储上的 2)推理集群的演进方向是啥

KV Cache 的分层存储结构

一般 KV cache hit 会分几层:system prompt、device(HBM)、host(DRAM)、CFS(Cloud File Storage 远端的 storage,NAND)

Deepseek 怎么做的

image.png

image.png

OpenAI 怎么做的 link

Anthropic 怎么做的 link