主要想看一下: 1)serving 时候的缓存命中,到底是放在哪种存储上的 2)推理集群的演进方向是啥
一般 KV cache hit 会分几层:system prompt、device(HBM)、host(DRAM)、CFS(Cloud File Storage 远端的 storage,NAND)