Tair 联手 SGLang 共建 DeepSeekV4 分层缓存架构

Source : mp.weixin.qq.com

DeepSeek V4 采用 CSA + HCA 的混合注意力结构：CSA 通过低倍率压缩与 sparse top-k 检索保留长程历史，HCA 通过高倍率压缩提供全局上下文补充，再由 SWA 负责最近窗口内的精细建模。这种设计降低了长上下文推理的计算和显存压力，但也对推理系统提出了一个根本性的挑战：同一个 token 在不同 attention 路径里会对应完全不同的物理形态——最近窗口需要 raw KV，长历史被压缩成 C4 或 C128，C4 还要配合 indexer 做稀疏检索。如果继续把 KV Cache 当作一块连续 buffer 来管理，系统根本接不住这样的复杂度。阿里云 Tair KVCache 团队联合SGLang 社区，为 DeepSeek V4 构建了一套面向 Prefill 和 Decode 的分层缓存架构。实测在多轮对话场景下，Prefill 结合 HiCache 吞吐提升接近 3 倍；Decode 侧通过 HiSparse 分层 SparseAttention 机制，成功释放显存提升 5～10 倍 BatchSize。

阿里巴巴技术

View

2 Technology lddgo Shared on 2026-05-29

English