• ARTICLE
  • STRING
  • CONVERTER
  • ENCRYPT
  • NETWORK
  • MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
    OPEN API
  • ARTICLE
    STRING
    CONVERTER
    ENCRYPT
    NETWORK
    MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
    OPEN API
logo Online Tools

Tair 联手 SGLang 共建 DeepSeekV4 分层缓存架构

Source : mp.weixin.qq.com

DeepSeek V4 采用 CSA + HCA 的混合注意力结构:CSA 通过低倍率压缩与 sparse top-k 检索保留长程历史,HCA 通过高倍率压缩提供全局上下文补充,再由 SWA 负责最近窗口内的精细建模。这种设计降低了长上下文推理的计算和显存压力,但也对推理系统提出了一个根本性的挑战:同一个 token 在不同 attention 路径里会对应完全不同的物理形态——最近窗口需要 raw KV,长历史被压缩成 C4 或 C128,C4 还要配合 indexer 做稀疏检索。如果继续把 KV Cache 当作一块连续 buffer 来管理,系统根本接不住这样的复杂度。阿里云 Tair KVCache 团队联合SGLang 社区,为 DeepSeek V4 构建了一套面向 Prefill 和 Decode 的分层缓存架构。实测在多轮对话场景下,Prefill 结合 HiCache 吞吐提升接近 3 倍;Decode 侧通过 HiSparse 分层 SparseAttention 机制,成功释放显存提升 5~10 倍 BatchSize。

View 2 Technology lddgo Shared on 2026-05-29