在线工具大全

突破显存瓶颈：基于 DeepSeek-V3.2-Exp 的 Latent Cache 卸载预取方案设计与模拟验证

出处： mp.weixin.qq.com

DeepSeek-V3.2-Exp 所搭载的稀疏化 Attention 计算，在长上下文场景中成功降低了推理延迟。但在 PD 分离架构下，随着序列长度不断增长，Decode 阶段的吞吐受限问题愈发凸显。核心症结在于，Decode 过程中 Latent Cache 规模会随序列长度呈线性增长，而 GPU 显存容量有限，这直接导致 Batch Size 难以提升，进而抑制了 Decode 阶段的吞吐增长。基于此，本次百度百舸 AIAK 团队研究的核心目标是：针对 DeepSeek-V3.2-Exp，通过将 Latent Cache 下放到 CPU 内存，在满足延迟要求的前提下，提升 Decode 吞吐并显著降低成本。本报告详细阐述了我们为达成该目标所开展的系统瓶颈分析，以及最终提出的 Expanded Sparse Server（ESS）方案的设计与实现。

百度技术

查看原文

85 技术 lddgo 分享于 2025-12-10

简体中文