本文记录了贴吧 Server 团队将小码哥 AI CR 规模化落地的 10 周实践,将评审占比从 33% 提升至 84%,bug 密度下降;全套方法论与工作流可直接迁移,少走弯路。
DeepSeek V4 采用 CSA + HCA 的混合注意力结构:CSA 通过低倍率压缩与 sparse top-k 检索保留长程历史,HCA 通过高倍率压缩提供全局上下文补充,再由 SWA 负责最近窗口内的精细建模。这种设计降低了长上下文推理的计算和显存压力,但也对推理系统提出了一个根本性的挑战:同一个 token 在不同 attention 路径里会对应完全不同的物理形态——最近窗口需要 raw KV,长历史被压缩成 C4 或 C128,C4 还要配合 indexer 做稀疏检索。如果继续把 KV Cache 当作一块连续 buffer 来管理,系统根本接不住这样的复杂度。阿里云 Tair KVCache 团队联合SGLang 社区,为 DeepSeek V4 构建了一套面向 Prefill 和 Decode 的分层缓存架构。实测在多轮对话场景下,Prefill 结合 HiCache 吞吐提升接近 3 倍;Decode 侧通过 HiSparse 分层 SparseAttention 机制,成功释放显存提升 5~10 倍 BatchSize。
本文分享了TMIC AI小新技术架构从定制化workflow到DeepAgent模式的架构改版实践。面对复杂问题需要跨模块协作、多步骤推理和动态参数识别的挑战,我们借鉴DeepAgent的核心设计思路(TodoList、SubAgent、Summary、FileSystem),实现了从"预设流程"到"AI自主决策"的转变。与此同时,我们还在DeepAgent的基础上针对业务场景做了创新性优化(Tree Action模式、SubAgent提速、异步Summary),显著提升了系统性能和效率。