DeepSeek V4 采用 CSA + HCA 的混合注意力结构:CSA 通过低倍率压缩与 sparse top-k 检索保留长程历史,HCA 通过高倍率压缩提供全局上下文补充,再由 SWA 负责最近窗口内的精细建模。这种设计降低了长上下文推理的计算和显存压力,但也对推理系统提出了一个根本性的挑战:同一个 token 在不同 attention 路径里会对应完全不同的物理形态——最近窗口需要 raw KV,长历史被压缩成 C4 或 C128,C4 还要配合 indexer 做稀疏检索。如果继续把 KV Cache 当作一块连续 buffer 来管理,系统根本接不住这样的复杂度。阿里云 Tair KVCache 团队联合SGLang 社区,为 DeepSeek V4 构建了一套面向 Prefill 和 Decode 的分层缓存架构。实测在多轮对话场景下,Prefill 结合 HiCache 吞吐提升接近 3 倍;Decode 侧通过 HiSparse 分层 SparseAttention 机制,成功释放显存提升 5~10 倍 BatchSize。
本文分享了TMIC AI小新技术架构从定制化workflow到DeepAgent模式的架构改版实践。面对复杂问题需要跨模块协作、多步骤推理和动态参数识别的挑战,我们借鉴DeepAgent的核心设计思路(TodoList、SubAgent、Summary、FileSystem),实现了从"预设流程"到"AI自主决策"的转变。与此同时,我们还在DeepAgent的基础上针对业务场景做了创新性优化(Tree Action模式、SubAgent提速、异步Summary),显著提升了系统性能和效率。
在传统的移动端自动化体系中,Appium、UIAutomator 或基于 ADB 的脚本方案是绝对的主流。然而,作为在这个领域摸爬滚打多年的高级开发者,我们深知这些方案的痛点:强依赖 PC 宿主机、跨设备通信的 Socket 延迟、极易受 USB 线缆和网络波动影响的脆弱稳定性。当我们面对“高频、脱机、大规模集群”的 RPA(机器人流程自动化)需求时,传统外控方案往往显得力不从心。为此,本项目探索了一条完全不同的道路:彻底抛弃 PC 控制端,将大脑(逻辑控制)与手脚(事件注入)全部封装进 Android 设备本地。本文将剥开外壳,通过核心逻辑的源码级解构,带你走过这条充满坑与算计的“端侧自动化”之路,并客观剖析其当下面临的致命缺陷,以及结合 AI 的未来演进。