DeepSeek-V3.2-Exp 所搭载的稀疏化 Attention 计算,在长上下文场景中成功降低了推理延迟。但在 PD 分离架构下,随着序列长度不断增长,Decode 阶段的吞吐受限问题愈发凸显。核心症结在于,Decode 过程中 Latent Cache 规模会随序列长度呈线性增长,而 GPU 显存容量有限,这直接导致 Batch Size 难以提升,进而抑制了 Decode 阶段的吞吐增长。基于此,本次百度百舸 AIAK 团队研究的核心目标是:针对 DeepSeek-V3.2-Exp,通过将 Latent Cache 下放到 CPU 内存,在满足延迟要求的前提下,提升 Decode 吞吐并显著降低成本。本报告详细阐述了我们为达成该目标所开展的系统瓶颈分析,以及最终提出的 Expanded Sparse Server(ESS)方案的设计与实现。
从2023年成立到如今日均服务2万+直播间,百度慧播星已演进为覆盖脚本生成、实时问答、智能决策、音视频克隆的全链路AI直播平台。本文深入解读其技术架构:如何通过检索增强和强化学习生成高转化脚本;如何利用强化学习智能中控动态优化直播策略;以及如何将语音与形象克隆效率提升至“小时级”;如何构建“先验-后验”数据飞轮,让模型自主进化;。罗永浩数字人直播GMV突破5500万的案例,验证了其“超越真人”的带货能力。未来,慧播星正朝着更智能、更拟真、更高效的方向持续迭代。
线上问题复盘发现质量保障存在测试召回、有效性及排查止损时效性不足等痛点,根源在于保障对象多样演进、线上问题处置复杂。为此我们构建质量风险管控系统,本文分别从风险管理系统的构建思想&实践、风险感知系统的AI效果提升、风险控制系统的智能化建设等维度展开介绍,整体风险管控系统在构建过程效果、使用效果和质量结果等层面均取得较好效果。未来,AI将更深度参与质量风险管控过程,与人工协同构建更智能化的风险管控体系。
面对研发交付中Feature级项目复杂度攀升、信息分散及跨端协作低效等痛点,传统的Story级管理模式已显乏力。本文详细阐述了一套“项目级效能提升一站式交付最佳实践”,通过构建三大核心体系重塑研发流程:一是通过AI侧边栏与风险管控打造“AI项目管理”,实现信息聚合与决策提效;二是推动“一站式Feature交付”,利用AI自动生成测试方案与搭建环境,实现端到端闭环;三是建立涵盖“重点战役-Feature-Story”的三级数字化度量体系。这套新范式旨在以智能替代人工低效环节,助力团队从“被流程束缚”向“借智能破局”转变,实现研发效能的质的飞跃。
通过Turing Data Analysis(TDA)一站式自助分析平台建设,实现了业务看数、分析一体化闭环。然而,随着业务深度使用,分析需求也更加的复杂、多样,对TDA的分析能力提出了更高的要求,同时用户的极限查询与性能形成对抗,也影响了用户的分析体验。本文将聚焦分析能力增强与性能优化两方面,阐述具体的优化策略,以持续保证用户分析体验。
本文概述了在业务高速发展和降本增效的背景下百度MEG(移动生态事业群组)大数据成本治理实践方案,主要包含当前业务面临的主要问题、计算数据成本治理优化方案、存储数据成本治理优化方案、数据成本治理成果以及未来治理方向的一个思路探讨,为业界提供可参考的治理经验。
传统内核网络协议栈诞生于以通用性、兼容性与内核资源隔离为首要目标的时代:它通过在内核空间实现协议栈,并向用户空间暴露如 BSD Sockets 这类统一 API,为各种异构应用和硬件平台提供标准化、兼容性的接口;同时,采用系统调用与内存空间隔离等机制,确保应用之间、应用与内核之间的资源隔离。这些设计极大地增强了协议栈的通用性和兼容性,提升了多应用环境下的安全性和稳定性。然而,时过境迁,如今云数据中心的规模早已不可同日而语,在其所面临的高并发、高带宽、低时延场景下,上述内核设计带来了显著的性能瓶颈:频繁的系统调用与上下文切换、多次数据拷贝、锁竞争与缓存失效共同放大了数据处理时延;协议栈的高度通用性和兼容性设计,也使其难以针对高性能计算、分布式存储、分布式数据库等特定应用场景进行深度优化。
本文聚焦百度电商风控场景,针对传统机审多模态识别弱、语义模糊难区分、审核体验差等痛点,推进原有机审流程向AI化流程改造,基于业界MultiAgent范式在审核场景落地应用,提出 “多模态大模型 + 规则 + 知识库” 协同的机审 Agent 方案。通过:1. 审核标准体系化、大模型化;2. 多模态大模型在领域典型问题上的抽象技术方案;3. 针对场景化问题精准优化。产出标杆式业务落地效果,为电商风控大模型落地提供可迁移能力强的技术方案。
在大规模微服务架构中,雪崩故障是极具破坏力却又难以预防的系统性威胁。本文基于百度搜索架构与运维团队的实战经验,深入解析雪崩从“非稳态”到“自强化崩溃”的微观演化机制,揭示重试风暴、容量退化等正反馈回路的形成过程。文章提出系统化的治理思路,并详细介绍百度落地的多项核心实践,包括重试预算、队列限流、全局TTL控制等自愈机制,以及秒级流量调度与降级预案。通过真实案例与生产数据,为行业提供了一套可借鉴的雪崩预防与治理框架。
面对传统数据接入流程人力高、周期长、质量难控的痛点,本文提出了“数据平台智能化入库”的整体解决方案。方案以大型语言模型(LLM)为核心,结合代码生成流与执行流构建“智能代码闭环”,实现从数据Schema识别、结构化映射、质量规则抽取到入库包构建的全流程自动化。通过“生成-执行-反馈”闭环机制,系统能持续自我优化、沉淀知识与代码资产,大幅缩短接入周期(从3个月降至3天内)、降低人工成本(从4人月降至零人工干预),并显著提升系统可控性与扩展性,为企业级数据治理与智能化运营奠定了坚实技术基础。