在作弊手段日益隐蔽和复杂的背景下,单纯依赖在线或实时风控已难以满足深度治理需求。本文系统介绍了一套基于 Spark 的配置化离线反作弊挖掘框架,重点解析其 Extract、Accumulate、Join、Policy 四大核心模块,以及“视图构建”“动态 SQL 生成”“多阶特征计算”“滑动窗口”等关键能力。该框架支持全量历史重算与大规模 Shuffle 计算,通过高度配置化设计,将字段抽取、特征定义、策略判定彻底从代码中解耦,实现策略快速迭代与低成本上线。同时结合数据倾斜治理、列裁剪优化等工程实践,大幅提升稳定性与性能,成为风控体系的重要计算底座。
在企业的技术运营中,一条被广泛验证的降本增效路径早已形成共识:采购时通过规模优势压低硬件单价,使用时借助调度、混部和潮汐算力提升资源利用率,业务侧则持续优化应用代码和架构。这条路径清晰、务实,也确实帮助众多企业有效控制了 IT 成本。然而,一个经常被忽略的事实是:即使那些拥有成熟技术团队、系统经过多年优化的业务,其计算成本中仍然普遍存在 10%-20% 的隐藏优化空间。对于一个年投入千万算力的客户来说,这意味着近百万的成本可以在不增加任何硬件投入的情况下被释放。问题是:当我们已经在前端、架构、资源调度上做了大量工作,这 20% 的空间究竟藏在哪里?
LoongFlow 是百度百舸团队发布的一个开源的、旨在让 AI 学会「专家级思考」的智能体开发框架。我们相信,设计一个能解决复杂问题的专家级 Agent,关键在于其思考模式——它决定了 Agent 能解决问题的复杂度和效果上限。
AI 编码工具正在从"智能补全"演进为能自主完成复杂任务的 Coding Agent。本文基于开源项目源码研究与实践经验,系统性地拆解 Coding Agent 的工作原理。旨在帮助开发者在了解Coding Agent后,与AI伙伴更好的协作配合,更高效的提问和拿到有效结果。
代码跳动间,2025已成序章。这一年,技术的浪潮从未停歇——从底层架构的极致演进,到AI应用的大规模落地,“百度Geek说”有幸记录了每一个突破瞬间。在成百上千篇深度分享中,有些文字因为深刻的洞察、精妙的逻辑而脱颖而出,成为了大家反复研读的“爆款”。岁末回响,我们甄选出【2025年度技术爆款大盘点】。让我们从这些沉淀下来的技术精粹中,寻找开启2026的灵感。
想用AI“躺平”批量产出电影级字标和爆款封面?本文将完整复盘我们在好看视频落地 AI视觉生产力的实战路径——涵盖艺术字标体系构建、高点击封面公式提炼,以及从人工提效到平台化自动生产的进阶实践。这不仅是一套提效方案,更是一次关于设计师如何驾驭AI、主导创意生产新范式的探索。
本文深入介绍了百度一站式全业务智能结算中台,其作为公司财务体系核心,支撑多业务线精准分润与资金流转。中台采用通用化、标准化设计,支持广告、补贴、订单等多种结算模式,实现周结与月结灵活管理。通过业务流程标准化、分润模型通用化及账单测算自动化,大幅提升结算效率与准确性,确保数据合规与业务稳健发展。未来,中台将推进全业务线结算立项线上化、数据智能分析,进一步提升数据分析智能化水平,为公司业务发展提供坚实保障。
在日常视频播放中,我们经常会遇到这样的问题:视频的长宽比例与设备屏幕不一致,导致画面上下或左右出现黑边。虽然这并不影响视频的正常播放,但从用户体验的角度来看,这些黑边往往打断了视觉的沉浸感,显得格外突兀。为了解决这一问题,业界主流播放器(如 YouTube、Netflix)引入了一种被称为氛围模式(Ambient Mode)的视觉增强效果。它的核心思路是: 通过实时识别视频画面的主色调,并动态将其填充到黑边区域,使边缘色彩与视频内容保持一致,提升整体视觉统一性,从而营造出与视频内容相协调的氛围效果,让观众的观看体验更加自然和沉浸。
DeepSeek-V3.2-Exp 所搭载的稀疏化 Attention 计算,在长上下文场景中成功降低了推理延迟。但在 PD 分离架构下,随着序列长度不断增长,Decode 阶段的吞吐受限问题愈发凸显。核心症结在于,Decode 过程中 Latent Cache 规模会随序列长度呈线性增长,而 GPU 显存容量有限,这直接导致 Batch Size 难以提升,进而抑制了 Decode 阶段的吞吐增长。基于此,本次百度百舸 AIAK 团队研究的核心目标是:针对 DeepSeek-V3.2-Exp,通过将 Latent Cache 下放到 CPU 内存,在满足延迟要求的前提下,提升 Decode 吞吐并显著降低成本。本报告详细阐述了我们为达成该目标所开展的系统瓶颈分析,以及最终提出的 Expanded Sparse Server(ESS)方案的设计与实现。