本文讲述百度搜索系统面临搜索结果一致性的挑战,如何准确衡量并消除不一致因素成为关键问题。本文介绍了百度搜索系统针对结果波动问题的创新解决方案,通过设计数据打平技术,将问题量化至服务与特征层面,并利用fake流量与动态debug机制进行大量实验与数据收集。同时,采用多实验统筹与自动巡检机制提高实验效率与分析自动化,最终成功捕获所有对结果波动有实质贡献的特征,为系统优化提供了精确指导,显著降低了结果波动。
百度MEG的上一代大数据产品存在平台分散、质量不均和易用性差等问题,导致开发效率低下、学习成本高,业务需求响应迟缓。为了解决这些问题,百度MEG内部开发了图灵3.0生态系统。图灵3.0覆盖了数据全生命周期,包括Turing Data Engine (TDE) 计算引擎、Turing Data Studio (TDS) 数据开发治理平台和Turing Data Analysis (TDA) 可视化BI产品。 TDS作为图灵3.0的核心组件,专注于数据开发和治理。其架构涵盖了从基础设施到用户功能的各个层次,包括数据开发、数仓管理、监控运维和资源管理等模块,支持高效的任务调度、资源管理和数据血缘分析。 此外,TDS引入了智能化工具,如智能诊断和Text2SQL,帮助用户快速定位问题、生成SQL查询,降低了数据开发和查询的技术门槛。
研发数据中台负责MEG所有研发数据的管理、接入、传输、应用等各个环节。中台的主要构建3个能力:构建端研发数据实时感知能力、线上问题/数据的便捷分析能力、线上问题的快速止损召回能力。随着业务的不断变化和发展,越来越多的业务同学对中台的问题分析定位效率有更高的要求。随着ChatGPT和文心一言大模型相继发布,公司内外都在探索使用大模型提升线上问题分析的效率,也使我们看到了提升线上问题数据分析效率的可能性。本文主要介绍中台利用大模型在数据分析、线上问题快速定位等方向所做的一些努力(Agent建设),核心点是利用大模型强大的推理判断以及泛化能力对效率低的工作方式以及流程进行重构,最终提升业务的工作效率。
为了让飞桨开发者们掌握第一手技术动态、让企业落地更加高效,飞桨官方在7月至10月特设《飞桨框架3.0全面解析》系列技术稿件及直播课程。技术解析加代码实战,带大家掌握包括核心框架、分布式计算、产业级大模型套件及低代码工具、前沿科学计算技术案例等多个方面的框架技术及大模型训推优化经验。
本文大语言模型在未经标注的大量文本上进行预训练后,可能产生包含偏见、泄露隐私甚至对人类构成威胁的内容。OpenAI 最先提出了基于人类反馈的强化学习算法(Reinforcement Learning fromHuman Feedback, RLHF),将人类偏好引入到大模型的对齐过程中,从而让大语言模型能够生成符合人类预期的输出。笔者长期在搜索领域应用大模型提升搜索质量,发现RLHF在搜索结果的相关性、准确性和无害性等方面均有显著的提升,同时也观察到由于RLHF 流程相比预训练以及SFT更加复杂,导致在训练效率上,其系统吞吐率远低于预训练或者SFT,这严重制约了 RLHF 的应用与发展。当前业界和学界在预训练阶段和推理部署阶段的性能优化进展非常丰富,但在强化学习尤其是RLHF性能优化的公开资料较少。我们注意到,RLHF 和预训练共享大多数分布式训练技术,因此在优化手段上,RLHF 既要吸收预训练的方法,也要结合自身的特点做针对性地优化。
主成分分析(PCA,Principal Component Analysis)是一项在高维数据中,寻找最重要特征的降维技术,大大减少数据的维度,而不显著损失信息量。本文将通过基于飞桨框架的实际代码示例,来展示所提供的高效、灵活的线性代数 API,如何简化机器学习和深度学习中的数据处理和分析工作,为高维数据集的处理和分析提供了有效工具。
为了让飞桨开发者们掌握第一手技术动态、让企业落地更加高效,飞桨官方在7月至10月特设《飞桨框架3.0全面解析》系列技术稿件及直播课程。技术解析加代码实战,带大家掌握包括核心框架、分布式计算、产业级大模型套件及低代码工具、前沿科学计算技术案例等多个方面的框架技术及大模型训推优化经验。
本文将详细介绍如何在 PaddlePaddle 中利用稀疏计算应用稀疏 ResNet,涵盖稀疏数据格式的础知识、如何创建和操作稀疏张量,以及如何开发和训练稀疏神经网络模型。
本文深入探讨了如何在Embedding空间中运用先进的时序异常检测技术,针对安全、反作弊等业务场景下的流量与用户行为进行精准监控。通过向量化处理和Embedding技术,将多维度的业务数据映射至高维空间,并基于此空间中的样本分布特征进行异常检测。实验验证了该方法在不同异常类型下的有效性,为快速定位和处理异常提供了有力支持。同时,文章还讨论了算法在实际应用中的调整与优化方向,展望了未来在异常检测领域的进一步应用与发展。
广告检索系统的性能长尾影响KPI,间接影响收入,极致优化成本和性能一直是检索端工程团队的重要工作。随着基于SSD分级存储在商业场景规模应用,在部分访盘量高的场景,为控制性能长尾退化,我们尝试引入缓存对标系统PageCache来解决。在引入过程,我们对业界经典的缓存算法,进行了针对性测评,将测评效果与大家分享,诚邀对存储和缓存技术有兴趣的伙伴们一起探讨。