Library

ARTICLE
STRING
CONVERTER
ENCRYPT
NETWORK
MORE

CHART

MATH

COORDINATE

IMAGE

FILE

OPEN API
ARTICLE

STRING

CONVERTER

ENCRYPT

NETWORK

MORE

CHART

MATH

COORDINATE

IMAGE

FILE

OPEN API

Online Tools

All

Chinese

English

Newest

Hottest

275 search results

面向B站商业化场景的广告标题智能推荐

哔哩哔哩技术

364 Technology lddgo Shared on 2025-01-14

新活动平台建设历程与架构演进

哔哩哔哩技术

353 Technology lddgo Shared on 2025-01-10

B站搜推大规模召回系统工程实践

目前包括B站在内的主流搜索和推荐系统均采用多级漏斗的架构，主要涵盖召回、粗排、精排、重排等关键阶段。其中召回作为整个流程的首要环节，作用在于从海量的稿件集合中，快速高效地筛选出一小部分与用户需求和兴趣高度契合的稿件，作为后续排序阶段的输入数据。为了全面覆盖各类用户复杂多样的需求，通常采用多通道召回的策略。召回结果的优劣，也直接决定了搜推系统效果的上限。

哔哩哔哩技术

278 Technology lddgo Shared on 2025-01-07

文末有礼丨2024年哔哩哔哩技术精选技术干货

时光匆匆，【哔哩哔哩技术】公众号又与大家携手走过了充实的一年。2024年我们共精心打造了99 篇原创技术文章，全方位、多角度地剖析了各类前沿技术与实用业务应用。今天，我们特别挑选出 2024 年度广受好评的 20 篇文章，汇集成这份年度精选干货，邀您一同回顾那些闪耀着智慧光芒的技术瞬间，汲取宝贵的知识养分，激发新的灵感火花！

哔哩哔哩技术

383 Technology lddgo Shared on 2025-01-06

Apache Celeborn 在B站的生产实践

随着B站业务的飞速发展，数据规模呈指数级增长，计算集群也逐步从单机房扩展到多机房部署模式。多个业务线依托大数据平台驱动核心业务，大数据系统的高效性与稳定性成为公司业务发展的重要基石。如图1，目前在大数据基础架构下，我们主要采用 Spark、Flink、Presto 以及 Hive 作为计算引擎支撑各类复杂业务场景需求，离线计算集群基本每天运行30+万左右的 Spark 作业，包括任务调度平台的 ETL 任务、Kyuubi 提交的 Adhoc 作业等，其作业的 Shuffle 数据规模能够达到30PB以上，同时单个作业的 Shuffle 量最大规模有几百TB。同时 Shuffle 算子作为大数据计算引擎中间数据处理最重要的算子，Shuffle 的稳定性关系着线上大量离线作业的可靠性和性能。因此，对于海量的 Shuffle 中间数据和复杂多变的计算环境来说，保证 Shuffle 数据处理的稳定性对线上作业的稳定性和运行效率尤为重要。

哔哩哔哩技术

356 Technology lddgo Shared on 2025-01-03

B站AI计算网络建设实践

以ChatGPT为代表的生成式AI大火以来，LLM（Large Language Model）已经成为了各个企业的焦点关注对象。随着AI业务的快速发展，当前LLM训练参数已达万亿级别，而要完成如此量级的参数训练，通常需要拥有千卡、甚至万卡级别的GPU资源。然而只有GPU资源是不够的，更需要有一张零丢包、低时延、高吞吐的AI计算网络将各GPU连接在一起为业务提供高稳定的计算训练服务。 B站网络团队基于业务需求和特性出发，并结合业界对于AI网络的落地实践方案，设计并落地了自己的AI计算网络。本文将简单介绍B站网络团队在建设AI计算网络上的一些设计关键因素和选择。

哔哩哔哩技术

344 Technology lddgo Shared on 2024-12-31

B站推荐模型数据流的一致性架构

推荐系统的模型，通过学习用户历史行为来达到个性化精准推荐的目的，因此模型训练依赖的样本数据，需要包括用户特征、服务端推荐的视频特征，以及用户在推荐视频上是否有一系列的消费行为。推荐模型数据流，即为推荐模型提供带特征和优化目标的训练样本，包括两个模块，一是Label Join模块，负责用户行为的采集。二是feature extract模块，从原始日志中抽取特征，并基于用户行为计算模型优化的目标label。在B站早期的推荐模型数据流架构中，如下图所示，采样两阶段特征补齐设计。Label Join模块除了完成用户行为的采集，还需要查询实时特征，补齐训练样本依赖的部分原始特征数据，一般是秒级更新的实时特征，存储在Redis中。而Feature Extract模块在计算样本之前，补齐另外一部分原始特征数据，一般是批量更新的特征数据，存储在KFC中（B站自研的KV系统）

哔哩哔哩技术

373 Technology lddgo Shared on 2024-12-27

B站自研动画视频生成模型全链路技术报告

动画在影视工业中是相当重要的一个领域。尽管当前先进的视频生成模型比如Sora、可灵或智谱清影在生成三次元视频上取得了成功，他们在处理动画视频时却缺乏同样的效果。此外，由于独特的艺术风格、打破物理规则以及夸张的动作，评估动画视频生成结果也是一个巨大的挑战。在我们的工作中，我们提出了一个专为动漫视频生成设计的综合系统AniSora，包括数据飞轮、可控的生成模型和一个评估基准。在数据飞轮提供了10M以上高质量数据的支持下，生成模型加入了一个时空掩码模块来实现关键的动画制作功能比如图生视频、视频插帧和局部图像引导动画。我们收集了一个包含了948个不同的动画视频的评估基准。基于VBench指标和人工双盲测试都证明了生成视频在人物和动作上的一致性，取得了在动画视频生成领域行业领先的结果。业务上，我们的视频生成模型赋能了动态漫内容制作，已经有超过10部自有IP作品运用了AI动态漫能力。相比于人工制作需要专业人员和较长工期，AI动态漫实现了低成本、低门槛、高效率的剧集内容制作，并在多个平台突破千万播放。

哔哩哔哩技术

384 Technology lddgo Shared on 2024-12-24

B站装机系统实践：从初创到规模化的演进

随着B站用户数量的迅速增长和业务的不断扩展，数据中心的规模和复杂性也在不断增加。为了满足新服务器上架交付、系统安装和服务器初始化配置等新交付装机需求，早期采用了传统的PXE装机方案。然而随着IDC和边缘服务器的规模持续增长，以及业务场景的多样化，传统的装机方案逐渐暴露出灵活性不足和效率低下的问题。在这种背景下，我们开始探讨如何构建一个能够满足多样化需求的装机系统，以应对大量新交付装机、重装机、机房搬迁、CDN服务器装机等各类复杂场景。本文将详细介绍B站装机系统的演进过程，以新交付装机和复杂网络装机两个装机场景为例，重点探讨我们在装机实践中面临的挑战和提出的解决方案。

哔哩哔哩技术

338 Technology lddgo Shared on 2024-12-20

Apache Gravitino 在B站的最佳实践

在传统的大数据元数据管理系统中，以 HiveMetaStore 为核心的架构存在诸多问题和挑战。随着数据湖大规模应用、AI 数据大量增长、数据安全与数据治理被更加被重视，我们难以基于原有的架构或组件实现一套统一的元数据管理系统，进而解决数据孤岛、统一权限，多维度数据治理等问题。因此，在 B 站我们引入了 Gravitino，本次分享将介绍 Gravitino 在 b 站的最佳实践。其中包括了统一了多种数据源的元数据视图，统一跨数据源任务的 schema 信息，并且基于其中的 Fileset 概念对非结构化数据进行管理与数据治理，取得了可观的收益。

哔哩哔哩技术

265 Technology lddgo Shared on 2024-12-17

English