在2024年全球机器学习技术大会上,大模型的技术进步以及推理阶段的高效性成为了广泛关注的焦点。近年来,随着大规模语言模型(LLM)的参数量和功能复杂性的快速增长,其在实际应用中的计算开销和性能瓶颈逐渐显现,尤其是在推理阶段。如何在有限的硬件资源条件下有效加速推理过程,降低延迟并提升吞吐量,已经成为技术研发的核心议题。 大模型推理不仅仅是单一的算法优化问题,而是涉及到硬件、软件、算法、系统框架等多层次协同优化的综合工程。实际应用场景中,大模型的推理效率直接影响用户体验,尤其是在需要实时响应的场景下,诸如语音生成、智能对话、多模态翻译等任务。因此,推理加速不仅是技术挑战,同时也对大模型的商业化落地具有重要的意义。 在本研究中,基于最新技术实践,我们对大模型推理加速的关键技术进行了分析,并结合MindIE-LLM框架的具体优化案例,探索了从算法到硬件的多层次优化方案。本文的核心目标是为研究者和工程师提供系统化的推理加速思路,助力大模型在实际场景中的高效应用。
在现代推荐系统中,需要以尽可能低的延迟在海量的数据中快速计算出与用户最相关的top-N。而其中能够管理海量数据并支持高速批量查询的存储系统是最重要的组件之一。如下图所示,无论是在召回、排序阶段,还是在离线模型训练期间,更多的特征和更快的计算通常会带来更好的推荐结果。
目前包括B站在内的主流搜索和推荐系统均采用多级漏斗的架构,主要涵盖召回、粗排、精排、重排等关键阶段。其中召回作为整个流程的首要环节,作用在于从海量的稿件集合中,快速高效地筛选出一小部分与用户需求和兴趣高度契合的稿件,作为后续排序阶段的输入数据。为了全面覆盖各类用户复杂多样的需求,通常采用多通道召回的策略。召回结果的优劣,也直接决定了搜推系统效果的上限。
时光匆匆,【哔哩哔哩技术】公众号又与大家携手走过了充实的一年。2024年我们共精心打造了99 篇原创技术文章,全方位、多角度地剖析了各类前沿技术与实用业务应用。今天,我们特别挑选出 2024 年度广受好评的 20 篇文章,汇集成这份年度精选干货,邀您一同回顾那些闪耀着智慧光芒的技术瞬间,汲取宝贵的知识养分,激发新的灵感火花!
随着B站业务的飞速发展,数据规模呈指数级增长,计算集群也逐步从单机房扩展到多机房部署模式。多个业务线依托大数据平台驱动核心业务,大数据系统的高效性与稳定性成为公司业务发展的重要基石。如图1,目前在大数据基础架构下,我们主要采用 Spark、Flink、Presto 以及 Hive 作为计算引擎支撑各类复杂业务场景需求,离线计算集群基本每天运行30+万左右的 Spark 作业,包括任务调度平台的 ETL 任务、Kyuubi 提交的 Adhoc 作业等,其作业的 Shuffle 数据规模能够达到30PB以上,同时单个作业的 Shuffle 量最大规模有几百TB。同时 Shuffle 算子作为大数据计算引擎中间数据处理最重要的算子,Shuffle 的稳定性关系着线上大量离线作业的可靠性和性能。因此,对于海量的 Shuffle 中间数据和复杂多变的计算环境来说,保证 Shuffle 数据处理的稳定性对线上作业的稳定性和运行效率尤为重要。
以ChatGPT为代表的生成式AI大火以来,LLM(Large Language Model)已经成为了各个企业的焦点关注对象。随着AI业务的快速发展,当前LLM训练参数已达万亿级别,而要完成如此量级的参数训练,通常需要拥有千卡、甚至万卡级别的GPU资源。然而只有GPU资源是不够的,更需要有一张零丢包、低时延、高吞吐的AI计算网络将各GPU连接在一起为业务提供高稳定的计算训练服务。 B站网络团队基于业务需求和特性出发,并结合业界对于AI网络的落地实践方案,设计并落地了自己的AI计算网络。本文将简单介绍B站网络团队在建设AI计算网络上的一些设计关键因素和选择。
推荐系统的模型,通过学习用户历史行为来达到个性化精准推荐的目的,因此模型训练依赖的样本数据,需要包括用户特征、服务端推荐的视频特征,以及用户在推荐视频上是否有一系列的消费行为。 推荐模型数据流,即为推荐模型提供带特征和优化目标的训练样本,包括两个模块,一是Label Join模块,负责用户行为的采集。二是feature extract模块,从原始日志中抽取特征,并基于用户行为计算模型优化的目标label。 在B站早期的推荐模型数据流架构中,如下图所示,采样两阶段特征补齐设计。Label Join模块除了完成用户行为的采集,还需要查询实时特征,补齐训练样本依赖的部分原始特征数据,一般是秒级更新的实时特征,存储在Redis中。而Feature Extract模块在计算样本之前,补齐另外一部分原始特征数据,一般是批量更新的特征数据,存储在KFC中(B站自研的KV系统)
动画在影视工业中是相当重要的一个领域。尽管当前先进的视频生成模型比如Sora、可灵或智谱清影在生成三次元视频上取得了成功,他们在处理动画视频时却缺乏同样的效果。此外,由于独特的艺术风格、打破物理规则以及夸张的动作,评估动画视频生成结果也是一个巨大的挑战。 在我们的工作中,我们提出了一个专为动漫视频生成设计的综合系统AniSora,包括数据飞轮、可控的生成模型和一个评估基准。在数据飞轮提供了10M以上高质量数据的支持下,生成模型加入了一个时空掩码模块来实现关键的动画制作功能比如图生视频、视频插帧和局部图像引导动画。我们收集了一个包含了948个不同的动画视频的评估基准。基于VBench指标和人工双盲测试都证明了生成视频在人物和动作上的一致性,取得了在动画视频生成领域行业领先的结果。 业务上,我们的视频生成模型赋能了动态漫内容制作,已经有超过10部自有IP作品运用了AI动态漫能力。相比于人工制作需要专业人员和较长工期,AI动态漫实现了低成本、低门槛、高效率的剧集内容制作,并在多个平台突破千万播放。