在线工具大全

腾讯一念LLM新版本发布：硬刚核心调度，满血版DeepSeek推理吞吐提升48%

出处： mp.weixin.qq.com

DeepSeek-R1发布后，推理框架加速需求暴涨。在最近四个月中，各个开源框架（vLLM，SGLang，FlashInfer等）针对DeepSeek进行专项优化，性能提升了2-3倍。经过四个月的开发，一念发布了0.6.0，支持了DeepSeek模型和分布式推理。针对PCG业务的特殊需求，GPU资源供应灵活性要求高的特点，一念实现了流水线并行（PP）的multi-batch分布式推理方式。相对业界常见的多机DP+EP方案，跨机通讯量降低98.3%，机器之间通讯可以使用TCP，大大降低运营难度。然而即便使用TCP进行机器间通讯，一念的吞吐达到9084 tokens/s，比业界开源框架高48%。

腾讯技术

查看原文

46 技术 lddgo 分享于 2025-06-23

简体中文