腾讯一念LLM新版本发布:硬刚核心调度,满血版DeepSeek推理吞吐提升48%
出处:
mp.weixin.qq.com
DeepSeek-R1发布后,推理框架加速需求暴涨。在最近四个月中,各个开源框架(vLLM,SGLang,FlashInfer等)针对DeepSeek进行专项优化,性能提升了2-3倍。经过四个月的开发,一念发布了0.6.0,支持了DeepSeek模型和分布式推理。针对PCG业务的特殊需求,GPU资源供应灵活性要求高的特点,一念实现了流水线并行(PP)的multi-batch分布式推理方式。相对业界常见的多机DP+EP方案,跨机通讯量降低98.3%,机器之间通讯可以使用TCP,大大降低运营难度。然而即便使用TCP进行机器间通讯,一念的吞吐达到9084 tokens/s,比业界开源框架高48%。