面向电商直播场景的全模态大模型推理加速方案
Source :
mp.weixin.qq.com
本文主要介绍了面向电商直播场景的全模态理解大模型 TLiveOmni 在 vLLM 框架下的推理部署与量化优化全过程。文章详细阐述了如何通过自定义插件注册、修复多模态Token交替排布及浮点运算顺序等手段,解决vLLM原生架构对Omni模型支持不足及精度漂移的问题。在此基础上,团队采用了 SmoothQuant与GPTQ结合的复合量化方案,并构建了包含5000条高质量数据的校准集以最大限度保留模型效果。最终在H20与RTX 4090硬件上的实测表明,该方案在保证各模态任务精度损失控制在1.5%以内的前提下,实现了2.5倍至3.5倍的推理加速,且针对不同硬件特性总结出了FP8(H20)与W4A16(4090)的最优部署策略。