面向电商直播场景的全模态大模型推理加速方案

出处： mp.weixin.qq.com

本文主要介绍了面向电商直播场景的全模态理解大模型 TLiveOmni 在 vLLM 框架下的推理部署与量化优化全过程。文章详细阐述了如何通过自定义插件注册、修复多模态Token交替排布及浮点运算顺序等手段，解决vLLM原生架构对Omni模型支持不足及精度漂移的问题。在此基础上，团队采用了 SmoothQuant与GPTQ结合的复合量化方案，并构建了包含5000条高质量数据的校准集以最大限度保留模型效果。最终在H20与RTX 4090硬件上的实测表明，该方案在保证各模态任务精度损失控制在1.5%以内的前提下，实现了2.5倍至3.5倍的推理加速，且针对不同硬件特性总结出了FP8（H20）与W4A16（4090）的最优部署策略。