TLiveOmni 1.0: 直播视频多模态理解大模型

出处： mp.weixin.qq.com

TLiveOmni 1.0是一款面向电商直播场景的全模态大模型，原生支持图像、文本、视频、音频四模态统一输入，实现128K上下文窗口。该模型深度扎根电商直播领域，构建了超20项精细化原子能力，包括音频维度的语境感知ASR与多说话人分离、视频维度的商品时序切分与卖点提取、以及图像维度的商品空间定位与细粒度OCR。基于Qwen3-VL-Instruct架构，通过添加音频编码器并采用"模态对齐→能力强化→全任务微调"三阶段训练范式，模型在电商直播场景的关键任务上达到SOTA水平。在推理部署方面，通过定制化vLLM框架和FP8量化技术，在保持精度的同时实现2.5-3.5倍推理加速。实验表明，TLiveOmni 1.0在语音识别、商品定位和文本分类等任务上显著优于现有开源模型，为电商直播内容的深度理解与商业价值挖掘提供了强大支持。