TLiveOmni 1.0: 直播视频多模态理解大模型
Source :
mp.weixin.qq.com
TLiveOmni 1.0是一款面向电商直播场景的全模态大模型,原生支持图像、文本、视频、音频四模态统一输入,实现128K上下文窗口。该模型深度扎根电商直播领域,构建了超20项精细化原子能力,包括音频维度的语境感知ASR与多说话人分离、视频维度的商品时序切分与卖点提取、以及图像维度的商品空间定位与细粒度OCR。基于Qwen3-VL-Instruct架构,通过添加音频编码器并采用"模态对齐→能力强化→全任务微调"三阶段训练范式,模型在电商直播场景的关键任务上达到SOTA水平。在推理部署方面,通过定制化vLLM框架和FP8量化技术,在保持精度的同时实现2.5-3.5倍推理加速。实验表明,TLiveOmni 1.0在语音识别、商品定位和文本分类等任务上显著优于现有开源模型,为电商直播内容的深度理解与商业价值挖掘提供了强大支持。