CVPR 2026 | 面向视频扩散模型的局部细节偏好优化方法 LocalDPO
Source :
mp.weixin.qq.com
本文介绍了淘天音视频团队联合外部合作伙伴提出的 LocalDPO 方法,成功入选计算机视觉顶会 CVPR 2026(录用率约25%),针对视频生成模型后训练中局部细节优化难、传统DPO依赖高成本多次采样与人工标注的痛点,创新性地以高质量真实视频为正样本,通过局部时空退化自动构造负样本,并设计区域感知 DPO 损失实现细粒度偏好对齐。该方法无需外部打分模型或人工标注,在 CogVideoX、Wan2.1等主流视频模型上显著提升视觉质量、时序一致性及人类偏好(如纹理清晰度、伪影抑制、运动稳定性),实验表明其在多项自动评测与20人主观评测中均大幅优于 SFT、Vanilla DPO 等基线,为视频生成模型的高效后训练提供了新范式,相关代码与模型已开源。