CVPR 2026 | 面向视频扩散模型的局部细节偏好优化方法 LocalDPO

Source : mp.weixin.qq.com

本文介绍了淘天音视频团队联合外部合作伙伴提出的 LocalDPO 方法，成功入选计算机视觉顶会 CVPR 2026（录用率约25%），针对视频生成模型后训练中局部细节优化难、传统DPO依赖高成本多次采样与人工标注的痛点，创新性地以高质量真实视频为正样本，通过局部时空退化自动构造负样本，并设计区域感知 DPO 损失实现细粒度偏好对齐。该方法无需外部打分模型或人工标注，在 CogVideoX、Wan2.1等主流视频模型上显著提升视觉质量、时序一致性及人类偏好（如纹理清晰度、伪影抑制、运动稳定性），实验表明其在多项自动评测与20人主观评测中均大幅优于 SFT、Vanilla DPO 等基线，为视频生成模型的高效后训练提供了新范式，相关代码与模型已开源。