RIVAL:面向机器翻译的迭代对抗强化学习
                Source : 
                mp.weixin.qq.com
                
                
            
            本文提出 RIVAL(Reinforcement Learning with Iterative and Adversarial Optimization),一种针对机器翻译(MT)的迭代对抗强化学习框架。我们发现基于人类反馈的强化学习(RLHF)在口语化字幕翻译任务中表现不佳,主要是因为奖励模型(RM)与翻译模型(LLM)之间存在分布偏移,导致训练失效。RIVAL通过以下创新解决该问题:对抗博弈机制:将RM与LLM的优化过程建模为最小化-最大化博弈,RM负责区分强弱翻译,LLM负责优化弱翻译,以缩小与强翻译的质量差距。双奖励设计:结合语义对齐的定性偏好奖励与定量偏好奖励(如:BLEU分数),提升迭代强化学习训练的稳定性与泛化性。实验表明,RIVAL在口语字幕和WMT数据集上显著优于监督微调(SFT)和专用翻译模型(如:Tower-7B-v0.2),同时保持跨语言泛化能力。