RIVAL：面向机器翻译的迭代对抗强化学习

出处： mp.weixin.qq.com

本文提出 RIVAL（Reinforcement Learning with Iterative and Adversarial Optimization），一种针对机器翻译（MT）的迭代对抗强化学习框架。我们发现基于人类反馈的强化学习（RLHF）在口语化字幕翻译任务中表现不佳，主要是因为奖励模型（RM）与翻译模型（LLM）之间存在分布偏移，导致训练失效。RIVAL通过以下创新解决该问题：对抗博弈机制：将RM与LLM的优化过程建模为最小化-最大化博弈，RM负责区分强弱翻译，LLM负责优化弱翻译，以缩小与强翻译的质量差距。双奖励设计：结合语义对齐的定性偏好奖励与定量偏好奖励（如：BLEU分数），提升迭代强化学习训练的稳定性与泛化性。实验表明，RIVAL在口语字幕和WMT数据集上显著优于监督微调（SFT）和专用翻译模型（如：Tower-7B-v0.2），同时保持跨语言泛化能力。