• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

RIVAL:面向机器翻译的迭代对抗强化学习

出处: mp.weixin.qq.com

本文提出 RIVAL(Reinforcement Learning with Iterative and Adversarial Optimization),一种针对机器翻译(MT)的迭代对抗强化学习框架。我们发现基于人类反馈的强化学习(RLHF)在口语化字幕翻译任务中表现不佳,主要是因为奖励模型(RM)与翻译模型(LLM)之间存在分布偏移,导致训练失效。RIVAL通过以下创新解决该问题:对抗博弈机制:将RM与LLM的优化过程建模为最小化-最大化博弈,RM负责区分强弱翻译,LLM负责优化弱翻译,以缩小与强翻译的质量差距。双奖励设计:结合语义对齐的定性偏好奖励与定量偏好奖励(如:BLEU分数),提升迭代强化学习训练的稳定性与泛化性。实验表明,RIVAL在口语字幕和WMT数据集上显著优于监督微调(SFT)和专用翻译模型(如:Tower-7B-v0.2),同时保持跨语言泛化能力。

查看原文 81 技术 lddgo 分享于 2025-10-31