• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

DeepSeek-R1群相对策略优化(GRPO)算法深度解析

出处: mp.weixin.qq.com

用四篇文章按照层层深入的方式,依次介绍强化学习基础,基于人类反馈的强化学习(RLHF),近端策略优化 (PPO) ,群相对策略优化(GRPO)。前面三篇文章分别介绍了强化学习的主要知识点、基于人类反馈的强化学习(RLHF)、近端策略优化 (PPO) 算法。

查看原文 30 技术 lddgo 分享于 2025-09-11