DeepSeek-R1群相对策略优化(GRPO)算法深度解析

出处： mp.weixin.qq.com

用四篇文章按照层层深入的方式，依次介绍强化学习基础，基于人类反馈的强化学习(RLHF)，近端策略优化 (PPO) ，群相对策略优化(GRPO)。前面三篇文章分别介绍了强化学习的主要知识点、基于人类反馈的强化学习(RLHF)、近端策略优化 (PPO) 算法。