心流logo

grpo 算法 GRPO算法的核心优势是什么? GRPO算法是如何进行策略优化的? GRPO算法在处理复杂数学任务时,是如何提供奖励的?

GRPO算法的核心优势

  1. 效率和有效性:GRPO算法在强化学习(RL)训练过程中表现出了卓越的有效性和效率,相较于传统的PPO算法,GRPO通过消除训练额外critic模型的必要性,显著减少了训练过程中的计算和内存需求





  2. 减少训练成本:GRPO算法通过使用群体得分来估计基线,而不是像PPO中那样进行额外的价值函数近似,从而显著降低了训练成本,同时仍能使模型充分发挥潜力

  3. 奖励模型的稳定性:GRPO算法简化了优势值的计算过程,直接使用标准化的奖励信号来估算动作的优势,这有助于提高奖励模型的稳定性

GRPO算法的策略优化

  1. 利用相对奖励:GRPO算法通过最大化一组输出中的相对奖励来优化策略模型。对于每个问题,从旧策略中抽取一组输出,然后通过最大化以下目标来优化策略模型:其中 和 是超参数,是基于每组内部输出的相对奖励计算的优势

  2. 过程监督:GRPO算法不仅在每次输出的结束时提供奖励,还在每个推理步骤结束时提供奖励,这有助于更有效地监督复杂数学任务中的策略

  3. 迭代强化学习:GRPO算法通过迭代过程进行训练,奖励模型会根据策略模型的输出不断更新,以确保策略的持续改进

GRPO算法在处理复杂数学任务时的奖励提供

  1. 基于证明助手反馈的强化学习:在处理复杂数学任务时,GRPO算法利用Lean证明器的验证结果作为奖励监督,增强了模型与验证系统形式化规范的一致性。如果验证正确,则每个生成的证明将获得1的奖励,否则将获得0的奖励

  2. 选择挑战性但可实现的训练提示:为了缓解奖励信号的稀疏性,GRPO算法会选择对有监督微调模型具有挑战性但可实现的训练提示,如上所述

  3. 通过蒙特卡洛树搜索算法进行探索:GRPO算法通过引入蒙特卡洛树搜索算法(如RMaxTS),鼓励证明agent生成不同的规划路径,从而促进对证明空间的广泛探索