抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

GRPO Cheat Sheet

grpo cheat sheet https://huggingface.co/docs/trl/main/grpo_trainer GRPO(Group Relative Policy Optimization)的4个步骤: 其中1,2阶段相当于准备阶段, 3,4阶段相当真正的训练阶段 生成补完(Generating completions) AKA推理生成, 不带梯度 同一个输入...