大模型优化利器rlhf之ppo、dpo

安全提示：即将离开云搜，稍后自动跳转...

大模型优化利器rlhf之ppo、dpo

openai 在大多数任务中使用的强化学习算法都是近端策略优化算法（proximal policy optimization, ppo）。近端策略优化可以根据奖励模型获得的反馈优化模型，通过不断