大模型优化利器rlhf之ppo、dpo

安全提示：即将离开云搜，1秒后自动跳转...

大模型优化利器rlhf之ppo、dpo

首先训练一个 reward model。然后将训练数据分成 m 等份（比如 3 等份），取第一份数据，用 llm 对每个 prompt 采样出 k 个答案，使用 reward model 对 k 个回答进行打