安全提示:即将离开云搜,1秒后自动跳转...
大模型优化利器rlhf之ppo、dpo
首先训练一个 reward model。 然后将训练数据分成 m 等份(比如 3 等份),取第一份数据,用 llm 对每个 prompt 采样出 k 个答案,使用 reward model 对 k 个回答进行打