rft（拒绝采样微调）提升大模型推理能力

安全提示：即将离开云搜，1秒后自动跳转...

背景论文提出了应用rft（rejection sampling fine-tuning）拒绝采样来生成和收集正确的推理路径，以此作为增强的微调数据集。rft能够生成包含更多独特推理路径的增