安全提示:即将离开云搜,1秒后自动跳转...
rft(拒绝采样微调)提升大模型推理能力
背景 论文提出了应用rft(rejection sampling fine-tuning) 拒绝采样来生成和收集正确的推理路径,以此作为增强的微调数据集。rft能够生成包含更多独特推理路径的增
立即访问