安全提示:即将离开云搜,1秒后自动跳转...
高效参数微调方法lora微调矩阵旁路矩阵a和b为什么要这么
如果 b和a全部初始化为零矩阵,会发现梯度全部为0,无法进行反向传播更新梯度; 如果b和a全部正态分布初始化,那么在模型训练开始时,就容易得到一个过大的偏移值。