安全提示:即将离开云搜,稍后自动跳转...
在大语言模型训练中参数初始化的值越小模型更倾向于什么
在大语言模型训练中,参数初始化的值越小,模型更倾向于特征在逐层传递中逐渐缩小,导致神经元难以有效激活,学习能力下降。 具体表现如下 梯度消失风险增加当参数初始化值过小时,前向传播过程中特征值会逐层衰减。在反向传播时,梯度也会随之缩小。这使得模型难以通过梯度更新来
立即访问