在大语言模型训练中参数初始化的值越小模型更倾向于什么

安全提示：即将离开云搜，稍后自动跳转...

在大语言模型训练中，参数初始化的值越小，模型更倾向于特征在逐层传递中逐渐缩小，导致神经元难以有效激活，学习能力下降。具体表现如下梯度消失风险增加当参数初始化值过小时，前向传播过程中特征值会逐层衰减。在反向传播时，梯度也会随之缩小。这使得模型难以通过梯度更新来