大模型的学习率(Learning Rate)是控制模型参数更新步长的核心超参数,直接决定训练能否收敛及最终性能 。
核心定义
- 本质:在梯度下降优化中,梯度指出“往哪改”,学习率决定“改多少”。公式为:
新参数 = 旧参数 - 学习率 × 梯度。 - 属性:它是人为设定的超参数,而非模型从数据中学到的权重参数 。
关键影响
- 过大:步长太大,导致损失函数剧烈震荡甚至发散(Loss 爆炸),无法找到最优解 。
- 过小:步长太小,收敛极慢,浪费算力,且易陷入局部最优解 。
- 适中:平衡速度与稳定性,使模型高效逼近全局最优 。
大模型典型范围
大模型参数量巨大,对步长极度敏感,学习率通常远小于小模型:
- 大型基座模型(7B~72B+):常用 1e-5 ~ 1e-6 。
- 中型模型(1B~7B):常用 1e-4 ~ 1e-5 。
- 微调场景:常采用 2e-5 左右,并配合 Warmup 和余弦退火等动态调度策略 。
简言之,学习率是大模型训练的“油门”,需根据模型规模和任务动态调整,过大易失控,过小则低效 。
其中1e-5是科学计数法的数值表达,核心概念如下:
- 基础数值含义
它换算为普通小数是 0.00001,也就是十万分之一。 - 大模型训练场景意义
在大模型微调中,1e-5是大型模型(参数规模>1B)全量微调的经典推荐学习率,能避免破坏预训练好的权重,让训练过程稳定收敛,不会出现梯度震荡或Loss异常的问题。 - 其他常见使用场景
它也常作为深度学习、编程中的精度阈值,比如在C语言、Python的数值计算里,用来判断两个浮点数是否近似相等,控制计算的精度误差。