news 2026/7/6 1:26:44

大模型学习率

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型学习率

大模型的学习率(Learning Rate)是控制模型参数更新‌步长‌的核心超参数,直接决定训练能否收敛及最终性能 。

核心定义

  • 本质‌:在梯度下降优化中,梯度指出“往哪改”,学习率决定“改多少”。公式为:新参数 = 旧参数 - 学习率 × 梯度
  • 属性‌:它是人为设定的‌超参数‌,而非模型从数据中学到的权重参数 。

关键影响

  • 过大‌:步长太大,导致损失函数剧烈震荡甚至发散(Loss 爆炸),无法找到最优解 。
  • 过小‌:步长太小,收敛极慢,浪费算力,且易陷入局部最优解 。
  • 适中‌:平衡速度与稳定性,使模型高效逼近全局最优 。

大模型典型范围

大模型参数量巨大,对步长极度敏感,学习率通常远小于小模型:

  • 大型基座模型(7B~72B+)‌:常用 ‌1e-5 ~ 1e-6‌ 。
  • 中型模型(1B~7B)‌:常用 ‌1e-4 ~ 1e-5‌ 。
  • 微调场景‌:常采用 ‌2e-5‌ 左右,并配合 Warmup 和余弦退火等动态调度策略 。

简言之,学习率是大模型训练的“油门”,需根据模型规模和任务动态调整,过大易失控,过小则低效 。

其中1e-5是‌科学计数法的数值表达‌,核心概念如下:

  1. 基础数值含义
    它换算为普通小数是 ‌0.00001‌,也就是十万分之一。
  2. 大模型训练场景意义
    在大模型微调中,1e-5是大型模型(参数规模>1B)全量微调的经典推荐学习率,能避免破坏预训练好的权重,让训练过程稳定收敛,不会出现梯度震荡或Loss异常的问题。
  3. 其他常见使用场景
    它也常作为深度学习、编程中的精度阈值,比如在C语言、Python的数值计算里,用来判断两个浮点数是否近似相等,控制计算的精度误差。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/6 1:24:56

Ubuntu24+Ollama+Open-WebUI+SearXNG本地部署搜索引擎联网搜索

已经有很好的教程了,我也不多说什么了 DeepSeek联网搜索实战:OpenWebUI集成SearXng本地搜索引擎的完整配置指南 DeepSeek联网搜索(OpenWebUISearXng本地搜索引擎联网搜索) 我说下我的安装时碰到的问题,解决以后的心…

作者头像 李华
网站建设 2026/7/6 1:23:50

把公司数据喂给AI,会不会泄密?——老板最该问的安全问题

把公司数据喂给AI,会不会泄密?——老板最该问的安全问题 会不会泄密,不取决于AI,取决于你把数据喂给了哪一档AI:员工拿个人账号往免费网页版里贴,数据就传到了别人的服务器上,可能成为训练材料—…

作者头像 李华
网站建设 2026/7/6 1:22:14

DAY 15

浙大疏锦行 代码极简逻辑 1. 数据预处理 读取信贷csv,分离特征与违约标签;文本特征编码;查看样本是否不平衡。 2. 数据集拆分 分层划分训练/测试集,保证两组违约样本比例一致。 3. 搭建4套对比流水线(防数据泄露…

作者头像 李华
网站建设 2026/7/6 1:20:44

Java 日志打印:别再 log.info(“dto:{}“, dto) 了,可能比你想的更坑

写在前面 处方物流信息同步优化:从 36 秒到亚秒级的踩坑记录 最近在排查一个线上接口性能问题,处理时间从正常的几百毫秒飙到了 30 多秒。排查过程中翻了一遍代码,发现一处很"不起眼"的日志: log.info("药品订单…

作者头像 李华
网站建设 2026/7/6 1:20:40

2026最新7款AI编程助手基础版免费实测合集

上周花了整周时间,我把 5 款 AI 编程工具分别用在 5 个不同模块上——一个工具一个模块,看最终代码质量差异。作为一名从Android转后端做副业的开发者,我平时大部分时间都在维护自己的知识付费平台,经常需要快速迭代功能&#xff…

作者头像 李华