数据挖掘05-育师

数据挖掘05

书接上回

1.包含动量的随机梯度下降算法

（1）定义

包含动量的随机梯度下降（Momentum Stochastic Gradient Descent, 简称 SGD with Momentum）是一种在标准随机梯度下降（SGD）基础上引入“动量”项的优化算法，旨在加速收敛、减少震荡，并帮助模型跳出局部极小值或鞍点。

（2）复习一下上一篇介绍过的SGD

标准 SGD 在每次迭代中使用一个样本（或一个小批量）来估计梯度并更新参数，公示如下：

缺点：

1）更新方向完全依赖当前梯度，容易产生高方差和震荡；

2）在狭窄峡谷或非凸地形中收敛缓慢；

3）容易陷入局部最优或鞍点。

(3)更新方向完全依赖当前梯度，为什么容易产生高方差和震荡?

因为每次根据样本估计的梯度可能与真实梯度方向相差很远，
所以会出现：

有时更新方向接近最优；

有时却几乎垂直甚至反向；

导致参数在最优解附近来回震荡，而不是平稳靠近。

举个例子：

假设你在一个嘈杂的房间里听人说话。每次只听一个词（SGD），这个词可能是“向左”也可能是“向右”，即使整体趋势是“向前”。你每一步都按听到的词走，就会左右乱晃。

（4）为什么SGD在狭窄峡谷或非凸地形中收敛缓慢？

狭窄峡谷：
例子：
在一条深而窄的山谷里想走到谷底最低点。每次你只看脚下最陡的方向往下跳，结果就是不断撞到左右岩壁，前进效率极低。

非凸地形：

存在大量鞍点（saddle points）和平坦区域（plateaus）；

SGD 在平坦区域梯度接近零导致更新几乎停滞；

复习完毕，我们看下带动量的SGD

（5）动量机制的引入

动量方法借鉴了物理学中的“惯性”概念：参数更新不仅考虑当前梯度，还累积过去梯度的方向，形成一种“速度”。

动量 SGD 的更新公式：

动量是历史梯度的加权和，形成一个惯性速度。

动量不是只记住“上一次”的梯度，而是综合了最近若干次梯度的方向和大小。

（6）动量的作用：

1）平滑更新方向：通过指数加权平均历史梯度，减少随机噪声的影响。

2）加速收敛：在一致方向上持续加速（如沿峡谷底部）。

3）帮助逃离平坦区域：即使当前梯度很小，若之前有动量，仍可继续移动。

2.Adagrad算法

（1）定义

AdaGrad（Adaptive Gradient Algorithm）是一种自适应学习率优化算法。

核心思想是：
为每个参数分配一个独立的学习率，根据该参数的历史梯度大小自动调整。
梯度大的参数学习率变小，梯度小的参数学习率变大。

（2）为什么需要自适应学习率？

我们知道，在标准 SGD 中：

所有参数都使用同一个全局学习率 η；

但不同参数的重要性、更新频率、梯度尺度可能差异巨大。

所以，为了解决这个问题，引入自适应学习率，让每个参数“按需调整步长”。

（3）公式

调节学习率的原理：

（4）性质

优点：

特别适合稀疏数据（如自然语言处理、推荐系统中的嵌入层），能显著提升收敛速度和性能。

缺点：

3.RMSprop算法

（1）定义

RMSProp（Root Mean Square Propagation）是一种自适应学习率优化算法。

核心思想是：

对 AdaGrad 进行改进，通过引入指数移动平均（EMA）来“遗忘”久远的梯度信息，从而避免学习率过早衰减到零的问题。

（2）回顾 AdaGrad：

它累积所有历史梯度的平方和：

这会导致学习率分母持续增大 → 学习率单调下降 → 训练后期几乎停止更新。

为了解决这个问题，我们提出了RMSprop。

（3）公式：

对每个参数（或整体向量形式），RMSProp 的更新规则如下：

（4）性质

1）指数移动平均（EMA）

这样就能更好的调节学习率：

2）避免学习率崩溃

因为旧梯度被遗忘，所以 vt 不会无限增长，分母不会趋于无穷；

学习率可以在训练后期保持一定活性，适合长时间训练。

【收藏必看】2025大模型技术岗位全景图：15大方向详解，助你成为AI人才

本文详细介绍了15个大模型相关技术岗位的招聘信息，涵盖推理优化、框架研发、训练加速、多模态研究等多个方向。各岗位明确了职责要求和技能门槛，包括编程语言、框架经验、并行计算等核心技术能力，为有志于进入大模型领域的开发者提供全面的职…

李华

LobeChat支持GraphQL接口吗？API扩展能力分析

LobeChat 的 API 扩展之路：GraphQL 是否可行？ 在构建现代 AI 聊天应用时，开发者越来越关注系统的可扩展性与前后端协作效率。LobeChat 作为一款基于 Next.js 的开源大语言模型（LLM）交互门户，凭借其优雅的 U…

李华

LobeChat能否实现对话分享功能？链接公开化实践

LobeChat 能否实现对话分享？一场关于链接公开化的工程实践在今天，一个 AI 聊天工具是否“好用”，早已不再仅仅取决于它能多快给出答案。真正决定用户体验上限的，是它能否让这些对话走出个人设备，变成可传播、可复用、…

李华

全球工程软件格局重塑：中国AI原生平台的机会窗口

2025年，一场静默却深刻的变革正在全球工程软件领域发生。美国商务部3月更新的工业软件出口管制清单，使35%的中国甲级设计院无法获得电力、核能等关键领域最新软件授权。表面看是技术断供，实则暴露了一个更深层问题：传统工程软件…

李华

【Dubbo】接口特性与开发注意事项

Dubbo 接口的核心特性服务化最佳实践规范分包原则（Package Structure） API包完整性：服务接口、服务模型（DTO）、服务异常必须放在同一个API包中，模型和异常是接口语义的一部分。设计原则：符合R…

李华

测试环境管理的最佳实践

测试环境的战略价值在敏捷开发与DevOps普及的当下，测试环境已成为软件质量保障的核心基础设施。2025年行业数据显示，超过67%的缺陷逃逸源于环境不一致问题，使得环境管理从技术支撑升级为质量工程的关键环节。本文将从环境架构设计、配置治理…

李华

数据挖掘05

1.包含动量的随机梯度下降算法

（1）定义

（2）复习一下上一篇介绍过的SGD

(3)更新方向完全依赖当前梯度，为什么容易产生高方差和震荡?

（4）为什么SGD在狭窄峡谷或非凸地形中收敛缓慢？

（5） 动量机制的引入

（6）动量的作用：

2.Adagrad算法

（1）定义

（2）为什么需要自适应学习率？

（3）公式

3.RMSprop算法

（1）定义

（2）回顾 AdaGrad：

（3）公式：

（4）性质

1）指数移动平均（EMA）

2）避免学习率崩溃

【收藏必看】2025大模型技术岗位全景图：15大方向详解，助你成为AI人才

LobeChat支持GraphQL接口吗？API扩展能力分析

LobeChat能否实现对话分享功能？链接公开化实践

全球工程软件格局重塑：中国AI原生平台的机会窗口

【Dubbo】接口特性与开发注意事项

测试环境管理的最佳实践

（5）动量机制的引入