news 2026/6/23 6:41:19

DAY25 常见的降维算法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DAY25 常见的降维算法

前言:

在前几天我们主要讨论了关于特征筛选和降维方面的问题,所以在开始今天对常见降维算法进行分析前,我们需要先明确一下特征筛选和降维的区别,特征筛选是关于“取舍”,它在保留特征原始意义的前提下做减法;降维是关于“重构”,它通过创造新特征来做信息浓缩。两种思想:一、先通过特征筛选去掉明显无关或噪声特征,再对剩余的特征进行降维,以达到最佳效果。二、(1)要解释、有成本、需行动→ 特征筛选(2)要性能、可视化、关系复杂→ 降维(3)不确定、有时间、想最优 → 两者都试,用验证集说话。

一、主成分析法(PCA)

PCA的处理流程

1. 对数据进行均值中心化。

2. 对中心化后的数据进行SVD。

3. 使用SVD得到的右奇异向量 `V` 作为主成分方向。

4. 使用奇异值 `S` 来评估每个主成分的重要性(解释的方差)。

5. 使用 `U*S`(或 `X_centered * V`)来获得降维后的数据表示。

PCA主要适用于那些你认为最重要的信息可以通过数据方差来捕获无监督利用特征即可),并且数据结构主要是线性的情况。

二、t-SNE

t-SNE 是一种强大的非线性降维技术,主要用于高维数据的可视化。它通过在低维空间中保持高维空间中数据点之间的局部相似性(邻域关系)来工作。与PCA关注全局方差不同,t-SNE更关注局部细节。理解它的超参数(尤其是困惑度)和结果的正确解读力式非常重要。

三、LDA

线性判别分析 (LDA) 是一种经典的有监督降维算法,也常直接用作分类器。作为降维技术时,其核心目标是找到一个低维特征子空间(即原始特征的线性组合),使得在该子空间中,不同类别的数据点尽可能地分开(类间距离最大化),而同一类别的数据点尽可能地聚集(类内方差最小化)

小结:

PCA等无监督降维方法的目标是保留数据的最大方差,这些方差大的方向不一定是对分类最有用的方向。因此,在分类任务中,LDA通常比PCA更直接有效。当然各种分析方法我们无法对其一概而论,我们需针对特定的情况去分析我们该使用什么方式,实践一下各个方法的效果。

@浙大疏锦行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 4:47:00

9 个课堂汇报 AI 工具,专科生快速生成内容推荐

9 个课堂汇报 AI 工具,专科生快速生成内容推荐 当论文写作成为一场与时间的赛跑 对于专科生来说,课堂汇报、论文写作、文献综述等任务早已成为学习生活中不可或缺的一部分。然而,这些看似普通的学术任务背后,却隐藏着无数令人头疼…

作者头像 李华
网站建设 2026/6/23 19:13:57

郭大勇:以安全固根基 共建数字金融新生态

12月2日至5日,2025企业家博鳌论坛系列活动在海南博鳌举行。在4日举行的数字金融安全发展大会上,中国银联党委副书记、副董事长、总裁郭大勇出席活动并致辞。中国银联党委副书记、副董事长、总裁 郭大勇郭大勇在致辞中表示,在当前数字金融蓬勃…

作者头像 李华
网站建设 2026/6/23 7:38:36

CFCA张野解读《2025数字银行调查报告》

12月4日下午,“2025企业家博鳌论坛-数字金融安全发展大会暨数字金融联合宣传年年度活动”在海南博鳌举行,大会由新华网主办,以“数聚新势 智汇金融”为主题,围绕金融科技突破、数字安全、数字金融创新、金融高质量发展等核心命题展…

作者头像 李华
网站建设 2026/6/22 21:33:32

CFCA刘通:以多维互信的数字身份服务 赋能金融数字化转型

12月4日下午,“2025企业家博鳌论坛-数字金融安全发展大会暨数字金融联合宣传年年度活动”在海南博鳌举行,大会由新华网主办,以“数聚新势 智汇金融”为主题,围绕金融科技突破、数字安全、数字金融创新、金融高质量发展等核心命题展…

作者头像 李华
网站建设 2026/6/23 21:00:55

多模态AI前沿:从Agent构建到视频AIGC

多模态AI前沿:从Agent构建到视频AIGC 2025年,多模态AI(Multimodal AI)已成为人工智能领域的核心前沿,它通过融合文本、图像、音频、视频等多种数据模态,实现更接近人类感知的智能系统。这一演进路径从“Age…

作者头像 李华
网站建设 2026/6/23 14:28:02

SQL的导入导出数据和查询

导入导出数据注意:不是在mysql中运行 是在shell中执行 即终端导入数据-- 本地导入数据 load data local infile 路径 into table 表名 fields terminated by 分隔符;导出数据# 数据库stu 表students 路径 mysqldump -uroot -p stu students > /root/data/mydb.sq…

作者头像 李华