news 2026/3/7 23:48:41

机器学习--线性回归

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习--线性回归

1、线性回归定义

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

相关关系:包含因果关系和平行关系

因果关系:回归分析【原因引起结果,需要明确自变量和因变量

平行关系:相关分析【无因果关系,不区分自变量和因变量

2、一元线性回归模型


一元线性回归模型是分析一个自变量(X) 与一个因变量(Y) 之间线性关系的统计模型,核心表达式为:Y = β₀ + β₁X + ε
其中:

• β₀ 是截距项(X=0时Y的估计值),β₁ 是斜率(X每变化1单位,Y的平均变化量);

• ε 是随机误差项(表示模型无法解释的Y的变异,满足均值为0、方差恒定等假设)。

误差项:除线性因素外的随机因素所产生的误差

3、多元线性回归模型

多元线性回归模型是分析多个自变量(X₁, X₂, ..., Xₖ) 与一个因变量(Y) 之间线性关系的统计模型,核心表达式为:Y = β₀ + β₁X₁ + β₂X₂ + … + βₖXₖ + ε
其中:

β₀ 是截距项(所有自变量为0时Y的估计值),β₁~βₖ 是偏回归系数(某一自变量变化1单位、其他自变量固定时,Y的平均变化量);

ε 是随机误差项(满足均值为0、方差恒定、独立性、正态性等假设)。

4、误差项分析

1)误差项可以省略吗?

答:误差项不可省略,误差是必然产生的。并且由于产生了误差项,我们便可以基于误差的特点来进行对线性回归的参数估计的。

2)误差项有什么特点?

答:独立同分布。
独立:每个样本点都是独立的;

例:贷款,每个人与每个人之间是没有联系的,贷多少钱完全基于你的工资。
同分布:同分布就是我的这套估计体系是我人民银行的估计体系,每个人都是服从我的分布体系,不会使用别人的,也就是说每个样本点都处于同一个分布函数下。

3)误差项满足高斯分布


5、极大似然估计

极大似然估计是一种统计方法,用于估计概率模型的参数。其核心思想是选择能够使观测数据出现概率最大的参数值。通过最大化似然函数或对数似然函数,找到最符合数据的参数估计。

6、似然函数求解

保留1/2是因为方便后续的求导

7、相关系数

又称皮尔逊相关系数,是研究变量之间相关关系的度量,一般用字母r表示

Cov(X,Y)为X与Y的协方差

Var[X]为X的方差

Var[Y]为Y的方差

相关系数的解释:
1. |r|≥0.8时,视为两个变量之间高度相关

2. 0.5≤|r|<0.8时,视为中度相关

3. 0.3≤|r|<0.5时,视为低度相关

4. |r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关

8、拟合优度


注:分子第一个y表示预测值,第二个y表示平均值,分母第一个y表示真实值

9、statsmodels

statsmodels是一个有很多统计模型的python库,能完成很多统计测试,数据探索以及可视化。它也包含一些经典的统计方法,比如贝叶斯方法等。

• 线性模型

• 线性混合效应模型

• 方差分析方法

• 时间序列模型

• 广义矩阵估计方法

1)假设检验

原理:小概率原理:小概率事件在一次抽样中不会发生。

H0:原假设 【希望原假设被接受】
H1:备择假设 【与原假设对立】

接受H0与拒绝H0的判别方法:看小概率事件是否发生。

2)假设检验的步骤

1. 先假设H0是真的,然后判别小概率事件是否发生,如果发生,就拒绝H0,接受H1,如果没有发生,就接受H0。
解释:整体的思想为小概率事件在一次抽样中不发生,小概率事件不发生是极大概率事件,所以上面的假设就是合理的。

2. 深入思考,如果小概率事件发生了,此时却拒绝了H0,就是拒绝了真实的情况,那么就犯了第一类错误,即拒真;拒真的概率就是我们所定的,即显著性水平,一般为0.05。

3)检验方法

F检验(线性关系检验)
目的:检验自变量x与因变量y之间的线性关系是否显著,或者说,他们之间能否用一个线性模型来表示。【对于整个方程显著性的检验

T检验(回归系数检验)
目的:通过对回归系数\beta与0的检验,看其是否有显著性差异,来判断回归系数是否显著。【检验系数是否显著

4)调整R方

简单来说,就是使用R方时,不断添加变量能让模型的效果看似提升,但这种提升是虚假的。

而利用调整后的决定系数(adjusted r square),能对添加的非显著变量给出惩罚,即随意添加一个变量不一定能让模型拟合度上升。

注:如果针对的是多元线性回归,调整R方效果更好

10、数据标准化

1)0~1标准化:

也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间

2)Z标准化:

这种方法基于原始数据的均值和标准差进行数据的标准化。将A的原始值x使用z-score标准化到x'

11、sklearn实现一元线性回归

import pandas as pd from sklearn.linear_model import LinearRegression from matplotlib import pyplot as plt a=pd.read_csv('data.csv') #绘制散点图 plt.scatter(a.广告投入,a.销售额) plt.show() # corr = data.corr()#求x和y的相关系数 #估计模型参数,建立回归模型 lr=LinearRegression() x=a[['广告投入']] y=a[['销售额']] lr.fit(x,y)#训练模型 # 对回归模型进行检验 b=lr.predict(x) scores=lr.score(x,y)#这里的R方指的就是scores print(scores) n=lr.coef_#斜率 j=lr.intercept_#截距 print(n[0][0]) print(j[0])

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/3 2:09:54

1、Linux网络管理与资源指南

Linux网络管理与资源指南 1. 网络时代与Linux简介 在当今许多国家,互联网已成为家喻户晓的词汇,计算机网络正逐渐走向像电视机和微波炉一样普及。尽管网络的存在由来已久,但如今全球网络的迅速发展,使得即使是小型非营利组织和个人计算机用户也能轻松加入全球网络。 谈及…

作者头像 李华
网站建设 2026/3/5 4:28:56

9、Linux 下 PPP 协议的深入解析与配置指南

Linux 下 PPP 协议的深入解析与配置指南 1. PPP 协议概述 PPP(Point-to-Point Protocol)是一种用于通过串行连接发送数据报的协议,它解决了 SLIP 协议的一些不足。与 SLIP 不同,PPP 可以承载多种协议,不仅限于 IP 协议,还能在链路上进行错误检测。此外,PPP 允许通信双…

作者头像 李华
网站建设 2026/3/7 14:17:27

13、Linux网络重要特性全解析

Linux网络重要特性全解析 1. 网络应用基础 在成功设置好IP和解析器后,我们需要关注通过网络提供的服务。这里将介绍一些简单网络应用的配置,包括inetd服务器和rlogin家族的程序,还会简要提及远程过程调用(RPC)接口。不过,像网络文件系统(NFS)和网络信息系统(NIS)等…

作者头像 李华
网站建设 2026/3/6 23:48:57

17、深入了解 Taylor UUCP:原理、配置与应用

深入了解 Taylor UUCP:原理、配置与应用 1. UUCP 简介 UUCP(Unix-to-Unix Copy Program)由 AT&T 贝尔实验室的 Mike Lesk 在 20 世纪 70 年代末设计,旨在通过公共电话线提供简单的拨号网络。尽管如今拨号 PPP 和 SLIP 连接到互联网很流行,但许多希望在家用机器上使用…

作者头像 李华
网站建设 2026/3/5 18:35:35

避开“入狱”陷阱:零基础网络安全入门实战指南与知识图谱

引言 随着数字化时代的到来&#xff0c;网络安全已成为企业和个人不可或缺的防护屏障。无论是防止数据泄露&#xff0c;还是抵御黑客攻击&#xff0c;网络安全工程师的角色越来越重要。 那么&#xff0c;如果你想入行网络安全&#xff0c;需要学习哪些知识点呢&#xff1f; …

作者头像 李华
网站建设 2026/3/5 18:15:12

基于深度学习的安防监控校园暴力行为检测算法研究

目录 前言选题背景数据集数据预处理方法数据分割功能模块介绍多层次门控双流网络模块多模态注意力多流网络模块实验评估模块算法理论深度学习基础理论多流网络理论注意力机制理论多模态融合理论核心代码介绍多层次时序模块代码门控连接模块代码三重注意力融合模块代码重难点和创…

作者头像 李华