news 2026/1/8 6:47:00

sklearn函数总结十一 —— 随机森林

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
sklearn函数总结十一 —— 随机森林

纯手打,代码整理中,持续更新中^-^

序号延用总结十

18.1 随机森林算法核心思想

随机森林属于集成学习中的 Bagging 类型。

  • “森林”:由多棵决策树构成的“森林”,最终的预测结果由所有决策树共同决定(例如,通过投票)。

  • “随机”:主要体现在两个方面:

    • 数据随机性 (Bootstrap Aggregating, Bagging): 每棵树训练时,不是使用全部数据集,而是有放回地随机抽取一个子集(Bootstrap Sample)。这意味着有些样本可能被多次抽取,而有些样本可能从未被选中(称为 Out-of-Bag, OOB)。

    • 特征随机性: 每棵树在分裂节点时,不是从所有特征中选择最优特征,而是先随机选取一个特征子集,然后从这个子集中寻找最优分裂点。

这种双重随机性的设计,有效降低了模型的方差(Variance),避免了单棵决策树容易过拟合的问题,使得模型更具泛化能力,且不容易受噪声数据影响。

18.2 随机森林分类器的优势

  1. 高性能:通常能产生非常高的准确率,是许多数据科学竞赛中的“常胜将军”。

  2. 抗过拟合:通过集成多棵树和随机性,有效降低了过拟合风险。

  3. 处理高维数据:可以处理具有大量特征的数据集。

  4. 评估特征重要性:内置功能可以输出每个特征对预测的贡献程度。

  5. 无需大量预处理:对数据分布没有严格假设,不需要对数据进行标准化(但有时标准化会有帮助)。

  6. 处理缺失值:虽然有内置方法,但通常建议先自行处理缺失值。

18.3 关键超参数详解

sklearn.ensemble.RandomForestClassifier有许多参数,以下是一些最常用的:

参数含义默认值说明
n_estimators森林中树的数量100通常越大越好,但计算成本也会增加。建议从 100 开始调参。
criterion分裂节点时使用的衡量标准'gini'可选 'gini'(基尼系数)或 'entropy'(信息增益)。gini 更快,entropy 理论上更优。
max_depth树的最大深度None(不限制)限制树的深度,防止过拟合的关键参数。设置较小值可加快训练速度并减少过拟合。
min_samples_split分裂内部节点所需的最小样本数2控制树的复杂度,值越大越平滑。
min_samples_leaf叶节点所需的最小样本数1增大此值可平滑模型,防止叶子太小导致过拟合。
max_features寻找最佳分裂时考虑的特征数自动推断是引入特征随机性的关键参数。
可设为:
• 整数 / 浮点数(如 auto 或 sqrt → sqrt(n_features))
• 字符串(如 'log2')
• 'auto' 等同于 'sqrt'

18.4 代码示例

from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, classification_report from sklearn.model_selection import train_test_split # 1,加载数据 iris = load_iris() X = iris.data # 特征矩阵(150个样本,4个特征:萼长、萼宽、瓣长、瓣宽) y = iris.target # 特征值 目标向量(3类鸢尾花:0,1,2) # 2,数据预处理 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # 划分训练集和测试集 # 3,创建和训练模型 rfc_model = RandomForestClassifier(n_estimators=100, # 100棵树 oob_score=True, # 启用OOB评估 max_depth=3) # 控制树的深度,防止过拟合 rfc_model.fit(X_train, y_train) # 训练模型 # 4,进行预测并评估模型 y_pred = rfc_model.predict(X_test) # 在测试集上进行预测 print('随机森林预测值: ', y_pred) print('正确值 : ', y_test) accuracy = accuracy_score(y_test, y_pred) # 计算准确率 print(f'测试集准确率: {accuracy:.2f}') print('分类报告: \n', classification_report(y_test, y_pred, target_names=iris.target_names))

运行结果

18.5 超参数调优建议

上面的例子使用了默认或手动设置的参数。在实际项目中,为了获得最佳性能,通常需要进行超参数调优。最常用的方法是 Grid Search(网格搜索) 或 Random Search(随机搜索)。

from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, classification_report from sklearn.model_selection import train_test_split, GridSearchCV # 1. 加载数据 iris = load_iris() X = iris.data # 特征矩阵 (150个样本,4个特征:萼长、萼宽、瓣长、瓣宽) y = iris.target # 目标向量 (3类鸢尾花:0, 1, 2) # 2. 数据预处理:划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 3. 定义超参数搜索空间(参数网格) param_grid = { 'n_estimators': [50, 100, 200], # 森林中树的数量 'max_depth': [None, 5, 10, 15], # 树的最大深度(None 表示不限制) 'min_samples_split': [2, 5, 10], # 内部节点分裂所需的最小样本数 'max_features': ['sqrt', 'log2'] # 分裂时考虑的特征数量策略 } # 4. 创建网格搜索对象 grid_search = GridSearchCV( estimator=RandomForestClassifier(random_state=42), # 基础模型 param_grid=param_grid, # 参数网格 cv=5, # 5折交叉验证 scoring='accuracy', # 评估指标:准确率 n_jobs=-1 # 并行使用所有CPU核心 ) # 5. 在训练集上执行网格搜索(可能耗时) grid_search.fit(X_train, y_train) # 6. 输出调优结果 print("最佳参数: ", grid_search.best_params_) print("最佳交叉验证分数: ", grid_search.best_score_) # 7. 使用最优模型进行预测并评估 best_rf_model = grid_search.best_estimator_ y_pred_best = best_rf_model.predict(X_test) print("调优后测试集准确率: ", accuracy_score(y_test, y_pred_best))

输出运行结果

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/5 6:49:57

UI自动化测试常见面试题

1、什么是UI自动化测试? UI自动化测试是一种通过模拟用户交互并自动执行UI操作的软件测试方法。它用于验证用户界面的功能和稳定性,以确保在不同的操作系统、浏览器和设备上的一致性。 2、UI自动化测试的优势和劣势是什么? 优势&#xff1…

作者头像 李华
网站建设 2026/1/7 17:30:35

Linux OOM 问题之 DMSERVER 受害者

Shell 脚本模拟(无需安装工具) OOM 问题#!/bin/bash #持续申请内存,每次申请 100MB,直到内存耗尽。while true; do # 创建 100MB 临时文件,读取到内存(cat 命令会占用内存)。cat /dev/zero |head -c 100M |tail & done运行脚本&#xff1…

作者头像 李华
网站建设 2026/1/6 16:16:12

Flutter引擎裁剪与鸿蒙方舟编译协同优化

欢迎大家加入开源鸿蒙跨平台开发者社区,一起共建开源鸿蒙跨平台生态。 Flutter引擎裁剪与鸿蒙方舟编译协同优化 Flutter引擎的冗余模块会增加包体积并影响启动速度。通过分析flutter_engine源代码,可识别非必要模块进行裁剪。常见可移除模块包括&#…

作者头像 李华
网站建设 2026/1/7 5:53:15

STM32CubeMX的main.c开头介绍

简单来说,这些 USER CODE BEGIN 和 USER CODE END 包裹的区域是 “代码保护区”。1. 这些区域是什么?为什么要这样设计?STM32CubeMX 是一个图形化配置工具,它可以自动帮你生成底层驱动代码(如 GPIO 初始化、时钟配置等…

作者头像 李华
网站建设 2026/1/7 8:55:35

26.MPSOC FPGA linux读AHT20传感器

一、vivado 工程搭建因为十分简单&#xff0c;不在赘述。生成平台文件&#xff0c;导出&#xff0c;建立vitis linux 设备树工程&#xff0c;不在赘述。生成的设备树文件&#xff1a;axi_iic_0: i2c80000000 {#address-cells <1>;#size-cells <0>;clock-names &…

作者头像 李华
网站建设 2026/1/6 21:44:22

嵌入式系统时序图完全指南:从原理到实战

嵌入式系统时序图完全指南&#xff1a;从原理到实战在嵌入式系统开发中&#xff0c;时序图是理解硬件交互的关键语言。本文将全面解析时序图的阅读、测量和应用技巧&#xff0c;帮助您掌握这一硬件工程师的核心技能。一、时序图基础&#xff1a;硬件通信的蓝本 1.1 时序图核心要…

作者头像 李华