随机森林（初步学习）-育师

随机森林是一种集成学习（Ensemble Learning）算法，核心思想是构建多个决策树，通过投票或平均的方式输出结果，以此降低单一决策树过拟合的风险，提升模型的泛化能力。

它在机器学习的分类、回归、特征重要性评估等任务中被广泛应用，是工业界和学术界最常用的算法之一。

一、核心原理：“随机” + “森林”

随机森林的 “随机” 体现在两个层面，“森林” 指由多棵决策树组成的集合：

样本随机（Bootstrap 抽样）
- 从原始训练集中，通过有放回抽样的方式，为每一棵决策树生成一个独立的训练子集。
- 这样做的目的是让每棵决策树的训练数据存在差异，避免所有树都学习到相同的特征模式，提升模型多样性。
- 未被抽到的样本称为OOB（Out-of-Bag）样本，可用于无额外验证集的模型评估。
特征随机（随机子空间）
- 在构建每一棵决策树的每个节点时，不是从所有特征中选择最优特征进行划分，而是随机选择一部分特征，再从这部分特征中选最优。
- 例如总共有 100 个特征，每棵树的每个节点随机选 10 个特征来划分。
- 这一步能进一步降低树与树之间的相关性，让森林的 “投票” 更有意义。
预测规则
- 分类任务：所有决策树分别预测类别，最终结果由多数投票决定（得票最多的类别为最终预测）。
- 回归任务：所有决策树分别预测数值，最终结果由所有树预测值的平均值决定。

二、优缺点

优点

泛化能力强：有效降低过拟合，相比单一决策树，在复杂数据集上表现更稳定。
对噪声不敏感：能处理含噪声的数据集，不易受异常值影响。
支持高维数据：无需特征工程（如降维）也能处理高维数据，同时可输出特征重要性，帮助筛选关键特征。
训练并行化：每棵树的训练相互独立，可利用多核 CPU 并行加速，训练效率高。

缺点

模型解释性差：决策树本身是 “白盒” 模型，但随机森林由多棵树组成，整体是 “黑盒”，难以直观解释预测逻辑。
对小样本数据集效果一般：样本量过小时，Bootstrap 抽样可能导致训练集多样性不足，模型性能下降。
内存占用较大：需要存储多棵决策树的结构，数据量大时内存消耗较高。

三、关键超参数（以 Python`sklearn`为例）

在使用sklearn.ensemble.RandomForestClassifier（分类）或RandomForestRegressor（回归）时，需调整以下核心超参数：

超参数	作用	调优建议
`n_estimators`	决策树的数量	通常越大效果越好，但达到一定阈值后性能趋于稳定；太大则会增加训练时间
`max_depth`	每棵树的最大深度	限制树的生长，防止过拟合；值太小会欠拟合，太大则过拟合
`max_features`	每个节点随机选择的特征数	分类任务默认`sqrt(n_features)`，回归任务默认`n_features`；可手动调整为`log2(n_features)`或具体数值
`min_samples_split`	节点分裂所需的最小样本数	样本数过少时停止分裂，防止过拟合
`min_samples_leaf`	叶节点所需的最小样本数	叶节点样本数过少时合并，提升模型稳定性
`bootstrap`	是否使用 Bootstrap 抽样	默认`True`；若设为`False`，则所有树都用原始训练集训练

import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, classification_report # 1. 读取数据（假设表格已保存为csv） data = pd.read_csv("电网电信客户流失数据.csv") X = data.drop("流失状态", axis=1) y = data["流失状态"] # 2. 划分训练集/测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y # 保持标签分布 ) # 3. 初始化随机森林模型 rf = RandomForestClassifier( n_estimators=100, # 100棵树 max_depth=8, # 限制树深度防过拟合 max_features="sqrt", # 特征随机选择 n_jobs=-1, # 并行训练 random_state=42 ) # 4. 训练与预测 rf.fit(X_train, y_train) y_pred = rf.predict(X_test) # 5. 模型评估 print("准确率：", accuracy_score(y_test, y_pred)) print("分类报告：\n", classification_report(y_test, y_pred)) # 6. 查看关键流失特征 feature_importance = pd.DataFrame({ "特征": X.columns, "重要性": rf.feature_importances_ }).sort_values(by="重要性", ascending=False) print("影响流失的关键特征：\n", feature_importance.head(5))

【必收藏】LangGraph深度研究智能体实战：LangChain官方OpenDeepResearch完整源码解析与本地部署指南

本文深入解析了LangChain官方OpenDeepResearch项目，详细对比了Graph工作流与Multi-Agent多智能体两种架构的设计思路与核心节点，提供了从环境配置、依赖安装到本地部署的完整实践指南。通过源码分析，帮助开发者掌握复杂AI智能体系统的构建方法…

李华

清华/人大/新国大联合发布：AI Agent记忆系统全面解析，解决灾难性遗忘与上下文溢出问题

该综述由多所顶尖机构联合发布，系统解决LLM应用中的"记忆碎片化"问题，提出Token级、参数级和潜在级三种记忆形式，以及事实、经验和工作记忆三大功能。文章深入探讨记忆的形成、演化与检索机制，强调Agent记忆不仅存储数据…

李华

Langchain-Chatchat如何评估知识库问答的准确性？

Langchain-Chatchat如何评估知识库问答的准确性？ 在企业迈向智能化运营的今天，员工每天可能要面对上百份制度文件、操作手册和政策通知。当一位新入职的HR询问“年假是否可以跨年使用”时，系统是该凭记忆模糊作答，还是从《员工休假…

李华

大语言模型的 “思考” 秘密：一文读懂 prompt 工程核心逻辑

当我们向 ChatGPT、文心一言等大语言模型（LLM）提问时，有时会得到逻辑缜密的回答，有时却收获答非所问的结果。这并非模型 “智商忽高忽低”，而是我们给出的提示词（Prompt） 决定了它的 “思考方向…

李华

Langchain-Chatchat支持Excel表格内容作为知识源吗？

Langchain-Chatchat 支持 Excel 表格内容作为知识源吗？ 在企业日常运营中，大量关键信息以 Excel 表格的形式存在：产品参数清单、客户报价单、库存记录、财务报表……这些数据虽然结构清晰，但通常“沉睡”在文件夹里，只…

李华

多智能体系统在竞争优势分析中的应用：寻找护城河

多智能体系统在竞争优势分析中的应用：寻找护城河关键词：多智能体系统、竞争优势分析、护城河、复杂系统、博弈论摘要：本文聚焦于多智能体系统在竞争优势分析中的应用，旨在探讨如何利用多智能体系统这一强大工具来寻找企业或组织的…

李华