随机森林与集成学习 - 机器学习-学习笔记-上海佼艾

一、集成学习概述

集成学习（Ensemble Learning）是机器学习中的一类元算法框架，其核心思想是：组合多个"弱学习器"的预测结果，得到一个比任何单一学习器都更准确的"强学习器"。通俗地说，就是"三个臭皮匠，顶个诸葛亮"——多个模型的集体判断通常优于单个模型的判断。

集成学习之所以有效，主要源于统计学和计算学习理论中的两个关键机制。第一是方差降低：单个模型对训练数据的微小变化可能高度敏感（如决策树），但通过对多个模型的预测取平均，可以显著降低预测的波动性。第二是偏差降低：某些集成方法（如Boosting）通过串行迭代逐步修正前序模型的错误，从而有效降低整体偏差。

在集成学习中，通常将分类准确率略高于随机猜测（如略高于50%）的简单模型称为弱学习器，而将集成后性能显著提升的模型称为强学习器。理论上，只要弱学习器之间的错误相互独立，集成后的效果就能指数级提升。

集成学习发展至今，主要形成了三个核心流派：Bagging（并行式集成，核心是降低方差）、Boosting（串行式集成，核心是降低偏差）、Stacking（堆叠式集成，核心是通过元学习器融合不同模型的优势）。以下各节将逐一深入剖析。

二、Bagging方法

Bagging是Bootstrap Aggregating的缩写，由Leo Breiman于1996年提出。其核心思想十分简洁：通过自助采样（Bootstrap Sampling）从原始训练集中有放回地抽取多个子集，在每个子集上独立训练一个基学习器，最终将所有基学习器的预测结果进行聚合——分类任务采用多数投票，回归任务采用简单平均。

Bootstrap自助采样的过程如下：假设原始训练集包含N个样本，每次从中有放回地随机抽取一个样本，重复N次，得到一个包含N个样本的自助样本集。这个新数据集中，原始样本大约有63.2%会出现至少一次（因为每个样本被抽中的概率为1 - (1 - 1/N)^N，当N很大时趋近于1 - 1/e ≈ 0.632），剩下约36.8%的样本不会出现，这些未被抽中的样本被称为袋外数据（Out-of-Bag，OOB），可用于内部验证。

Bagging的关键优势在于其天然的可并行性——每个基学习器的训练完全独立，可以同时在多台机器或多核CPU上运行。由于多个模型预测的方差会随模型数量的增加而降低（假设各模型误差不相关），Bagging对于高方差模型（如未剪枝的决策树）的效果尤为显著。

在scikit-learn中，Bagging方法的实现非常直接：

from sklearn.ensemble import BaggingClassifier, BaggingRegressor
from sklearn.tree import DecisionTreeClassifier

# 使用决策树作为基学习器的Bagging分类器
bag_clf = BaggingClassifier(
    estimator=DecisionTreeClassifier(),
    n_estimators=500,          # 基学习器数量
    max_samples=1.0,           # 每个子集的样本比例（默认与原数据集大小相同）
    bootstrap=True,            # 使用有放回采样
    n_jobs=-1,                 # 使用所有CPU核心并行
    oob_score=True             # 计算袋外评分
)
bag_clf.fit(X_train, y_train)
print(f"OOB准确率: {bag_clf.oob_score_:.3f}")
print(f"测试准确率: {bag_clf.score(X_test, y_test):.3f}")

三、随机森林

随机森林（Random Forest）是Bagging方法最著名也最成功的改进版本，由Leo Breiman于2001年正式提出。可以将随机森林简单地理解为"Bagging + 决策树 + 随机特征选择"。它在Bagging的基础上引入了第二重随机性，使得集成模型不仅对训练样本进行随机采样，还在每次划分节点时随机选择特征子集。这种双重随机性极大地增加了基学习器之间的多样性，从而进一步提升了集成效果。

3.1 双重随机性

随机森林的两重随机性体现在以下方面。第一重是样本随机采样（即Bagging的自助采样），每棵决策树都在一个有放回抽取的样本子集上训练。第二重是特征随机采样，在决策树的每个节点分裂时，不再从所有特征中选择最优划分特征，而是先从全部d个特征中随机选择k个（通常k = sqrt(d) 用于分类，k = d/3 用于回归），然后在这k个特征中寻找最优划分。特征随机采样的引入使得随机森林中每棵树之间的差异性远大于普通Bagging，即便某些特征非常强势，也能防止所有树都在相同特征上分裂。

3.2 袋外误差（OOB Score）

由于每棵决策树只使用了约63.2%的样本进行训练，剩下的36.8%样本可以作为天然的验证集。对于每个样本，我们只用那些在训练时未包含该样本的树来对其做预测，最后汇总所有这样的预测结果来计算该样本的预测值，进而得到整个模型的袋外误差估计。OOB评分的优点在于：它几乎与使用同等大小的测试集计算出的准确率一样可靠，且无需额外划分验证集，实现了"在训练的同时完成验证"。

3.3 特征重要性

随机森林可以自然地计算特征重要性，这是其最实用的副产品之一。计算方式主要有两种：一是基于杂质减少（Impurity-based Importance），统计每个特征在所有决策树节点分裂时带来的平均不纯度减少量（如基尼系数的降低）；二是基于排列重要性（Permutation Importance），随机打乱某个特征的值，观察模型性能下降的程度，下降越多则该特征越重要。特征重要性在特征选择、模型解释和业务洞察方面有着广泛的应用。

3.4 scikit-learn实现与参数详解

以下给出随机森林在scikit-learn中的完整实现示例，并对其关键参数进行详细解读。

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# 生成示例数据
X, y = make_classification(
    n_samples=1000, n_features=20,
    n_informative=10, n_redundant=5,
    random_state=42
)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 创建随机森林分类器
rf_clf = RandomForestClassifier(
    n_estimators=300,            # 决策树数量，越大越好但计算成本越高
    max_depth=15,                # 每棵树的最大深度，控制过拟合
    max_features='sqrt',         # 节点分裂时随机选择的特征数，分类默认sqrt
    min_samples_split=5,         # 内部节点再划分所需最小样本数
    min_samples_leaf=2,          # 叶节点最少样本数
    bootstrap=True,              # 是否使用有放回采样
    oob_score=True,              # 是否计算袋外评分
    n_jobs=-1,                   # 使用所有CPU核心
    random_state=42
)

rf_clf.fit(X_train, y_train)
print(f"OOB Score: {rf_clf.oob_score_:.4f}")
print(f"Test Accuracy: {rf_clf.score(X_test, y_test):.4f}")

# 特征重要性
for name, imp in zip(
    [f"特征{i}" for i in range(X.shape[1])],
    rf_clf.feature_importances_
):
    if imp > 0.02:
        print(f"{name}: {imp:.4f}")

四、Boosting方法

Boosting是与Bagging截然不同的另一类集成方法。Bagging追求并行和方差降低，而Boosting追求串行和偏差降低。Boosting的核心思想是：迭代地训练一系列弱学习器，每一轮都重点关注前一轮中被错误分类的样本，从而使后续模型能够集中"火力"攻克难点。

4.1 AdaBoost（自适应增强）

AdaBoost（Adaptive Boosting）是Boosting家族最具代表性的算法之一，由Freund和Schapire于1995年提出。其工作机制可以概括为以下几个步骤。第一，初始化所有训练样本的权重为1/N。第二，使用当前权重训练一个弱学习器（通常为深度为1的决策树桩）。第三，计算该学习器的加权错误率，并根据错误率计算该学习器的权重系数α——错误率越低α越大，意味着该学习器在最终投票中的话语权越大。第四，更新样本权重：被正确分类的样本权重降低，被错误分类的样本权重升高。第五，重复步骤二至四，直到达到预设的学习器数量或错误率降至零。最终预测时，所有弱学习器按其权重α进行加权投票。

从数学角度看，AdaBoost实际上是在用前向分步加法建模（Forward Stagewise Additive Modeling）的方式，以指数损失函数为目标，逐步最小化整体损失。这为后续的Gradient Boosting算法奠定了理论基础。

4.2 Gradient Boosting（梯度提升）

Gradient Boosting将Boosting框架推广到了任意可微损失函数。其核心洞察是：不必像AdaBoost那样显式调整样本权重，而是让每一轮的新模型去拟合前序模型的残差（负梯度方向）。具体来说，在第t轮迭代中，先计算当前集成模型F_{t-1}(x)对每个样本的预测残差 r_i = y_i - F_{t-1}(x_i)（对于回归问题使用平方损失），然后训练一个新的弱学习器h_t(x)来拟合这些残差，最后更新集成模型F_t(x) = F_{t-1}(x) + ν·h_t(x)，其中ν是学习率（shrinkage parameter），用于控制每轮步长以防止过拟合。

梯度提升的灵活之处在于可以自定义损失函数：回归任务使用均方误差，二分类任务使用对数损失（Log Loss），多分类任务使用交叉熵损失。scikit-learn中的GradientBoostingClassifier和GradientBoostingRegressor提供了完整的实现：

from sklearn.ensemble import GradientBoostingClassifier

gb_clf = GradientBoostingClassifier(
    n_estimators=200,        # 迭代轮数
    learning_rate=0.1,       # 学习率，越小需要越多树
    max_depth=3,             # 每棵树的深度（通常较浅）
    min_samples_split=5,
    subsample=0.8,           # 每轮随机采样比例（随机梯度提升）
    random_state=42
)
gb_clf.fit(X_train, y_train)
print(f"GBDT Test Accuracy: {gb_clf.score(X_test, y_test):.4f}")

4.3 XGBoost、LightGBM与CatBoost

基于Gradient Boosting框架，工业界和学术界发展出了三个极具影响力的高效实现。XGBoost（eXtreme Gradient Boosting）由陈天奇于2014年提出，引入了二阶导数近似（使用牛顿法而非梯度下降）加速收敛，并内置了正则化项（L1/L2）防止过拟合，同时支持列采样和并行化建树，长期以来是Kaggle竞赛的利器。LightGBM由微软于2017年提出，采用了基于直方图的算法（Histogram-based）和单边梯度采样（GOSS）技术，在大规模数据上的训练速度比XGBoost快数倍，且内存占用更低。CatBoost由Yandex于2017年提出，最大的特点是对类别特征的原生支持——使用有序编码（Ordered Encoding）和目标编码（Target Encoding）自动处理类别变量，无需手动独热编码，同时采用对称决策树（Oblivious Trees）减少过拟合。

# XGBoost 使用示例
import xgboost as xgb
dtrain = xgb.DMatrix(X_train, label=y_train)
params = {
    'max_depth': 6,
    'eta': 0.1,
    'objective': 'binary:logistic',
    'eval_metric': 'logloss',
    'subsample': 0.8,
    'colsample_bytree': 0.8
}
bst = xgb.train(params, dtrain, num_boost_round=200)
# LightGBM
import lightgbm as lgb
lgb_train = lgb.Dataset(X_train, y_train)
lgb_params = {
    'objective': 'binary',
    'metric': 'binary_logloss',
    'num_leaves': 31,
    'learning_rate': 0.05
}
gbm = lgb.train(lgb_params, lgb_train, num_boost_round=200)

五、Stacking方法

Stacking（Stacked Generalization，堆叠泛化）由David Wolpert于1992年提出，是一种层次化的集成方法。与Bagging和Boosting不同，Stacking不局限于同一种基学习器，而是可以混合使用多种不同类型的模型（如SVM、随机森林、KNN、神经网络等），然后通过一个元学习器（Meta-Learner）来学习如何最优地组合各基学习器的预测结果。

Stacking的标准流程如下。第一，将原始训练集划分为K折（通常使用5折交叉验证）。第二，对于每个基学习器，在K-1折上训练，预测剩下1折，重复K次后得到对整个训练集的预测结果（称为一级特征）。第三，将所有基学习器的一级特征拼接起来，作为新的训练集特征，原始标签保持不变。第四，在这个新训练集上训练元学习器。第五，对于新样本，先让所有基学习器分别预测，然后将预测结果作为输入交给元学习器，得到最终预测。

使用交叉验证生成一级特征的关键原因在于防止过拟合——如果基学习器既参与了训练又直接生成训练元学习器的特征，会导致严重的标签泄露。通过K折交叉验证，每个样本的预测值都是由未见过该样本的模型生成的，保证了特征的客观性。

scikit-learn从0.22版本开始原生支持Stacking：

from sklearn.ensemble import StackingClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression

# 定义基学习器
base_learners = [
    ('rf', RandomForestClassifier(n_estimators=100, random_state=42)),
    ('svm', SVC(probability=True, random_state=42)),
    ('knn', KNeighborsClassifier(n_neighbors=5))
]

# 元学习器使用逻辑回归
stack_clf = StackingClassifier(
    estimators=base_learners,
    final_estimator=LogisticRegression(),
    cv=5,                    # 5折交叉验证生成训练数据
    stack_method='predict_proba'  # 使用概率作为元特征
)
stack_clf.fit(X_train, y_train)
print(f"Stacking Test Accuracy: {stack_clf.score(X_test, y_test):.4f}")

六、集成方法对比

为了在实际项目中做出合理的技术选型，需要从偏差-方差权衡、计算效率和适用场景三个维度对三大集成方法进行对比分析。

维度	Bagging / 随机森林	Boosting	Stacking
核心思想	并行训练，降低方差	串行训练，降低偏差	层次融合，取长补短
基学习器	通常为高方差模型（决策树）	通常为弱学习器（树桩/浅树）	任意异质模型
训练方式	并行，各学习器独立	串行，依赖前序结果	两级训练，先基后元
偏差	较高（不能显著降低偏差）	较低（逐步修正残差）	取决于基学习器组合
方差	较低（平均化降低方差）	可能过高（对噪声敏感）	中等
计算效率	高（天然可并行）	低（串行较慢）	中（取决于基学习器数量）
过拟合风险	低（增加树数量不会过拟合）	较高（需要早停/正则）	中（取决于元学习器复杂度）
适用场景	高维数据、特征噪声大	低偏差需求、精度优先	多个强模型互补、竞赛

在实际应用中的选择建议如下。当数据维度较高、特征噪声较大、且计算资源充足时，优先选择随机森林——它几乎无需调参就能获得不错的效果，OOB评分可以替代交叉验证，特征重要性也便于解释。当追求极致精度、且数据质量较高时，优先选择XGBoost或LightGBM——Boosting方法通常在结构化数据竞赛中表现最优，但需要仔细调节学习率和正则化参数以防止过拟合。当拥有多个不同类型的强模型、且希望充分利用它们的互补性时，使用Stacking——例如，将随机森林（擅长捕捉非线性关系）、SVM（擅长高维分类）和GBDT（擅长梯度信息）堆叠在一起，往往能获得比单一模型更鲁棒的结果。如果模型的可解释性至关重要，还可以从随机森林中提取特征重要性排序，作为业务决策的依据。

核心总结：集成学习是机器学习领域最强大的范式之一。随机森林以Bagging为骨架，引入双重随机性，以极简的方式实现了对单棵决策树性能的质的飞跃；Boosting则走了一条完全不同的路——通过迭代纠错将弱学习器逐步提升为强学习器；Stacking在前两者之上更进一步，允许任意类型的学习器协同工作。理解这三者的原理、差异和适用场景，是每一个机器学习从业者的必修课。在实践中，不妨将随机森林作为基线模型，再用XGBoost/LightGBM精调优化，最后用Stacking融合多个模型的优势——这种"三步走"策略在无数竞赛和工业项目中已被证明行之有效。