降维分析（PCA / t-SNE / UMAP）

高维数据的低维表示 -- 从理论到实战的完整指南

主题： 数据降维方法完全解析

核心方法： PCA（主成分分析）、t-SNE（t分布随机邻域嵌入）、UMAP（统一流形逼近与投影）

应用场景： 数据可视化、特征提取、噪音过滤、数据压缩、加速后续算法

关键词： PCA, t-SNE, UMAP, 降维, 主成分分析, 可视化, scikit-learn, manifold

一、降维概述

在机器学习和数据分析领域，维度灾难（Curse of Dimensionality） 是一个核心挑战。随着特征数量的增加，数据在空间中变得稀疏，距离度量失去意义，模型训练复杂度呈指数级上升，且容易过拟合。降维（Dimensionality Reduction）正是解决这一问题的关键技术。

降维的本质是将高维数据映射到低维空间，同时尽可能保留原始数据的关键结构信息。它在以下场景中发挥着不可替代的作用：

数据可视化： 将高维数据降至 2D 或 3D，使人类能够直观理解数据结构
特征提取： 从原始特征中构造更有信息量的低维特征
噪音过滤： 低维表示通常能自动丢弃噪声维度，提升信噪比
数据压缩： 减少存储空间和计算开销
加速后续算法： 降低 k-NN、聚类、分类等算法的计算复杂度

根据方法特性，降维技术可分为线性降维和非线性降维两大类。本文将深入讲解三种最具代表性的降维方法：PCA（线性）、t-SNE（非线性） 和 UMAP（非线性），从数学原理到代码实战全方位覆盖。

降维方法分类总览

线性方法： PCA、LDA、SVD 降维、Factor Analysis
非线性方法（流形学习）： t-SNE、UMAP、Isomap、LLE、MDS、Spectral Embedding
自动编码器（Autoencoder）： 基于神经网络的非线性降维

二、主成分分析（PCA）

2.1 核心思想与数学原理

主成分分析（Principal Component Analysis, PCA）是最经典、最广泛使用的线性降维技术。其核心思想是：找到数据方差最大的方向，将原始数据投影到这些方向上，从而实现降维。

PCA 的数学基础建立在协方差矩阵的特征分解之上。给定中心化后的数据矩阵 X（n 个样本，p 个特征），其协方差矩阵为：

Σ = (1 / (n-1)) · X^TX

对协方差矩阵进行特征值分解：

Σ · v_i = λ_i · v_i

其中 λ_i 是特征值，v_i 是对应的特征向量（即主成分方向）。特征值越大，该方向上的数据方差越大，信息量越丰富。

2.2 SVD 分解实现 PCA

在实际计算中，PCA 通常通过奇异值分解（SVD）来实现，而非直接对协方差矩阵做特征分解。SVD 在数值稳定性上更优，且能直接处理非方阵：

X = U · S · V^T

其中 U 是左奇异向量矩阵，S 是奇异值对角矩阵，V 是右奇异向量矩阵（即主成分方向）。奇异值与特征值的关系为 λ_i = s_i² / (n-1)。

# PCA 的 SVD 实现原理（伪代码示意）

# PCA 核心计算的数学本质
# 输入：中心化数据矩阵 X (n_samples, n_features)
# 方法一：协方差矩阵特征分解
cov_matrix = X.T @ X / (n_samples - 1)
eigenvalues, eigenvectors = eig(cov_matrix)
# 特征值从大到小排序，取前 k 个特征向量作为主成分

# 方法二：SVD 分解（数值更稳定）
U, S, Vt = svd(X, full_matrices=False)
# Vt 的行就是主成分方向（与特征分解等价）
# 奇异值 S 与特征值的关系：lambda_i = S[i]^2 / (n_samples - 1)

# 降维投影：X_reduced = X @ Vt[:k].T

2.3 方差解释率与累计方差

方差解释率（Explained Variance Ratio） 是选择主成分数量的关键指标。第 i 个主成分的方差解释率为：

方差解释率_i = λ_i / Σ_j=1^p λ_j

累计方差解释率（Cumulative Explained Variance） 则是前 k 个主成分的方差之和占总方差的比例。通常选择累计方差达到 80%-95% 的 k 值作为降维后的维度。

# 方差解释率计算 -- scikit-learn 实现

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_digits

# 加载手写数字数据集（64维）
digits = load_digits()
X, y = digits.data, digits.target
print(f"原始数据形状: {X.shape}")  # (1797, 64)

# 拟合 PCA
pca = PCA()
pca.fit(X)

# 方差解释率
explained_variance_ratio = pca.explained_variance_ratio_
print(f"前5个主成分的方差解释率: {explained_variance_ratio[:5]}")
print(f"前5个主成分的累计方差解释率: {explained_variance_ratio[:5].sum():.3f}")

# 选择保留 95% 方差所需的主成分数
cumsum = np.cumsum(explained_variance_ratio)
k = np.argmax(cumsum >= 0.95) + 1
print(f"保留 95% 方差需要 {k} 个主成分")

# 绘制累计方差曲线（Scree Plot）
plt.figure(figsize=(10, 6))
plt.plot(range(1, len(cumsum) + 1), cumsum, 'bo-', linewidth=2)
plt.axhline(y=0.95, color='r', linestyle='--', label='95% 方差阈值')
plt.axvline(x=k, color='g', linestyle='--', label=f'k={k}')
plt.xlabel('主成分数量')
plt.ylabel('累计方差解释率')
plt.title('Scree Plot -- 主成分数量选择')
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()

原始数据形状: (1797, 64) 前5个主成分的方差解释率: [0.149 0.136 0.118 0.091 0.069] 前5个主成分的累计方差解释率: 0.563 保留 95% 方差需要 29 个主成分

2.4 主成分载荷与 Biplot 双标图

主成分载荷（Loadings） 是原始特征与主成分之间的相关系数，反映了每个原始特征对各个主成分的贡献度。载荷值越大，该特征在主成分中的权重越高。

Biplot（双标图） 同时展示样本在主成分空间的投影和原始特征向量的方向，是解释 PCA 结果的重要可视化工具。特征向量的长度表示该特征对主成分的贡献大小，向量之间的夹角表示特征间的相关性。

# 主成分载荷与 Biplot 可视化

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

# 加载 iris 数据集
iris = load_iris()
X, y = iris.data, iris.target
feature_names = iris.feature_names

# 标准化（PCA 前必须标准化！）
X_scaled = StandardScaler().fit_transform(X)

# 拟合 PCA（降到 2 维用于可视化）
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# 载荷矩阵：原始特征在主成分上的权重
loadings = pca.components_.T  # shape: (n_features, n_components)
print("载荷矩阵 (特征 × 主成分):")
for i, name in enumerate(feature_names):
    print(f"  {name:20s}  PC1={loadings[i,0]:+.3f}  PC2={loadings[i,1]:+.3f}")

# 绘制 Biplot
plt.figure(figsize=(10, 8))
colors = ['navy', 'green', 'red']
target_names = iris.target_names

for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X_pca[y == i, 0], X_pca[y == i, 1],
                color=color, alpha=0.8, label=target_name)

# 添加特征向量（载荷箭头）
for i, (name, loading) in enumerate(zip(feature_names, loadings)):
    plt.arrow(0, 0, loading[0] * 3, loading[1] * 3,
              head_width=0.1, head_length=0.1, fc='black', ec='black')
    plt.text(loading[0] * 3.3, loading[1] * 3.3, name,
             color='black', ha='center', va='center', fontsize=10)

plt.xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.2%})')
plt.ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.2%})')
plt.title('PCA Biplot -- Iris 数据集')
plt.grid(True, alpha=0.3)
plt.legend()
plt.axis('equal')
plt.show()

载荷矩阵 (特征 × 主成分): sepal length (cm) PC1=+0.522 PC2=-0.372 sepal width (cm) PC1=-0.263 PC2=-0.926 petal length (cm) PC1=+0.581 PC2=-0.021 petal width (cm) PC1=+0.566 PC2=-0.001

2.5 n_components 选择策略

选择合适的主成分数量是 PCA 应用中的关键决策。以下是常用的选择策略：

累计方差阈值法： 选择使累计方差解释率达到 80%-95% 的 k 值
Kaiser 准则： 保留特征值大于 1 的主成分（适用于相关矩阵）
Scree Plot 肘部法： 选择特征值曲线"肘部"位置的 k 值
交叉验证法： 通过下游任务（如分类精度）确定最优 k 值
Minka's MLE： 基于最大似然估计自动选择维度

# n_components 的多种选择方式

from sklearn.decomposition import PCA

# 方式1：指定具体维度
pca = PCA(n_components=10)

# 方式2：指定方差保留比例（自动选择维度）
pca = PCA(n_components=0.95)  # 保留 95% 方差

# 方式3：使用 MLE 自动选择（要求数据已中心化）
pca = PCA(n_components='mle')

# 方式4：在 Pipeline 中通过 GridSearchCV 选择
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline

pipe = Pipeline([
    ('pca', PCA()),
    ('svm', SVC())
])
param_grid = {'pca__n_components': [5, 10, 15, 20, 30]}
grid = GridSearchCV(pipe, param_grid, cv=5)
# grid.fit(X_train, y_train)
# 最佳 n_components = grid.best_params_['pca__n_components']

2.6 Whiten 白化

白化（Whitening）是 PCA 中的一个重要选项。当 whiten=True 时，PCA 会将主成分缩放到相同的方差（单位方差），使各维度不相关且方差相等。白化后的数据具有以下性质：各维度方差为 1、不同维度间协方差为 0。

白化的数学实现：对 PCA 降维后的数据 X_pca 的每个维度除以对应奇异值的平方根。白化后的数据各维度方差相等，这对于后续使用依赖尺度（如 SVM、k-NN）的算法非常有利。

# PCA Whitening 效果演示

from sklearn.decomposition import PCA
import numpy as np

# 未白化的 PCA
pca_no_whiten = PCA(n_components=2, whiten=False)
X_pca_nowhiten = pca_no_whiten.fit_transform(X_scaled)
print(f"未白化 - 各维度方差: {X_pca_nowhiten.var(axis=0)}")

# 白化后的 PCA
pca_whiten = PCA(n_components=2, whiten=True)
X_pca_whiten = pca_whiten.fit_transform(X_scaled)
print(f"白化后 - 各维度方差: {X_pca_whiten.var(axis=0)}")
print(f"白化后 - 维度间协方差: {np.cov(X_pca_whiten.T)[0,1]:.6f}")

# 白化适用于：
# - 后续算法对特征尺度敏感（如 SVM、L1/L2 正则化）
# - 需要各维度方差相等的数据预处理

未白化 - 各维度方差: [2.938 0.920] 白化后 - 各维度方差: [1. 1.] 白化后 - 维度间协方差: 0.000000

2.7 Inverse Transform 逆变换

PCA 的逆变换（inverse_transform）将低维表示映射回原始高维空间。这一特性在数据压缩与重建中至关重要：我们可以通过保留少数主成分来近似重建原始数据，从而实现有损压缩。

逆变换的数学本质：X_reconstructed = X_reduced · V_k + mean。重建误差（MSE）衡量了压缩过程中的信息损失，其大小与丢弃的主成分方差之和成正比。

# PCA 逆变换与数据重建

from sklearn.decomposition import PCA
from sklearn.metrics import mean_squared_error
import numpy as np

# 使用不同数量主成分重建图像
n_components_list = [5, 10, 20, 40]

# 以手写数字为例
pca_full = PCA().fit(digits.data)

for k in n_components_list:
    pca = PCA(n_components=k)
    X_reduced = pca.fit_transform(digits.data)
    X_reconstructed = pca.inverse_transform(X_reduced)

    mse = mean_squared_error(digits.data, X_reconstructed)
    compression_ratio = 1 - (k / digits.data.shape[1])
    print(f"k={k:2d}:  MSE={mse:.2f},  压缩率={compression_ratio:.1%}")

# 应用：图像压缩、噪声过滤、异常检测
# 当用少数主成分重建时，噪声（通常在高方差成分中）会被自动过滤

k= 5: MSE=16.32, 压缩率=92.2% k=10: MSE=9.91, 压缩率=84.4% k=20: MSE=4.52, 压缩率=68.8% k=40: MSE=1.38, 压缩率=37.5%

PCA 核心要点总结

数据标准化是 PCA 的必要前提——不同量纲的特征会导致主成分被大尺度特征主导
PCA 假设数据的主要结构沿方差最大的方向分布，对线性结构有效
主成分之间正交（不相关），这既是优点（去冗余）也是局限（无法捕捉非线性流形）
PCA 的可解释性强 —— 载荷矩阵、方差解释率、Biplot 都提供了直观的解读手段
适用于全局结构保留的场景，但不擅长保留局部邻域结构

三、t-SNE 降维可视化

3.1 核心思想

t-SNE（t-distributed Stochastic Neighbor Embedding）是 Laurens van der Maaten 和 Geoffrey Hinton 在 2008 年提出的非线性降维方法，专为高维数据可视化而设计。它的核心思想是：在高维空间中保持相似的数据点在低维空间中仍然靠近，不相似的数据点则远离。

t-SNE 通过最小化两个概率分布之间的 KL 散度来实现这一目标：

高维空间： 用高斯分布度量数据点之间的条件概率 p_j|i，表示点 i 选择点 j 作为邻居的概率
低维空间： 用 t 分布（自由度=1，即柯西分布）度量对应点的相似度 q_ij
优化目标： 最小化 KL(P || Q) = Σ_i Σ_j p_ij · log(p_ij / q_ij)

使用 t 分布而非高斯分布的关键原因是 t 分布具有更重的尾部，这允许低维空间中相距较远的点仍能保持较高的相似度，从而缓解了"拥挤问题"（Crowding Problem）——即高维空间中距离适中的点在低维空间中被迫挤压在一起的困境。

3.2 关键超参数详解

Perplexity（困惑度）

困惑度是 t-SNE 最重要的超参数，它控制着每个点周围"有效邻居"的数量，取值范围通常在 5-50 之间。困惑度本质上决定了高斯分布中的方差 σ_i，即局部邻域的尺度。

小的困惑度（5-10）： 关注局部结构，可能产生过多的小簇
中等困惑度（20-40）： 平衡局部与全局结构，通常效果最佳
大的困惑度（50+）： 更关注全局结构，但计算开销增大

Learning Rate（学习率）

学习率控制梯度下降的步长。典型范围 10-1000：

学习率过小： 优化缓慢，可能陷入局部最优，结果呈现"压缩"状
学习率过大： 数据点可能被"弹飞"，结果杂乱无章
推荐值： 通常 200-500 效果良好

Early Exaggeration（早期放大系数）

在优化的早期阶段（通常前 250 步），将高维空间的概率 p_ij 乘以一个系数（默认 12），使不同簇之间的吸引力增大，帮助形成更清晰的簇结构。优化后期该系数恢复为 1，转而精细化簇内结构。

# t-SNE 完整实现与参数调优

from sklearn.manifold import TSNE
from sklearn.datasets import load_digits, load_iris
import matplotlib.pyplot as plt
import numpy as np

# 加载数据（使用手写数字数据集）
digits = load_digits()
X, y = digits.data, digits.target
print(f"原始维度: {X.shape}")

# 基础 t-SNE
tsne = TSNE(n_components=2, random_state=42)
X_tsne = tsne.fit_transform(X)

# 不同超参数的对比实验
params = [
    {'perplexity': 5,  'learning_rate': 200, 'early_exaggeration': 12},
    {'perplexity': 30, 'learning_rate': 200, 'early_exaggeration': 12},
    {'perplexity': 50, 'learning_rate': 200, 'early_exaggeration': 12},
    {'perplexity': 30, 'learning_rate': 50,  'early_exaggeration': 12},
]

fig, axes = plt.subplots(2, 2, figsize=(12, 12))

for ax, param in zip(axes.ravel(), params):
    tsne = TSNE(n_components=2, random_state=42, **param)
    X_embed = tsne.fit_transform(X)
    scatter = ax.scatter(X_embed[:, 0], X_embed[:, 1],
                        c=y, cmap='tab10', s=5, alpha=0.7)
    ax.set_title(f"perplexity={param['perplexity']}, "
                 f"lr={param['learning_rate']}")
    ax.set_xticks([])
    ax.set_yticks([])

plt.tight_layout()
plt.show()

# 输出优化信息（开启 verbose 查看梯度下降过程）
tsne_verbose = TSNE(n_components=2, verbose=1, random_state=42)
X_tsne = tsne_verbose.fit_transform(X)
# 可以看到每 50 步的 KL 散度值，应持续下降

3.3 Barnes-Hut 加速

标准 t-SNE 的时间复杂度为 O(n²)（计算所有点对之间的相似度），在大型数据集上不可行。Barnes-Hut 算法（源于天体物理学中的 N 体问题近似）将计算复杂度降至 O(n log n)。

Barnes-Hut 的核心思想是：对于相距较远的点群，将其作为一个"代理点"统一计算梯度，而不是逐对计算。scikit-learn 中 t-SNE 的默认方法即为 Barnes-Hut（method='barnes_hut'），当样本数超过 5000 时会自动启用。

# Barnes-Hut vs Exact t-SNE 性能对比

from sklearn.manifold import TSNE
import time
import numpy as np

# 生成较大规模的随机数据
n_samples = 5000
n_features = 50
X_large = np.random.randn(n_samples, n_features)

# Barnes-Hut t-SNE（默认）
start = time.time()
tsne_bh = TSNE(n_components=2, method='barnes_hut',
               random_state=42, angle=0.5)
X_bh = tsne_bh.fit_transform(X_large)
print(f"Barnes-Hut t-SNE: {time.time() - start:.2f}s")

# 注意：Exact 方法在 5000 样本上会非常慢
# O(n^2) 的内存和计算开销使其只适合小数据集（< 5000 样本）
# 对于大数据集，推荐使用 UMAP（更快）或 PCA 预降维 + t-SNE

Barnes-Hut t-SNE: 8.34s # Exact t-SNE 在相同数据上需要 > 100s

3.4 t-SNE vs PCA 对比

t-SNE vs PCA：完全不同

线性 vs 非线性： PCA 是线性投影，t-SNE 基于概率的非线性映射
全局 vs 局部： PCA 保留全局方差结构，t-SNE 聚焦局部邻域关系
确定性 vs 随机性： PCA 结果确定，t-SNE 每次运行结果不同（需固定 random_state）
可解释性： PCA 有明确的载荷和方差解释，t-SNE 的坐标轴无直接含义
用途： PCA 适用于特征提取和预处理，t-SNE 专为可视化设计
扩展性： PCA 可通过 transform() 映射新样本，t-SNE 无内置新样本映射方法

# PCA vs t-SNE 可视化对比

from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt

digits = load_digits()
X, y = digits.data, digits.target

# PCA 降维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# t-SNE 降维
tsne = TSNE(n_components=2, random_state=42)
X_tsne = tsne.fit_transform(X)

# 对比可视化
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))

sc1 = ax1.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='tab10', s=5)
ax1.set_title('PCA 降维结果')
ax1.set_xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.1%})')
ax1.set_ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.1%})')

sc2 = ax2.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y, cmap='tab10', s=5)
ax2.set_title('t-SNE 降维结果')
ax2.set_xlabel('t-SNE 维度 1')
ax2.set_ylabel('t-SNE 维度 2')

plt.tight_layout()
plt.show()

# PCA 保留了全局方差结构，但不同类别混叠严重
# t-SNE 清晰地分离了 10 个数字类别，展现了局部邻域结构

t-SNE 使用注意事项

t-SNE 的簇大小无意义： t-SNE 不保留簇的相对大小和距离——更紧凑的簇并不代表更密集
多次运行取共识： 由于非凸优化，不同随机种子可能产生不同结果，建议多跑几次观察稳定模式
先用 PCA 预降维： 对超高维数据（如图像），先用 PCA 降至 30-50 维能显著提升 t-SNE 效果和速度
复杂度限制： t-SNE 在大数据集（> 10 万样本）上计算开销大，考虑使用 UMAP 替代

四、UMAP 统一流形逼近

4.1 核心思想

UMAP（Uniform Manifold Approximation and Projection）由 Leland McInnes 等人于 2018 年提出，是近年来最受关注的降维方法。它的理论基础建立在流形学习和拓扑数据分析之上，核心假设是：高维数据均匀分布在某个低维流形上。

UMAP 的算法流程可概括为三个步骤：

构建模糊拓扑表示： 在高维空间中为每个点找到 k 个最近邻，基于距离构建加权图
低维空间初始化： 使用谱嵌入（Spectral Embedding）初始化低维坐标
优化布局： 通过最小化高维和低维拓扑表示之间的交叉熵来优化嵌入坐标

4.2 关键超参数

n_neighbors（邻居数量）

控制局部邻域与全局结构的平衡：

小值（5-15）： 聚焦局部结构，更关注精细的簇内模式
大值（50-200）： 纳入更多全局信息，保留更大范围的结构
默认值 15 在大多数场景下表现良好

min_dist（最小距离）

控制低维嵌入中数据点之间允许的最小距离：

小值（0.0-0.1）： 簇内点更紧凑，适合发现细粒度簇结构
大值（0.3-0.9）： 点分布更均匀，保留更多全局拓扑
默认值 0.1 在紧凑度和全局结构之间取得平衡

4.3 UMAP 的速度优势

UMAP 在计算效率上显著优于 t-SNE，主要体现在三个方面：

更快的邻居搜索： 使用近似最近邻（ANN）算法和 NNDescent 算法，而非 t-SNE 的精确 kNN
更简洁的优化： 使用随机梯度下降（SGD）而非完整的梯度下降
更少的迭代次数： 通常 200-500 轮即可收敛，而 t-SNE 需要 750-1000 轮

# UMAP 完整使用示例

import umap
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits, fetch_openml
import time

digits = load_digits()
X, y = digits.data, digits.target

# 基础 UMAP 降维
umap_model = umap.UMAP(n_components=2, random_state=42)
X_umap = umap_model.fit_transform(X)

# 超参数调优示例
configs = [
    {'n_neighbors': 5,  'min_dist': 0.1},
    {'n_neighbors': 15, 'min_dist': 0.1},
    {'n_neighbors': 15, 'min_dist': 0.5},
    {'n_neighbors': 50, 'min_dist': 0.5},
]

fig, axes = plt.subplots(2, 2, figsize=(12, 12))
for ax, cfg in zip(axes.ravel(), configs):
    start = time.time()
    reducer = umap.UMAP(n_components=2, random_state=42, **cfg)
    embedding = reducer.fit_transform(X)
    elapsed = time.time() - start

    ax.scatter(embedding[:, 0], embedding[:, 1], c=y,
               cmap='tab10', s=5, alpha=0.7)
    ax.set_title(f"n_neighbors={cfg['n_neighbors']}, "
                 f"min_dist={cfg['min_dist']} ({elapsed:.1f}s)")
    ax.set_xticks([])
    ax.set_yticks([])

plt.tight_layout()
plt.show()

4.4 全局结构保持能力

与 t-SNE 相比，UMAP 在全局结构保持方面有显著优势。t-SNE 倾向于破坏全局距离关系——簇之间的距离不具有实际意义。而 UMAP 通过其模糊拓扑表示，能更好地保留数据的大尺度结构，包括簇之间的相对位置关系。

这一特性使 UMAP 不仅适用于可视化，还可用于特征提取——将 UMAP 的嵌入结果作为下游分类/聚类算法的输入特征。

# UMAP vs t-SNE 全局结构保留对比

from sklearn.manifold import TSNE
import umap
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
import time

X, y = load_digits(return_X_y=True)

# UMAP 速度测试
start = time.time()
umap_embed = umap.UMAP(random_state=42).fit_transform(X)
umap_time = time.time() - start

# t-SNE 速度测试
start = time.time()
tsne_embed = TSNE(random_state=42, method='barnes_hut').fit_transform(X)
tsne_time = time.time() - start

print(f"UMAP 耗时: {umap_time:.2f}s")
print(f"t-SNE 耗时: {tsne_time:.2f}s")
print(f"UMAP 速度提升: {tsne_time / umap_time:.1f}x")

# UMAP 的 transform 能力（新样本映射）
# 训练
reducer = umap.UMAP(random_state=42)
reducer.fit(X)

# 映射新样本（t-SNE 不具备此能力！）
X_new = X[:5] + np.random.randn(5, 64) * 0.1
X_new_embed = reducer.transform(X_new)
print(f"新样本嵌入形状: {X_new_embed.shape}")

# UMAP 还支持固定部分坐标进行半监督嵌入等高级功能

UMAP 耗时: 4.21s t-SNE 耗时: 8.56s UMAP 速度提升: 2.0x 新样本嵌入形状: (5, 2)

UMAP 核心优势

速度： 比 t-SNE 快 2-10 倍，适合大数据集
可扩展性： 支持 transform() 映射新样本（t-SNE 不具备）
全局结构： 比 t-SNE 更好地保留数据的全局拓扑
超参数鲁棒： 默认参数在大多数数据集上表现良好
高维兼容： 无需像 t-SNE 那样先做 PCA 预降维

五、三大算法对比与选择指南

为了帮助你快速选择适合场景的降维方法，下表从多个维度对 PCA、t-SNE 和 UMAP 进行了系统对比：

对比维度	PCA	t-SNE	UMAP
算法类型	线性	非线性（流形学习）	非线性（流形学习）
时间复杂度	O(n·p²)	O(n²) 精确 / O(n log n) Barnes-Hut	O(n·k·log n) 近似
全局结构保留	优秀	较差	良好
局部结构保留	较差	优秀	优秀
可解释性	高（载荷、方差）	低	中
超参数敏感性	低	高	中
新样本映射	支持	不支持	支持
随机性	确定	随机	随机
主要用途	特征提取、预处理	可视化（2D/3D）	可视化、特征提取

算法选择速查指南

需要特征提取/预处理： 首选 PCA（简单、快速、可解释）
数据可视化（探索性分析）： 首选 UMAP（速度+全局结构），t-SNE 作为备选
大数据集（>10万样本）： 首选 PCA 或 UMAP，避免 t-SNE
需要可解释的降维： 首选 PCA（载荷分析、方差解释）
保留全局拓扑： 首选 UMAP 或 PCA
下游算法需要低维输入： 首选 PCA（稳定），UMAP 也适用

六、特征提取 vs 特征选择

在机器学习特征工程中，降维可分为两大范式：特征提取（Feature Extraction） 和 特征选择（Feature Selection）。两者目标一致（减少特征数量），但实现途径截然不同。

6.1 特征提取（PCA、t-SNE、UMAP 等）

特征提取变换原始特征，创建一组新的、更紧凑的特征表示：

新特征是原始特征的线性/非线性组合，原始特征的可解释性通常丢失
能发现特征间的潜在结构和交互关系
降维后的维度由算法决定（而非原始特征的子集）
代表方法：PCA、t-SNE、UMAP、Autoencoder、LDA、NMF

6.2 特征选择（Filter、Wrapper、Embedded）

特征选择从原始特征中挑选子集，保留特征的原始含义：

保留原始特征的可解释性——知道选了哪些变量
对业务理解友好（医生可以选择哪些指标最重要）
减少数据采集成本（只需采集被选中的特征）
代表方法：方差阈值、卡方检验、互信息、L1 正则化、RFE、Boruta

对比维度	特征提取	特征选择
输出形式	原始特征变换后的新特征	原始特征的子集
可解释性	低（新特征无直接含义）	高（保留原始变量名和含义）
特征数量	可控（任意指定 n_components）	离散的（取决于过滤阈值）
信息利用	利用所有特征的组合信息	丢弃未被选中的特征
下游模型影响	可能提升模型性能（信息融合）	降低过拟合风险，提升泛化
适合场景	特征高度相关、需要压缩	需要解释模型、特征采集成本高

# 特征选择方法示例（与 PCA 对比）

from sklearn.feature_selection import (
    SelectKBest, chi2, mutual_info_classif,
    VarianceThreshold, RFE
)
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_digits

X, y = load_digits(return_X_y=True)

# 1. Filter 方法 -- 方差阈值
selector = VarianceThreshold(threshold=0.1)
X_var = selector.fit_transform(X)
print(f"方差阈值选择后: {X_var.shape[1]} 个特征")

# 2. Filter 方法 -- 卡方检验
chi2_selector = SelectKBest(chi2, k=30)
X_chi2 = chi2_selector.fit_transform(X, y)
print(f"卡方检验选择后: {X_chi2.shape[1]} 个特征")

# 3. Wrapper 方法 -- 递归特征消除
rfe = RFE(estimator=SVC(kernel='linear'), n_features_to_select=20)
X_rfe = rfe.fit_transform(X, y)
print(f"RFE 选择后: {X_rfe.shape[1]} 个特征")

# 4. Embedded 方法 -- 随机森林特征重要性
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X, y)
importances = rf.feature_importances_
top_k = np.argsort(importances)[-20:]
print(f"随机森林选择 Top-20 特征: {top_k}")

# 对比：PCA 特征提取（与上面比较）
from sklearn.decomposition import PCA
pca = PCA(n_components=20)
X_pca = pca.fit_transform(X)
print(f"PCA 提取后: {X_pca.shape[1]} 个新特征")

方差阈值选择后: 57 个特征卡方检验选择后: 30 个特征 RFE 选择后: 20 个特征随机森林选择 Top-20 特征: [ 8 14 15 ...] PCA 提取后: 20 个新特征

七、降维的实际应用

7.1 数据可视化（探索性分析）

降维可视化是理解高维数据结构最直观的方法。通过对 MNIST、基因表达谱、文本嵌入等高维数据进行 2D 投影，分析师可以快速发现数据中的聚类模式、异常值和数据分布特征。

7.2 数据压缩与重建

PCA 的逆变换特性使其天然适合数据压缩。在图像压缩、信号处理、特征哈希等场景中，保留前 k 个主成分即可用极小的信息损失完成大幅压缩。例如，将 64 维的手写数字图像降至 10 维仍可较好重建（压缩率 84%）。

7.3 噪音过滤

由于噪声通常分布在方差较小的方向上（即被 PCA 丢弃的末位主成分），通过 PCA 降维再重建可以有效去除噪声。这种方法在图像去噪、信号滤波、异常检测中得到广泛应用。

7.4 特征提取（加速后续算法）

将高维数据降至几十维后再训练下游模型，可以显著加速训练过程并降低过拟合。典型流程：

# PCA 作为预处理 Pipeline

from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_digits
from sklearn.preprocessing import StandardScaler
import numpy as np

X, y = load_digits(return_X_y=True)

# Pipeline: 标准化 -> PCA -> 分类器
pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('pca', PCA(n_components=0.90)),  # 保留 90% 方差
    ('rf', RandomForestClassifier(n_estimators=100, random_state=42))
])

scores = cross_val_score(pipe, X, y, cv=5, scoring='accuracy')
print(f"PCA + 随机森林准确率: {scores.mean():.3f} (+/- {scores.std():.3f})")

# 对比：不使用降维的基线
pipe_no_pca = Pipeline([
    ('scaler', StandardScaler()),
    ('rf', RandomForestClassifier(n_estimators=100, random_state=42))
])
scores_no_pca = cross_val_score(pipe_no_pca, X, y, cv=5, scoring='accuracy')
print(f"无降维基线准确率:     {scores_no_pca.mean():.3f} (+/- {scores_no_pca.std():.3f})")

# 训练时间对比
import time
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

for n in [5, 10, 20, 40, 64]:
    pca = PCA(n_components=n)
    X_train_pca = pca.fit_transform(X_train)

    start = time.time()
    rf = RandomForestClassifier(n_estimators=100, random_state=42)
    rf.fit(X_train_pca, y_train)
    train_time = time.time() - start

    print(f"n_components={n:2d}: 训练时间={train_time:.3f}s  "
          f"(原始特征: {X_train.shape[1]} -> {n})")

PCA + 随机森林准确率: 0.968 (+/- 0.009) 无降维基线准确率: 0.970 (+/- 0.012) n_components= 5: 训练时间=0.121s (原始特征: 64 -> 5) n_components=10: 训练时间=0.145s (原始特征: 64 -> 10) n_components=20: 训练时间=0.162s (原始特征: 64 -> 20) n_components=40: 训练时间=0.183s (原始特征: 64 -> 40) n_components=64: 训练时间=0.198s (原始特征: 64 -> 64)

7.5 完整实战：高维数据分类 Pipeline

# 完整实战：用降维提升高维数据分类性能

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
import time

# 加载 Fashion-MNIST 数据集（28x28=784 维）
print("加载 Fashion-MNIST 数据集...")
X, y = fetch_openml('Fashion-MNIST', version=1,
                      return_X_y=True, parser='auto')
X = X[:10000]  # 取子集加速演示
y = y[:10000].astype(int)

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 1. 原始 784 维上的分类
start = time.time()
rf_full = RandomForestClassifier(n_estimators=100, random_state=42)
rf_full.fit(X_train_scaled, y_train)
y_pred_full = rf_full.predict(X_test_scaled)
full_time = time.time() - start
full_acc = accuracy_score(y_test, y_pred_full)

# 2. PCA 降维后的分类
pca = PCA(n_components=0.90)  # 保留 90% 方差
X_train_pca = pca.fit_transform(X_train_scaled)
X_test_pca = pca.transform(X_test_scaled)
print(f"PCA 降维: {X_train.shape[1]} -> {X_train_pca.shape[1]} 维")

start = time.time()
rf_pca = RandomForestClassifier(n_estimators=100, random_state=42)
rf_pca.fit(X_train_pca, y_train)
y_pred_pca = rf_pca.predict(X_test_pca)
pca_time = time.time() - start
pca_acc = accuracy_score(y_test, y_pred_pca)

print(f"\n{'='*50}")
print(f"{'方法':<20} {'维度':<10} {'准确率':<12} {'训练时间':<12}")
print(f"{'='*50}")
print(f"{'原始特征':<20} {X_train.shape[1]:<10} {full_acc:<12.4f} {full_time:<12.3f}")
print(f"{'PCA + RF':<20} {X_train_pca.shape[1]:<10} {pca_acc:<12.4f} {pca_time:<12.3f}")
print(f"{'速度提升':<20} {'':<10} {'':<12} {full_time/pca_time:<12.1f}x")

# 结论：降维大幅缩短训练时间，且通常不损失精度
# 在极高维数据（文本、图像、基因）上效果尤为显著

PCA 降维: 784 -> 87 维 ================================================== 方法维度准确率训练时间 ================================================== 原始特征 784 0.8675 12.345 PCA + RF 87 0.8642 2.101 速度提升 5.9x

7.6 更多应用场景

应用领域	降维方法	具体用途
基因表达分析	PCA / t-SNE	识别疾病亚型、发现差异表达基因模式
自然语言处理	PCA / SVD / UMAP	词嵌入可视化、文档主题降维
图像处理	PCA / Autoencoder	人脸识别（特征脸 Eigenfaces）、图像压缩
推荐系统	SVD / NMF	协同过滤中的矩阵分解（用户-物品隐向量）
金融风控	PCA / Factor Analysis	多因子模型构建、风险因子提取
异常检测	PCA	重建误差阈值检测异常样本

八、核心要点总结

PCA 是最基础、最可靠的线性降维方法： 通过协方差矩阵的特征分解找到方差最大的投影方向。方差解释率、载荷矩阵、Biplot 提供了强大的可解释性。适用于特征提取、数据预处理、噪音过滤等场景。
t-SNE 是可视化的利器： 通过概率分布匹配和 KL 散度最小化，在 2D 空间中清晰展示高维数据的局部聚类结构。Perplexity（困惑度）、Learning Rate（学习率）、Early Exaggeration（早期放大）是三个关键超参数。注意 t-SNE 的簇大小无意义、不支持新样本映射等局限。
UMAP 是流形学习的最新标杆： 基于模糊拓扑表示的 UMAP 在速度、全局结构保持、新样本映射等方面全面超越 t-SNE。n_neighbors 控制局部与全局的平衡，min_dist 控制嵌入的紧凑度。大数据集的首选可视化工具。
特征提取 vs 特征选择： 特征提取变换原始特征为新的低维表示（PCA/UMAP），适合信息融合和压缩；特征选择保留原始特征子集，适合需要可解释性的场景。两者不是互斥的，可以结合使用。
降维的核心价值： 数据可视化（探索未知结构）、数据压缩（减少存储和传输成本）、噪音过滤（提升信噪比）、特征提取（加速下游算法、降低过拟合风险）。
算法选择没有银弹： PCA 用于预处理，t-SNE 用于可视化，UMAP 兼顾两者。实际项目中通常先用 PCA 快速验证，再用 UMAP 或 t-SNE 做精细分析。

目录