微积分与优化理论 - 机器学习-学习笔记-上海佼艾

一、导数与梯度

1.1 导数的定义与几何意义

导数是微积分的核心概念，描述函数在某一点处的瞬时变化率。对于一元函数 f(x)，其在 x₀ 处的导数定义为：

f'(x₀) = lim_{h→0} [f(x₀+h) - f(x₀)] / h

从几何角度看，导数表示函数曲线在 x₀ 点处切线的斜率。正值表示函数在该点递增，负值表示递减，绝对值大小反映变化快慢。在机器学习中，导数为我们指明了参数调整的方向——沿着导数的反方向移动可以降低函数值，这正是梯度下降法的理论基础。

1.2 偏导数与方向导数

当函数包含多个自变量时，偏导数衡量函数沿某一坐标轴方向的变化率。对于二元函数 f(x, y)，∂f/∂x 表示在 y 固定的情况下 f 关于 x 的变化率。方向导数则更进一步，它衡量函数沿任意给定方向的变化率，是所有偏导数的线性组合。方向导数在单位向量 u 方向上的计算公式为 D_u f = ∇f · u，即梯度与方向向量的点积。

1.3 梯度（Gradient）

梯度是多元函数的一阶导数，是一个向量，其分量是函数对各个自变量的偏导数：

∇f = (∂f/∂x₁, ∂f/∂x₂, ..., ∂f/∂xₙ)

梯度的几何意义极为重要：梯度方向是函数值增长最快的方向，反方向是函数值下降最快的方向。这一性质直接决定了梯度下降算法的核心思想——沿梯度反方向更新参数以最小化损失函数。梯度向量的每个分量指示了对应参数对损失函数的影响程度。

1.4 海森矩阵（Hessian）

海森矩阵是多元函数的二阶导数矩阵，描述了函数曲率信息。其元素为 H_ij = ∂²f/∂x_i∂x_j，对二阶可导函数而言，海森矩阵是对称矩阵。在优化理论中，海森矩阵用于判断极值点和分析收敛速度：正定海森矩阵对应局部极小值，负定对应局部极大值，不定则为鞍点。牛顿法利用海森矩阵的逆进行参数更新，收敛速度远快于梯度下降，但计算海森矩阵的代价高昂。

1.5 雅可比矩阵（Jacobian）

雅可比矩阵是向量值函数的一阶导数矩阵。对于函数 f: Rⁿ → Rᵐ，雅可比矩阵 J 是一个 m×n 矩阵，其第 i 行第 j 列元素为 J_ij = ∂f_i/∂x_j。在神经网络中，雅可比矩阵广泛用于描述各层之间的梯度传播关系。反向传播算法本质上是利用链式法则逐层计算雅可比矩阵的乘积。

1.6 Python数值计算示例

from scipy.misc import derivative
import numpy as np

def f(x):
    return x**3 + 2*x**2 - 5*x + 3

# 计算 f 在 x=2 处的导数
result = derivative(f, 2.0, dx=1e-6)
print(f"f'(2) = {result}")  # 输出: f'(2) ≈ 15.0

# 数值验证: f'(x) = 3x² + 4x - 5, f'(2) = 12 + 8 - 5 = 15

二、梯度下降法

2.1 梯度下降的基本思想

梯度下降是最核心的优化算法，几乎支撑着整个深度学习领域。其思想极其直观：要找到函数的最小值，就像盲人下山一样，每走一步都选择最陡的下坡方向。参数更新公式为：

θ_{t+1} = θ_t - η · ∇_θ J(θ_t)

其中 η 是学习率（步长），∇_θ J(θ_t) 是损失函数关于参数的梯度。学习率控制每次更新的步幅大小，是训练过程中最重要的超参数之一。整个过程迭代进行，直到收敛到极小值附近。

2.2 批量梯度下降（Batch GD）

批量梯度下降在每次迭代时使用全部训练样本计算梯度。其优点梯度方向准确，更新稳定，可以保证向全局最优方向收敛。但缺点也很明显：当数据集规模巨大时，每次迭代的计算代价极高，难以应用于大规模数据集。

2.3 随机梯度下降（SGD）

SGD每次只使用一个随机样本来计算梯度，极大降低了单次迭代的计算量。虽然单个样本的梯度方向存在较大噪声，但噪声本身有时反而有助于逃离局部极小值。SGD的收敛路径呈现明显的随机摆动，但总体上仍然趋向最小值。实际应用中，SGD的训练速度通常远快于批量梯度下降。

关键对比：批量GD → 精确但慢；SGD → 快速但有噪声；Mini-batch GD → 两者平衡，实际应用最广。

2.4 小批量梯度下降（Mini-batch GD）

Mini-batch GD是深度学习中实际使用的标准方案。它每次从训练集中随机采样一个小批量（通常为32、64或128个样本）计算梯度。这种方案既有SGD的高效计算特性，又能利用矩阵运算的并行加速，同时梯度估计的方差远小于SGD，训练更加稳定。

2.5 学习率的选择与调整

学习率是梯度下降中最关键的超参数。学习率过大导致参数在最优值附近震荡甚至发散；学习率过小使收敛极为缓慢。理想的学习率策略是在训练初期较大以快速下降，后期逐渐减小以精细收敛。实践中常用学习率范围在 0.001 到 0.1 之间，具体取值需结合问题和模型复杂度通过实验确定。

2.6 动量法（Momentum）

动量法模拟物理世界中物体运动的惯性，在更新时不仅考虑当前梯度，还累积历史梯度的指数衰减移动平均。其更新公式为：

v_t = β·v_{t-1} + (1-β)·∇_θ J(θ_t) ; θ_{t+1} = θ_t - η·v_t

其中 β 通常取 0.9。动量法可以有效加速收敛，特别是在梯度方向一致的平坦区域；同时能够抑制梯度方向频繁改变的震荡，使优化过程更加平滑。

2.7 Adam优化器

Adam（Adaptive Moment Estimation）是目前最流行的优化器，它结合了动量法和自适应学习率的思想。Adam同时维护梯度的一阶矩估计（动量项）和二阶矩估计（自适应学习率），并添加偏差校正以解决初期估计偏差问题。Adam的默认超参数（学习率0.001，β₁=0.9，β₂=0.999，ε=1e-8）在大多数问题上表现良好，几乎不需要手动调参。Adam已成为深度学习中事实上的标准优化器。

2.8 学习率衰减策略

常见的学习率衰减策略包括：Step Decay（每训练若干轮次学习率乘以衰减因子）、Exponential Decay（按指数规律衰减）、Cosine Annealing（按余弦函数周期性地调整学习率）、ReduceLROnPlateau（当验证集指标停止改善时自动降低学习率）。合理的学习率衰减策略可以显著提升模型收敛效果。

import torch.optim as optim

# Adam优化器配置示例
optimizer = optim.Adam(
    model.parameters(),
    lr=0.001,
    betas=(0.9, 0.999),
    eps=1e-8,
    weight_decay=0.01   # L2正则化
)

# 学习率衰减：余弦退火
scheduler = optim.lr_scheduler.CosineAnnealingLR(
    optimizer, T_max=100, eta_min=1e-6
)

三、凸优化基础

3.1 凸集与凸函数

凸集是凸优化的基石。集合 C 满足：对任意 x,y∈C 和任意 t∈[0,1]，有 tx+(1-t)y∈C，即集合中任意两点的连线都在集合内部。凸函数的定义是：f(tx+(1-t)y) ≤ tf(x)+(1-t)f(y)，即函数图像上任意两点的连线都在函数图像上方。凸函数具有极其重要的优化性质——任何局部极小值都是全局极小值，这使得凸优化问题可以可靠地求解到全局最优。

3.2 凸优化的性质

凸优化的核心优势在于"局部最优就是全局最优"。对于凸函数，梯度为零的点一定是全局极小值点。这一性质使得SVM、线性回归、逻辑回归等凸优化问题的求解有严格的收敛保证。相反，神经网络由于高度非凸，存在大量局部极值点和鞍点，优化分析更加复杂。

重要理解：虽然深度学习的目标函数非凸，但梯度下降在实践中仍然表现优异。研究表明，在高维空间中，鞍点远比局部极小值更常见，且梯度下降可以有效地逃离鞍点。

3.3 常见凸函数示例

线性函数 f(x)=aᵀx+b 既是凸函数又是凹函数；二次函数 f(x)=xᵀQx 当 Q 半正定时是凸函数；指数函数 eᵃˣ 是凸函数；负对数 -log(x) 在 x>0 时是凸函数。这些基本的凸函数构成了许多机器学习模型的基础。例如，线性回归的均方误差损失是凸函数，因此可以通过最小二乘法直接求解全局最优解。

3.4 拉格朗日乘数法

拉格朗日乘数法用于求解带等式约束的优化问题。思路是将约束条件以拉格朗日乘子的方式融入目标函数，将约束优化转化为无约束优化。形式为：L(x, λ) = f(x) + Σλᵢgᵢ(x)，其中 gᵢ(x)=0 是等式约束。最优解需满足 L 对 x 和 λ 的偏导均为零。

3.5 KKT条件

KKT（Karush-Kuhn-Tucker）条件是拉格朗日乘数法向不等式约束优化的推广。KKT条件包含：原始可行性（约束条件成立）、对偶可行性（拉格朗日乘子非负）、互补松弛条件（约束与乘子的乘积为零）、稳定性条件（目标函数梯度与约束梯度的线性组合为零）。KKT条件是带约束优化问题取得最优解的必要条件，对凸优化问题也是充分条件。

3.6 应用：SVM中的对偶问题

支持向量机（SVM）是凸优化应用的典范。SVM的原始问题是一个带不等式约束的二次规划问题。通过拉格朗日对偶性，将原始问题转化为对偶问题后，目标函数只涉及样本间的内积，从而引入了核技巧。这一对偶变换使SVM能够高效处理高维特征空间和非线性分类问题，是凸优化理论在机器学习中最漂亮的应用之一。

四、损失函数

4.1 回归损失函数

均方误差（MSE）：MSE(y, ŷ) = (1/n)·Σ(yᵢ-ŷᵢ)²。MSE是最常用的回归损失，对离群点敏感，梯度大小与误差成正比，误差越大更新步幅越大。在梯度下降中收敛稳定。

平均绝对误差（MAE）：MAE(y, ŷ) = (1/n)·Σ|yᵢ-ŷᵢ|。MAE对离群点更加鲁棒，但在误差为零处不可导，梯度始终为常数。

Huber损失：结合了MSE和MAE的优点，在误差较小时使用MSE的平方损失特性，误差较大时切换为MAE的线性损失，以减少离群点的影响。Huber损失有一个超参数 δ 控制切换阈值，使损失函数同时具有平滑性和鲁棒性。

4.2 分类损失函数

交叉熵损失：H(p,q) = -Σp(x)·log(q(x))。交叉熵是分类任务中最常用的损失函数，衡量真实分布 p 与预测分布 q 之间的差异。在深度学习中配合 Softmax 使用，梯度形式简洁优美，收敛效果优异。交叉熵损失的一个关键优势是，即使模型预测完全错误，其梯度仍然足够大，能有效驱动参数更新。

铰链损失（Hinge Loss）：L(y, ŷ) = max(0, 1-y·ŷ)。铰链损失是SVM的标准损失函数，其核心思想是确保正确类别的分类得分比错误类别至少高出一定间隔（margin）。铰链损失在正确分类且间隔足够时梯度为零，使模型只关注难以正确分类的样本。

指数损失：L(y, ŷ) = e^{-y·ŷ}。指数损失是AdaBoost算法的基础损失函数，对错误分类施加极高的惩罚，使模型对每个样本的分类正确性都非常敏感。但其对离群点和噪声极其敏感，限制了其应用范围。

4.3 正则化项

L1正则化（Lasso）：在损失函数中添加权重绝对值之和 λ·Σ|wᵢ|。L1正则化能产生稀疏解，即许多参数变为零，具有特征选择的效果。其几何解释是在菱形约束区域内寻找最优解，角点处容易产生稀疏性。

L2正则化（Ridge）：在损失函数中添加权重平方和 (λ/2)·Σwᵢ²。L2正则化使权重均匀缩小但不会变为零，能有效控制模型复杂度、防止过拟合。从贝叶斯角度看，L2正则化等价于在权重上施加高斯先验。

弹性网络（Elastic Net）：同时结合L1和L2正则化，兼具特征选择和平滑约束的优点，在高维特征场景下表现出色。

4.4 自定义损失函数

在实际工程中，标准损失函数往往不能完全满足需求。例如在金融风控中，将正类误判为负类的损失远高于将负类误判为正类，此时需要设计加权损失函数。PyTorch和TensorFlow都支持通过继承基础类来实现自定义损失函数，这为处理特定业务场景提供了极大灵活性。

import torch.nn as nn

# 自定义加权交叉熵损失
class WeightedCrossEntropyLoss(nn.Module):
    def __init__(self, pos_weight=2.0):
        super().__init__()
        self.pos_weight = pos_weight

    def forward(self, pred, target):
        loss = -self.pos_weight * target * torch.log(pred + 1e-8) \
               - (1 - target) * torch.log(1 - pred + 1e-8)
        return loss.mean()

五、链式法则与反向传播

5.1 复合函数求导（链式法则）

链式法则是微积分中用于求复合函数导数的核心法则。对于复合函数 y = f(g(x))，其导数为 dy/dx = f'(g(x))·g'(x)。在多元情况下，链式法则扩展到偏导数形式：∂L/∂x = (∂L/∂y)·(∂y/∂x)。链式法则的优雅之处在于，它将复杂函数的求导分解为简单函数的求导乘积，使得任意深度的神经网络都能系统性地计算梯度。

5.2 计算图

计算图是深度学习框架的核心数据结构，它将复杂计算过程表示为一个有向无环图（DAG）。每个节点代表一个运算或变量，边表示数据流动方向。计算图的前向传播从输入节点逐步计算到输出节点；反向传播则沿着计算图的逆方向，利用链式法则逐层回传梯度。PyTorch采用动态计算图，图的结构在每次前向传播时动态构建；TensorFlow早期采用静态计算图，需先定义后执行。

import torch

# PyTorch动态计算图示例
x = torch.tensor(2.0, requires_grad=True)
y = x**3 + 2*x**2 - 5*x + 3
y.backward()  # 自动反向传播
print(x.grad)  # 输出: tensor(15.0)
# 与 scipy.misc.derivative 计算结果一致

5.3 反向传播算法

反向传播算法是训练神经网络的基础。其核心思路分为四步：首先在前向传播中计算各层输出和最终损失；然后计算损失对输出层的导数；接着利用链式法则将梯度逐层向输入方向传播，每经过一层就计算该层参数的梯度；最后利用梯度下降法更新所有参数。反向传播的高效之处在于，每个参数梯度只需一次前向传播和一次反向传播即可计算完毕，避免了逐参数数值求导的巨大开销。

5.4 自动微分（Autograd）

自动微分是深度学习框架的底层技术，它既不是符号微分也不是数值微分。其原理是在程序执行过程中，记录所有基本运算及其组合关系，然后通过链式法则将复杂函数的导数分解为基本运算的导数组合。PyTorch的Autograd系统自动追踪所有 requires_grad=True 的张量运算，构建计算图，并在调用 .backward() 时自动完成梯度计算。自动微分的优势在于可以处理任意复杂的控制流（如循环、条件分支），这正是PyTorch动态图的强大之处。

核心理解：反向传播 = 计算图上的链式法则 + 动态规划的梯度聚合。这正是深度学习能够在数十亿参数的模型中高效训练的根本原因。

六、优化技巧

6.1 特征缩放的重要性

特征缩放是机器学习预处理中最重要的一步。当不同特征的取值范围差异巨大时（如年龄0-100和收入0-100000），损失函数的等高线将呈现狭长椭圆形状，梯度下降会在狭窄方向上来回震荡，收敛极慢。常用方法包括标准化（Standardization，减去均值除以标准差）和归一化（Normalization，缩放到[0,1]区间）。特征缩放不仅加速收敛，还能提升模型精度和稳定性。决策树等不依赖距离的模型对特征缩放不敏感，但SVM、KNN、神经网络等方法则强烈依赖特征缩放。

6.2 参数初始化方法

神经网络的参数初始化至关重要。如果初始权重过大，激活函数可能进入饱和区，梯度消失；如果过小，信号在深层网络中迅速衰减。常用的初始化策略包括：Xavier/Glorot初始化（根据输入输出维度自适应调整初始化范围，适用于Sigmoid/Tanh）、Kaiming/He初始化（专为ReLU系列激活函数设计，方差调整为2/n_in）。正确的初始化可以显著加速收敛，甚至决定模型能否成功训练。

6.3 早停（Early Stopping）

早停是最简单有效的正则化方法之一。在训练过程中，持续监测验证集上的性能指标，当验证集指标连续若干轮不再改善时停止训练。早停本质上防止了模型对训练数据的过度拟合，同时不必精确确定最优训练轮数。通常配合模型检查点（Checkpoint）使用，保存验证集表现最佳时的模型参数而非最后一步的参数。

6.4 学习率预热（Warm-up）

学习率预热是指在训练初期使用较小的学习率，经过若干步后逐渐增加到预设的学习率。预热策略可以避免模型在初始参数不稳定时因过大的学习率而发散，特别在Transformer等大规模模型训练中几乎是标配。常见的预热方案包括线性预热（学习率从零线性增加到目标值）和指数预热。BERT等预训练模型通常使用10,000步左右的预热阶段。

6.5 梯度裁剪（Gradient Clipping）

梯度裁剪用于解决梯度爆炸问题。当梯度的范数超过预设阈值时，将其缩放到阈值范围内，防止参数更新步幅过大导致训练不稳定。梯度裁剪在RNN、LSTM等序列模型中特别重要，因为这些模型在长序列上容易出现梯度爆炸。标准做法是按全局L2范数进行裁剪，阈值通常在1.0到10.0之间。

import torch.nn.utils as utils

# 梯度裁剪示例
total_norm = 0.0
for p in model.parameters():
    if p.grad is not None:
        param_norm = p.grad.data.norm(2)
        total_norm += param_norm.item() ** 2
total_norm = total_norm ** 0.5

# 如果梯度范数超过阈值，进行裁剪
clip_value = 5.0
utils.clip_grad_norm_(model.parameters(), clip_value)

综合建议：在训练深度学习模型时，推荐将以下优化技巧组合使用：①数据标准化；②Kaiming初始化；③Adam优化器（默认参数）；④学习率余弦退火衰减；⑤早停（patience=10）；⑥梯度裁剪（阈值5.0）。这套组合在大多数CV和NLP任务中都能取得良好效果。