迁移学习与模型微调

深度学习专题 · 站在巨人的肩膀上训练模型

专题：深度学习系统学习

关键词：深度学习, 迁移学习, 微调, Fine-tuning, 预训练, 特征提取, 冻结, 领域自适应

一、迁移学习概述

迁移学习（Transfer Learning）是深度学习中最强大的技术之一，其核心思想非常简单：将一个任务上学到的知识应用到另一个相关任务中。在传统机器学习范式中，我们假设训练数据和测试数据服从相同分布，模型从零开始学习。但现实世界中，为每个新任务收集大量标注数据并从头训练模型是极其昂贵的。迁移学习打破了这一限制，使得我们可以利用在大型数据集（如ImageNet、Wikipedia、Common Crawl）上预训练的模型，将其知识迁移到数据量较小的目标任务上。

从本质上讲，迁移学习的成功基于一个深刻观察：深度神经网络在学习过程中会形成层次化的特征表示。底层网络学习的是通用特征（边缘、纹理、颜色等），中间层学习的是局部结构特征（形状、部件等），而高层网络学习的是任务特定的抽象特征。这种层次化结构意味着，底层和中间层的知识在不同任务之间具有很强的可迁移性。我们不需要为每个新任务重新学习如何检测边缘和纹理——这些是视觉世界的通用构建模块。

预训练阶段: 大规模数据 → 通用特征学习 → 基础模型

↓ 迁移

微调阶段: 目标任务数据 → 特征适配 → 专用模型

根据Yoshua Bengio等人在《Deep Learning》中的论述，迁移学习之所以有效，是因为学习到的特征表示具有可迁移性（transferability）。当任务之间共享底层特征时，迁移学习可以显著提升模型性能、缩短训练时间、减少过拟合风险。研究还表明，即使预训练任务与目标任务差异较大，底层特征仍然具有较好的迁移效果，这一现象被称为表示的可迁移性（representation transferability）。

迁移学习的三大优势：

缩短训练时间： 利用预训练权重初始化，收敛速度可提升10-100倍
提升模型性能： 尤其在目标数据量不足时，迁移学习显著优于从零训练
降低数据需求： 微调通常只需数百至数千张标注图片即可达到良好效果

二、迁移学习的核心原理

2.1 预训练表示（Pre-trained Representations）

预训练表示是迁移学习的基石。以计算机视觉为例，在ImageNet（包含1400万张图像、2万多个类别）上训练得到的模型，其卷积层已经学会了通用的视觉特征提取能力。这些特征包括：第一层检测边缘和颜色块、第二层组合成纹理和简单形状、第三层识别物体部件（车轮、眼睛、嘴巴）、更高层识别完整物体。当我们将这些预训练权重迁移到新任务时，相当于给模型配备了强大的视觉特征提取器，我们只需在顶层学习如何组合这些特征来完成新任务。

为什么预训练有效？ 预训练模型在大规模、多样化的数据上学习到了广泛的特征表示空间，这个特征空间覆盖了视觉世界中的大量通用模式。目标任务的底层特征（边缘、纹理等）与预训练数据中的特征高度重合，因此预训练模型为任务提供了强大的特征初始化起点。用数学语言描述：设预训练数据集为 D_p，目标任务数据集为 D_t，当 D_t 较小而 D_p 较大时，通过特征迁移可以显著降低目标任务的泛化误差上界（generalization error bound）。

2.2 特征提取（Feature Extraction）

特征提取是迁移学习最基本的形式。在这种模式下，我们将预训练模型的主干网络完全冻结（即不更新权重），仅将其作为固定特征提取器使用。对于输入数据，我们通过冻结的主干网络得到特征向量（称为"瓶颈特征"或"embedding"），然后在这些特征之上训练一个新的分类器（通常是一个简单的全连接层或逻辑回归）。这种方法的优势在于计算开销极低——冻结的主干网络可以预先计算所有训练数据的特征向量并缓存到磁盘，后续只需在小型分类器上进行训练。

2.3 领域自适应（Domain Adaptation）

领域自适应是迁移学习的进阶形式，专门处理源域（source domain）和目标域（target domain）之间存在分布差异的情况。例如，在合成图像上训练的模型需要迁移到真实场景时，两个域之间存在明显的分布偏移（domain shift）。领域自适应的常见技术包括：对抗性领域自适应（使用域判别器迫使特征分布对齐）、最大均值差异（MMD）最小化、以及基于统计矩匹配的方法。这些技术的核心目标都是学习域不变特征（domain-invariant features），使得模型能够忽略域之间的表面差异，关注语义内容。

2.4 知识迁移与共享表示

不同任务之间之所以能够共享表示，深层原因在于现实世界中的数据具有内在的结构化共性。自然图像无论在哪个数据集中，都由相似的边缘、纹理和颜色模式构成；自然语言无论在哪个语料库中，都由相似的语法结构和语义关系组织。这种共性使得模型在学习一个任务时，捕获了大量跨任务通用的模式。研究表明，任务之间的相关性越高，迁移带来的收益就越显著。衡量任务相关性的常用指标包括：特征空间的重叠程度、最优决策边界的相似性、以及表示空间的拓扑结构一致性。

"迁移学习本质上是对学习本身的学习——它利用元知识（meta-knowledge）来加速和改善新任务的学习过程。" — Sebastian Ruder, 迁移学习研究专家

三、微调策略详解

微调（Fine-tuning）是迁移学习中最核心的技术环节。与简单的特征提取不同，微调允许预训练模型的权重在目标任务数据上继续更新，从而使模型更好地适配目标任务的特定模式。然而，微调并非简单地让所有层一起训练——不同的微调策略对最终性能有着显著影响。下面我们详细介绍五种主流的微调策略。

3.1 全模型微调（Full Fine-tuning）

全模型微调是最直接的策略：解锁所有层，使用较小的学习率在目标任务上对整个网络进行训练。这种方法理论上提供了最大的灵活性，让模型能够充分适配新任务。但全模型微调也存在风险——当目标数据量很小时，全模型微调可能导致灾难性遗忘（catastrophic forgetting），即模型完全丢失了预训练阶段学到的通用特征，过度拟合到少量目标数据上。因此，全模型微调通常适用于目标数据量较大（例如每类500张以上）的场景。

3.2 顶层微调（Top-layer Fine-tuning）

顶层微调是最常用的策略之一。操作上，我们冻结模型的大部分底层（通常是backbone的绝大部分），只解锁最后几层进行训练。这样做的理论依据是：底层学习的是通用特征（边缘、纹理等），这些特征在不同任务之间几乎不变化；而高层学习的是任务特定的语义特征，需要根据新任务进行调整。通常，我们冻结模型的前80%-90%的层，只对最后10%-20%的层进行微调。这在大幅降低计算成本的同时，也能有效防止过拟合。

3.3 渐进解冻（Gradual Unfreezing）

渐进解冻是一种更为精细的微调策略，最早由Howard和Ruder在ULMFiT中提出。其思想是分阶段逐步解锁模型层：第一阶段只训练新添加的分类头（classifier head），第二阶段从最后一层开始逐步向上解冻，每次解冻一层或一个阶段，并在每个阶段使用合适的学习率进行训练。这种渐进式策略让模型逐渐适应新任务的特征空间，避免剧烈变化导致的特征破坏。渐进解冻在自然语言处理的迁移学习中尤其流行，已成为BERT微调的标准做法之一。

# 渐进解冻实现示例
import torch
import torch.nn as nn
from torchvision import models

def gradual_unfreeze(model, num_stages=4):
    # 首先冻结所有层
    for param in model.parameters():
        param.requires_grad = False
    # 替换分类头（始终可训练）
    num_features = model.fc.in_features
    model.fc = nn.Linear(num_features, 10)
    return model

def set_gradual_stage(model, stage, total_layers):
    layers = list(model.named_children())
    backbone_layers = [n for n, _ in layers if n != 'fc']
    if stage == 0:
        for name, param in model.named_parameters():
            if 'fc' in name:
                param.requires_grad = True
    elif stage == 1:
        unfreeze_count = len(backbone_layers) // 4
        for name, param in model.named_parameters():
            if 'fc' in name:
                param.requires_grad = True
        for name, child in list(model.named_children())[-unfreeze_count:]:
            for param in child.parameters():
                param.requires_grad = True
    elif stage == 2:
        unfreeze_count = len(backbone_layers) // 2
        for name, param in model.named_parameters():
            if 'fc' in name:
                param.requires_grad = True
        for name, child in list(model.named_children())[-unfreeze_count:]:
            for param in child.parameters():
                param.requires_grad = True
    elif stage == 3:
        for param in model.parameters():
            param.requires_grad = True

resnet = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)
model = gradual_unfreeze(resnet)
stages = [0, 0, 0, 1, 1, 2, 2, 3]
for epoch, stage in enumerate(stages):
    set_gradual_stage(model, stage, 50)

3.4 区别学习率（Discriminative Learning Rates）

区别学习率是微调中最重要的技术之一，由Jeremy Howard在fast.ai框架中推广。核心思想非常简单：不同层对目标任务的重要性和已学习程度不同，因此应该使用不同的学习率。底层已经学到了通用特征，只需微调即可，因此使用较小的学习率（如1e-6到1e-5）；高层更接近目标任务，需要更多调整，因此使用较大的学习率（如1e-4到1e-3）。实际操作中，通常将网络分成几个层组（layer groups），为每个组分配不同的学习率，学习率从底层到顶层呈递增趋势。

# PyTorch中实现区别学习率
import torch
import torch.nn as nn
from torchvision import models

def get_discriminative_optimizer(model, base_lr=1e-4):
    layers = list(model.named_children())
    backbone_layers = [n for n, _ in layers if n != 'fc']
    mid = len(backbone_layers) // 2
    group1_names = backbone_layers[:mid]
    group1_params = []
    for name, child in model.named_children():
        if name in group1_names:
            group1_params.extend(list(child.parameters()))
    group2_names = backbone_layers[mid:]
    group2_params = []
    for name, child in model.named_children():
        if name in group2_names:
            group2_params.extend(list(child.parameters()))
    group3_params = list(model.fc.parameters())
    optimizer = torch.optim.AdamW([
        {'params': group1_params, 'lr': base_lr * 0.1},
        {'params': group2_params, 'lr': base_lr * 0.5},
        {'params': group3_params, 'lr': base_lr * 2.0},
    ], weight_decay=0.01)
    return optimizer

model = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)
model.fc = nn.Linear(2048, 10)
optimizer = get_discriminative_optimizer(model)
for epoch in range(10):
    for inputs, labels in dataloader:
        outputs = model(inputs)
        loss = nn.CrossEntropyLoss()(outputs, labels)
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

3.5 层分组与学习率配置策略

在实际工程中，层分组可以更加精细化。以下是常见的学习率配置策略：

策略名称	底层学习率	中间层学习率	顶层学习率	适用场景
保守微调	1e-6	5e-6	1e-4	目标数据量极小（<100张）
标准微调	1e-5	5e-5	1e-4	目标数据量适中（100-1000张）
激进微调	1e-4	5e-4	1e-3	目标数据量大（>1000张）或任务差异大
SLR（Slanted Triangular LR）	先线性增长到峰值，再逐步衰减；不同层峰值不同

除了学习率设定外，学习率调度策略（LR Scheduler）也至关重要。推荐使用余弦退火（Cosine Annealing）或带重启的余弦退火作为调度器。对于区别学习率，可以使用分层调度器，让不同层组在不同时间点达到学习率峰值，从而实现更精细的训练控制。

实践经验： 在微调时，始终先让新添加的分类头训练几个epoch（约2-5个），再开始微调backbone。这是因为随机初始化的分类头会产生较大的梯度，如果一开始就让backbone参与训练，这些大梯度会破坏预训练学到的特征。这个预热阶段（warm-up）对于微调成功至关重要。

四、特征提取技术

4.1 冻结主干（Freeze Backbone）

冻结主干是特征提取的核心操作。在PyTorch中，通过设置参数的requires_grad=False来冻结主干网络。冻结后，前向传播仍然计算所有层的输出，但反向传播时仅计算被解冻层的梯度。这显著减少了需要优化的参数量和内存消耗。以ResNet50为例，原始模型约2500万个参数，冻结主干后仅需训练约5000个参数（分类头），训练速度提升数十倍。

# 冻结主干网络的完整流程
import torch
import torch.nn as nn
import torchvision.transforms as transforms
from torchvision import models
from torch.utils.data import DataLoader, Dataset

# 1. 加载预训练模型
model = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)

# 2. 冻结所有层（主干）
for param in model.parameters():
    param.requires_grad = False

# 3. 替换分类头（新分类头默认可训练）
num_features = model.fc.in_features
model.fc = nn.Sequential(
    nn.Dropout(0.5),
    nn.Linear(num_features, 256),
    nn.ReLU(inplace=True),
    nn.Dropout(0.3),
    nn.Linear(256, 10)
)

# 4. 验证冻结状态
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
total_params = sum(p.numel() for p in model.parameters())
print(f'可训练参数: {trainable_params:,} / {total_params:,} ({100 * trainable_params / total_params:.2f}%)')

4.2 全局池化（Global Pooling）

全局平均池化（Global Average Pooling, GAP）是连接主干和分类头的关键组件。GAP将每个特征图的空间维度（HxW）压缩为单个数值。与传统的全连接层相比，GAP具有天然的正则化效果、更少的参数以及空间不变性。在迁移学习中，当我们替换分类头时，通常需要保留GAP层，以确保特征图被正确压缩为一维特征向量。

4.3 分类头替换（Classifier Head Replacement）

分类头替换是迁移学习中最基本的操作。不同数据集具有不同数量的类别，因此原始预训练模型的分类头必须被替换为适配目标任务的分类器。替换时，通常保留预训练模型的特征提取部分（包括池化层），仅替换最后的全连接层。新分类头的神经元数量等于目标数据集的类别数。

# 不同架构的分类头替换方法
# ResNet系列
resnet = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)
resnet.fc = nn.Linear(2048, num_classes)

# VGG系列
vgg = models.vgg16(weights=models.VGG16_Weights.IMAGENET1K_V1)
vgg.classifier[6] = nn.Linear(4096, num_classes)

# EfficientNet系列
effnet = models.efficientnet_b0(weights=models.EfficientNet_B0_Weights.IMAGENET1K_V1)
effnet.classifier[1] = nn.Linear(1280, num_classes)

# ViT (Vision Transformer)
vit = models.vit_b_16(weights=models.ViT_B_16_Weights.IMAGENET1K_V1)
vit.heads.head = nn.Linear(768, num_classes)

4.4 线性探测（Linear Probing）

线性探测是评估预训练表示质量的标准方法。其操作极其简单：冻结整个主干网络，仅在特征之上训练一个线性分类器。线性探测的准确率反映了特征表示的线性可分性，即预训练特征空间在多大程度上能够通过简单的线性决策边界分离不同类别。如果线性探测准确率高，说明预训练模型学到的特征表示质量高，特征空间具有良好的结构。

# 线性探测实现
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
import numpy as np
import torch

def extract_features(model, dataloader, device='cuda'):
    model.eval()
    features_list = []
    labels_list = []
    with torch.no_grad():
        for inputs, labels in dataloader:
            inputs = inputs.to(device)
            features = model.avgpool(model.layer4(
                model.layer3(model.layer2(
                    model.layer1(model.maxpool(
                        model.relu(model.bn1(model.conv1(inputs)))))))))
            features = torch.flatten(features, 1)
            features_list.append(features.cpu().numpy())
            labels_list.append(labels.numpy())
    return np.concatenate(features_list), np.concatenate(labels_list)

train_features, train_labels = extract_features(model, train_loader)
test_features, test_labels = extract_features(model, test_loader)
scaler = StandardScaler()
train_features_scaled = scaler.fit_transform(train_features)
test_features_scaled = scaler.transform(test_features)
clf = LogisticRegression(max_iter=1000, multi_class='multinomial')
clf.fit(train_features_scaled, train_labels)
accuracy = clf.score(test_features_scaled, test_labels)
print(f'线性探测准确率: {accuracy:.4f}')

五、任务适配与领域差距

5.1 预训练任务与目标任务的差异

迁移学习的成功程度很大程度上取决于预训练任务与目标任务之间的相似度。当两个任务高度相似时（如ImageNet分类→花卉分类），迁移效果最优；当任务差异较大时（如ImageNet→医学影像分割），虽然底层特征仍然有用，但需要更复杂的适配策略。分析任务差异可以从以下维度进行：数据分布差异（自然图像vs医学图像vs遥感图像）、任务类型差异（分类vs分割vs检测vs生成）、标签空间差异（粗粒度vs细粒度分类）、评估指标差异（准确率vs IoU vs F1-score）。

负面迁移（Negative Transfer）： 当预训练任务与目标任务完全不相关时，迁移学习可能反而降低模型性能。例如，在语音数据上预训练的模型迁移到图像分类任务，几乎不可能带来收益。判断是否会发生负面迁移，可以通过实验对比：在少量目标数据上分别训练"从零开始"和"迁移学习"两个模型，如果迁移模型的效果更差，则说明存在负面迁移。

5.2 图像到非图像的跨模态迁移

近年来，跨模态迁移学习取得了突破性进展。CLIP（Contrastive Language-Image Pre-training）模型通过4亿图文对学习到了跨模态的联合表示空间。这种联合表示使得模型能够在图像和文本之间进行零样本迁移——即使从未见过某类图像，只要理解该类的文本描述，CLIP就能正确识别。类似的，ImageBind（Meta AI）进一步将这种联合表示扩展到六种模态（图像、文本、音频、深度、热成像、IMU）。跨模态迁移的关键在于学习一个共享的嵌入空间，使得不同模态的数据在该空间中语义对齐。

5.3 领域差距处理（Domain Gap Handling）

当源域和目标域之间存在显著差距时，以下技术可以有效弥合差距：

数据增强（Data Augmentation）： 使用目标域的特定增强策略（如医学图像中的颜色抖动、几何变换）来增加数据多样性，缩小域差距。
域自适应训练（Domain Adaptation Training）： 在微调过程中混入源域数据，或在目标域数据上使用对抗性域对齐。
知识蒸馏（Knowledge Distillation）： 将源域模型的知识逐步蒸馏到目标域模型，保持关键特征的同时适配新域。
Self-training / Pseudo-labeling： 在目标域无标签数据上生成伪标签，逐步扩展模型对目标域的适应性。
Batch Normalization适配： 微调时更新BatchNorm层的running statistics，使归一化统计量适配目标域的数据分布。

# Batch Normalization适配与域自适应
def adapt_batchnorm(model, target_loader, device='cuda'):
    model.train()
    with torch.no_grad():
        for inputs, _ in target_loader:
            inputs = inputs.to(device)
            _ = model(inputs)
    model.eval()
    return model

def pseudo_label_finetune(model, unlabeled_loader, threshold=0.9):
    model.eval()
    pseudo_data = []
    with torch.no_grad():
        for inputs in unlabeled_loader:
            outputs = model(inputs)
            probs = torch.softmax(outputs, dim=1)
            max_probs, pseudo_labels = torch.max(probs, dim=1)
            mask = max_probs > threshold
            if mask.sum() > 0:
                pseudo_data.extend([(inputs[i], pseudo_labels[i]) for i in range(len(inputs)) if mask[i]])
    if len(pseudo_data) == 0:
        print('没有高置信度的伪标签样本')
        return
    model.train()
    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(model.fc.parameters(), lr=1e-4)
    for inputs, labels in DataLoader(pseudo_data, batch_size=32, shuffle=True):
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
    print(f'使用 {len(pseudo_data)} 个伪标签样本完成微调')

六、PyTorch迁移学习完整实战

下面我们构建一个完整的迁移学习工作流程，涵盖数据准备、模型加载、微调策略选择和训练评估。以花朵分类（Flower102数据集）为例，展示从预训练ResNet50到自定义分类器的完整微调流程。

# PyTorch迁移学习完整实战代码
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torchvision import models
from torch.utils.data import DataLoader, random_split
import numpy as np
from tqdm import tqdm

# ========== 1. 配置超参数 ==========
class Config:
    data_dir = './flower_data'
    num_classes = 102
    batch_size = 32
    num_epochs = 30
    initial_lr = 1e-4
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    num_workers = 4
    random_seed = 42

config = Config()

# ========== 2. 数据预处理 ==========
train_transform = transforms.Compose([
    transforms.RandomResizedCrop(224),
    transforms.RandomHorizontalFlip(p=0.5),
    transforms.RandomRotation(15),
    transforms.ColorJitter(brightness=0.2, contrast=0.2),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

val_transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

full_dataset = torchvision.datasets.Flowers102(
    root=config.data_dir, split='train', transform=train_transform, download=True
)
train_size = int(0.8 * len(full_dataset))
val_size = len(full_dataset) - train_size
train_dataset, val_dataset = random_split(full_dataset, [train_size, val_size])
val_dataset.dataset.transform = val_transform

train_loader = DataLoader(train_dataset, batch_size=config.batch_size,
                          shuffle=True, num_workers=config.num_workers)
val_loader = DataLoader(val_dataset, batch_size=config.batch_size,
                        shuffle=False, num_workers=config.num_workers)

# ========== 3. 加载预训练模型 ==========
def create_model(strategy='top'):
    model = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)
    num_features = model.fc.in_features
    model.fc = nn.Sequential(
        nn.Dropout(0.3),
        nn.Linear(num_features, 512),
        nn.ReLU(inplace=True),
        nn.BatchNorm1d(512),
        nn.Dropout(0.3),
        nn.Linear(512, config.num_classes)
    )
    if strategy == 'feature_extraction':
        for param in model.parameters():
            param.requires_grad = False
        for param in model.fc.parameters():
            param.requires_grad = True
    elif strategy == 'top':
        for param in model.parameters():
            param.requires_grad = False
        for param in model.layer4.parameters():
            param.requires_grad = True
        for param in model.fc.parameters():
            param.requires_grad = True
    elif strategy == 'full':
        for param in model.parameters():
            param.requires_grad = True
    return model

# ========== 4. 训练与评估函数 ==========
def train_one_epoch(model, loader, criterion, optimizer, device):
    model.train()
    running_loss = 0.0
    correct = 0
    total = 0
    for inputs, labels in tqdm(loader, desc='Training'):
        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
        _, predicted = outputs.max(1)
        total += labels.size(0)
        correct += predicted.eq(labels).sum().item()
    return running_loss / len(loader), 100.0 * correct / total

def evaluate(model, loader, criterion, device):
    model.eval()
    running_loss = 0.0
    correct = 0
    total = 0
    with torch.no_grad():
        for inputs, labels in tqdm(loader, desc='Evaluating'):
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            running_loss += loss.item()
            _, predicted = outputs.max(1)
            total += labels.size(0)
            correct += predicted.eq(labels).sum().item()
    return running_loss / len(loader), 100.0 * correct / total

# ========== 5. 主训练流程 ==========
def main():
    device = config.device
    print(f'使用设备: {device}')
    model = create_model(strategy='top')
    model = model.to(device)
    trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
    total = sum(p.numel() for p in model.parameters())
    print(f'可训练参数: {trainable:,} / {total:,} ({100*trainable/total:.2f}%)')

    criterion = nn.CrossEntropyLoss(label_smoothing=0.1)
    optimizer = optim.AdamW([
        {'params': model.layer4.parameters(), 'lr': config.initial_lr * 0.5},
        {'params': model.fc.parameters(), 'lr': config.initial_lr}
    ], weight_decay=0.01)
    scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=config.num_epochs)

    best_acc = 0.0
    for epoch in range(config.num_epochs):
        print(f'\nEpoch {epoch+1}/{config.num_epochs}')
        train_loss, train_acc = train_one_epoch(model, train_loader, criterion, optimizer, device)
        val_loss, val_acc = evaluate(model, val_loader, criterion, device)
        scheduler.step()
        print(f'Train Loss: {train_loss:.4f}, Train Acc: {train_acc:.2f}%')
        print(f'Val Loss: {val_loss:.4f}, Val Acc: {val_acc:.2f}%')
        if val_acc > best_acc:
            best_acc = val_acc
            torch.save(model.state_dict(), 'best_model.pth')
            print(f'保存最佳模型, Acc: {best_acc:.2f}%')
    print(f'\n训练完成! 最佳验证准确率: {best_acc:.2f}%')

if __name__ == '__main__':
    main()

实战经验总结： 在实际项目中，推荐的迁移学习流程是分层策略：第一步，进行线性探测建立基线性能；第二步，添加一个轻量级分类头（带Dropout防止过拟合）进行特征提取训练；第三步，采用顶层微调策略，使用区别学习率训练10-30个epoch；第四步，如果需要进一步优化，尝试渐进解冻策略。始终在验证集上监控性能，并保存最佳模型。对于视觉任务，ResNet50、EfficientNet-B3、ConvNeXt-Tiny是性价比最高的预训练骨干网络。

七、核心要点总结

迁移学习的本质： 利用预训练模型的通用特征表示，减少对大量标注数据的依赖，加速模型收敛。底层特征的可迁移性是迁移学习成功的理论基础。
微调策略选择： 数据量少时选择特征提取或顶层微调，数据量充足时选择全模型微调。渐进解冻和区别学习率是最稳定的微调技术。
区别学习率： 底层使用小学习率（1e-6~1e-5），顶层使用大学习率（1e-4~1e-3），分类头使用最大学习率。这是微调效果提升最显著的技术。
预处理一致性： 目标数据必须使用与预训练模型相同的归一化参数（均值和标准差），以确保特征分布的一致性和迁移效果。
任务适配分析： 预训练任务与目标任务的差异越大，需要的适配策略越复杂。跨模态迁移需要共享嵌入空间，域差距需要针对性处理。
防止过拟合： 微调时添加Dropout、Label Smoothing、Weight Decay等正则化手段，尤其在目标数据量较少时更为重要。
负面迁移预防： 始终对比从零训练和迁移学习的基线性能，确认迁移确实带来收益。如果预训练域和目标域完全不相关，不要强行使用迁移学习。
实践建议： 先从线性探测建立基线，再逐步增加微调深度。使用分层策略，不要一次性全模型微调。始终监控验证集性能，防止过拟合。

八、进一步思考

迁移学习是深度学习工业化部署的关键技术，它将模型从实验室的"海量数据"假设中解放出来，使AI技术能够应用于更广泛的现实场景。随着自监督学习（Self-supervised Learning）和大规模基础模型（Foundation Models）的发展，迁移学习正进入新的阶段：CLIP、DINOv2、ImageBind等模型展示了越来越强的零样本和少样本迁移能力，预训练模型正在从"任务专用"走向"通用智能体"。

值得深入思考的几个方向：

模型微调的效率问题： 全参数微调的成本越来越高（LLaMA 70B的微调需要数百GPU小时），参数高效微调方法（LoRA、Adapter、Prefix Tuning）正在成为新的主流。这些方法在冻结大部分参数的同时，通过插入少量可训练参数来适配新任务。
持续学习与灾难性遗忘： 模型在连续微调多个任务时如何避免灾难性遗忘？弹性权重巩固（EWC）、记忆重放（Memory Replay）、正则化方法等持续学习技术成为重要的研究方向。
迁移学习的理论理解： 为什么某些特征表示比其他表示更易迁移？表征的泛化边界如何刻画？特征空间的结构如何影响迁移效果？这些理论问题仍需更深入的研究。

学习资源推荐： 要深入掌握迁移学习，推荐阅读以下资源：①《Deep Learning》Goodfellow et al. 第15章转移学习；②CS231n Stanford课程迁移学习章节；③Hugging Face Transformers文档中的微调教程；④Papers with Code上的迁移学习排行榜。