机器学习项目实战 - 机器学习-学习笔记-上海佼艾

一、ML项目工作流程

1.1 CRISP-DM标准流程回顾

CRISP-DM（Cross-Industry Standard Process for Data Mining）是业界最成熟的数据挖掘与机器学习项目方法论。它包含六个阶段：业务理解、数据理解、数据准备、建模、评估和部署。这六个阶段并非严格的线性顺序，而是允许在各阶段之间反复迭代。在实际项目中，业务理解往往是最关键但最容易被忽视的环节——不清晰的问题定义会导致后续所有工作偏离方向。

1.2 端到端机器学习项目步骤

一个完整的端到端机器学习项目通常包含以下步骤：第一，定义问题和业务目标，明确是分类、回归还是聚类问题；第二，收集和探索数据，进行描述性统计和可视化分析；第三，数据预处理和特征工程，包括缺失值处理、编码转换、特征缩放和特征选择；第四，模型选择与训练，从简单基线模型开始，逐步尝试复杂模型；第五，模型评估与调优，使用交叉验证和超参数搜索；第六，模型部署与监控，将模型集成到生产环境并持续跟踪性能。

1.3 项目规划与需求分析

在动手编码之前，充分的规划能够大大降低项目风险。需要明确的要点包括：评估指标的选择（准确率、精确率、召回率或业务KPI）、数据获取的可行性和成本、模型解释性的要求、延迟和吞吐量等性能约束，以及模型更新和维护的机制。建议在项目启动时即编写一个简短的"项目章程"，记录上述关键决策，作为后续工作的参考依据。

1.4 成功的ML项目要素

回顾大量工业级ML项目，成功的项目往往具备以下共同要素：第一，紧密对齐业务目标，模型产生的价值可以直接用业务指标衡量；第二，建立可靠的离线评估框架，避免在线AB测试才发现问题；第三，良好的数据基础设施，确保特征计算和模型推理的可重复性；第四，搭建实验管理平台，系统记录每次实验的配置、代码版本和结果；第五，渐进式部署策略，通过灰度发布逐步扩大模型影响范围。

二、项目一：房价预测（回归）

2.1 问题定义与目标

房价预测是机器学习中最经典的回归入门项目。目标是利用房屋的各种属性（面积、卧室数、地理位置、建造年份等）预测房屋的销售价格。使用经典的Boston Housing数据集或其更新替代品（如California Housing数据集）。这是一个典型的监督学习回归问题，输出是连续的实数值。

2.2 数据探索（EDA）

探索性数据分析是理解数据的关键步骤。首先通过 df.info() 和 df.describe() 了解数据的基本结构和统计特征。然后使用 matplotlib/seaborn 绘制特征分布直方图、特征与目标变量的散点图以及特征间的相关性热力图。常见的发现包括：特征分布可能存在长尾或偏态、特征间可能存在多重共线性、目标变量可能需要对数变换以满足正态性假设。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing(as_frame=True)
df = housing.frame

# 相关性矩阵可视化
plt.figure(figsize=(10, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('Feature Correlation Matrix')
plt.show()

# 目标变量分布
sns.histplot(df['MedHouseVal'], bins=50, kde=True)
plt.title('Distribution of House Prices')
plt.show()

2.3 特征工程

特征工程是提升模型性能的核心环节。针对房价预测常见的方法包括：创建组合特征（如房间密度 = 总房间数 / 家庭数）、对偏态分布的特征进行对数变换或Box-Cox变换、对地理坐标进行聚类编码（如划分社区）、对分类变量进行目标编码（Target Encoding）等。特征工程完成后建议使用 SelectKBest 或特征重要性排序进行特征筛选，去除冗余特征。

2.4 模型选择与训练

建议从简单基线开始，逐步提升模型复杂度。首先建立线性回归模型作为性能基准，然后依次尝试决策树回归、随机森林回归、梯度提升树（XGBoost、LightGBM）。使用训练集进行模型训练，在验证集上评估性能。通常随机森林和梯度提升树在表格数据上表现优于线性模型，但线性模型的解释性更好。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
import xgboost as xgb

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

models = {
    'Linear Regression': LinearRegression(),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42),
    'XGBoost': xgb.XGBRegressor(n_estimators=100, learning_rate=0.1, random_state=42)
}

for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(f"{name} RMSE: {np.sqrt(mean_squared_error(y_test, y_pred)):.4f}")

2.5 模型评估

回归任务常用的评估指标包括：均方根误差（RMSE）、平均绝对误差（MAE）和决定系数（R²）。RMSE对较大误差更敏感（因为平方项放大误差），适合需要惩罚大偏差的场景。MAE对所有误差一视同仁，解释更直观（单位与原目标相同）。R²衡量模型对目标变量方差的解释程度，取值范围为0到1，越接近1表示拟合效果越好。

评估指标	计算方式	说明	最优值
RMSE	√(Σ(yᵢ-ŷᵢ)²/n)	对较大误差敏感	越小越好
MAE	Σ\|yᵢ-ŷᵢ\|/n	误差的绝对值平均	越小越好
R²	1 - SS_res/SS_tot	方差解释比例	越接近1越好

2.6 模型调优与部署

使用网格搜索（GridSearchCV）或随机搜索（RandomizedSearchCV）对最佳模型进行超参数调优。对于随机森林主要调优的参数包括 n_estimators、max_depth、min_samples_split 等。调优完成后使用整个训练集重新训练最终模型，在测试集上做最终评估。部署方面可将模型序列化为 pickle 或 ONNX 格式，封装为 REST API 供前端应用调用。

三、项目二：客户流失预测（分类）

3.1 二分类问题定义

客户流失预测是典型的二分类问题，目标是根据用户的历史行为、消费记录和交互数据，预测该用户在未来一段时间内是否会流失（即停止使用服务）。该问题在电信、金融、SaaS等行业具有极高的商业价值——获取新客户的成本通常是留住老客户成本的5到7倍。常用的数据集包括Telcom Customer Churn数据集和银行客户数据集。

3.2 数据不平衡处理

客户流失数据通常存在严重的不平衡问题——流失用户可能只占总用户的10%-20%。直接使用原始数据训练会导致模型偏向多数类，即使全部预测为"未流失"也能获得很高的准确率。常用的处理方法包括：对多数类进行欠采样（Undersampling）、对少数类进行过采样（Oversampling）、使用SMOTE算法生成合成样本、调整类别权重（class_weight='balanced'）以及在评估时关注AUC和F1而不是准确率。

from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split

# 使用SMOTE处理不平衡数据
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X_train, y_train)

print(f"Before SMOTE: {y_train.value_counts().to_dict()}")
print(f"After SMOTE: {pd.Series(y_resampled).value_counts().to_dict()}")

3.3 特征构建

特征工程是提升流失模型效果的关键。常见的用户行为特征包括：使用频次（日活、周活、月活）、使用时长的趋势（近30天用量 vs 前30天用量）、客服投诉次数、账单支付延迟天数、套餐变更记录等。时间特征方面可以构建：最近一次登录距今天数、连续活跃天数、沉默期长度等。高阶特征包括用户行为序列的统计量（均值、标准差、趋势斜率）。

3.4 模型训练与评估

对于分类问题，推荐的对比模型包括：逻辑回归（作为强基线，解释性好）、随机森林（鲁棒性强）、XGBoost和LightGBM（目前表格数据最强性能）。评估时使用AUC（衡量排序能力）和F1-Score（衡量精确率与召回率的调和平均），并输出混淆矩阵观察具体的分类错误类型。

from sklearn.metrics import roc_auc_score, f1_score, confusion_matrix, classification_report
import lightgbm as lgb

model = lgb.LGBMClassifier(
    n_estimators=200,
    learning_rate=0.05,
    class_weight='balanced',
    random_state=42
)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
y_proba = model.predict_proba(X_test)[:, 1]

print(f"AUC: {roc_auc_score(y_test, y_proba):.4f}")
print(f"F1: {f1_score(y_test, y_pred):.4f}")
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

3.5 SHAP特征重要性解释

SHAP（SHapley Additive exPlanations）是一种基于博弈论的特征重要性解释方法，能够对每个预测样本计算各特征的贡献值。相比传统的特征重要性（gain、cover、frequency），SHAP具有一致性和局部解释性两大优势。利用SHAP可以识别出对流失预测影响最大的特征，并理解每个特征在不同取值下对预测结果的正负向影响。这对向业务方解释模型行为并制定干预策略至关重要。

import shap

explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)

# 全局特征重要性
shap.summary_plot(shap_values, X_test, feature_names=feature_names)

# 单个样本解释
shap.force_plot(explainer.expected_value, shap_values[0], X_test.iloc[0])

3.6 业务建议生成

模型预测的最终目的是指导行动。基于SHAP分析结果，可以针对高流失风险用户设计差异化的挽留策略。例如：对因价格敏感而可能流失的用户推送优惠券或套餐折扣；对因使用体验不佳的流失用户推送产品优化公告和VIP客服支持；对活跃度下降的用户发送个性化提醒邮件或推送通知。建议建立"预测-干预-反馈"的闭环系统，持续优化模型和策略效果。

四、项目三：手写数字识别（图像分类）

4.1 MNIST数据集

MNIST（Modified National Institute of Standards and Technology）是计算机视觉领域的"Hello World"数据集，包含70,000张28x28像素的手写数字灰度图像（0-9）。其中60,000张为训练集，10,000张为测试集。每张图像被展平为784维的特征向量，或者保留为28x28的二维矩阵用于深度学习模型。尽管MNIST已经相对简单（现代模型可以达到99.7%以上的准确率），它仍然是学习图像分类的优秀入门数据集。

4.2 数据预处理与数据增强

数据预处理包括：将像素值归一化到[0,1]区间（除以255）、转换为浮点型张量、对标签进行one-hot编码。数据增强可以显著提升模型的泛化能力，常见的增强操作包括：随机旋转（不超过15度）、随机平移、随机缩放和弹性变形。PyTorch中通过 torchvision.transforms 可以方便地组合这些操作。需要注意的是，增强操作不应改变数字的类别语义，过大的旋转或扭曲可能导致样本难以辨认。

4.3 CNN模型构建（PyTorch）

卷积神经网络（CNN）是图像分类的标准架构。一个典型的CNN模型包含：卷积层（提取局部特征）、激活函数（ReLU）、池化层（降维）、Dropout层（防止过拟合）和全连接层（分类输出）。以下是使用PyTorch构建的简单CNN模型示例。

import torch
import torch.nn as nn
import torch.nn.functional as F

class SimpleCNN(nn.Module):
    def __init__(self, num_classes=10):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.dropout1 = nn.Dropout2d(0.25)
        self.dropout2 = nn.Dropout(0.5)
        self.fc1 = nn.Linear(64 * 7 * 7, 128)
        self.fc2 = nn.Linear(128, num_classes)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = self.dropout1(x)
        x = torch.flatten(x, 1)
        x = F.relu(self.fc1(x))
        x = self.dropout2(x)
        x = self.fc2(x)
        return x

4.4 训练与验证

训练CNN模型需要定义损失函数（交叉熵损失CrossEntropyLoss）、优化器（Adam或SGD带动量）和学习率调度器。训练过程中记录每个epoch的训练损失和验证集准确率，并保存验证集上表现最好的模型权重（Early Stopping）。通常训练10-20个epoch即可在MNIST上达到99%以上的准确率。训练完成后在测试集上进行最终评估，同时可视化模型的混淆矩阵以了解哪些数字类别更容易混淆。

4.5 结果可视化

可视化是理解模型行为的重要手段。可以展示以下几个方面：训练过程中损失和准确率的变化曲线、模型预测正确的样本和预测错误的样本对比、以及卷积层学习到的特征图（Feature Maps）的可视化。通过观察错误预测的样本，可以分析模型的薄弱环节——例如数字4和9可能容易混淆、数字7和1的笔顺风格差异大等。这些洞察可以指导进一步的数据增强或模型改进。

五、项目四：电影评论情感分析（NLP）

5.1 文本数据预处理

情感分析是自然语言处理最成熟的落地场景之一，以IMDB电影评论数据集为经典案例。文本预处理的流程包括：文本清洗（去除HTML标签、特殊字符、统一小写）、分词（Tokenization）、去停用词（Stop Words Removal）、词干提取（Stemming）或词形还原（Lemmatization）。在使用深度学习模型之前，需要将所有文本转换为统一的数值表示——构建词表（Vocabulary）并将每个句子转换为索引序列，并进行长度填充（Padding）以保证批次内长度一致。

import re
from collections import Counter

def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'<[^>]+>', '', text)
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    tokens = text.split()
    tokens = [w for w in tokens if len(w) > 2]
    return tokens

# 构建词表
word_counts = Counter()
for review in reviews:
    tokens = preprocess_text(review)
    word_counts.update(tokens)

vocab = {word: idx + 2 for idx, (word, _) in enumerate(word_counts.most_common(10000))}
vocab[''] = 0
vocab[''] = 1

5.2 词嵌入与序列表示

词嵌入（Word Embedding）将离散的词语映射到低维稠密向量空间，使得语义相近的词在向量空间中距离更近。常用的词嵌入方式包括：静态词嵌入（Word2Vec、GloVe）提供预训练的通用词向量；或者在训练过程中随机初始化并作为模型参数学习。PyTorch中的 nn.Embedding 层可以方便地实现词嵌入。对于序列数据，还需要将变长序列填充为统一长度（通常设为100-500），并创建对应的注意力掩码（Attention Mask）以标识实际内容位置。

5.3 LSTM/Transformer模型

处理文本序列有两种主流架构：LSTM和Transformer。LSTM（长短时记忆网络）通过门控机制有效解决了长距离依赖问题，适合处理中等长度的文本序列。Transformer基于自注意力机制（Self-Attention），能够并行处理整个序列并捕获全局依赖关系，近年来逐渐成为NLP领域的主流架构。对于情感分析这个相对简单的任务，单层或双层的LSTM已经可以达到很好的效果，训练速度也更快。下面是一个基于LSTM的情感分类模型示例。

class SentimentLSTM(nn.Module):
    def __init__(self, vocab_size, embed_dim=100, hidden_dim=128, num_layers=2):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)
        self.lstm = nn.LSTM(embed_dim, hidden_dim, num_layers,
                           batch_first=True, dropout=0.3)
        self.dropout = nn.Dropout(0.3)
        self.fc = nn.Linear(hidden_dim, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x = self.embedding(x)
        _, (hidden, _) = self.lstm(x)
        x = self.dropout(hidden[-1])
        x = self.fc(x)
        return self.sigmoid(x).squeeze()

5.4 模型评估与部署

情感分析模型评估主要关注准确率、AUC和F1-Score。在IMDB数据集上，一个训练良好的LSTM模型通常可以达到88%-92%的测试准确率。评估时需要特别注意模型对正面和负面评论的性能是否均衡，以及模型是否被某些特定表达方式所误导（如否定词"not good"实际是负面但可能被误判为正面）。部署方面，可以将训练好的模型转换为TorchScript格式，通过Flask/FastAPI封装为REST API，接收原始文本输入并返回情感分析结果。也可以使用ONNX Runtime进行跨平台推理部署。

六、ML项目最佳实践

6.1 实验跟踪

随着项目推进，实验数量会迅速增加，手动记录实验参数和结果变得不可行。实验跟踪工具可以系统地记录每次实验的超参数、代码版本、数据集版本和评估指标。MLflow是目前最广泛使用的开源实验管理平台，提供了轻量级的API。Weights & Biases（W&B）则提供了更丰富的可视化功能，包括实时训练曲线、超参数对比和模型工件管理。建议从项目第一天就引入实验跟踪，后面回顾时会发现这极大地提升了工作效率。

import mlflow
import mlflow.sklearn

with mlflow.start_run(run_name="random_forest_v1"):
    mlflow.log_param("n_estimators", 100)
    mlflow.log_param("max_depth", 10)
    mlflow.log_metric("rmse", rmse_value)
    mlflow.log_metric("r2", r2_value)
    mlflow.sklearn.log_model(model, "model")
    # 在终端运行 mlflow ui 查看实验面板

6.2 代码组织与模块化

良好的代码组织是ML项目可维护性的基础。推荐的项目结构如下：data/ 存放原始数据和预处理脚本；features/ 存放特征工程代码；models/ 存放模型定义和训练脚本；evaluation/ 存放评估和可视化代码；config/ 存放超参数配置（YAML或JSON格式）；notebooks/ 存放探索性分析用Jupyter Notebook；src/ 项目核心源码。主训练脚本应该支持通过命令行参数覆盖配置，方便进行批量实验。

6.3 版本控制

ML项目的版本控制比传统软件工程更为复杂，需要同时对代码、数据和模型进行版本管理。代码使用Git管理，遵循常规的分支策略。数据版本管理推荐使用DVC（Data Version Control），它基于Git的思想管理数据集，将大文件存储在远程存储（S3、GCS等）而将指针文件存储在Git仓库中。模型版本可以使用MLflow Model Registry或W&B Model Registry进行管理，支持模型从开发到生产的全生命周期管理。

6.4 可重复性保证

可重复性是ML项目中最容易被忽视的问题之一。保证实验可重复的关键措施包括：固定所有随机种子（Python random、NumPy、PyTorch/TensorFlow）；使用确定性算法（在PyTorch中设置 torch.backends.cudnn.deterministic = True）；在requirements.txt或conda.yaml中精确记录依赖版本（建议使用 pip freeze > requirements.txt）；使用Docker容器化运行环境。除此之外，记录每次实验的Git commit hash和数据集的校验和也是良好实践。

import random
import numpy as np
import torch

def set_seed(seed=42):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

set_seed(42)

6.5 模型文档编写（Model Cards）

Model Cards是Google提出的一种模型文档规范，旨在提高ML模型的透明度和可问责性。一份标准的Model Card包含：模型概述（用途和架构）、预期用途和限制、训练数据描述（来源、规模、分布）、评估结果（不同细分群组上的性能）、公平性考量、伦理考量和推荐的使用场景。为每个模型编写Model Cards不仅是良好的工程实践，对于需要监管合规的场景（如金融、医疗）更是必不可少的要求。

七、项目检查清单

在每个机器学习项目中，使用以下检查清单确保项目质量。逐项核对可以避免常见的工程失误，提高项目成功率。

检查项	具体内容	完成状态
问题定义清晰	确认ML问题类型、业务目标和评估指标，与利益相关方达成一致	☐
评估指标合理	选择与业务目标对齐的离线评估指标，确定目标阈值	☐
数据划分正确	训练/验证/测试集按时间或随机划分，避免数据泄露（Data Leakage）	☐
特征工程充分	探索多种特征组合和变换方式，去除冗余和无关特征	☐
模型对比全面	从简单基线到复杂模型系统对比，包含多种算法和配置	☐
超参数调优	使用交叉验证进行超参数搜索，避免验证集过拟合	☐
结果可解释	使用SHAP或LIME解释模型预测，验证决策合理性	☐
部署方案明确	确定推理环境、API接口、性能需求和监控方案	☐
可重复性保障	固定随机种子、记录依赖版本、配置Docker环境	☐
实验记录完整	所有实验配置和结果已记录到实验跟踪平台	☐

总结

核心要点回顾：机器学习项目实战是理论知识到工程能力的桥梁。通过房价预测项目掌握回归问题全流程；通过客户流失预测项目学习分类问题和数据不平衡处理；通过手写数字识别项目入门图像分类和CNN；通过情感分析项目掌握NLP基础流程。在每个项目中都要重视实验管理、可重复性和模型解释性，这些都是工业级ML工程师的核心素养。建议学习者在完成这四个项目后，尝试整合所学知识完成一个综合性项目，构建自己的项目作品集。

"A machine learning project is not just about building a model. It's about building the right model, validating it properly, deploying it safely, and maintaining it over time. The model is just the tip of the iceberg."