探索性数据分析（EDA）方法论 - 数据分析-学习笔记-上海佼艾

一、EDA的核心目标

探索性数据分析（Exploratory Data Analysis, EDA）是数据分析流程中最关键的第一步。其核心理念由统计学家John Tukey在1977年提出，强调在建模之前通过可视化与统计手段"让数据自己说话"。EDA不是简单地生成一堆图表，而是带着四个明确目标进行系统性探索。

EDA四大核心目标：

理解数据结构： 掌握数据集的维度、变量类型、缺失值分布、数据范围，建立对数据整体形态的认知框架
发现模式： 识别变量之间的关联趋势、周期性变化、聚类特征等内在规律，为后续建模提供方向
识别异常： 检测离群点、错误记录、不一致的数据输入、极端值等数据质量问题
验证假设： 检查业务假设是否与数据一致，初步评估建模假设（如正态性、线性关系）是否满足

例如，在分析电商用户数据时，我们首先通过EDA了解用户分布特征——是新增用户多还是老用户多？购买金额是否呈长尾分布？是否存在异常的高频下单行为？这些问题在EDA阶段就能得到初步答案，为后续的用户分群和转化率优化提供扎实基础。

关键认识：EDA不是一次性工作，而是一个迭代过程。每次发现都会引向新的问题，需要深入分析才能揭示数据背后的真实业务含义。高质量的EDA能节省后续建模和时间，避免在错误的数据理解上浪费精力。

二、EDA标准流程

一个标准化的EDA流程可以分为五个递进阶段，每一阶段建立在前一阶段的成果之上。下面给出每个阶段的核心工作内容和产出物。

阶段	核心任务	关键输出
数据概览	加载数据，检查维度、列类型、缺失率、基本统计量	数据类型列表、缺失值矩阵、描述统计表
单变量分析	逐个分析每个变量的分布特征	分布直方图、箱线图、偏度/峰度指标
双变量分析	分析两两变量之间的关系	相关系数矩阵、散点图、交叉表
多变量分析	探索三个及以上变量的联合模式	Pairplot、热力图、FacetGrid分组图
结论提取	综合所有发现，形成数据洞察报告	关键发现列表、数据质量报告、分析建议

流程建议：不要跳过前面的步骤直接做多变量分析。只有在充分理解单变量和双变量特征之后，多变量分析的结果才具有可解释性。如果数据量较大，可以先对抽样子集进行快速EDA，再对全量做深入分析。

三、数据概览方法与代码实现

数据概览是EDA的起点。在使用Pandas加载数据后，我们通过一系列标准方法快速建立对数据集的基本认知。下面的代码展示了最常用的数据概览操作，建议每次分析前都执行一遍。

3.1 基础信息概览

import pandas as pd
import numpy as np

# 加载数据
df = pd.read_csv('data.csv')

# 基础信息
print("数据形状:", df.shape)             # (行数, 列数)
print("列名列表:", df.columns.tolist())
print(df.info())                            # 每列的非空计数和数据类型
print(df.dtypes)                            # 只看数据类型

# 数据预览
print(df.head(10))                          # 前10行
print(df.tail(5))                           # 后5行
print(df.sample(5, random_state=42))       # 随机抽样5行

3.2 缺失值与唯一值分析

# 缺失值分析
missing = df.isnull().sum()
missing_pct = (missing / len(df) * 100).round(2)
missing_df = pd.DataFrame({
    '缺失数量': missing,
    '缺失比例(%)': missing_pct
}).query('缺失数量 > 0').sort_values('缺失比例(%)', ascending=False)
print(missing_df)

# 唯一值分析
for col in df.columns:
    nunique = df[col].nunique()
    print(f"{col}: {nunique} 个唯一值")
    if nunique < 20:               # 类别少的列打印具体值
        print("  -> 取值分布:", df[col].value_counts().to_dict())

3.3 描述性统计

# 数值型列描述统计
desc = df.describe().T
desc['range'] = desc['max'] - desc['min']
desc['cv'] = (desc['std'] / desc['mean']).round(4)  # 变异系数
print(desc.round(2))

# 类别型列描述统计
cat_cols = df.select_dtypes(include=['object', 'category']).columns
for col in cat_cols:
    print(f"\n=== {col} 的频数分布 ===")
    print(df[col].value_counts().head(10))
    print(f"共 {df[col].nunique()} 个类别")

数据概览检查清单：

数据集形状是否符合预期？（行数是否合理、列数是否完整）
各列的数据类型是否正确？（数值列是否被误识别为对象类型？日期列是否解析为datetime？）
缺失率超过30%的列如何处理？（删除、填充或单独标记）
是否存在常量列或唯一值过多的列？（对建模无贡献则考虑删除）
数值列的取值范围是否有异常？（负数出现在应为正数的列中？）

四、单变量分析方法

单变量分析关注的是每个变量自身的分布特征。对于数值变量，我们通过分布形态、集中趋势和离散程度来理解数据；对于类别变量，则关注频次分布和类别平衡性。单变量分析能够快速发现数据质量问题，并对后续分析方法的选择提供指导。

常见陷阱：单变量分析阶段最容易忽视的是缺失值的处理方式。缺失并非总是"无信息"的——缺失模式本身可能就是重要的业务信号。例如在用户调研数据中，拒绝回答某一敏感问题的用户群体可能具有显著不同的行为特征。建议在单变量阶段即对缺失值进行标识和分析。

4.1 数值变量分布可视化

import matplotlib.pyplot as plt
import seaborn as sns

sns.set_style('whitegrid')
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 直方图
sns.histplot(df['price'], bins=50, kde=True, ax=axes[0,0])
axes[0,0].set_title('价格分布直方图')

# 核密度估计图
sns.kdeplot(df['price'], fill=True, ax=axes[0,1])
axes[0,1].set_title('价格核密度图')

# 箱线图
sns.boxplot(x=df['price'], ax=axes[1,0])
axes[1,0].set_title('价格箱线图')

# 小提琴图（箱线图+密度图结合）
sns.violinplot(x=df['price'], ax=axes[1,1])
axes[1,1].set_title('价格小提琴图')

plt.tight_layout()
plt.show()

4.2 偏度与峰度计算

# 计算偏度（Skewness）和峰度（Kurtosis）
skewness = df.select_dtypes(include=[np.number]).skew().sort_values()
kurtosis = df.select_dtypes(include=[np.number]).kurtosis().sort_values()

skew_table = pd.DataFrame({
    '偏度': skewness.round(3),
    '偏度方向': skewness.apply(
        lambda x: '右偏' if x > 0.5 else ('左偏' if x < -0.5 else '近似对称')
    ),
    '峰度': kurtosis.round(3)
})
print("偏度与峰度分析:")
print(skew_table)

# 解读规则
# 偏度: 0=对称, >0.5=右偏(右侧长尾), <-0.5=左偏(左侧长尾)
# 峰度: 0=正态峰度, >0=尖峰(数据集中在均值附近), <0=低峰(数据分散)

4.3 类别变量分析

# 计数图 - 查看类别分布
plt.figure(figsize=(12, 5))

for i, col in enumerate(cat_cols[:3]):
    plt.subplot(1, 3, i+1)
    order = df[col].value_counts().index
    sns.countplot(y=df[col], order=order)
    plt.title(f'{col} 的频数分布')
    plt.tight_layout()

plt.show()

# 类别平衡性评估
for col in cat_cols:
    vc = df[col].value_counts(normalize=True)
    top_ratio = vc.iloc[0]
    print(f"{col}: 最大类别占比 {top_ratio:.1%}")
    if top_ratio > 0.9:
        print("  ⚠️ 警告：存在严重类别不平衡（>90%）")

五、双变量分析方法

双变量分析进入关系探索阶段。这个阶段的核心任务是量化两个变量之间的关联强度，并判断关联的方向与形态。根据变量类型的不同（数值-数值、数值-类别、类别-类别），需要选择不同的分析方法。

5.1 数值对数值：散点图与相关系数

# 散点图矩阵（选取部分列）
num_cols = df.select_dtypes(include=[np.number]).columns[:4]
sns.pairplot(df[num_cols], diag_kind='kde')
plt.suptitle('数值变量散点图矩阵', y=1.02)
plt.show()

# 皮尔逊相关系数矩阵
corr = df[num_cols].corr(method='pearson')
print("相关系数矩阵:")
print(corr.round(3))

# 识别强相关对
corr_pairs = (corr.abs().unstack().sort_values(ascending=False)
              .drop_duplicates())
strong_pairs = corr_pairs[(corr_pairs > 0.7) & (corr_pairs < 1.0)]
print(f"\n强相关对(|r|>0.7):\n{strong_pairs}")

# 趋势线 + 置信区间
sns.lmplot(data=df, x='feature_a', y='feature_b',
           scatter_kws={'alpha': 0.5}, line_kws={'color': 'red'})
plt.title('feature_a vs feature_b (含回归线)')
plt.show()

5.2 数值对类别：分组分析与统计检验

# 分组箱线图
plt.figure(figsize=(12, 5))
sns.boxplot(data=df, x='category', y='value')
plt.title('不同类别下的数值分布')
plt.xticks(rotation=45)
plt.show()

# 分组统计量汇总
group_stats = df.groupby('category')['value'].agg([
    ('count', 'count'),
    ('mean', 'mean'),
    ('std', 'std'),
    ('min', 'min'),
    ('median', 'median'),
    ('max', 'max')
]).round(2)

print("分组统计量:")
print(group_stats)

# ANOVA F检验 - 检验各组均值是否存在显著差异
from scipy.stats import f_oneway
groups = [group['value'].values for name, group in df.groupby('category')]
f_stat, p_value = f_oneway(*groups)
print(f"ANOVA检验: F={f_stat:.3f}, p={p_value:.4f}")
print("结论:", "各组均值存在显著差异" if p_value < 0.05 else "各组均值无显著差异")

5.3 类别对类别：交叉表与卡方检验

# 交叉表（透视表）
crosstab = pd.crosstab(
    df['cat_a'], df['cat_b'],
    margins=True, margins_name='合计',
    normalize='index'                 # 按行归一化显示比例
)
print("交叉表（行百分比）:")
print(crosstab.round(3))

# 卡方独立性检验
from scipy.stats import chi2_contingency
ct = pd.crosstab(df['cat_a'], df['cat_b'])
chi2, p_val, dof, expected = chi2_contingency(ct)
print(f"卡方检验: χ²={chi2:.3f}, p={p_val:.4f}, 自由度={dof}")
print("结论:", "两个类别变量相关" if p_val < 0.05 else "两个类别变量独立")

六、多变量分析方法

多变量分析揭示的是三个及以上变量之间的联合交互模式。现实中的数据关系往往不是简单的两两关联，而是多个变量共同作用的结果。例如在房价分析中，房屋面积和卧室数量会共同影响价格，且它们的效应可能相互加强或削弱。

6.1 Pairplot全局视图

# Pairplot + 类别着色 —— 最强大的EDA可视化之一
sns.pairplot(
    df,
    vars=['feature_a', 'feature_b', 'feature_c', 'feature_d'],
    hue='target',                      # 按目标变量着色
    diag_kind='kde',                   # 对角线用核密度图
    palette='Set2',                    # 颜色方案
    corner=True                         # 只显示下三角区域
)
plt.suptitle('多变量Pairplot（按目标变量着色）', y=1.02)
plt.show()

6.2 热力图与聚类

# 热力图 + 层次聚类
plt.figure(figsize=(12, 10))

# 带聚类热力图
sns.clustermap(
    corr,
    annot=True,                      # 显示相关系数值
    fmt='.2f',
    cmap='RdBu_r',                  # 红蓝颜色映射
    center=0,
    vmin=-1, vmax=1,
    linewidths=0.5,
    figsize=(11, 9)
)
plt.title('变量相关性热力图（层次聚类排序）')
plt.show()

# 提取聚类后变量分组
# 红色簇 = 正相关组，蓝色簇 = 负相关组
# 通过聚类自动发现变量之间的"团伙"关系

6.3 FacetGrid条件分组

# FacetGrid: 在最细粒度上观察多变量条件分布
g = sns.FacetGrid(
    df,
    col='region',                      # 按区域分列
    row='season',                      # 按季节分行
    hue='product_type',                # 按产品类型着色
    margin_titles=True,
    height=3.5
)
g.map(sns.scatterplot, 'price', 'sales', alpha=0.6)
g.add_legend()
plt.suptitle('不同区域与季节下的价格-销量关系', y=1.02)
plt.show()

# 条件密度图
g2 = sns.FacetGrid(df, col='category', col_wrap=3, height=4)
g2.map(sns.histplot, 'value', bins=30, kde=True)
g2.set_titles('{col_name}')
plt.show()

多变量分析的最佳实践：

不要超过5-7个变量在同一张图上展示，信息过载反而无用
先假设再探索：基于业务知识先提出可能的多变量交互假设，再通过可视化验证
使用颜色编码作为第三维度，避免三维图（难以阅读）
配合统计建模：多变量可视化发现的模式，可以进一步用回归分析或交互效应检验来量化

七、EDA报告模板与自动化工具

当数据集较大或分析频率较高时，手动逐列分析会非常耗时。幸运的是，Python生态中有多个工具可以自动化生成EDA报告，将上述所有分析步骤整合为一份完整的HTML报告。下面介绍两个最常用的工具。

7.1 pandas-profiling / ydata-profiling

# 安装: pip install ydata-profiling
from ydata_profiling import ProfileReport

profile = ProfileReport(
    df,
    title="EDA报告",
    explorative=True,
    minimal_mode=False,
    missing_diagrams={'bar': True, 'matrix': True},
    correlations={'pearson': {'calculate': True},
                   'spearman': {'calculate': True}}
)

# 导出报告
profile.to_file("eda_report.html")

# 在Jupyter中内联显示
profile.to_notebook_iframe()

7.2 Sweetviz

# 安装: pip install sweetviz
import sweetviz as sv

# 单数据集分析
report = sv.analyze(df, target_feat='target_column')
report.show_html('sweetviz_report.html')

# 对比两个数据集（如训练集 vs 测试集）
compare_report = sv.compare(
    [df_train, '训练集'],
    [df_test, '测试集'],
    target_feat='target'
)
compare_report.show_html('compare_report.html')

工具	优势	适用场景
ydata-profiling	统计指标全面、支持大规模数据集	单数据集深度分析、特征工程前数据审查
Sweetviz	对比可视化出色、报告简洁清晰	训练集/测试集一致性检查、A/B测试数据对比
手动EDA	灵活度高、可自定义分析维度	探索性研究、报告定制化要求高的场景

建议：在实际项目中，先用自动化工具（如ydata-profiling）生成全量报告获取全局视野，再针对报告中发现的具体问题（如高缺失率列、异常分布、强相关对）进行手动深度分析。两种方法互补，而非替代。

八、核心要点总结

EDA方法论关键要点：

目标明确：EDA围绕四大目标展开——理解结构、发现模式、识别异常、验证假设。每个分析动作都应服务于至少一个目标
流程递进：严格按照"数据概览→单变量分析→双变量分析→多变量分析→结论提取"五阶段进行，不可跳跃
工具组合：info/describe解决"是什么"，直方图/箱线图解决"怎么样"，散点图/热力图解决"为什么"，Pairplot/FacetGrid解决"还有呢"
统计与可视化并重：偏度/峰度量化分布形态，相关系数量化关系强度，可视化让数字变得可感知，两者缺一不可
带目标分析：所有分析最终都要为目标变量服务。在分类问题中关注类别区分度，在回归问题中关注线性关系和同方差性
自动化提效：使用ydata-profiling或Sweetviz生成基础报告，再用手动分析深入探索关键发现
可复现性：将EDA代码封装为函数或notebook模板，确保每次分析流程一致，便于团队协作和知识积累

"EDA的目的不是证明一个假设正确，而是尽可能多地发现数据中的故事。一个好的EDA应该让分析师在开始建模之前，就已经对数据有了90%以上的理解。"—— 数据科学实践指南

九、进一步思考与实践建议

EDA不仅是一项技术能力，更是数据思维的体现。在实践中保持以下思维方式，能显著提升分析质量。

EDA核心思维原则：

怀疑一切：对每个数据值保持批判态度——它可能是缺失编码、异常值、或者录入错误。永远不要假设数据是干净的
业务先行：在打开Jupyter Notebook之前，先用纸笔写下你对数据的业务预期。分析时重点对比"实际看到的"和"预期应该看到的"之间的差异
少即是多：不要生成100张图然后选一张好看的。每个可视化应该服务于一个具体的分析问题，图不在多而在精
记录发现：建立一个"EDA发现日志"，记录每个分析步骤的发现、疑问和下一步计划。这不仅利于自己回顾，也是团队协作的宝贵文档

推荐的EDA学习路径：

用经典数据集（如Titanic、Iris、Boston房价）手动完成全套EDA流程
对比手动分析结果与ydata-profiling自动报告的差异，理解每个统计指标的含义
在Kaggle竞赛中实践完整EDA，重点关注如何从EDA中提取特征工程灵感
阅读优秀的数据分析报告（如FiveThirtyEight、Airbnb数据故事），学习如何从数据中发现并叙述有说服力的故事