JSON/CSV/YAML：数据格式处理自动化

Python 办公自动化专题 · 掌握三种通用数据格式的处理与转换

专题：Python 自动化办公系统学习

关键词：Python, 自动化办公, JSON, CSV, YAML, 数据格式, 序列化, 格式转换, Python数据处理

一、数据格式概述

在现代软件开发与自动化办公中，数据序列化和交换是核心需求之一。JSON（JavaScript Object Notation）、CSV（Comma-Separated Values）和YAML（YAML Ain't Markup Language）是三种最通用的数据格式，各自适用于不同场景。JSON以其轻量级和跨语言特性成为Web API的事实标准；CSV以其表格结构在电子表格和数据库导入导出中占据主导地位；YAML则以其可读性和层次表示成为配置文件的首选格式。Python标准库内置了json和csv模块，而yaml功能则由第三方库PyYAML或ruamel.yaml提供。

三种格式各有特点：JSON支持嵌套数据结构，类型系统完整（字符串、数字、布尔、数组、对象），但不支持注释；CSV结构平铺，适合表格数据，但缺乏类型信息，所有值均为字符串；YAML支持注释、锚点引用、多文档等高级特性，语法灵活但也容易因缩进而出错。在自动化办公中，经常需要在这三种格式之间进行转换，或者从外部系统读取数据后再写入其他格式。理解每种格式的优缺点和处理技巧，能够显著提升数据处理效率。

核心要点：JSON适合API数据交换和结构化存储，CSV适合表格数据和报表导出，YAML适合配置文件和数据定义。Python的json和csv为内置模块无需安装，yaml需要pip install pyyaml。掌握三者之间的互转技巧，可以在不同系统之间建立高效的数据管道。

特性	JSON	CSV	YAML
数据类型	完整（对象/数组/字符串/数字/布尔/null）	仅字符串	完整（支持更多类型如日期）
可读性	较好	好（表格结构）	极好（类自然语言）
注释支持	不支持	不支持	支持（#号注释）
Python模块	json（内置）	csv（内置）	PyYAML/ruamel.yaml（第三方）
典型应用	Web API、配置文件	电子表格、数据导出	配置文件、CI/CD定义

# 三种数据格式的Python模块导入方式
import json        # 标准库，无需安装
import csv         # 标准库，无需安装
import yaml        # 需要安装：pip install pyyaml

# 三种格式的示例数据（字符串表示）
json_str = '{"name": "张三", "age": 30, "skills": ["Python", "SQL"]}'
csv_str = "name,age,skill\n张三,30,Python\n李四,25,SQL"
yaml_str = """
name: 张三
age: 30
skills:
  - Python
  - SQL
"""

# 解析示例
data_json = json.loads(json_str)
print(data_json["name"])  # 输出：张三

import io
reader = csv.DictReader(io.StringIO(csv_str))
for row in reader:
    print(row["name"])  # 输出：张三 李四

data_yaml = yaml.safe_load(yaml_str)
print(data_yaml["skills"])  # 输出：['Python', 'SQL']

二、JSON处理

Python的json模块提供了完整的JSON序列化与反序列化功能。核心函数包括dumps（将Python对象转为JSON字符串）、loads（将JSON字符串转为Python对象）、dump（写入文件）、load（读取文件）。在序列化时，可以通过indent参数控制缩进美化输出，ensure_ascii=False确保中文不被转义为Unicode编码。json模块支持Python基本类型与JSON类型的自动映射：dict对应对象、list对应数组、str对应字符串、int/float对应数字、True/False对应布尔值、None对应null。

实际开发中常遇到自定义对象序列化的问题，例如datetime对象无法被json模块直接处理。解决方案有两种：一是定义默认序列化函数，通过default参数传入；二是继承JSONEncoder类，实现自定义编码器。此外，json模块还提供了sort_keys参数用于按键排序输出，separators参数用于紧凑输出减少体积，skipkeys参数用于跳过非字符串键，这些参数在特定场景下非常有用。

实践技巧：文件读写时务必指定encoding="utf-8"参数，避免中文乱码。使用ensure_ascii=False保留原始字符，使JSON文件具有更好的可读性。对于大型数据，使用json.dump直接写入文件比dumps再写文件更节省内存。

基本序列化与反序列化

import json

# Python对象 → JSON字符串（序列化）
data = {
    "name": "张三",
    "age": 28,
    "is_student": False,
    "courses": ["数学", "物理"],
    "address": None
}
json_str = json.dumps(data, ensure_ascii=False, indent=2)
print(json_str)
# 输出：
# {
#   "name": "张三",
#   "age": 28,
#   "is_student": false,
#   "courses": ["数学", "物理"],
#   "address": null
# }

# JSON字符串 → Python对象（反序列化）
json_input = '{"name": "李四", "score": 95.5}'
parsed = json.loads(json_input)
print(parsed["name"])   # 输出：李四
print(parsed["score"])  # 输出：95.5

# 文件读写
with open("data.json", "w", encoding="utf-8") as f:
    json.dump(data, f, ensure_ascii=False, indent=2)

with open("data.json", "r", encoding="utf-8") as f:
    loaded = json.load(f)

自定义对象序列化

from datetime import datetime, date
import json

# 方法一：使用default参数定义序列化函数
def json_serializer(obj):
    if isinstance(obj, (datetime, date)):
        return obj.isoformat()
    raise TypeError(f"Type {type(obj)} not serializable")

data = {
    "event": "会议",
    "time": datetime.now(),
    "deadline": date(2026, 5, 15)
}
json_str = json.dumps(data, default=json_serializer, ensure_ascii=False, indent=2)
print(json_str)

# 方法二：继承JSONEncoder
class CustomEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, datetime):
            return {"__type__": "datetime", "value": obj.isoformat()}
        if isinstance(obj, date):
            return {"__type__": "date", "value": obj.isoformat()}
        return super().default(obj)

json_str2 = json.dumps(data, cls=CustomEncoder, ensure_ascii=False, indent=2)
print(json_str2)
# 输出包含自定义类型标记的JSON
# {
#   "event": "会议",
#   "time": {"__type__": "datetime", "value": "2026-05-05T23:58:42"},
#   "deadline": {"__type__": "date", "value": "2026-05-15"}
# }

三、JSON高级处理

当JSON文件体积较大时（超过几百MB），标准json模块的load方法会将整个文件读入内存，可能导致内存溢出。此时需要使用流式解析方案，如ijson库，它采用迭代器模式逐层解析JSON，内存占用极低。ijson支持SAX风格的事件驱动解析，可以在解析过程中过滤出所需数据而无需加载全部内容。对于超大JSON数组，ijson的items方法可以逐个产出行数据，非常适合数据导入场景。

JSON Schema是一种用于描述JSON数据结构的声明式语言，可以用来验证JSON文档的结构、类型和约束条件。通过jsonschema库，可以定义必填字段、值范围、正则表达式模式等校验规则。JSON Patch（RFC 6902）则提供了一种标准化的方式来描述JSON文档的增量更新操作，包括添加、删除、替换、复制、移动和测试六种操作。JSON Lines（又称NDJSON）是一种每行一个JSON对象的格式，非常适合日志记录和流式数据传输，每行独立解析互不干扰。

性能建议：处理超大JSON时优先考虑ijson流式解析；使用ujson（UltraJSON）可获得比标准json模块快4-5倍的解析速度，但需注意它不支持一些高级参数。JSON Schema验证在开发阶段开启，生产环境中可关闭以提高性能。

流式JSON解析（ijson）

# 安装：pip install ijson
import ijson

# 假设有一个超大JSON文件 users.json，包含数百万用户记录
# {"users": [{"id": 1, "name": "张三"}, {"id": 2, "name": "李四"}, ...]}

def process_large_json(filepath):
    with open(filepath, "r", encoding="utf-8") as f:
        # 逐条解析users数组中的对象，不加载整个文件
        for user in ijson.items(f, "users.item"):
            print(f"处理用户: {user['id']} - {user['name']}")
            # 在这里处理每条用户记录，例如写入数据库

# 事件模式解析（更细粒度控制）
def parse_with_events(filepath):
    with open(filepath, "rb") as f:
        parser = ijson.parse(f)
        current_key = None
        for prefix, event, value in parser:
            if event == "map_key":
                current_key = value
            elif event == "string":
                print(f"字段 {current_key} = {value}")

JSON Schema验证

# 安装：pip install jsonschema
from jsonschema import validate, ValidationError

# 定义Schema
schema = {
    "type": "object",
    "required": ["name", "email", "age"],
    "properties": {
        "name": {"type": "string", "minLength": 1},
        "email": {"type": "string", "pattern": "^[\\w.-]+@[\\w.-]+\\.\\w{2,}$"},
        "age": {"type": "integer", "minimum": 0, "maximum": 150}
    }
}

# 验证数据
valid_data = {"name": "张三", "email": "zhangsan@example.com", "age": 30}
validate(instance=valid_data, schema=schema)  # 无异常

invalid_data = {"name": "", "email": "invalid-email", "age": 200}
try:
    validate(instance=invalid_data, schema=schema)
except ValidationError as e:
    print(f"验证失败: {e.message}")

四、CSV处理

Python的csv模块提供了强大的CSV文件读写功能。基本用法包括reader（逐行读取为列表）和writer（逐行写入列表），以及DictReader（读取为字典）和DictWriter（写入字典）。csv模块的灵活性体现在dialect（方言）机制上，可以通过自定义方言来应对各种非标准格式的CSV文件，包括自定义分隔符（逗号、制表符、分号、竖线等）、引号字符、换行符风格等。Excel方言是最常用的预定义方言，适用于Windows平台生成的CSV文件。

在自动化办公中，CSV处理的核心挑战在于编码问题。许多老旧系统或非英文环境生成的CSV文件可能采用GBK、Shift-JIS等编码，需要先行检测编码再读取。Python的csv模块默认不处理编码，需要配合open函数的encoding参数使用。使用codecs模块或chardet库可以自动检测文件编码。此外，CSV文件中的引号转义、换行符嵌入字段、BOM头等问题也需要特别注意，否则会导致解析错误。

实践建议：读写CSV时始终指定newline=""参数，避免Excel风格的多行字段被错误处理。对于含中文的CSV文件，使用encoding="utf-8-sig"（带BOM）写入，以便Excel正确识别编码。优先使用DictReader/DictWriter，使代码更具可读性和可维护性。

基本读写与DictReader/DictWriter

import csv

# 使用DictWriter写入
fieldnames = ["姓名", "部门", "工资"]
rows = [
    {"姓名": "张三", "部门": "技术部", "工资": "15000"},
    {"姓名": "李四", "部门": "市场部", "工资": "12000"},
    {"姓名": "王五", "部门": "技术部", "工资": "18000"},
]

with open("employees.csv", "w", encoding="utf-8-sig", newline="") as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(rows)

# 使用DictReader读取
with open("employees.csv", "r", encoding="utf-8-sig", newline="") as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(f"{row['姓名']} | {row['部门']} | {row['工资']}")

自定义方言处理非标准CSV

import csv

# 注册自定义方言：制表符分隔、双引号引用
csv.register_dialect("tab_separated",
    delimiter="\t",
    quotechar='"',
    doublequote=True,
    skipinitialspace=False,
    lineterminator="\r\n",
    quoting=csv.QUOTE_MINIMAL
)

# 使用自定义方言读取TSV文件
with open("data.tsv", "r", encoding="utf-8", newline="") as f:
    reader = csv.DictReader(f, dialect="tab_separated")
    for row in reader:
        print(row)

# 处理分号分隔的欧洲格式CSV
with open("european.csv", "r", encoding="utf-8", newline="") as f:
    reader = csv.reader(f, delimiter=";", quotechar='"')
    for row in reader:
        print(row)

五、CSV高级处理

处理大型CSV文件时，一次性读入内存可能耗尽资源。合理的方法是分块读取，使用pandas的read_csv函数的chunksize参数，或手动实现迭代器分块逻辑。每块处理完成后立即写入目标或释放内存，形成流式处理管道。对于超大型CSV（GB级别），可以考虑使用dask或datatable等专门针对大数据设计的库，它们支持并行计算和惰性求值，能在有限内存下高效处理海量数据。

CSV数据清洗是自动化办公中的高频需求。常见问题包括：前导/尾部空白字符、空值处理、日期格式统一、数值格式标准化（千分位、货币符号等）、重复行去重、异常值过滤等。编码检测同样重要，chardet库可以自动检测文件的编码格式，避免因编码不匹配导致的乱码。对于从Excel导出的CSV文件，UTF-8 BOM头和混合换行符是常见陷阱。在将CSV转换回Excel时，可以使用openpyxl库直接生成格式化的xlsx文件。

最佳实践：建立一个标准的数据清洗流水线（pipeline），对输入的CSV文件依次执行：编码检测与统一、列名规范化、类型推断与转换、空值处理、格式标准化、异常值过滤、数据导出。这样可以确保不同来源的数据最终输出为统一格式。

大文件分块读取与处理

import csv
from typing import Iterator, List, Dict

def chunked_reader(filepath: str, chunksize: int = 10000) -> Iterator[List[Dict]]:
    """分块读取CSV文件，每次返回chunksize条记录"""
    with open(filepath, "r", encoding="utf-8", newline="") as f:
        reader = csv.DictReader(f)
        chunk = []
        for i, row in enumerate(reader, 1):
            chunk.append(row)
            if i % chunksize == 0:
                yield chunk
                chunk = []
        if chunk:
            yield chunk

# 使用示例：分块处理百万级数据
for chunk in chunked_reader("large_data.csv", chunksize=5000):
    for row in chunk:
        # 处理每条记录
        pass
    print(f"已处理 {len(chunk)} 条记录")

CSV数据清洗与编码检测

import csv
import chardet

# 编码自动检测
def detect_encoding(filepath):
    with open(filepath, "rb") as f:
        raw = f.read(10000)
        result = chardet.detect(raw)
        return result["encoding"]

# 数据清洗函数
def clean_csv_row(row: Dict) -> Dict:
    cleaned = {}
    for key, value in row.items():
        # 去除键和值的首尾空白
        clean_key = key.strip()
        if value is None or value.strip() == "":
            cleaned[clean_key] = None
            continue
        clean_value = value.strip()
        # 尝试数值转换（去除货币符号和千分位）
        if clean_value.replace(",", "").replace(".", "").isdigit():
            clean_value = clean_value.replace(",", "")
        cleaned[clean_key] = clean_value
    return cleaned

# 自动检测编码并清洗
filepath = "unknown_encoding.csv"
encoding = detect_encoding(filepath)
print(f"检测到编码: {encoding}")

with open(filepath, "r", encoding=encoding, newline="") as f:
    reader = csv.DictReader(f)
    cleaned_rows = [clean_csv_row(row) for row in reader]

# 写入清洗后的数据（统一为UTF-8）
with open("cleaned_output.csv", "w", encoding="utf-8-sig", newline="") as f:
    if cleaned_rows:
        writer = csv.DictWriter(f, fieldnames=cleaned_rows[0].keys())
        writer.writeheader()
        writer.writerows(cleaned_rows)

六、YAML处理

YAML是一种人类友好的数据序列化标准，特别适合用作配置文件。Python中常用的YAML库有PyYAML和ruamel.yaml。PyYAML提供了基本的load/dump功能，而ruamel.yaml在保留注释、保持键顺序、处理YAML 1.2标准方面更为出色。使用YAML时，安全是首要考虑因素——绝对不要使用yaml.load处理不可信的数据，而应使用yaml.safe_load，后者只加载标准YAML标签，避免了任意代码执行的风险。

YAML的高级特性包括：锚点（Anchor）和别名（Alias）用于复用配置片段，标签（Tag）用于指定数据类型，多文档（Multi-document）通过---分隔符在一个文件中包含多个独立文档，复杂嵌套结构（如混合列表和字典）表达清晰。在自动化办公场景中，YAML常用于管理数据库配置、API密钥、任务调度参数、数据处理管道定义等。ruamel.yaml的RoundTripLoader能够精确保持YAML文件的格式和注释，适合需要手动编辑后由程序读取的配置文件。

安全提示：永远不要对不可信的YAML输入使用yaml.load()，它可能执行任意Python代码。始终使用yaml.safe_load()处理外部输入的YAML数据。对于需要保留类型信息的场景，使用yaml.SafeLoader并注册自定义构造函数。

YAML基本读写

import yaml

# 使用safe_load安全加载
yaml_str = """
database:
  host: localhost
  port: 3306
  username: root
  password: ${DB_PASSWORD}
  pool_size: 10
logging:
  level: INFO
  file: app.log
  format: "%(asctime)s - %(name)s - %(levelname)s - %(message)s"
"""

config = yaml.safe_load(yaml_str)
print(config["database"]["host"])   # 输出: localhost
print(config["logging"]["level"])  # 输出: INFO

# 将Python对象序列化为YAML
data = {
    "app": "myapp",
    "version": 2.0,
    "features": ["auth", "api", "admin"],
    "limits": {"max_users": 1000, "rate_per_min": 60}
}
yaml_out = yaml.dump(data, default_flow_style=False, allow_unicode=True)
print(yaml_out)

# 写入文件
with open("config.yaml", "w", encoding="utf-8") as f:
    yaml.dump(config, f, default_flow_style=False, allow_unicode=True)

YAML高级特性：锚点/别名/多文档/注释保留

import yaml

# 锚点和别名示例（复用配置片段）
yaml_anchor = """
defaults: &defaults
  timeout: 30
  retries: 3
  log_level: INFO

service_a:
  <<: *defaults
  url: http://service-a.local

service_b:
  <<: *defaults
  url: http://service-b.local
  timeout: 60  # 覆盖默认值
"""

parsed = yaml.safe_load(yaml_anchor)
print(parsed["service_a"]["timeout"])  # 输出: 30
print(parsed["service_b"]["timeout"])  # 输出: 60（覆盖了默认值）

# 使用ruamel.yaml保留注释（安装：pip install ruamel.yaml）
from ruamel.yaml import YAML

yaml_yml = YAML()
yaml_yml.preserve_quotes = True
yaml_yml.indent(mapping=2, sequence=4, offset=2)

with open("config.yaml", "r", encoding="utf-8") as f:
    config_data = yaml_yml.load(f)

# 修改配置后写入，注释和格式保持不变
config_data["service_a"]["timeout"] = 45
with open("config.yaml", "w", encoding="utf-8") as f:
    yaml_yml.dump(config_data, f)

七、格式互转

在实际工作中，经常需要在JSON、CSV、YAML三种格式之间进行相互转换。例如，从API获取的JSON数据需要导出为CSV报表，或者将CSV数据转换为YAML作为配置文件。格式互转的核心在于将源格式解析为统一的Python字典/列表中间表示，再序列化为目标格式。这种管道模式使得转换逻辑清晰且易于扩展。对于批量转换，可以编写脚本遍历目录中的所有文件，自动识别格式并进行转换。

在格式互转中需要注意几个关键问题：CSV没有嵌套结构，不能直接表示JSON或YAML中的深层嵌套，通常需要展平为多列或多表；YAML的注释在转换到JSON时会丢失；CSV的所有值都是字符串，转换到JSON/YAML时需要根据上下文推断类型。此外，还可以构建命令行工具，支持通过参数指定输入格式、输出格式、文件路径、编码等选项，方便在自动化脚本中调用。

架构建议：定义一个统一的数据中间层（如标准的Python dict结构），所有格式转换都经过这个中间层。这样增加新格式支持时，只需编写该格式↔中间层的转换器，而无需为每对格式单独编写代码。这种适配器模式可以显著降低系统的复杂度。

JSON ↔ CSV 互转

import json
import csv
import io

# JSON → CSV
def json_to_csv(json_data, fieldnames):
    output = io.StringIO()
    writer = csv.DictWriter(output, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(json_data)
    return output.getvalue()

# 示例：API响应转换为CSV
api_response = [
    {"id": 1, "name": "张三", "score": 95},
    {"id": 2, "name": "李四", "score": 87},
]
csv_result = json_to_csv(api_response, ["id", "name", "score"])
print(csv_result)

# CSV → JSON
def csv_to_json(csv_str):
    reader = csv.DictReader(io.StringIO(csv_str))
    return json.dumps([dict(row) for row in reader],
                       ensure_ascii=False, indent=2)

csv_input = "id,name,score\n1,张三,95\n2,李四,87\n"
json_result = csv_to_json(csv_input)
print(json_result)

JSON ↔ YAML 互转与批量转换工具

import json
import yaml
import os

# JSON → YAML
def json_to_yaml(json_str):
    data = json.loads(json_str)
    return yaml.dump(data, default_flow_style=False, allow_unicode=True)

# YAML → JSON
def yaml_to_json(yaml_str):
    data = yaml.safe_load(yaml_str)
    return json.dumps(data, ensure_ascii=False, indent=2)

# 批量格式转换命令行工具
def batch_convert(input_dir, output_dir, from_ext, to_ext):
    """批量转换目录下的所有文件"""
    converters = {
        (".json", ".yaml"): lambda text: json_to_yaml(text),
        (".yaml", ".json"): lambda text: yaml_to_json(text),
        (".json", ".csv"): lambda text: json_to_csv_all(text),
    }

    converter = converters.get((from_ext, to_ext))
    if not converter:
        raise ValueError(f"不支持的转换: {from_ext} → {to_ext}")

    os.makedirs(output_dir, exist_ok=True)
    for filename in os.listdir(input_dir):
        if filename.endswith(from_ext):
            with open(os.path.join(input_dir, filename), "r", encoding="utf-8") as f:
                content = f.read()
            converted = converter(content)
            out_name = filename.replace(from_ext, to_ext)
            with open(os.path.join(output_dir, out_name), "w", encoding="utf-8") as f:
                f.write(converted)
            print(f"转换完成: {filename} → {out_name}")

# 使用示例
# batch_convert("./input", "./output", ".json", ".yaml")

八、数据验证

数据验证是数据处理流程中至关重要的一环。无论是从API获取的JSON数据、导入的CSV报表，还是手动编辑的YAML配置，在使用前都需要经过严格的验证。数据验证包括多个层次：结构验证（必填字段是否存在）、类型验证（字段类型是否正确）、值范围验证（数值是否在合理范围内）、格式验证（邮箱、电话、日期格式是否正确）、业务规则验证（字段间的逻辑关系是否合理）。

Python中可以使用多个库来实现数据验证。jsonschema专门用于验证JSON/YAML数据结构的合法性。对于更复杂的验证需求，pydantic提供了强大的基于类型注解的验证功能，能自动将输入数据转换为指定类型并执行校验。cerberus则提供了轻量级的验证规则定义方式。在实际项目中，通常需要结合使用多种验证策略，并生成详细的校验报告，包含每条验证失败的具体信息和位置，以便快速定位和修复数据问题。

设计原则：数据验证应该在数据进入系统的最早阶段执行（"fail fast"原则）。验证逻辑应与业务逻辑分离，保持独立可测试。对于批量数据处理，建议收集所有验证错误后统一报告，而不是遇到第一个错误就停止，以便一次性修复所有问题。

综合验证校验系统

from typing import Any, Dict, List, Optional
import re
from datetime import datetime

class DataValidator:
    """通用数据验证器，支持必填、类型、范围、格式校验"""

    def __init__(self):
        self.errors = []
        self.warnings = []

    def validate_required(self, data: Dict, fields: List[str]) -> None:
        for field in fields:
            if field not in data or data[field] is None or data[field] == "":
                self.errors.append(f"缺少必填字段: {field}")

    def validate_type(self, data: Dict, field: str, expected_type: type) -> None:
        if field in data and data[field] is not None:
            if not isinstance(data[field], expected_type):
                self.errors.append(f"字段 {field} 类型错误: 期望 {expected_type.__name__}, 实际 {type(data[field]).__name__}")

    def validate_range(self, data: Dict, field: str, min_val=None, max_val=None) -> None:
        if field in data and data[field] is not None:
            val = data[field]
            if min_val is not None and val < min_val:
                self.errors.append(f"字段 {field} = {val} 小于最小值 {min_val}")
            if max_val is not None and val > max_val:
                self.errors.append(f"字段 {field} = {val} 大于最大值 {max_val}")

    def validate_format(self, data: Dict, field: str, pattern: str, format_name: str) -> None:
        if field in data and data[field] is not None:
            if not re.match(pattern, str(data[field])):
                self.errors.append(f"字段 {field} = '{data[field]}' 格式不正确（{format_name}）")

    def report(self) -> Dict:
        return {
            "is_valid": len(self.errors) == 0,
            "errors": self.errors,
            "warnings": self.warnings,
            "error_count": len(self.errors)
        }

# 使用示例
validator = DataValidator()
user_data = {"name": "", "email": "bad-email", "age": 200}

validator.validate_required(user_data, ["name", "email"])
validator.validate_type(user_data, "age", int)
validator.validate_range(user_data, "age", min_val=0, max_val=150)
validator.validate_format(user_data, "email",
    r"^[\w.-]+@[\w.-]+\.\w{2,}$", "邮箱格式")

print(validator.report())

九、实战案例

将上述知识整合到实际工作场景中，可以构建完整的数据自动处理系统。以下通过三个典型实战案例展示JSON、CSV和YAML在自动化办公中的综合应用：API数据缓存、报表导出和配置管理。这些案例覆盖了从数据采集、处理、存储到展示的完整链路，体现了"数据处理管道"的核心设计思想——每个环节只关注单一职责，通过标准化的数据接口串联成完整的自动化流程。

实战中的关键挑战在于处理边界情况和错误恢复。网络请求可能失败、数据格式可能异常、文件可能被锁定，因此健壮的错误处理机制至关重要。推荐使用重试机制、日志记录和告警通知来构建高可靠的数据处理系统。同时，定期对自动化流程进行审计，确保数据的一致性和准确性，并根据实际使用反馈持续优化处理逻辑。

总结：掌握JSON/CSV/YAML三种格式的处理能力，相当于拥有了数据世界的"通用语言"。无论是与Web API交互、生成业务报表、还是管理系统配置，都能游刃有余。三种格式各有专长，结合使用可以应对绝大多数数据处理场景。

案例一：API数据缓存（JSON）

import json
from datetime import datetime, timedelta
import os

class ApiCache:
    """基于JSON文件的API响应缓存"""

    def __init__(self, cache_dir="cache", ttl_seconds=3600):
        self.cache_dir = cache_dir
        self.ttl_seconds = ttl_seconds
        os.makedirs(cache_dir, exist_ok=True)

    def _cache_path(self, key):
        """根据缓存键生成文件路径"""
        safe_key = key.replace("/", "_").replace(":", "_")
        return os.path.join(self.cache_dir, f"{safe_key}.json")

    def get(self, key):
        """获取缓存（过期的返回None）"""
        path = self._cache_path(key)
        if not os.path.exists(path):
            return None
        with open(path, "r", encoding="utf-8") as f:
            cached = json.load(f)
        cached_time = datetime.fromisoformat(cached["_cached_at"])
        if datetime.now() - cached_time > timedelta(seconds=self.ttl_seconds):
            return None
        return cached["data"]

    def set(self, key, data):
        """写入缓存"""
        path = self._cache_path(key)
        cached = {
            "_cached_at": datetime.now().isoformat(),
            "_key": key,
            "data": data
        }
        with open(path, "w", encoding="utf-8") as f:
            json.dump(cached, f, ensure_ascii=False, indent=2)

# 使用示例
cache = ApiCache(ttl_seconds=1800)  # 半小时过期
# cached_data = cache.get("users_api")
# if not cached_data:
#     cached_data = fetch_from_api()
#     cache.set("users_api", cached_data)

案例二：报表导出（CSV）

import csv
from datetime import datetime

class ReportExporter:
    """数据报表导出为CSV"""

    def __init__(self, report_name):
        self.report_name = report_name
        self.timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")

    def export(self, rows, fieldnames=None):
        filename = f"{self.report_name}_{self.timestamp}.csv"
        if not fieldnames and rows:
            fieldnames = rows[0].keys()

        with open(filename, "w", encoding="utf-8-sig", newline="") as f:
            writer = csv.DictWriter(f, fieldnames=fieldnames)
            writer.writeheader()
            writer.writerows(rows)

        print(f"报表已导出: {filename}（共 {len(rows)} 行）")
        return filename

# 模拟销售数据报表导出
sales_data = [
    {"日期": "2026-05-01", "产品": "笔记本", "数量": "50", "金额": "25000"},
    {"日期": "2026-05-01", "产品": "鼠标", "数量": "120", "金额": "6000"},
    {"日期": "2026-05-02", "产品": "键盘", "数量": "30", "金额": "9000"},
    {"日期": "2026-05-02", "产品": "显示器", "数量": "15", "金额": "22500"},
]

exporter = ReportExporter("销售日报")
exporter.export(sales_data)

案例三：配置文件管理（YAML）

import yaml
from pathlib import Path

class ConfigManager:
    """基于YAML的配置管理器"""

    def __init__(self, config_path="app_config.yaml"):
        self.config_path = Path(config_path)
        self.config = self._load()

    def _load(self):
        if self.config_path.exists():
            with open(self.config_path, "r", encoding="utf-8") as f:
                return yaml.safe_load(f)
        return {}

    def get(self, key, default=None):
        """通过点号分隔的键获取嵌套配置"""
        keys = key.split(".")
        value = self.config
        for k in keys:
            if isinstance(value, dict):
                value = value.get(k)
            else:
                return default
        return value if value is not None else default

    def set(self, key, value):
        """设置配置项（自动创建中间层级）"""
        keys = key.split(".")
        current = self.config
        for k in keys[:-1]:
            if k not in current:
                current[k] = {}
            current = current[k]
        current[keys[-1]] = value
        self._save()

    def _save(self):
        with open(self.config_path, "w", encoding="utf-8") as f:
            yaml.dump(self.config, f, default_flow_style=False, allow_unicode=True)

# 使用示例
cm = ConfigManager("app_config.yaml")
cm.set("database.host", "192.168.1.100")
cm.set("database.port", 5432)
cm.set("logging.level", "DEBUG")
print(cm.get("database.host"))     # 输出: 192.168.1.100
print(cm.get("logging.level"))    # 输出: DEBUG
print(cm.get("nonexistent.key", "默认值"))  # 输出: 默认值