pre-commit钩子：自动化质量门禁

Python 测试与调试专题 · 提交代码前的自动化质量把关

专题：Python 测试与调试系统学习

关键词：Python, 测试, 调试, pre-commit, Git钩子, 代码质量, 自动化检查, Git Hooks

一、pre-commit概述

Git Hooks概念

Git Hooks是Git版本控制系统提供的一种扩展机制，允许在特定事件（如提交、推送、合并等）发生时自动执行自定义脚本。这些钩子脚本存放在每个Git仓库的 .git/hooks/ 目录下，文件名决定了触发时机。常见的Git钩子包括 pre-commit（提交前）、pre-push（推送前）、post-commit（提交后）、post-merge（合并后）和 pre-receive（接收前）等。其中，pre-commit 钩子是最常用的质量门禁——它在 git commit 命令执行时最先被调用，如果该钩子脚本返回非零退出码，则整个提交过程被中止，从而阻止不符合质量标准的代码进入版本库。

手动编写Git钩子脚本虽然灵活，但存在明显的局限性：脚本需要手工放置到每个开发者的本地仓库，无法通过Git仓库本身追踪和分发，团队难以统一管理和版本化这些钩子规则。此外，为不同编程语言和工具链编写复杂的钩子逻辑会导致维护成本急剧上升。这正是 pre-commit 框架要解决的核心问题。

pre-commit框架的作用

pre-commit 是一个用Python编写的多语言钩子管理框架，由Anthony Sottile（前Yelp工程师）创建并维护。它的核心目标是让Git钩子的配置、安装和执行变得简单、可重复且可共享。开发者只需在项目根目录放置一个 .pre-commit-config.yaml 配置文件，通过 pre-commit install 命令即可自动将所有配置的钩子安装到本地仓库中。pre-commit 框架管理了超过3000个预构建的钩子，覆盖几乎所有主流编程语言和工具，包括代码格式化、静态分析、安全检查和文件校验等类别。

工作原理

pre-commit 的工作流程分为三个主要阶段。第一是安装阶段：运行 pre-commit install 后，pre-commit 会在 .git/hooks/pre-commit 写入一个轻量级入口脚本，该脚本指向 pre-commit 框架的可执行入口。第二是缓存阶段：首次执行某个钩子时，pre-commit 会根据配置从指定的Git仓库克隆资源，并将钩子运行环境缓存到本地（默认位置为 ~/.cache/pre-commit/），避免每次提交都重新克隆和安装。第三是执行阶段：当 git commit 触发时，pre-commit 逐条读取 .pre-commit-config.yaml 中的钩子配置，对暂存区中的文件依次执行每个钩子。任何钩子失败都会导致提交中止，开发者需要修复问题后重新暂存并提交。

与直接写.git/hooks的区别

直接编写 .git/hooks/ 脚本与使用 pre-commit 框架存在本质区别。首先，可共享性：手动脚本因位于 .gitignore 覆盖的 .git/ 目录中而无法被团队成员自动获取，每个开发者必须手动复制；pre-commit 的配置文件是仓库的一部分，git clone 后只需一条命令即可安装所有钩子。其次，可维护性：手动脚本通常使用Shell或Python编写，逻辑复杂且容易出错；pre-commit 使用去中心化的钩子仓库，每个钩子独立维护和版本化。再次，跨平台支持：手动脚本在Windows和Unix系统间的兼容性需要额外处理；pre-commit 通过虚拟环境和Docker自动屏蔽平台差异。最后，执行效率：pre-commit 仅对暂存区中修改过的文件运行钩子，而手动脚本通常需要开发者自行实现文件筛选逻辑。

# 手动钩子（.git/hooks/pre-commit）的局限性示例
#!/bin/bash
# 需要手动实现所有检查逻辑
if! flake8 --statistics; then
    echo "Flake8检查未通过，提交中止"
    exit 1
fi
# 只检查了当前目录所有.py文件，没有针对暂存区优化
# 每个开发者都需要手动将此脚本复制到 .git/hooks/ 目录
# 不同操作系统的路径和命令差异需要自行处理

# pre-commit方式：声明式配置，框架处理一切细节
# .pre-commit-config.yaml - 纳入版本管理，团队共享
repos:
  - repo: https://github.com/pre-commit/pre-commit-hooks
    rev: v4.5.0
    hooks:
      - id: trailing-whitespace
      - id: end-of-file-fixer
  - repo: https://github.com/psf/black
    rev: 23.12.0
    hooks:
      - id: black

二、安装与配置

pre-commit安装

pre-commit 是一个Python包，可以通过pip或pipx进行安装。推荐使用pipx安装到独立的隔离环境中，避免污染项目的依赖管理。安装完成后，可以通过 pre-commit --version 验证安装是否成功。对于使用Homebrew的macOS用户，也可以通过brew进行安装。在持续集成环境中，建议指定pre-commit的版本号以确保一致性。

# 方式一：使用pipx安装（推荐，全局隔离）
pipx install pre-commit

# 方式二：使用pip安装（项目环境或虚拟环境）
pip install pre-commit

# 方式三：macOS使用Homebrew
brew install pre-commit

# 验证安装
pre-commit --version
# 输出示例：pre-commit 3.6.0

.pre-commit-config.yaml配置结构

pre-commit 的核心配置文件是 .pre-commit-config.yaml，使用YAML格式定义。该文件必须放在项目根目录（与 .git/ 同级）。配置文件的顶层结构包含 repos 列表，每个仓库项包含 repo（仓库URL）、rev（标签或分支版本）和 hooks（该仓库中启用的钩子列表）。每个钩子可以通过 id 指定钩子标识，通过 args 传递额外参数，通过 types 和 files 限制目标文件类型，通过 exclude 排除无关文件，以及 verbose 控制输出详细程度等高级选项。配置文件中还可以设置 default_language_version、default_stages 和 default_install_hook_types 等全局默认值，减少重复配置。

# .pre-commit-config.yaml 完整配置结构示例
repos:
  # 每个仓库代表一个钩子来源
  - repo: https://github.com/pre-commit/pre-commit-hooks
    rev: v4.5.0                                 # Git标签或分支
    hooks:
      - id: trailing-whitespace                  # 钩子标识符
        args: [--markdown-linebreak-ext=md]      # 传递给钩子的参数
      - id: end-of-file-fixer
        exclude: \.(svg|json)$                   # 排除特定文件
      - id: check-added-large-files
        args: [--maxkb=1024]

  # 全局默认设置
default_language_version:
    python: python3.12
default_stages: [commit, push]
fail_fast: false          # 遇到第一个失败是否立即停止

pre-commit install安装钩子

配置好 .pre-commit-config.yaml 后，运行 pre-commit install 命令即可将配置中的所有钩子安装到Git仓库中。这个命令会在 .git/hooks/pre-commit 中写入一个入口脚本，当执行 git commit 时自动触发 pre-commit 框架。使用 pre-commit install --hook-type pre-push 可以将钩子安装到其他Git事件上（如推送前）。安装后首次提交时，pre-commit 会下载并缓存所有钩子仓库，这个过程可能较慢，后续提交则会直接从缓存执行。也可以使用 pre-commit run --all-files 对所有文件运行一次所有钩子，适合在CI环境或首次集成时校验整个代码库。

# 安装pre-commit钩子到当前Git仓库
cd /path/to/your/project
pre-commit install
# 输出：pre-commit installed at .git/hooks/pre-commit

# 同时安装pre-push钩子
pre-commit install --hook-type pre-push

# 手动对所有文件运行所有钩子（首次集成时推荐）
pre-commit run --all-files

# 卸载pre-commit钩子
pre-commit uninstall

三、常用钩子配置

基础格式化钩子

pre-commit 官方维护的 pre-commit-hooks 仓库提供了大量轻量级的文件检查和格式化钩子。这些钩子无需安装额外的语言工具，执行速度快，适合作为最基础的质量门禁。它们主要关注文件格式的规范性而非代码逻辑，能够在提交时快速拦截明显的格式问题。

# 常用的pre-commit官方钩子配置
- repo: https://github.com/pre-commit/pre-commit-hooks
  rev: v4.5.0
  hooks:
    # 去除行尾多余空格
    - id: trailing-whitespace
      args: [--markdown-linebreak-ext=md]

    # 确保文件末尾以换行符结束
    - id: end-of-file-fixer

    # 检查YAML文件格式是否正确
    - id: check-yaml
      args: [--unsafe]

    # 检查JSON文件格式是否合法
    - id: check-json

    # 检查TOML文件格式是否正确
    - id: check-toml

    # 阻止添加超过500KB的大文件
    - id: check-added-large-files
      args: [--maxkb=500]

    # 检测是否意外提交了私钥文件
    - id: detect-private-key

    # 检查是否存在合并冲突标记(<<<<<<<)
    - id: check-merge-conflict

    # 检测是否使用了debug语句
    - id: debug-statements

    # 检测是否缺失文件末尾换行
    - id: mixed-line-ending
      args: [--fix=lf]

各钩子详细说明

trailing-whitespace：自动去除行尾多余的空格和Tab。编码风格规范中，行尾多余空格往往没有实际意义，在某些编辑器（如Visual Studio Code）中会被高亮显示。该钩子支持通过 --markdown-linebreak-ext=md 参数保留Markdown文件中用于换行标记的尾随双空格。在团队协作中，保持行尾清洁能减少无意义的diff变化，让代码审查更聚焦于实质性改动。

end-of-file-fixer：确保每个文件末尾有且仅有一个换行符。POSIX标准要求文本文件以换行符结尾，许多Unix工具（如 cat、sed）在此假设下工作。缺失末尾换行符可能导致Git在diff中显示 \ No newline at end of file 警告。该钩子会自动在缺少末尾换行符的文件末尾添加换行符，并删除多余的空行。

check-added-large-files：阻止将体积过大的文件添加到仓库中。将二进制文件（如编译产物、模型权重、数据集等）提交到Git仓库会严重影响仓库大小和克隆速度。该钩子通过 --maxkb 参数设置阈值默认为500KB，超出即阻止提交。对于确实需要版本管理的大型文件，应使用Git LFS代替。

detect-private-key：检测暂存区文件中是否包含可能为私钥的内容。该钩子并非完美——它只是简单地查找文件中是否包含"BEGIN RSA PRIVATE KEY"、"BEGIN DSA PRIVATE KEY"等私钥标记字符串。虽然不能替代严格的密钥管理策略，但作为一个轻量级安全网，能有效防止开发者因疏忽而意外提交密钥。

check-merge-conflict：检测文件中是否残留Git合并冲突标记（如 <<<<<<<、=======、>>>>>>>）。在解决合并冲突后，开发者有时会遗漏某个冲突标记未处理，该钩子能在提交前及时发现并阻止这种情况。

实践建议：建议所有Python项目至少开启 trailing-whitespace、end-of-file-fixer、check-yaml、check-added-large-files 和 detect-private-key 这五个基础钩子。它们执行速度快（通常在毫秒级别），几乎不增加提交等待时间，但能有效防止常见的低级错误。

四、代码质量钩子

代码格式化钩子

代码格式化工具能够自动统一代码风格，消除开发者在格式调整上的时间消耗，让团队聚焦于代码逻辑本身。pre-commit 支持将多种代码格式化工具作为钩子集成到提交流程中。

# 代码格式化工具配置
repos:
  # Black - 毫不妥协的Python代码格式化工具
  - repo: https://github.com/psf/black
    rev: 23.12.0
    hooks:
      - id: black
        language_version: python3.12
        args: [--line-length=88, --target-version=py312]

  # isort - Python导入语句排序
  - repo: https://github.com/PyCQA/isort
    rev: 5.13.2
    hooks:
      - id: isort
        args: [--profile=black, --line-length=88]

  # Ruff format - Rust编写的高性能Python格式化器
  - repo: https://github.com/astral-sh/ruff-pre-commit
    rev: v0.1.8
    hooks:
      - id: ruff-format           # Ruff格式化（替代Black的一种选择）

代码检查/静态分析钩子

静态分析工具在不运行代码的情况下检查源代码质量，能够发现潜在的错误、代码异味、不符合规范的模式和安全漏洞。将静态分析集成到pre-commit中，可以在代码提交阶段就拦截大部分常见问题，大幅降低代码审查阶段的负担。

# 静态分析工具配置
  # Flake8 - PEP 8风格检查器
  - repo: https://github.com/PyCQA/flake8
    rev: 6.1.0
    hooks:
      - id: flake8
        args: [--max-line-length=88, --extend-ignore=E203,W503]
        additional_dependencies:
          - flake8-docstrings        # 文档字符串检查扩展
          - flake8-bugbear            # 发现常见bug模式

  # Mypy - Python静态类型检查器
  - repo: https://github.com/pre-commit/mirrors-mypy
    rev: v1.7.1
    hooks:
      - id: mypy
        args: [--strict, --ignore-missing-imports]
        additional_dependencies: [types-requests, types-PyYAML]

  # Pylint - 深度Python代码分析
  - repo: https://github.com/PyCQA/pylint
    rev: v3.0.3
    hooks:
      - id: pylint
        args: [--max-line-length=88, --disable=C0114,C0115]

  # Ruff - 极速Python linter，可替代Flake8
  - repo: https://github.com/astral-sh/ruff-pre-commit
    rev: v0.1.8
    hooks:
      - id: ruff                    # Ruff lint检查
        args: [--fix]                # 自动修复可修复的问题

各工具选择策略

Black：作为一种"铁面无私"的代码格式化工具，Black的格式化结果几乎不可配置，这种设计消除了团队中关于代码风格的争论。其默认行长度为88字符，与PEP 8建议的79字符略有不同，但在实际使用中更为合理。如果项目已经使用Black，建议在isort中设置 --profile=black 以确保两者兼容。

isort：负责自动对Python导入语句进行分组和排序，标准库、第三方库、本地模块分别用空行隔开，每组内部按字母序排列。与Black配合使用时，必须设置 --profile=black 以避免两者在导入格式化上的冲突。

Ruff：Rust语言实现的Python linter和格式化器，速度极快（比Flake8快10-100倍），支持超过700条检查规则，涵盖Flake8及其插件、isort、pyupgrade等工具的规则集。Ruff是近年Python工具链中发展最迅猛的项目之一，许多新项目选择直接使用Ruff替代Flake8+isort+Black的组合，以简化配置并提升执行速度。

Mypy：作为Python的可选静态类型检查器，Mypy能够在运行前发现类型不匹配、空值引用等问题。对于采用类型注解的项目，Mypy是质量保障的重要一环。需要注意的是，Mypy通常检查速度较慢，作为pre-commit钩子使用时，建议只检查修改过的文件，并在配置中通过 --ignore-missing-imports 避免因第三方库缺少类型桩文件而产生大量噪音。

五、钩子管理

版本更新

pre-commit 配置中的各个钩子仓库通过 rev 字段指定版本。随着工具本身的迭代更新，定期升级钩子版本以获取新功能和bug修复是非常重要的维护工作。pre-commit 提供了 autoupdate 命令，可以自动将配置文件中所有钩子仓库更新到最新标签版本。更新后建议先运行 pre-commit run --all-files 检查新版本是否引入破坏性更改，确认无误后再提交更新后的配置文件。

# 自动更新所有钩子到最新版本
pre-commit autoupdate
# 输出示例：
# Updating https://github.com/pre-commit/pre-commit-hooks ... [update] v4.4.0 -> v4.5.0
# Updating https://github.com/psf/black ... [update] 23.10.0 -> 23.12.0

# 更新指定仓库到最新标签
pre-commit autoupdate --repo https://github.com/psf/black

# 更新后验证所有钩子正常运行
pre-commit run --all-files

# 查看当前配置的钩子版本状态
pre-commit validate-config .pre-commit-config.yaml

# 冻结当前配置（将rev固定为当前哈希值）
pre-commit autoupdate --freeze

钩子执行顺序

pre-commit 严格遵循 .pre-commit-config.yaml 中 repos 列表的顺序执行钩子。这意味着配置中排在前的钩子会先运行，排在后的钩子后运行。合理的执行顺序应遵循"先格式、后检查"的原则：先运行格式化工具（如Black、isort、pre-commit-hooks基础钩子），再运行lint工具（如Flake8、Ruff），最后运行类型检查器（如Mypy）和深度分析器（如Pylint）。格式化工具先执行可以确保代码在被检查前已经处于统一风格，避免lint工具因为格式问题而报错。

# 推荐的钩子执行顺序
repos:
  # 第1组：基础文件检查（最快，处理通用问题）
  - repo: https://github.com/pre-commit/pre-commit-hooks
    rev: v4.5.0
    hooks:
      - id: trailing-whitespace
      - id: end-of-file-fixer
      - id: check-yaml

  # 第2组：代码格式化（自动修改文件风格）
  - repo: https://github.com/psf/black
    rev: 23.12.0
    hooks:
      - id: black
  - repo: https://github.com/PyCQA/isort
    rev: 5.13.2
    hooks:
      - id: isort

  # 第3组：静态检查（分析代码质量）
  - repo: https://github.com/astral-sh/ruff-pre-commit
    rev: v0.1.8
    hooks:
      - id: ruff

  # 第4组：类型检查（最慢，放在最后）
  - repo: https://github.com/pre-commit/mirrors-mypy
    rev: v1.7.1
    hooks:
      - id: mypy

运行控制与跳过

在某些场景下，开发者可能希望临时跳过某些钩子。pre-commit 提供了多种方式来控制钩子的执行。通过 SKIP 环境变量可以指定需要跳过的钩子ID（多个ID用逗号分隔），适用于紧急提交或已知特定钩子存在误报的情形。使用 --all-files 对所有文件运行钩子，适用于CI环境或首次集成。使用 --files 对指定文件运行钩子，适用于只想测试特定文件的场景。使用 -n 或 --no-verify 参数可以完全跳过所有钩子（相当于直接调用 git commit --no-verify），但这种方式会破坏质量门禁的完整性，仅应在极端紧急情况下使用。

# 跳过特定钩子（使用SKIP环境变量）
SKIP=flake8,mypy git commit -m "紧急修复：临时跳过flake8和mypy"

# 对所有文件运行指定钩子
pre-commit run flake8 --all-files

# 对指定文件运行所有钩子
pre-commit run --files src/main.py tests/test_main.py

# 完全跳过pre-commit钩子（不推荐常规使用）
git commit --no-verify -m "紧急修复"
# 或简写：git commit -n -m "紧急修复"

# 查看已安装的所有钩子
pre-commit list

六、高级配置

stages：控制钩子触发阶段

pre-commit 不仅支持 pre-commit 阶段，还支持 pre-push、pre-merge-commit、manual 和 post-checkout 等阶段。通过 stages 字段，可以精确控制某个钩子在哪些Git事件中触发。例如，运行时间较长的钩子（如完整的测试套件、安全审计）可以配置为仅在推送前运行，而轻量级的格式检查则在每次提交时运行。

# stages高级配置示例
- repo: https://github.com/pre-commit/mirrors-mypy
  rev: v1.7.1
  hooks:
    - id: mypy
      # 仅在推送前运行，避免每次提交都等待类型检查
      stages: [push]

- repo: local
  hooks:
    - id: run-tests
      name: Run pytest
      entry: pytest
      language: system
      types: [python]
      # 标记为manual，需要显式调用才运行
      stages: [manual]
      always_run: true

always_run、verbose、pass_filenames

always_run： 设置为 true 时，即使没有匹配到任何修改的文件，该钩子仍然会执行一次。适用于运行版本检查、许可证校验等全局性检查。需要注意的是，即使设置了 always_run: true，钩子脚本仍然需要通过 types/files 过滤才能获取待检查的文件列表。如果钩子的运行与具体文件无关，通常配合 pass_filenames: false 使用。

verbose： 设置为 true 时，即使钩子执行成功也会显示完整输出。默认情况下，pre-commit 只显示失败钩子的输出，成功钩子的输出被静默忽略。对于某些钩子（如代码格式化工具），开发者可能希望在提交时看到格式化后的变动明细，此时可以开启 verbose。

pass_filenames： 设置为 false 时，不向钩子脚本传递暂存文件的路径列表。适用于不关心具体文件、只运行全局检查的钩子（如检查Python版本兼容性、检查依赖漏洞等）。

# 高级选项综合示例
- repo: https://github.com/PyCQA/flake8
  rev: 6.1.0
  hooks:
    - id: flake8
      # 即使没有匹配文件也运行（检查代码库整体健康度）
      always_run: true
      # 成功后也显示输出
      verbose: true

- repo: local
  hooks:
    - id: check-license-year
      name: Check license year
      entry: python scripts/check_license.py
      language: python
      # 不向脚本传递文件名（自行处理）
      pass_filenames: false
      # 每次提交都运行此检查
      always_run: true

exclude/include模式

pre-commit 使用 files 和 exclude 字段对钩子的作用范围进行精细控制。这两个字段都接受正则表达式模式。注意有两个层面的过滤：types 根据文件类型（如python、yaml、json等）过滤；files/exclude 根据文件路径匹配。exclude 在 files 之后应用，优先级最高。

# exclude/include精确控制示例
- repo: https://github.com/pre-commit/pre-commit-hooks
  rev: v4.5.0
  hooks:
    - id: trailing-whitespace
      # 排除Markdown文件（保留行末双空格用于换行标记）
      exclude: \.md$

- repo: https://github.com/psf/black
  rev: 23.12.0
  hooks:
    - id: black
      # 不检查生成的proto文件和迁移脚本
      exclude: |
          (?x)(
              ^.*_pb2\.py$|
              ^.*\.pyc$|
              ^migrations/|
              ^vendor/
          )
      # 只检查src和tests目录下的文件
      files: ^(src|tests)/

七、CI集成

pre-commit.ci自动服务

pre-commit.ci 是一个专为pre-commit设计的自动化服务，由pre-commit的核心开发者维护。将GitHub仓库授权给pre-commit.ci后，它为每个PR自动运行pre-commit配置中的所有钩子，并直接以GitHub Check的形式展示检查结果。更强大的功能是，pre-commit.ci 支持"自动修复PR"——当钩子检测到可自动修复的问题时（如格式问题），它会直接向PR推送修复提交，开发者无需手动操作即可获得符合质量标准的代码。pre-commit.ci 还提供自动更新PR功能，定期提交pre-commit钩子的版本更新。配置方式是在项目根目录创建 .pre-commit-config.yaml 后，在仓库的 .github 设置中启用pre-commit.ci服务。

# pre-commit.ci 配置文件（.pre-commit-config.yaml顶部）
# 此部分被pre-commit本身忽略，仅pre-commit.ci读取
ci:
    autofix: true                 # 自动修复PR中的格式问题
    autoupdate_schedule: weekly   # 自动更新钩子版本的频率
    autofix_prs: true             # 创建自动修复PR
    submodules: false             # 是否初始化子模块
    skip:                          # 在CI中跳过的钩子
      - pylint                    # pylint较慢且可能生成大量评论

GitHub Actions集成

如果不想依赖第三方服务，可以在GitHub Actions中手动配置pre-commit检查。官方提供了 pre-commit/action Action，使用简单且与pre-commit.ci的行为保持一致。这种方式适合需要完全控制CI流程的团队，或者需要在pre-commit检查通过后才运行其他CI步骤的场景。

# .github/workflows/pre-commit.yml
name: Pre-commit

on:
  pull_request:
  push:
    branches: [main, master]

jobs:
  pre-commit:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-python@v5
        with:
          python-version: '3.12'
      # 使用pre-commit官方Action
      - uses: pre-commit/action@v3.0.0
        # 可选：设置源分支
        with:
          extra_args: --all-files --hook-stage push

GitLab CI与Bitbucket Pipelines

对于使用GitLab或Bitbucket的团队，同样可以轻松集成pre-commit。GitLab CI中只需要安装pre-commit并运行 pre-commit run --all-files 即可。关键在于确保CI环境中配置了正确的Python版本和项目依赖，以便类型检查器（如Mypy）等工具能够正常工作。

# .gitlab-ci.yml
pre-commit:
  stage: test
  image: python:3.12
  script:
    - pip install pre-commit
    - pre-commit run --all-files
  only:
    - merge_requests
    - main

# bitbucket-pipelines.yml
image: python:3.12
pipelines:
  pull-requests:
    '**':
      - step:
          name: Pre-commit Checks
          script:
            - pip install pre-commit
            - pre-commit run --all-files

八、自定义钩子

本地钩子（Local Hooks）

当需要使用项目本地已有的脚本或工具作为钩子时，可以通过 repo: local 定义本地钩子。本地钩子不需要单独的Git仓库，直接在 .pre-commit-config.yaml 中通过 entry 字段指定可执行命令或脚本路径，通过 language 字段指定运行语言（如 system、python、script 等）。本地钩子的优势在于无需依赖外部仓库、可以复用项目内已有的脚本和配置文件，适合定制化程度较高的检查需求。

# 本地钩子配置示例
- repo: local
  hooks:
    # 使用项目内Python脚本作为钩子
    - id: check-migrations
      name: Check database migrations
      entry: python scripts/check_migrations.py
      language: python
      types: [python]
      files: ^migrations/
      pass_filenames: true
      stages: [push]

    # 使用系统命令作为钩子
    - id: check-branch-name
      name: Check branch naming convention
      entry: bash -c '[[ $BRANCH_NAME =~ ^(feature|bugfix|hotfix)/ ]] || { echo "Branch name must start with feature/ or bugfix/ or hotfix/"; exit 1; }'
      language: system
      always_run: true
      pass_filenames: false
      stages: [push]

    # 使用Shell脚本作为钩子
    - id: run-pytest-quick
      name: Quick pytest check
      entry: python -m pytest tests/ -x --timeout=30 -q
      language: system
      types: [python]
      stages: [push]

Docker钩子

对于需要特定系统环境或工具链的检查，pre-commit 支持通过Docker镜像运行钩子。通过 language: docker 和 entry 指定Docker镜像和命令，pre-commit 会自动拉取镜像并在容器中执行钩子。这种方式适用于跨平台工具、需要特定版本运行时的检查，或是团队不希望在本机安装某些工具的场合。Docker钩子执行时，项目目录会被挂载到容器中作为工作目录。

# Docker钩子示例
- repo: local
  hooks:
    - id: hadolint
      name: Lint Dockerfiles
      entry: ghcr.io/hadolint/hadolint hadolint
      language: docker
      types: [dockerfile]
      verbose: true

    - id: shellcheck
      name: Check shell scripts
      entry: koalaman/shellcheck:stable shellcheck
      language: docker
      types: [shell]

自定义仓库发布

对于需要团队内或开源共享的自定义钩子，可以创建独立的pre-commit钩子仓库。钩子仓库需要包含一个 .pre-commit-hooks.yaml 文件，声明每个钩子的 id、name、entry、language 和 types 等元信息。钩子脚本自身可以是Python脚本、Shell脚本、Docker镜像或任何可执行程序。创建完成后，将仓库推送到GitHub（或其他Git平台），其他项目即可通过 repo 字段引用该仓库。

# .pre-commit-hooks.yaml - 自定义钩子仓库的清单文件
- id: check-sql-injection
  name: Check SQL injection patterns
  description: Detect potential SQL injection vulnerabilities in Python code
  entry: check_sql_injection
  language: python
  types: [python]
  args: []
  require_serial: false
  additional_dependencies: []
  minimum_pre_commit_version: '2.9.0'

- id: check-copyright
  name: Check copyright header
  description: Ensure all source files have a valid copyright header
  entry: check_copyright
  language: python
  types: [text]

开发最佳实践：自定义钩子应该尽量幂等（多次运行结果一致）、快速（避免在每次提交时等待过久）、可重入（支持并发执行）。钩子的退出码应遵循Unix惯例：0表示通过，非零表示失败。在发布前，建议在多个平台（Linux、macOS、Windows）上测试钩子的兼容性。

九、实战案例

完整项目pre-commit配置模板

以下是一个经过实战检验的完整pre-commit配置模板，适用于大多数Python项目。该模板按执行顺序分层组织：首层为基础文件检查、次层为代码格式化、末层为静态分析和类型检查。配置中同时兼顾了执行速度和检查深度，将慢速检查（Mypy、Pylint）配置为仅在手动触发或推送前运行，从而在开发阶段保持高效的提交体验。

# .pre-commit-config.yaml - 企业级Python项目配置模板
repos:
  # ============ 第一层：基础文件检查 ============
  - repo: https://github.com/pre-commit/pre-commit-hooks
    rev: v4.5.0
    hooks:
      - id: trailing-whitespace
      - id: end-of-file-fixer
      - id: check-yaml
      - id: check-json
      - id: check-toml
      - id: check-added-large-files
      - id: detect-private-key
      - id: check-merge-conflict
      - id: mixed-line-ending
        args: [--fix=lf]

  # ============ 第二层：代码格式化 ============
  - repo: https://github.com/psf/black
    rev: 23.12.0
    hooks:
      - id: black
        args: [--line-length=88]

  - repo: https://github.com/PyCQA/isort
    rev: 5.13.2
    hooks:
      - id: isort
        args: [--profile=black, --line-length=88]

  # ============ 第三层：静态分析（合理速度） ============
  - repo: https://github.com/astral-sh/ruff-pre-commit
    rev: v0.1.8
    hooks:
      - id: ruff
        args: [--fix]
      - id: ruff-format

  # ============ 第四层：深度检查（仅推送前） ============
  - repo: https://github.com/pre-commit/mirrors-mypy
    rev: v1.7.1
    hooks:
      - id: mypy
        stages: [push]
        additional_dependencies: [types-all]

  - repo: https://github.com/PyCQA/pylint
    rev: v3.0.3
    hooks:
      - id: pylint
        stages: [push]
        args: [--fail-under=8.0]

  # ============ 本地钩子 ============
  - repo: local
    hooks:
      - id: check-poetry-lock
        name: Check poetry.lock is in sync
        entry: poetry check --lock
        language: system
        pass_filenames: false
        always_run: true

团队统一钩子管理策略

在中大型团队中推行pre-commit时，需要建立统一的管理规范。首先，建议将 .pre-commit-config.yaml 纳入版本管理，并通过项目初始化文档或Makefile脚本引导团队成员执行 pre-commit install。其次，新建钩子或更新版本时应通过PR流程，确保所有变更经过审查。第三，设置CI层面的pre-commit检查作为兜底——即使开发者本地跳过了钩子，CI阶段仍会强制执行检查，确保提交到主分支的代码始终符合质量标准。

团队内部可以通过以下措施确保pre-commit的有效落地：一是将pre-commit集成到项目的开发容器（Dev Container）或开发环境初始化脚本中，新成员加入时自动安装；二是定期审查pre-commit的执行日志和失败率，调整过于严格或误报率高的规则；三是在项目Wiki或开发者文档中记录常见问题排查方法，降低团队的使用门槛。

渐进式钩子引入策略

在一个已有大量历史代码的项目中引入pre-commit，直接对所有文件运行所有钩子往往会引发大量的格式修改和检查失败，给团队带来巨大的变更负担。推荐的策略是"渐进式引入"：第一阶段，只开启轻量级的基础文件检查（如 trailing-whitespace、end-of-file-fixer），这些检查修改范围小、争议少。第二阶段，开启代码格式化工具，但通过配置文件排除历史代码目录，仅对新代码生效。第三阶段，在团队适应了格式化流程后，逐步取消排除范围，对历史代码进行"格式化大一次性提交"（选择项目空闲期执行）。第四阶段，引入lint和类型检查工具，同样可以先用 --fix 模式自动修复可修复问题，再逐步开启严格模式。

# 渐进式引入：第一阶段只影响新代码
- repo: https://github.com/psf/black
  rev: 23.12.0
  hooks:
    - id: black
      # 先排除历史代码目录，只格式化新增和修改的文件
      exclude: |
          (?x)(
              ^legacy/|
              ^vendor/|
              ^old_scripts/
          )

# Makefile中集成钩子初始化，简化团队操作
# Makefile
.PHONY: install-hooks
install-hooks:
	pip install pre-commit
	pre-commit install
	pre-commit install --hook-type pre-push
	@echo "pre-commit hooks installed successfully!"

.PHONY: run-hooks
run-hooks:
	pre-commit run --all-files

.PHONY: update-hooks
update-hooks:
	pre-commit autoupdate
	pre-commit run --all-files

实战经验总结：pre-commit框架是代码质量保障体系中性价比最高的环节之一。它在"最接近代码编写时刻"触发检查，能够极大地降低问题修复成本。但pre-commit不是银弹——它不能替代代码审查、完整的测试套件或专业的安全审计。最佳实践是将pre-commit作为质量保障体系的第一道防线，与CI/CD流水线、代码审查、自动化测试、静态分析平台等形成多层防护架构。合理的配置应当平衡检查速度与质量深度——确保每次提交的等待时间不超过10-15秒，避免因等待时间过长导致开发者产生"跳过钩子"的冲动。