合规检查Hook：代码合规自动验证

一、合规检查Hook的设计

在软件开发过程中，合规性检查是保障代码质量、避免法律风险的重要环节。合规检查Hook通过在Git操作的关键节点（pre-commit、pre-push、commit-msg等）自动执行合规验证，确保每一行提交的代码都符合组织制定的规范、行业标准以及法律法规要求。

合规检查Hook的核心设计思想是在代码进入代码库之前建立一道自动化的"合规门禁"。与传统的代码审查不同，合规检查Hook能够第一时间发现问题，将合规违规拦截在源头，大幅降低后期修复成本。

设计原则

自动化优先：所有检查自动执行，无需人工触发，减少人为疏忽
分层检查：按严重程度分级，轻度违规给出警告，严重违规阻断提交
可配置性：检查规则可灵活配置，适配不同项目和团队的合规需求
快速反馈：检查结果即时反馈给开发者，提供清晰的修复指引
渐进增强：合规规则可逐步添加，避免一次性引入过多约束造成开发阻塞

Hook触发时机与职责

Hook类型	触发时机	合规检查职责
pre-commit	提交前	编码规范检查、敏感信息检测、许可证头检查
commit-msg	提交信息编写后	提交信息格式合规、是否包含Issue编号
pre-push	推送前	完整合规报告生成、依赖许可证审查、GDPR模式扫描
post-commit	提交后	合规检查记录持久化、趋势数据更新

最佳实践：将轻量级检查（编码规范、命名规范）放在pre-commit阶段，将重量级检查（许可证扫描、GDPR模式检测）放在pre-push阶段，平衡开发体验和检查完整性。

二、编码规范合规检查Hook（after:tool/Edit）

编码规范合规检查是合规Hook中最基础也是最常用的功能。它在开发者执行git commit时自动对本次修改的文件运行指定的linter工具，确保所有提交的代码符合团队约定的编码规范。

自动运行linter检查

Hook可以根据项目语言自动选择合适的linter工具。以下是一个pre-commit Hook配置示例，它根据文件扩展名自动路由到对应的linter：

#!/bin/bash
# .git/hooks/pre-commit - 编码规范自动检查
# 支持多种语言的linter路由

CHANGED_FILES=$(git diff --cached --name-only --diff-filter=ACM)

for file in $CHANGED_FILES; do
    case "${file##*.}" in
        py)
            # Python文件使用flake8检查
            flake8 "$file" --max-line-length=120
            if [ $? -ne 0 ]; then
                echo "PEP8违规: $file"
                exit 1
            fi
            ;;
        js|jsx|ts|tsx)
            # JavaScript/TypeScript使用ESLint
            npx eslint "$file" --quiet
            if [ $? -ne 0 ]; then
                echo "ESLint违规: $file"
                exit 1
            fi
            ;;
        java)
            # Java使用Checkstyle（Google Style）
            java -jar checkstyle.jar -c /google_checks.xml "$file"
            if [ $? -ne 0 ]; then
                echo "Google Style违规: $file"
                exit 1
            fi
            ;;
    esac
done

代码格式化规范检查

除了linter检查外，合规Hook还应对代码格式进行自动化检查，确保缩进、空格、换行等格式符合团队规范。对于支持格式化工具的语言，可以直接在Hook中调用格式化工具进行自动修复：

# pre-commit中集成代码格式化

PRETTIER_FILES=$(git diff --cached --name-only --diff-filter=ACM | \
    grep -E '\.(js|jsx|ts|tsx|json|css|md)$')

if [ -n "$PRETTIER_FILES" ]; then
    echo ">>> 运行Prettier格式化..."
    npx prettier --write $PRETTIER_FILES
    git add $PRETTIER_FILES
fi

# Python文件使用black格式化
BLACK_FILES=$(git diff --cached --name-only --diff-filter=ACM | \
    grep -E '\.py$')
if [ -n "$BLACK_FILES" ]; then
    echo ">>> 运行Black格式化..."
    black $BLACK_FILES
    git add $BLACK_FILES
fi

命名规范检查

合规Hook还可以对标识符命名规范进行检查，确保全项目命名风格统一。以下规则覆盖了大多数编程语言的命名场景：

语言	规范	检查规则
Python	PEP8	函数/变量使用snake_case，类名使用PascalCase
JavaScript	Airbnb/Google	函数/变量使用camelCase，类/组件使用PascalCase
Java	Google Style	包名全小写，类名PascalCase，常量UPPER_SNAKE
Go	Go官方规范	导出标识符大写开头，非导出小写开头

注意：命名规范检查应尽量使用项目已有的lint配置（如.eslintrc、.flake8等），避免在Hook中重复定义规则。这样既能确保一致性，也方便开发者本地调试。

违规报告与自动修复建议

当检测到编码规范违规时，合规Hook不仅应报告问题，还应提供具体的修复建议。良好的用户体验对于Hook的推广使用至关重要：

修复建议报告示例：

文件: src/user_service.py

行 42: E501 行长度超过120字符（实际: 145）

→ 建议: 将长表达式拆分为多行，或提取中间变量

行 78: E302 类定义前需要2个空行（当前: 1）

→ 建议: 在第77行前增加一个空行

行 105: N802 函数名 'getUserData' 应使用snake_case

→ 建议: 重命名为 'get_user_data'

三、许可证合规检查Hook（after:tool/Edit）

许可证合规检查是开源项目中尤为重要的合规环节。它确保项目中使用的所有第三方代码和依赖库都具有兼容的许可证，避免因许可证冲突引发法律风险。合规Hook在pre-push阶段执行完整的许可证扫描。

版权/许可证信息检测

# pre-push Hook中的许可证头检查逻辑

check_license_header() {
    local file=$1
    local ext="${file##*.}"

    case "$ext" in
        py|js|ts|java|go|rs)
            # 检查文件头是否包含许可证声明
            if ! head -20 "$file" | grep -qiE "(license|copyright|SPDX)"; then
                echo "许可证头缺失: $file"
                echo "  请在文件头部添加以下许可证声明:"
                echo "  # SPDX-License-Identifier: MIT"
                echo "  # Copyright (c) 2024 Your Company"
                return 1
            fi
            ;;
    esac
    return 0
}

CHANGED_FILES=$(git diff --cached --name-only --diff-filter=ACM)
violations=0

for file in $CHANGED_FILES; do
    check_license_header "$file" || violations=$((violations + 1))
done

if [ $violations -gt 0 ]; then
    echo "检测到 $violations 个文件缺少许可证头，请修复后重新提交。"
    exit 1
fi

新增依赖的许可证类型检查

当项目引入新的依赖时，Hook自动检查该依赖的许可证类型，验证是否与项目本身的许可证兼容：

项目许可证	兼容依赖许可证	禁止的依赖许可证
MIT	MIT, Apache-2.0, BSD, ISC, Unlicense	GPL-2.0, AGPL-3.0, SSPL
Apache-2.0	Apache-2.0, MIT, BSD, ISC	GPL-2.0, AGPL-3.0, SSPL
GPL-3.0	GPL-3.0, MIT, Apache-2.0, BSD	AGPL-3.0, SSPL, Elastic-2.0
AGPL-3.0	AGPL-3.0, GPL-3.0, MIT	SSPL, Elastic-2.0, BUSL-1.1

GPL/AGPL传染性许可证告警

高风险告警：GPL/AGPL类许可证具有"传染性"——如果你的项目链接或使用了GPL/AGPL代码，整个项目可能被迫采用GPL/AGPL许可证开源。合规Hook在检测到此类依赖时应发出醒目告警，并要求开发者/法务确认。

# 检测GPL/AGPL传染性许可证

check_copyleft() {
    local dep_name=$1
    local license=$2

    case "$license" in
        GPL*|AGPL*)
            echo "!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!"
            echo "  传染性许可证告警"
            echo "!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!"
            echo "  依赖: $dep_name"
            echo "  许可证: $license"
            echo ""
            echo "  该许可证具有"传染性"特征，可能要求整个项目开源。"
            echo "  请在添加前咨询法务团队。"
            echo "!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!"
            return 1
            ;;
    esac
}

# 解析package.json或requirements.txt中的依赖
# 并查询每个依赖的许可证类型
# ...

版权声明一致性检查

# 版权年份一致性检查

check_copyright_year() {
    local current_year=$(date +"%Y")
    local violations=0

    for file in $(git diff --cached --name-only --diff-filter=ACM); do
        if head -5 "$file" | grep -qi "copyright"; then
            # 检查版权年份是否为当前年份
            if head -5 "$file" | grep -qiE "copyright.*[0-9]{4}" && \
               ! head -5 "$file" | grep -qi "$current_year"; then
                echo "版权年份需要更新: $file"
                echo "  建议更新为: Copyright (c) $current_year Your Company"
                violations=$((violations + 1))
            fi
        fi
    done
    return $violations
}

四、数据保护合规Hook

随着GDPR、CCPA、PCI-DSS等数据保护法规的实施，代码中的数据保护合规变得尤为重要。数据保护合规Hook在代码层面自动检测可能违反数据保护法规的模式，防止敏感数据泄露风险进入生产环境。

PII（个人身份信息）处理逻辑检测

Hook扫描新增代码中是否包含对个人身份信息的处理逻辑，并确保这些处理符合数据保护原则：

# PII处理逻辑检测模式

PII_PATTERNS=(
    # 中国个人信息
    "身份证" "手机号" "住址" "银行卡"
    # 通用PII
    "email" "phone" "address" "ssn" "passport"
    "credit.?card" "bank.?account" "date.?of.?birth"
    # 数据处理操作
    "collect.*(personal|user).*data" "process.*personal"
    "store.*(personal|user).*(data|info)"
)

check_pii_patterns() {
    local file=$1

    for pattern in "${PII_PATTERNS[@]}"; do
        if grep -iqE "$pattern" "$file"; then
            echo "PII处理逻辑检测: $file"
            echo "  检测到模式: '$pattern'"
            echo "  请确保:"
            echo "    1. 已获取用户明确同意"
            echo "    2. 数据收集符合"最小必要"原则"
            echo "    3. 已提供数据删除/导出接口"
            return 1
        fi
    done
}

硬编码敏感数据字段检测

安全风险：硬编码的API密钥、数据库密码、私钥等敏感信息是数据泄露的主要源头之一。合规Hook禁止任何形式的硬编码敏感数据提交，包括明文密码、Token、证书等。一旦检测到，立即阻断提交。

# 敏感信息泄露检测

SECRET_PATTERNS=(
    # API密钥和Token
    "api[_-]?key\s*[=:]\s*['\"][^'\"]+['\"]"
    "sk-[a-zA-Z0-9]{20,}"  # OpenAI API Key格式
    "ghp_[a-zA-Z0-9]{36}"  # GitHub Token格式
    # 密码和认证信息
    "password\s*[=:]\s*['\"][^'\"]+['\"]"
    "secret\s*[=:]\s*['\"][^'\"]+['\"]"
    # 连接字符串
    "jdbc:mysql://.*password="
    "mongodb://[^:]+:[^@]+@"  # 包含密码的MongoDB URI
    # 证书
    "BEGIN (RSA )?PRIVATE KEY"
)

check_secrets() {
    for file in $(git diff --cached --name-only); do
        for pattern in "${SECRET_PATTERNS[@]}"; do
            if git diff --cached "$file" | grep -qE "$pattern"; then
                echo "安全违规: 检测到可能的敏感信息泄露"
                echo "  文件: $file"
                echo "  类型: $pattern"
                echo "  操作已阻断: 请使用环境变量或密钥管理服务。"
                exit 1
            fi
        done
    done
}

日志中敏感数据输出检测

合规Hook检查日志输出语句，防止在日志中泄露用户敏感信息。许多数据泄露事件都源于"为了方便调试"而将完整的数据对象打印到日志中：

# 检测日志中是否可能输出敏感数据

LOG_LEAK_PATTERNS=(
    # Python: logging.info(user_data) 或 print(user_dict)
    "logging\.\w+\(.*(user|person|customer|patient)"
    "print\(.*(user|person|customer|patient)"
    # Java: log.info("user: " + user)
    "log\.\w+\(.*\+.*(user|customer|patient)"
    "System\.out\.println.*(user|customer|patient)"
    # JavaScript: console.log(userData)
    "console\.(log|info|warn)\(.*[Uu]ser"
    "console\.(log|info|warn)\(.*[Dd]ata"
    # 通用: 序列化敏感对象到日志
    "JSON\.stringify.*(user|person|customer)"
    "toString\(\).*(user|person|customer)"
)

for pattern in "${LOG_LEAK_PATTERNS[@]}"; do
    if git diff --cached | grep -qE "$pattern"; then
        echo "日志泄露警告: 检测到可能在日志中输出敏感数据"
        echo "  匹配模式: $pattern"
        echo "  建议: 使用脱敏工具对敏感字段进行掩码处理"
    fi
done

GDPR相关功能检查

对于面向欧盟用户的产品，合规Hook会检查代码是否实现了GDPR要求的基本功能：

用户数据删除功能

检查是否实现了"被遗忘权"（Right to Erasure）对应的API或数据清除逻辑，确保用户可以请求删除其个人数据。

数据导出功能

检查是否实现了"数据可携权"（Right to Data Portability）对应的数据导出API，确保用户能够下载其完整数据。

用户同意管理

检查新增的数据收集代码是否包含用户同意获取逻辑，确保所有数据收集行为都有明确的法律依据。

数据保留策略

检查是否设置了数据自动过期和删除机制，避免无限期存储用户数据。

GDPR合规核心要点：

1. 数据收集须有明确目的和用户同意（Consent）

2. 数据存储遵循"最小必要"原则（Data Minimization）

3. 提供数据删除和导出接口（Right to Erasure / Portability）

4. 数据泄露须在72小时内报告（Breach Notification）

5. 默认隐私保护设计（Privacy by Design / Default）

五、合规报告和阻断

合规检查的最终产出是一份完整、清晰的合规报告，以及基于严重程度的自动化阻断策略。这些功能共同构成了合规治理的闭环：发现→报告→决策→修复→验证。

合规检查报告生成

每次合规检查完成后，Hook生成结构化的合规报告，包含通过项、告警项和违规项的详细统计：

# 合规报告生成器（pre-push阶段执行）

generate_compliance_report() {
    local report=""
    local total_checks=0
    local passed=0
    local warnings=0
    local violations=0

    report+="========================================\n"
    report+="  合规检查报告\n"
    report+="  时间: $(date '+%Y-%m-%d %H:%M:%S')\n"
    report+="  分支: $(git rev-parse --abbrev-ref HEAD)\n"
    report+="  提交: $(git rev-parse HEAD)\n"
    report+="========================================\n\n"

    # 1. 编码规范检查结果
    report+="[1/3] 编码规范合规\n"
    if run_lint_checks; then
        report+="  结果: 通过 ✓\n"
        passed=$((passed + 1))
    else
        report+="  结果: 违规 ✗\n"
        report+="  详情请查看上方linter输出\n"
        violations=$((violations + 1))
    fi
    total_checks=$((total_checks + 1))

    # 2. 许可证合规检查结果
    report+="[2/3] 许可证合规\n"
    if run_license_checks; then
        report+="  结果: 通过 ✓\n"
        passed=$((passed + 1))
    else
        report+="  结果: 告警 ⚠\n"
        warnings=$((warnings + 1))
    fi
    total_checks=$((total_checks + 1))

    # 3. 数据保护合规检查结果
    report+="[3/3] 数据保护合规\n"
    if run_data_protection_checks; then
        report+="  结果: 通过 ✓\n"
        passed=$((passed + 1))
    else
        report+="  结果: 违规 ✗\n"
        violations=$((violations + 1))
    fi
    total_checks=$((total_checks + 1))

    # 汇总
    report+="\n========================================\n"
    report+="  检查汇总: $total_checks 项\n"
    report+="  通过: $passed | 告警: $warnings | 违规: $violations\n"
    report+="  判定: "
    if [ $violations -gt 0 ]; then
        report+="未通过 - 请修复违规后重新提交\n"
    else
        report+="通过\n"
    fi
    report+="========================================\n"

    echo -e "$report"

    # 保存报告到合规历史记录
    local report_dir=".compliance-reports"
    mkdir -p "$report_dir"
    echo -e "$report" > "$report_dir/$(date '+%Y%m%d%H%M%S').txt"

    [ $violations -eq 0 ] && return 0 || return 1
}

generate_compliance_report

不合规操作阻断配置

合规Hook支持基于违规严重程度的差异化阻断策略。团队可以根据实际情况配置不同的阻断规则：

严重程度	定义	阻断策略	示例
阻断级（Block）	严重安全或法律风险	完全阻止提交/推送	硬编码密钥、GPL许可证冲突、PII泄露
告警级（Warning）	潜在风险或规范偏离	发出告警，询问是否继续	命名不规范、缺少许可证头、日志可能泄露
提示级（Info）	改进建议	仅记录，不阻断	代码格式微调、版权年份更新提醒

# 差异化阻断配置示例

BLOCK_ON_CRITICAL=true      # 严重违规直接阻断
WARN_ON_MINOR=true          # 轻微违规仅告警
ASK_CONFIRM_ON_WARNING=true  # 告警级是否需要开发者确认

# 阻断执行逻辑
if [ $critical_violations -gt 0 ] && [ "$BLOCK_ON_CRITICAL" = true ]; then
    echo "严重违规: 操作已阻断。请修复以下关键问题："
    echo "$critical_issues"
    exit 1
fi

if [ $warnings -gt 0 ] && [ "$ASK_CONFIRM_ON_WARNING" = true ]; then
    echo "存在 $warnings 项告警:"
    echo "$warning_issues"
    echo -n "是否仍要提交？(y/N): "
    read -r response
    if [ "$response" != "y" ] && [ "$response" != "Y" ]; then
        echo "提交已取消。请修复告警后重试。"
        exit 1
    fi
fi

合规检查历史趋势跟踪

通过持久化每次合规检查的结果，团队可以追踪合规趋势，识别反复出现的问题类型，有针对性地改进开发流程：

合规趋势数据分析：

1. 每周违规次数统计——识别合规状况是改善还是恶化

2. 违规类型分布——发现最常见的合规问题（如：编码规范占60%、许可证占25%、数据保护占15%）

3. 按团队/贡献者统计——识别哪些团队需要加强合规培训

4. 修复时间分析——从发现到修复的平均时间，评估合规流程效率

5. 阻断率统计——跟踪因合规问题被阻止的提交比例，评估合规规则的合理性

实践建议：合规检查历史数据应纳入团队的度量体系。如果某个合规规则导致频繁阻断且均为误报，应考虑调整规则的阈值或排除规则。合规的目标是帮助团队写出更安全、更规范的代码，而非制造障碍。

完整Hook配置示例

以下是一个完整的合规检查Hook脚本框架，整合了上述所有功能：

#!/bin/bash
# .git/hooks/pre-push - 完整合规检查Hook
# 功能: 编码规范 + 许可证合规 + 数据保护合规 + 报告生成

set -e

echo "=========================================="
echo "  合规检查开始"
echo "=========================================="

# 阶段1: 编码规范检查
echo "[1/3] 执行编码规范检查..."
run_lint_checks || exit 1

# 阶段2: 许可证合规检查
echo "[2/3] 执行许可证合规检查..."
run_license_checks || echo "  → 许可证检查完成（含告警）"

# 阶段3: 数据保护合规检查
echo "[3/3] 执行数据保护合规检查..."
run_data_protection_checks || exit 1

# 生成报告
generate_compliance_report

echo ""
echo "合规检查完成。祝编码愉快！"

通过上述完整的合规检查Hook体系，团队可以建立起一道自动化的合规防线，在代码开发的每个环节自动验证合规要求，从根本上降低合规风险，同时提升代码质量和团队效率。