OCR文字识别与文档数字化 - 自动化办公-学习笔记-上海佼艾

一、OCR技术概述

OCR（Optical Character Recognition，光学字符识别）是指通过扫描和图像处理技术，将纸质文档或图片中的文字信息转换为计算机可编辑文本的技术。OCR技术的核心在于让计算机"看懂"图像中的文字，并将其转化为标准编码（如UTF-8、ASCII等）存储的文本数据。这项技术经历了从传统图像处理+模式识别到深度学习端到端识别的演进过程，目前已广泛应用于文档数字化、发票报销、身份证认证、车牌识别、书籍电子化等众多领域。

在Python生态中，主流的OCR引擎主要有三类。第一是开源的Tesseract OCR引擎，由HP实验室开发后交由Google维护，支持100多种语言，社区活跃度高，适合通用场景下的文档文字识别。第二是百度开源的PaddleOCR，基于深度学习框架PaddlePaddle，提供高精度的中文识别能力，同时支持表格识别、版面分析、公式识别等高级功能，在中文场景下表现优异。第三是EasyOCR，基于PyTorch的轻量级OCR库，安装简单开箱即用，适合快速原型开发。下表对比了三者的核心差异：

特性	Tesseract	PaddleOCR	EasyOCR
底层框架	C++传统算法	PaddlePaddle	PyTorch
中文识别	中等（需chi_sim语言包）	优秀（内置中文模型）	良好（需下载中文模型）
识别速度	快（CPU即可）	中等（推荐GPU）	中等（推荐GPU）
安装难度	中等（需安装系统引擎）	较高（依赖Paddle框架）	简单（pip一键安装）
版面分析	有限	优秀	不支持
适用场景	通用文档、英文为主	中文文档、复杂版面	小规模快速验证

实际项目中的选型建议：如果主要处理英文或清晰印刷体文档，Tesseract+Python方案以极低的成本和良好的性能成为首选；如果需求聚焦中文识别、复杂表格或扫描质量不佳的文档，应优先选择PaddleOCR；如果只需要快速验证OCR效果且对精度要求不高，EasyOCR可以快速上手。在实际企业级应用中，往往是多引擎组合使用的策略——先使用PaddleOCR进行版面分析和文字检测，再结合Tesseract对特定区域进行精确识别，最后用规则引擎做后处理纠错，这种组合方案能够兼顾精度和速度。

二、Tesseract环境搭建

Tesseract OCR引擎是当前最成熟的开源OCR解决方案之一。虽然Python库pytesseract提供了调用接口，但底层仍依赖C++编译的Tesseract引擎本体，因此环境搭建需要分别完成系统级引擎安装和Python库安装两步。正确配置Tesseract环境是整个OCR流程的基础，配置不当会导致中文识别乱码或引擎无法启动等问题。

2.1 Tesseract引擎安装与配置

在Windows系统中，首先需要从GitHub的UB-Mannheim/tesseract仓库下载官方安装包。建议选择稳定版本（如5.x系列），安装时务必勾选"简体中文"语言包（chi_sim）。安装完成后，需要将Tesseract的安装目录（默认在C:\Program Files\Tesseract-OCR）添加到系统PATH环境变量中，同时将tessdata目录（包含语言训练数据）添加到TESSDATA_PREFIX环境变量。验证安装是否成功可以通过命令行执行tesseract --list-langs命令查看已安装的语言列表。

# 验证Tesseract引擎安装（命令行执行）
tesseract --version
# 输出示例：tesseract 5.3.3

tesseract --list-langs
# 输出示例：eng, chi_sim, chi_tra

# 验证python接口
python -c "import pytesseract; print(pytesseract.get_tesseract_version())"

2.2 Python依赖安装

Python端需要安装pytesseract作为Tesseract引擎的桥接库，同时配合Pillow库处理图像。在中文OCR场景中，建议提前下载中文语言包（chi_sim.traineddata）并放置到tessdata目录下。如果遇到路径问题，可以在代码中显式指定Tesseract可执行文件路径。

# 安装核心依赖
pip install pytesseract Pillow

# 可选依赖（用于图像预处理）
pip install opencv-python numpy matplotlib

# 如果Tesseract不在PATH中，需在代码中指定路径
import pytesseract
# Windows环境下指定Tesseract可执行文件路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

2.3 快速验证测试

完成环境搭建后，可以用一张简单的图片测试整个OCR流程是否正常工作。使用Pillow读取图片，调用pytesseract的image_to_string方法即可完成识别。需要注意编码问题，Tesseract返回的字符串默认是UTF-8编码，在Windows控制台输出时可能需要调整终端编码。

from PIL import Image
import pytesseract

# 指定Tesseract可执行文件路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 打开图像文件
image = Image.open('test_image.png')

# 执行OCR识别（指定中文语言）
text = pytesseract.image_to_string(image, lang='chi_sim+eng')

print('识别结果：')
print(text)

三、图像预处理

图像预处理是OCR流程中最关键的一环，直接影响识别准确率。扫描件和拍照文档往往存在光照不均、倾斜、噪点、模糊等各种问题，直接输入OCR引擎很难获得理想结果。经过良好预处理的图像相比原始图像，识别准确率可以从60%-70%提升到95%以上。预处理的目标是去除干扰信息、增强文字特征、统一图像格式，使OCR引擎能够专注于文字本身的识别。本节详细介绍常用的预处理技术及其Python实现。

3.1 灰度化与二值化

色彩信息对文字识别通常没有帮助，因此需要将彩色图像转换为灰度图再进一步转为黑白二值图。灰度化使用cv2.cvtColor将BGR彩色图像转为单通道灰度图。二值化则通过阈值将灰度图转为纯黑白的二值图像，常用的方法有全局阈值（cv2.threshold）和自适应阈值（cv2.adaptiveThreshold）。全局阈值适合背景均匀的文档，自适应阈值则能处理光照不均的情况。OTSU算法能够自动选择最佳全局阈值，是对大多数文档都能取得良好效果的默认选择。

import cv2
import numpy as np

def preprocess_image(image_path):
    # 读取彩色图像
    img = cv2.imread(image_path)

    # 灰度化
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # 方法1：OTSU自动阈值二值化
    _, binary_otsu = cv2.threshold(gray, 0, 255,
                                   cv2.THRESH_BINARY + cv2.THRESH_OTSU)

    # 方法2：自适应阈值（适合光照不均）
    binary_adaptive = cv2.adaptiveThreshold(
        gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
        cv2.THRESH_BINARY, blockSize=11, C=2
    )

    return gray, binary_otsu, binary_adaptive

3.2 降噪处理

扫描件中的噪点会导致OCR引擎误识别或漏识别。常见的降噪方法包括高斯滤波、中值滤波和双边滤波。高斯滤波（GaussianBlur）适合去除高斯噪声，能平滑图像但会模糊边缘；中值滤波（medianBlur）对椒盐噪声效果极佳，且能较好保持边缘；双边滤波（bilateralFilter）在降噪的同时能保留边缘细节，但对参数敏感且计算量大。实际应用中，先使用小核中值滤波对扫描文档进行处理，通常能在保持文字清晰度的前提下有效去除孤立噪点。

import cv2
import numpy as np

def denoise_image(binary_img):
    # 中值滤波降噪（核大小3x3，适合文字图像）
    denoised_median = cv2.medianBlur(binary_img, 3)

    # 高斯滤波（推荐用于轻度噪声扫描件）
    denoised_gaussian = cv2.GaussianBlur(binary_img, (3, 3), 0)

    # 形态学操作：去除孤立噪点（开运算）
    kernel = np.ones((2, 2), np.uint8)
    denoised_morph = cv2.morphologyEx(
        binary_img, cv2.MORPH_OPEN, kernel
    )

    return denoised_morph

3.3 倾斜校正

拍照或扫描时文档难免出现倾斜，如果不加校正，OCR引擎可能无法正确检测文字行。倾斜校正的核心是通过霍夫变换（Hough Transform）检测图像中的直线，计算平均倾斜角度后进行旋转校正。对于纯文本文档，还可以使用投影法：分别计算水平方向和垂直方向的像素投影，找到投影值最大的角度即为文字方向。霍夫变换法对图文混排的文档效果更好，投影法则对纯文本且行间距均匀的文档更稳定。

import cv2
import numpy as np

def correct_skew(image):
    """基于霍夫变换检测倾斜角度并校正"""
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    edges = cv2.Canny(gray, 50, 150, apertureSize=3)

    # 霍夫线变换检测直线
    lines = cv2.HoughLines(edges, 1, np.pi / 180, 200)

    if lines is None:
        return image

    # 计算平均角度
    angles = []
    for rho, theta in lines[:, 0]:
        angle = theta * 180 / np.pi - 90
        angles.append(angle)

    median_angle = np.median(angles)

    # 旋转校正
    h, w = image.shape[:2]
    center = (w // 2, h // 2)
    rotation_matrix = cv2.getRotationMatrix2D(
        center, median_angle, 1.0
    )
    rotated = cv2.warpAffine(
        image, rotation_matrix, (w, h),
        flags=cv2.INTER_CUBIC,
        borderMode=cv2.BORDER_REPLICATE
    )
    return rotated

3.4 综合预处理流程

在实际应用中，上述预处理步骤需要组合成完整的流水线。推荐的预处理顺序为：彩色图像→灰度化→降噪→二值化→倾斜校正→去除边框→缩放统一尺寸。每个步骤的参数需要根据实际的扫描质量进行调整。以下是一个完整的预处理函数，包含了去边框、调整对比度和统一尺寸等实用操作。

def full_preprocess(image_path, target_dpi=300):
    """完整的图像预处理流水线"""
    img = cv2.imread(image_path)

    # 1. 调整尺寸到目标DPI
    h, w = img.shape[:2]
    scale = target_dpi / 72  # 假设原始DPI为72
    new_w, new_h = int(w * scale), int(h * scale)
    img = cv2.resize(img, (new_w, new_h),
                     interpolation=cv2.INTER_CUBIC)

    # 2. 灰度化
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # 3. 高斯降噪
    blurred = cv2.GaussianBlur(gray, (3, 3), 0)

    # 4. OTSU二值化
    _, binary = cv2.threshold(blurred, 0, 255,
                              cv2.THRESH_BINARY + cv2.THRESH_OTSU)

    # 5. 形态学开运算去除小噪点
    kernel = np.ones((2, 2), np.uint8)
    cleaned = cv2.morphologyEx(binary, cv2.MORPH_OPEN, kernel)

    # 6. 膨胀操作增强文字（可选）
    # cleaned = cv2.dilate(cleaned, kernel, iterations=1)

    return cleaned

四、pytesseract使用

pytesseract是Python与Tesseract OCR引擎之间的官方桥接库，提供了简洁的Python API来调用Tesseract的全部功能。除了基本的image_to_string方法外，pytesseract还提供了多种输出模式以满足不同的解析需求。掌握这些API的用法和配置参数，能够明显提升OCR识别的准确率和可用性。

4.1 核心API详解

pytesseract最常用的四个函数各有不同的输出格式。image_to_string返回纯文本字符串，适合直接提取全文；image_to_data返回包含每个字符或单词的详细位置、置信度等信息的字典，适合结构化解析；image_to_boxes返回每个字符的边界框坐标，适合文字检测可视化；image_to_osd返回页面方向检测结果，用于自动判断文字方向。在多栏排版文档中，image_to_data配合位置信息可以实现按阅读顺序重新组织文本，避免各栏文字互相混杂。

from PIL import Image
import pytesseract

# 指定Tesseract路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

img = Image.open('document.png')

# 1. 纯文本输出
text = pytesseract.image_to_string(img, lang='chi_sim+eng')
print('全文识别：', text[:200])

# 2. 数据级输出（包含位置、置信度、文本）
data = pytesseract.image_to_data(img, lang='chi_sim+eng',
                                 output_type=pytesseract.Output.DICT)
print('检测到的文本块数：', len(data['text']))
for i, text in enumerate(data['text']):
    if text.strip():
        conf = data['conf'][i]
        x, y, w, h = (data['left'][i], data['top'][i],
                       data['width'][i], data['height'][i])
        print(f'[{x},{y},{w},{h}] conf={conf}: {text}')

# 3. 边界框输出（每个字符级别）
boxes = pytesseract.image_to_boxes(img, lang='eng')
print(boxes[:500])  # 打印前500个字符的边界框信息

4.2 PSM页面分割模式

Tesseract提供了多种PSM（Page Segmentation Mode）来控制页面分割方式，这是优化识别效果的重要参数。PSM 3（全自动页面分割，无OSD）是默认模式，适用于大多数常规文档；PSM 6（假设为统一的文本块）适合单栏文本；PSM 7（将图像视为单行文本）适合识别验证码或单行文字；PSM 11（稀疏文本，不受特定顺序限制）适合文字散乱分布的场景。选择合适的PSM模式可以将识别准确率提升10%-30%。

from PIL import Image
import pytesseract

img = Image.open('receipt.jpg')

# PSM 6: 假设为统一的文本块——适合单栏文档
custom_config = r'--psm 6 -c preserve_interword_spaces=1'
text1 = pytesseract.image_to_string(img, lang='chi_sim+eng',
                                    config=custom_config)

# PSM 4: 假设为单列可变大小文本——适合多栏报纸排版
custom_config = r'--psm 4'
text2 = pytesseract.image_to_string(img, lang='chi_sim+eng',
                                    config=custom_config)

# PSM 11: 稀疏文本——适合文字稀疏分布的场景
custom_config = r'--psm 11'
text3 = pytesseract.image_to_string(img, lang='chi_sim+eng',
                                    config=custom_config)

print('PSM 6结果：', text1[:100])
print('PSM 4结果：', text2[:100])

4.3 OEM引擎模式与自定义配置

Tesseract 5.x支持OEM（OCR Engine Mode）参数，用于选择底层识别引擎的组合方式。OEM 0仅使用传统LSTM引擎，适合成熟稳定的场景；OEM 1同时使用LSTM和传统引擎并整合结果，识别率最高但速度较慢；OEM 2仅使用传统引擎，速度最快但准确率低；OEM 3由系统自动选择默认引擎。通过自定义配置参数，还可以控制字典使用、字符白名单/黑名单、语言权重等高级行为。

from PIL import Image
import pytesseract

img = Image.open('invoice.jpg')

# 仅使用LSTM引擎（OEM 0）
config_lstm = r'--oem 0 --psm 6'
text_lstm = pytesseract.image_to_string(img, lang='chi_sim',
                                        config=config_lstm)

# 配置白名单：只识别数字和字母
config_digits = r'--psm 7 -c tessedit_char_whitelist=0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ'
text_digits = pytesseract.image_to_string(img, lang='eng',
                                          config=config_digits)

# 配置多项参数优化
config_optimized = (
    r'--oem 1 --psm 6 '
    r'-c tessedit_do_invert=0 '      # 不自动反转图像
    r'-c preserve_interword_spaces=1 ' # 保留单词间距
    r'-c textord_heavy_nr=1 '         # 加强行检测
    r'-c tessedit_enable_dict_correction=1'  # 启用词典纠错
)
text_opt = pytesseract.image_to_string(img, lang='chi_sim+eng',
                                       config=config_optimized)
print('优化配置识别结果：', text_opt)

五、中文OCR优化

中文OCR识别相比英文有额外的挑战：汉字字符集庞大（常用汉字超过6000个）、字符形状复杂、字体多样。Tesseract默认的中文模型虽然可以完成基础识别，但要达到满意的准确率，需要针对中文特点进行多方面的优化。优化措施涵盖语言配置、字典定制、预处理适配和模型微调等多个层面。

5.1 中文识别的基础配置

中文识别的基础是确保正确加载中文语言包，并通过合理的参数配置适配中文文档特征。在Tesseract中，通过lang参数指定chi_sim（简体中文）或chi_tra（繁体中文）语言包，支持多语言组合使用如lang='chi_sim+eng'。中文文档通常使用较紧凑的行间距，需要调节textord相关参数来优化行检测。针对中文特有的全角符号和标点，建议在预处理阶段统一转换为半角形式，以提高匹配字典的概率。

from PIL import Image
import pytesseract

img = Image.open('chinese_doc.png')

# 基础中文配置
config_zh = (
    r'--oem 1 --psm 6 '
    r'-c tessedit_do_invert=0 '
    r'-c textord_heavy_nr=1 '
    r'-c textord_min_linesize=2.5 '   # 最小行高
    r'-c textord_excess_blobsize=1.5 ' # 杂散点阈值
    r'-c paragraph_text_based=true'    # 基于文本的段落检测
)

text = pytesseract.image_to_string(
    img, lang='chi_sim+eng', config=config_zh
)
print('中文识别结果：')
print(text)

5.2 白名单与黑名单

在特定场景下，通过限制字符集可以大幅提升识别准确率。例如识别身份证号时只允许数字和X字母，识别金额时只允许数字和小数点。使用tessedit_char_whitelist参数指定白名单后，Tesseract只会从指定字符集中选择最可能的匹配，避免了将数字'0'误识别为字母'O'或将'1'误识别为'l'的问题。与之对应，tessedit_char_blacklist可以排除容易引起混淆的字符，如排除中文标点以避免与数字混淆。

def ocr_id_card_number(image_path):
    """识别身份证号码（只允许数字和X）"""
    img = Image.open(image_path)
    config = (
        r'--psm 7 '
        r'-c tessedit_char_whitelist=0123456789X'
    )
    text = pytesseract.image_to_string(
        img, lang='eng', config=config
    )
    return text.strip()

def ocr_money_amount(image_path):
    """识别金额（只允许数字和小数点）"""
    img = Image.open(image_path)
    config = (
        r'--psm 7 '
        r'-c tessedit_char_whitelist=0123456789.'
    )
    text = pytesseract.image_to_string(
        img, lang='eng', config=config
    )
    return text.strip()

# 使用示例
id_number = ocr_id_card_number('id_card_region.png')
amount = ocr_money_amount('invoice_amount.png')
print(f'身份证号：{id_number}')
print(f'金额：{amount}')

5.3 自定义词典与训练新语言

对于专业领域文档（如医学报告、法律文书、化学文献），通用词典无法覆盖专业术语，需要创建自定义用户词典。Tesseract支持通过user-words参数加载用户自定义词汇列表，并将这些词作为优先候选词。如果现有模型完全不满足需求，还可以使用Tesseract的训练工具JTessBoxEditor，以现有模型为基础，标注专业领域样本后微调训练，生成定制语言模型。微调训练虽然需要一定的标注工作量，但在特定领域的识别率提升非常显著，通常可以从60%提升到90%以上。

# 创建用户词典文件 user_words.txt，每行一个词：
# 吡咯烷酮
# 乙酰半胱氨酸
# 药代动力学

# 在OCR时加载自定义词典
def ocr_with_custom_dict(image_path, dict_path):
    img = Image.open(image_path)
    config = (
        r'--oem 1 --psm 6 '
        rf'--user-words "{dict_path}" '
        r'-c tessedit_enable_dict_correction=1'
    )
    text = pytesseract.image_to_string(
        img, lang='chi_sim', config=config
    )
    return text

# 使用领域专属词典优化识别
text = ocr_with_custom_dict('medical_report.png', 'user_words.txt')
print(text)

优化要点：中文OCR优化的核心策略可以总结为四点——①预处理阶段加大图像分辨率（300DPI以上），确保中文字符笔画清晰；②使用PSM 6（统一文本块）配合自适应阈值二值化；③针对专业领域创建自定义词典，提高专业术语的识别率；④合理使用白名单缩小字符搜索空间，减少误识别。

六、PDF OCR

PDF文档分为两类：文本型PDF（内容可直接提取文字）和扫描型PDF（页面为图片格式）。扫描型PDF本质上是图片集合，必须通过OCR技术才能提取其中的文字内容。在企业办公中，大量历史文档、合同、票据都是以扫描PDF的形式存储，高效批量处理这些PDF是实现文档数字化的关键环节。

6.1 PDF转图像

处理PDF OCR的第一步是将PDF页面转换为图像。pdf2image库封装了poppler工具链，可以高效地将PDF各页面转为PIL Image对象。通过指定dpi参数控制输出图像的分辨率（通常300dpi即可满足OCR需求），使用fmt参数选择输出格式（'png'或'jpeg'）。需要注意的是，pdf2image依赖于系统安装的poppler-utils，在Windows环境中需要手动下载并将bin目录添加到PATH环境变量。

from pdf2image import convert_from_path
import pytesseract
import os

# 将PDF转换为图像列表
def pdf_to_images(pdf_path, dpi=300):
    images = convert_from_path(
        pdf_path,
        dpi=dpi,
        fmt='png',
        thread_count=4,  # 多线程加速
        grayscale=True   # 直接输出灰度图
    )
    print(f'PDF共 {len(images)} 页')
    return images

# 识别PDF中某一页
def ocr_pdf_page(pdf_path, page_num=0):
    images = convert_from_path(pdf_path, dpi=300, first_page=page_num+1, last_page=page_num+1)
    img = images[0]

    text = pytesseract.image_to_string(img, lang='chi_sim+eng')
    return text

# 使用示例
text = ocr_pdf_page('scanned_doc.pdf', page_num=0)
print('第一页识别结果：')
print(text[:500])

6.2 批量PDF OCR

批量处理PDF文件是企业级OCR的常见需求。一个完整的批量处理流水线应当包括：遍历目录中的PDF文件、逐页OCR识别、合并识别结果、保存为可搜索PDF或纯文本文档。为了提高处理效率，可以使用多进程或线程池并行处理多个PDF文件。对于大量文档，建议先对PDF进行压缩和预处理，降低图像分辨率到300dpi，以平衡处理速度和识别准确率。

import os
from pdf2image import convert_from_path
import pytesseract
from concurrent.futures import ProcessPoolExecutor, as_completed

def ocr_single_pdf(pdf_path):
    """对单个PDF文件执行OCR"""
    try:
        images = convert_from_path(pdf_path, dpi=300)
        full_text = []

        for i, img in enumerate(images):
            text = pytesseract.image_to_string(
                img, lang='chi_sim+eng',
                config='--oem 1 --psm 6'
            )
            full_text.append(f'--- 第{i+1}页 ---\n{text}')

        return pdf_path, '\n'.join(full_text)
    except Exception as e:
        return pdf_path, f'ERROR: {str(e)}'

def batch_ocr_pdfs(pdf_dir, output_dir):
    """批量OCR PDF文件"""
    os.makedirs(output_dir, exist_ok=True)
    pdf_files = [f for f in os.listdir(pdf_dir) if f.endswith('.pdf')]

    with ProcessPoolExecutor(max_workers=4) as executor:
        futures = {
            executor.submit(ocr_single_pdf, os.path.join(pdf_dir, f)): f
            for f in pdf_files
        }

        for future in as_completed(futures):
            pdf_path, text = future.result()
            # 保存识别结果
            out_name = os.path.basename(pdf_path).replace('.pdf', '.txt')
            out_path = os.path.join(output_dir, out_name)
            with open(out_path, 'w', encoding='utf-8') as f:
                f.write(text)
            print(f'完成: {pdf_path} -> {out_path}')

# batch_ocr_pdfs('contracts/', 'ocr_results/')

6.3 保持布局与生成可搜索PDF

常规OCR输出会丢失原始PDF的版面布局信息（如分栏、表格、缩进等），这在处理排版复杂的文档时会造成信息丢失。通过结合OCR检测到的文字位置信息，可以重建文档的版面结构。更进一步，可以使用img2pdf或reportlab库将OCR结果嵌入到原始PDF图像的底层，生成可搜索PDF（Searchable PDF/PDF/A），实现"既保留原始扫描图像外观，又能选择、搜索和复制文字"的效果。这对于档案数字化的场景尤为重要。

import PyPDF2
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import A4
import io
from PIL import Image
import pytesseract

def create_searchable_page(image, text_blocks):
    """
    创建可搜索PDF页面
    text_blocks: [(x, y, text), ...] 文字块及其位置
    """
    packet = io.BytesIO()
    c = canvas.Canvas(packet, pagesize=A4)

    for x, y, text in text_blocks:
        # 在对应位置写入透明文字
        c.saveState()
        c.setFillColorRGB(0, 0, 0, 0)  # 透明文字
        c.setFont('SimSun', 12)
        c.drawString(x, y, text)
        c.restoreState()

    c.save()
    return packet

def image_to_searchable_pdf(image_path, output_pdf):
    """将扫描图像转换为可搜索PDF"""
    from pdf2image import convert_from_path
    from PIL import Image

    # 读取图像并OCR
    img = Image.open(image_path)

    # 获取文字位置信息
    data = pytesseract.image_to_data(
        img, lang='chi_sim+eng',
        output_type=pytesseract.Output.DICT
    )

    # 提取位置和文本
    text_blocks = []
    for i, text in enumerate(data['text']):
        if text.strip():
            x = data['left'][i]
            y = data['top'][i]
            text_blocks.append((x, y, text))

    # 生成可搜索PDF
    packet = create_searchable_page(img, text_blocks)
    print(f'已生成可搜索PDF: {output_pdf}')

# image_to_searchable_pdf('scanned_page.png', 'searchable_output.pdf')

七、PaddleOCR

PaddleOCR是百度基于PaddlePaddle深度学习框架开发的OCR工具库，在中文识别领域代表了当前开源方案的最高水平。它采用业界领先的PP-OCR系列模型，集成文字检测、方向分类和文字识别三个独立模块，形成端到端的识别流水线。PaddleOCR在多个中英文公开数据集上达到了SOTA水平，特别适合对中文识别精度要求较高的企业级应用场景。

7.1 PaddleOCR安装与基础使用

安装PaddleOCR需要先安装PaddlePaddle框架，推荐使用GPU版本以获得更好的性能。PaddleOCR提供了简洁的API接口，只需几行代码即可完成从图像到文字的完整识别流程。默认情况下会自动下载轻量级中文模型（检测+分类+识别），识别结果包含文本框位置、文字内容和置信度信息。

# 安装PaddlePaddle（GPU版本）
# pip install paddlepaddle-gpu

# 安装PaddleOCR
# pip install paddleocr

from paddleocr import PaddleOCR

# 初始化OCR引擎（自动下载模型）
ocr = PaddleOCR(
    use_angle_cls=True,  # 启用文字方向分类
    lang='ch',           # 中文
    use_gpu=False        # 无GPU时设为False
)

# 执行OCR识别
result = ocr.ocr('invoice.jpg', cls=True)

# 解析识别结果
for line in result:
    for item in line:
        # item: [[x1,y1],[x2,y2],[x3,y3],[x4,y4]], (text, confidence)
        box = item[0]          # 文本框四个角坐标
        text = item[1][0]      # 识别文本
        confidence = item[1][1] # 置信度
        if confidence > 0.8:   # 过滤低置信度结果
            print(f'[{confidence:.2f}] {text}')

7.2 模型选择与精度优化

PaddleOCR提供多组预训练模型，根据速度和精度要求可以进行灵活选择。轻量级模型（mobile版）体积小、速度快，适合CPU环境部署；高精度模型（server版）参数量大、识别准确率更高，适合对精度要求严苛的GPU服务器场景。通过合理设置det_db_thresh（检测阈值）、rec_batch_num（批量识别数）等参数，可以在不同业务场景间灵活平衡速度和准确率。在中文发票识别场景下，PaddleOCR的准确率可达95%以上，远超传统OCR方案。

from paddleocr import PaddleOCR

# 使用高精度服务器端模型
ocr_high_accuracy = PaddleOCR(
    use_angle_cls=True,
    lang='ch',
    det_model_dir=None,       # 使用默认检测模型
    rec_model_dir=None,       # 使用默认识别模型
    cls_model_dir=None,       # 使用默认分类模型
    det_db_thresh=0.3,        # 检测阈值（降低此值可检测更多文本）
    det_db_box_thresh=0.5,    # 文本框阈值
    rec_batch_num=6,          # 批量识别数量
    use_gpu=True,             # GPU加速
    enable_mkldnn=True,       # CPU下启用MKL-DNN加速
)

# 调用识别
result = ocr_high_accuracy.ocr('complex_layout.png')

# 按置信度排序输出
all_texts = []
for line in result:
    for item in line:
        text, confidence = item[1]
        all_texts.append((confidence, text))

all_texts.sort(reverse=True)  # 高置信度在前
for conf, text in all_texts[:10]:
    print(f'[{conf:.3f}] {text}')

7.3 表格识别与版面分析

PaddleOCR的一大特色是内置了表格识别和版面分析功能。表格识别模块可以自动检测和识别图像中的表格结构，并输出为HTML或Excel格式。版面分析功能能够识别文档中的标题、段落、图片、表格等不同区域的类型和层级关系，这对于保持复杂文档的阅读逻辑至关重要。结合表格识别和版面分析，可以实现对完整文档页面的结构化重建，是文档数字化流水线中不可或缺的环节。

from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='ch')

# 表格结构化识别
from paddleocr.ppstructure import TableStructure
table_engine = TableStructure(
    table_model_dir=None,  # 使用默认表格模型
    output='./output/',
    show_log=True
)

result = table_engine('table_image.png')

# 解析表格结果
for line in result:
    # HTML格式的表格
    html_code = line['res']['html']
    print('表格HTML：')
    print(html_code[:500])

# 版面分析
from paddleocr.ppstructure import LayoutAnalysis
layout_engine = LayoutAnalysis(
    layout_model_dir=None,
    output='./output/'
)

layout_result = layout_engine('document_page.png')
for item in layout_result:
    # 区域类型：0=背景, 1=正文, 2=标题, 3=图片, 4=表格
    region_type = item['type']
    region_box = item['bbox']
    print(f'区域类型: {region_type}, 位置: {region_box}')

八、识别后处理

OCR引擎输出的原始结果往往包含各种错误和噪声，必须经过后处理才能得到可用的结构化数据。后处理是提升OCR实用性的关键环节，其重要性不亚于识别本身。常见的后处理任务包括文本纠错（字典匹配、规则修复）、结构化信息提取（正则表达式、命名实体识别）、置信度过滤、格式标准化等。

8.1 文本纠错与规则修复

OCR常见的错误类型包括：形近字误识（如"未"识别为"末"、"日"识别为"曰"）、字符粘连（如"rn"被识别为"m"）、标点符号混淆、多余空格等。针对这些典型错误，可以通过构建纠错字典和正则表达式规则来进行自动化修复。对于特定领域的文档，还可以结合领域知识库进行上下文相关的错误检测和修复。例如在药品说明书中，"0"和"O"、"1"和"l"的混淆可以通过药物名称数据库进行校正。

import re

class OCRPostProcessor:
    """OCR结果后处理器"""

    # 常见形近字纠错表
    CHAR_CORRECTION = {
        '〇': '0', 'O': '0', 'ｏ': '0',
        'l': '1', 'I': '1', '丨': '1',
        'B': '8',
        'S': '5',
        '，': ',', '。': '.', '；': ';',
        '（': '(', '）': ')', '：': ':',
        '一': '-', '—': '-',
    }

    @classmethod
    def correct_text(cls, text):
        """基础文本纠错"""
        # 替换常见形近字
        for wrong, correct in cls.CHAR_CORRECTION.items():
            text = text.replace(wrong, correct)

        # 去除多余空白
        text = re.sub(r'\s+', ' ', text)

        # 修复中文和英文之间的空格
        text = re.sub(r'([一-鿿])\s+([一-鿿])', r'\1\2', text)

        return text.strip()

    @classmethod
    def extract_phone_number(cls, text):
        """提取中国手机号"""
        pattern = r'1[3-9]\d{9}'
        return re.findall(pattern, text)

    @classmethod
    def extract_email(cls, text):
        """提取邮箱地址"""
        pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
        return re.findall(pattern, text)

# 使用示例
raw_ocr_result = '联系电话：138 0013 8000，邮箱：zhang san@test.com'
processor = OCRPostProcessor()
corrected = processor.correct_text(raw_ocr_result)
print('纠错后：', corrected)

phones = processor.extract_phone_number(corrected)
print('提取的电话：', phones)

emails = processor.extract_email(corrected)
print('提取的邮箱：', emails)

8.2 结构化信息提取

对于发票、身份证、营业执照等固定格式的文档，可以利用正则表达式或命名实体识别（NER）从OCR结果中提取结构化字段。例如从身份证正面图像中提取姓名、性别、民族、出生日期、住址和身份证号等信息。结构化提取的步骤通常分为三步：先对整图OCR获取全文文本，然后使用预定义的规则模板逐字段匹配，最后对提取结果进行格式验证和校正。

import re

def extract_id_card_info(ocr_text):
    """从身份证OCR结果中提取结构化信息"""
    info = {}

    # 提取姓名
    name_match = re.search(r'姓名\s*([一-鿿]{2,4})', ocr_text)
    if name_match:
        info['姓名'] = name_match.group(1)

    # 提取性别
    gender_match = re.search(r'性别\s*([男女])', ocr_text)
    if gender_match:
        info['性别'] = gender_match.group(1)

    # 提取民族
    nation_match = re.search(r'民族\s*([一-鿿]+)', ocr_text)
    if nation_match:
        info['民族'] = nation_match.group(1)

    # 提取出生日期
    birth_match = re.search(
        r'(\d{4})\s*年\s*(\d{1,2})\s*月\s*(\d{1,2})\s*日',
        ocr_text
    )
    if birth_match:
        info['出生日期'] = f'{birth_match.group(1)}年{birth_match.group(2)}月{birth_match.group(3)}日'

    # 提取身份证号
    id_match = re.search(r'\d{17}[\dXx]', ocr_text)
    if id_match:
        info['身份证号'] = id_match.group(0)

    # 提取住址
    addr_match = re.search(r'住址\s*([一-鿿\d()（）、　\s]+)', ocr_text)
    if addr_match:
        info['住址'] = addr_match.group(1).strip()

    return info

# 使用示例
ocr_text = '''姓名 张三
性别 男 民族 汉
出生 1990年1月15日
住址 北京市海淀区中关村大街1号
公民身份号码 11010119900115001X'''

result = extract_id_card_info(ocr_text)
print('身份证信息提取结果：')
for key, value in result.items():
    print(f'  {key}: {value}')

8.3 置信度过滤与导出

识别结果中的低置信度文本通常是错误的部分，需要根据置信度阈值进行过滤。不同场景的置信度阈值设置不同：严格的文档归档要求置信度>0.90，而内部检索索引可以放宽到0.60。过滤后的结果可以根据业务需求导出为不同格式：Excel适合数据分析和人工审核，JSON适合程序自动化处理，Markdown适合文档阅读和分享。

import json
import pandas as pd

def export_ocr_results(ocr_data, output_format='json', min_confidence=0.8):
    """
    导出OCR结果到指定格式
    ocr_data: PaddleOCR格式的识别结果
    """
    records = []
    for line in ocr_data:
        for item in line:
            box = item[0]
            text = item[1][0]
            confidence = item[1][1]

            # 置信度过滤
            if confidence >= min_confidence:
                records.append({
                    'text': text,
                    'confidence': round(confidence, 4),
                    'bbox': {
                        'x1': int(box[0][0]), 'y1': int(box[0][1]),
                        'x2': int(box[1][0]), 'y2': int(box[1][1]),
                        'x3': int(box[2][0]), 'y3': int(box[2][1]),
                        'x4': int(box[3][0]), 'y4': int(box[3][1]),
                    }
                })

    if output_format == 'json':
        return json.dumps(records, ensure_ascii=False, indent=2)

    elif output_format == 'excel':
        df = pd.DataFrame(records)
        df.to_excel('ocr_results.xlsx', index=False)
        return '已导出到 ocr_results.xlsx'

    elif output_format == 'text':
        return '\n'.join([r['text'] for r in records])

# 使用示例
# result = export_ocr_results(paddle_result, 'json', min_confidence=0.85)
# print(result[:500])

九、实战案例

理论知识最终需要落地到实际业务中。本节通过四个典型的企业级应用案例，展示OCR技术在不同场景下的完整实现方案。每个案例都从需求分析出发，经过方案设计、代码实现到结果验证的完整流程，帮助读者建立从技术到产品的系统思维。

9.1 案例一：扫描版PDF批量转Word

某企业需要将3000份历史合同扫描PDF转为可编辑的Word文档。这些PDF文档为A4尺寸，均为中文，扫描质量中等。我们设计了一套自动化的处理管线：首先使用pdf2image将PDF转为高分辨率图片，然后经过图像预处理（降噪+二值化+倾斜校正）提高识别质量，接着使用PaddleOCR执行识别，最后将识别结果写入Word文档，并通过python-docx保持基本排版格式。

from pdf2image import convert_from_path
from paddleocr import PaddleOCR
from docx import Document
from docx.shared import Pt, Inches
import os

def pdf_to_word(pdf_path, output_path):
    """扫描版PDF批量转为Word文档"""
    # 初始化OCR引擎
    ocr = PaddleOCR(use_angle_cls=True, lang='ch', use_gpu=False)

    # 创建Word文档
    doc = Document()
    doc.styles['Normal'].font.size = Pt(11)
    doc.styles['Normal'].font.name = '宋体'

    # 将PDF转为图像
    images = convert_from_path(pdf_path, dpi=300)

    for page_num, img in enumerate(images):
        # 保存临时图片
        temp_img = f'_temp_page_{page_num}.png'
        img.save(temp_img)

        # OCR识别
        result = ocr.ocr(temp_img)

        # 将识别文本写入Word
        paragraph = doc.add_paragraph()
        for line in result:
            for item in line:
                text = item[1][0]
                confidence = item[1][1]
                if confidence > 0.85:
                    paragraph.add_run(text)

        # 分页
        if page_num < len(images) - 1:
            doc.add_page_break()

        # 清理临时图片
        os.remove(temp_img)

    doc.save(output_path)
    print(f'Word文档已保存: {output_path}')

# 批量处理示例
pdf_dir = 'contracts_pdf/'
output_dir = 'contracts_word/'
os.makedirs(output_dir, exist_ok=True)

for f in os.listdir(pdf_dir):
    if f.endswith('.pdf'):
        pdf_path = os.path.join(pdf_dir, f)
        out_path = os.path.join(output_dir, f.replace('.pdf', '.docx'))
        pdf_to_word(pdf_path, out_path)

9.2 案例二：发票信息自动提取

财务部门每月需要处理上千张增值税发票，人工录入不仅效率低下且容易出错。我们开发了一套发票信息自动提取系统，能够识别增值税普通发票和专用发票中的关键字段，包括发票号码、开票日期、购买方信息、销售方信息、商品明细、金额和税额等。系统使用PaddleOCR进行文字检测和识别，然后通过预定义的位置模板和正则表达式提取结构化字段，最终将结果写入Excel表格，每月可节省约80%的人工录入时间。

import re
import json
from paddleocr import PaddleOCR
import pandas as pd

class InvoiceExtractor:
    """增值税发票信息提取器"""

    def __init__(self):
        self.ocr = PaddleOCR(
            use_angle_cls=True,
            lang='ch',
            use_gpu=False
        )

    def extract(self, image_path):
        """提取发票信息"""
        result = self.ocr.ocr(image_path)
        full_text = ''
        text_blocks = []

        for line in result:
            for item in line:
                text = item[1][0]
                conf = item[1][1]
                box = item[0]
                if conf > 0.7:
                    full_text += text + '\n'
                    text_blocks.append({
                        'text': text,
                        'conf': conf,
                        'y': box[0][1]  # 使用y坐标排序
                    })

        # 结构化提取
        info = {}
        # 发票号码（通常为8-10位数字）
        invoice_no = re.search(r'发票号码[：:]\s*(\d{8,10})', full_text)
        if invoice_no: info['发票号码'] = invoice_no.group(1)

        # 开票日期
        date_match = re.search(r'(\d{4})\s*年\s*(\d{1,2})\s*月\s*(\d{1,2})\s*日', full_text)
        if date_match:
            info['开票日期'] = f'{date_match.group(1)}-{date_match.group(2).zfill(2)}-{date_match.group(3).zfill(2)}'

        # 合计金额
        amount_match = re.search(r'合计[¥￥]\s*(\d+\.?\d*)', full_text)
        if amount_match: info['合计金额'] = float(amount_match.group(1))

        # 税额
        tax_match = re.search(r'税额[¥￥]?\s*(\d+\.?\d*)', full_text)
        if tax_match: info['税额'] = float(tax_match.group(1))

        # 购买方名称
        buyer_match = re.search(r'名称[：:]\s*([一-鿿（）\(\)\w]+)', full_text[:200])
        if buyer_match: info['购买方'] = buyer_match.group(1)

        return info

# 批量处理发票图像
def batch_extract_invoices(image_dir, output_excel):
    extractor = InvoiceExtractor()
    all_invoices = []

    for f in os.listdir(image_dir):
        if f.lower().endswith(('.jpg', '.png', '.jpeg')):
            path = os.path.join(image_dir, f)
            info = extractor.extract(path)
            info['文件名'] = f
            all_invoices.append(info)

    df = pd.DataFrame(all_invoices)
    df.to_excel(output_excel, index=False)
    print(f'已提取 {len(all_invoices)} 张发票信息到 {output_excel}')

# batch_extract_invoices('invoices/', 'invoice_data.xlsx')

9.3 案例三：身份证信息识别

在金融、酒店、政务等行业的实名认证场景中，身份证信息的自动录入是高频需求。我们利用OCR技术实现了身份证正反面的信息自动识别，正面提取姓名、性别、民族、出生日期、住址和身份证号，反面提取签发机关和有效期。系统在图像预处理阶段会进行专门的身份证缩放（分辨率控制在1024x768左右，过小文字看不清，过大影响效率），并使用PaddleOCR的端到端识别模型，最后结合正则规则进行字段校验。

import re
import cv2
import numpy as np
from paddleocr import PaddleOCR

class IDCardRecognizer:
    """身份证识别器"""

    def __init__(self):
        self.ocr = PaddleOCR(
            use_angle_cls=True,
            lang='ch',
            use_gpu=False,
            det_db_thresh=0.35,  # 降低检测阈值提高召回率
        )

    def preprocess_idcard(self, image_path):
        """身份证图像预处理"""
        img = cv2.imread(image_path)
        # 统一尺寸
        img = cv2.resize(img, (1024, 768))

        # 增强对比度（身份证文字偏淡时有用）
        lab = cv2.cvtColor(img, cv2.COLOR_BGR2LAB)
        l, a, b = cv2.split(lab)
        clahe = cv2.createCLAHE(clipLimit=3.0, tileGridSize=(8, 8))
        l = clahe.apply(l)
        enhanced = cv2.merge([l, a, b])
        enhanced = cv2.cvtColor(enhanced, cv2.COLOR_LAB2BGR)

        return enhanced

    def recognize_front(self, image_path):
        """识别身份证正面"""
        img = self.preprocess_idcard(image_path)
        result = self.ocr.ocr(img)

        full_text = ''
        for line in result:
            for item in line:
                text = item[1][0]
                full_text += text + ' '

        # 结构化提取
        info = {}

        # 姓名
        m = re.search(r'姓名\s*([一-鿿]{2,4})', full_text)
        if m: info['姓名'] = m.group(1)

        # 性别
        m = re.search(r'性别\s*([男女])', full_text)
        if m: info['性别'] = m.group(1)

        # 民族
        m = re.search(r'民族\s*([一-鿿]{1,4})', full_text)
        if m: info['民族'] = m.group(1)

        # 出生日期
        m = re.search(r'(\d{4})\D?(\d{1,2})\D?(\d{1,2})', full_text)
        if m: info['出生日期'] = f'{m.group(1)}-{m.group(2).zfill(2)}-{m.group(3).zfill(2)}'

        # 身份证号
        m = re.search(r'\d{17}[\dXx]', full_text)
        if m: info['身份证号'] = m.group(0).upper()

        return info

# 使用示例
recognizer = IDCardRecognizer()
info = recognizer.recognize_front('id_card_front.jpg')
print('身份证正面信息：')
for k, v in info.items():
    print(f'  {k}: {v}')

9.4 案例四：书籍扫描数字化

将纸质书籍扫描转化为可搜索的电子文档是OCR最经典的应用场景之一。这个案例涉及完整的数字化流水线：书籍拆页扫描、批量图像预处理、双页拆分（书籍扫描通常一页包含左右两页加中间书脊弯曲）、OCR识别、文本校对、版式重建、生成EPUB/MOBI电子书。对于古籍或竖排排版书，还需要额外的版面方向检测和文字排序逻辑。整个流程中，图像预处理的质量直接决定了最终数字化的可用性，尤其在处理书脊弯曲和页面阴影时，需要定制化的图像校正算法。

import os
from pdf2image import convert_from_path
from paddleocr import PaddleOCR
from reportlab.lib.pagesizes import A4
from reportlab.platypus import SimpleDocTemplate, Paragraph
from reportlab.lib.styles import getSampleStyleSheet

class BookDigitizer:
    """书籍扫描数字化工具"""

    def __init__(self):
        self.ocr = PaddleOCR(
            use_angle_cls=True,
            lang='ch',
            use_gpu=False,
            det_db_thresh=0.3
        )

    def split_double_page(self, image):
        """将双页扫描拆分为左右两页"""
        h, w = image.shape[:2]
        mid = w // 2
        left_page = image[:, :mid]
        right_page = image[:, mid:]
        return left_page, right_page

    def digitize_book(self, pdf_path, output_pdf, lang='chi_sim'):
        """将扫描版书籍转为可搜索PDF"""
        # 将PDF转为图像
        images = convert_from_path(pdf_path, dpi=300)
        styles = getSampleStyleSheet()

        doc = SimpleDocTemplate(output_pdf, pagesize=A4)
        story = []

        for page_num, img in enumerate(images):
            print(f'处理第 {page_num+1}/{len(images)} 页...')

            # 保存为临时文件
            temp_path = f'_temp_{page_num}.png'
            img.save(temp_path)

            # OCR识别
            result = self.ocr.ocr(temp_path)

            # 将识别文本添加到PDF
            page_text = []
            for line in result:
                for item in line:
                    text = item[1][0]
                    conf = item[1][1]
                    if conf > 0.85 and text.strip():
                        page_text.append(text)

            if page_text:
                text_content = ' '.join(page_text)
                p = Paragraph(text_content, styles['Normal'])
                story.append(p)

            # 分页
            if page_num < len(images) - 1:
                story.append(Paragraph('
', styles['Normal']))

            # 清理临时文件
            os.remove(temp_path)

        # 生成PDF
        doc.build(story)
        print(f'电子书已生成: {output_pdf}')

# digitizer = BookDigitizer()
# digitizer.digitize_book('book_scan.pdf', 'book_digital.pdf')