PDF-Extract-Kit代码实例：批量处理PDF文档的脚本-育师

PDF-Extract-Kit代码实例：批量处理PDF文档的脚本

1. 引言

在科研、工程和日常办公中，PDF 文档广泛用于论文发布、技术报告和资料归档。然而，PDF 的封闭性使得内容提取变得困难，尤其是包含复杂结构（如公式、表格、图文混排）的文档。传统工具往往只能进行简单文本复制，难以满足智能化信息抽取的需求。

PDF-Extract-Kit是一个由开发者“科哥”基于开源模型二次开发构建的PDF 智能提取工具箱，集成了布局检测、公式识别、OCR 文字识别、表格解析等核心功能，支持通过 WebUI 界面交互操作或编写脚本实现自动化批处理。该工具特别适用于学术文献分析、扫描件数字化、数据迁移等场景。

本文将重点介绍如何利用PDF-Extract-Kit提供的核心模块，编写 Python 脚本实现批量处理多个 PDF 文件的工程化方案，并结合实际使用经验给出优化建议。

2. 工具架构与核心能力

2.1 整体架构设计

PDF-Extract-Kit 基于模块化设计理念，采用前后端分离结构：

前端：Gradio 构建的 WebUI，提供可视化操作界面
后端：Python 实现的功能引擎，调用 YOLO、PaddleOCR、LaTeX OCR 等模型完成任务
核心组件：
布局检测（Layout Detection）
公式检测与识别（Formula Detection & Recognition）
OCR 文字识别（Optical Character Recognition）
表格结构解析（Table Parsing）

所有处理结果默认输出至outputs/目录下，按功能分类存储，便于后续集成到其他系统。

2.2 支持的主要功能

功能	输入格式	输出格式	适用场景
布局检测	PDF / PNG / JPG	JSON + 标注图	分析文档结构
公式检测	PDF / 图片	坐标 + 可视化图	定位数学表达式
公式识别	公式图片	LaTeX 字符串	数学公式数字化
OCR 识别	图片	TXT + 可视化图	中英文文本提取
表格解析	图片/PDF页	Markdown/HTML/LaTeX	结构化表格还原

这些功能不仅可通过 WebUI 手动操作，还暴露了底层 API 接口，为自动化脚本开发提供了基础。

3. 批量处理脚本实现详解

为了提升效率，避免重复手动上传文件，我们可以通过调用PDF-Extract-Kit的内部函数编写批量处理脚本。以下是一个完整的示例，展示如何对指定目录下的所有 PDF 文件执行公式识别 + 表格解析 + OCR 提取的全流程。

3.1 环境准备

确保已安装 PDF-Extract-Kit 并配置好依赖环境：

git clone https://github.com/kege/PDF-Extract-Kit.git cd PDF-Extract-Kit pip install -r requirements.txt

启动服务前建议先测试单个功能是否正常运行。

3.2 核心代码实现

创建脚本batch_processor.py，内容如下：

import os import glob from pathlib import Path from webui.app import ( layout_detection, formula_recognition, ocr_recognition, table_parsing ) # 配置路径 INPUT_DIR = "./inputs/pdfs/" # 待处理PDF目录 OUTPUT_BASE = "./outputs/" # 创建输出子目录 os.makedirs(OUTPUT_BASE, exist_ok=True) task_dirs = ["formula_recognition", "ocr", "table_parsing"] for task in task_dirs: os.makedirs(os.path.join(OUTPUT_BASE, task), exist_ok=True) def convert_pdf_to_images(pdf_path, output_folder): """将PDF每一页转为图像（需安装pdf2image）""" from pdf2image import convert_from_path import uuid pages = convert_from_path(pdf_path, dpi=150) image_paths = [] for page in pages: img_name = f"{uuid.uuid4().hex}.jpg" img_path = os.path.join(output_folder, img_name) page.save(img_path, "JPEG") image_paths.append(img_path) return image_paths def batch_process(): print("开始批量处理 PDF 文件...") # 获取所有PDF文件 pdf_files = glob.glob(os.path.join(INPUT_DIR, "*.pdf")) if not pdf_files: print(f"警告：未在 {INPUT_DIR} 找到PDF文件！") return for pdf_file in pdf_files: pdf_name = Path(pdf_file).stem print(f"\n正在处理: {pdf_name}") # Step 1: 将PDF转为图片列表 temp_img_dir = f"./temp/{pdf_name}/" os.makedirs(temp_img_dir, exist_ok=True) images = convert_pdf_to_images(pdf_file, temp_img_dir) # Step 2: 遍历每张图片执行多任务处理 for i, img_path in enumerate(images): page_suffix = f"_{i+1}" if len(images) > 1 else "" # --- 公式识别 --- try: latex_result, status = formula_recognition( image_in=img_path, batch_size=1 ) with open(f"{OUTPUT_BASE}/formula_recognition/{pdf_name}{page_suffix}.txt", "w", encoding="utf-8") as f: f.write(latex_result) except Exception as e: print(f"[公式识别失败] {img_path}: {str(e)}") # --- OCR 文字识别 --- try: text_output, vis_image = ocr_recognition( image_in=img_path, lang="ch", visualize=True ) with open(f"{OUTPUT_BASE}/ocr/{pdf_name}{page_suffix}.txt", "w", encoding="utf-8") as f: f.write(text_output) except Exception as e: print(f"[OCR识别失败] {img_path}: {str(e)}") # --- 表格解析 --- try: md_table, html_table, latex_table, status = table_parsing( image_in=img_path, out_format="markdown" ) with open(f"{OUTPUT_BASE}/table_parsing/{pdf_name}{page_suffix}_md.txt", "w", encoding="utf-8") as f: f.write(md_table) except Exception as e: print(f"[表格解析失败] {img_path}: {str(e)}") print(f"✅ 完成处理: {pdf_name}") if __name__ == "__main__": batch_process()

3.3 关键点说明

✅ 函数调用来源

所有功能函数均从webui/app.py导入，直接复用已有逻辑
不需要重新实现模型加载和推理流程，降低开发成本

✅ PDF 转图像

使用pdf2image库将 PDF 页面转换为 JPEG 图像
设置 DPI=150 在清晰度与性能之间取得平衡

✅ 多任务并行处理

对每页图像依次执行公式识别、OCR 和表格解析
结果按文件名+页码命名，便于追溯

✅ 错误捕获机制

使用try-except包裹每个处理步骤，防止某页失败导致整个任务中断

✅ 输出组织规范

按任务类型建立独立输出目录
文本结果保存为.txt文件，支持后续导入数据库或文档系统

4. 实践优化建议

4.1 性能调优策略

当处理大量 PDF 文件时，可采取以下措施提升效率：

优化方向	建议
降低图像分辨率	将`convert_from_path`的 DPI 从 150 降至 120，速度提升约 30%
限制并发数量	单次处理不超过 5 个 PDF，避免内存溢出
关闭可视化输出	如无需标注图，设置`visualize=False`减少 I/O 开销
启用 GPU 加速	确保 CUDA 环境正确配置，YOLO 和 OCR 模型可提速 3-5 倍

4.2 自定义扩展思路

可根据业务需求进一步增强脚本能力：

添加日志记录：使用logging模块生成处理日志，便于追踪进度
结果合并：将同一 PDF 的各页结果自动拼接成完整文档
元数据提取：结合PyPDF2提取标题、作者、关键词等信息
输出格式定制：将 LaTeX 公式嵌入 Markdown 或 Word 文档

示例：添加日志记录

import logging logging.basicConfig( level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s', handlers=[logging.FileHandler('batch.log'), logging.StreamHandler()] )

然后在关键步骤添加logging.info("Processing...")。