Chandra OCR结构化输出解析：如何利用JSON坐标做精准区域抽取？-育师

Chandra OCR结构化输出解析：如何利用JSON坐标做精准区域抽取？

1. 为什么需要“带坐标的OCR”？——从拍图识字到理解文档结构

你有没有遇到过这样的场景：

扫描一份带表格的合同，想把“甲方信息”“乙方信息”“签约日期”三个字段单独抽出来存进数据库；
处理一批数学试卷图片，需要把“题干”“选项A/B/C/D”“答案区域”分别切片送入不同模型处理；
整理历史档案PDF，想自动识别每页的标题、页眉、正文、页脚、图表标题，并按逻辑顺序重建文本流。

传统OCR（比如Tesseract或百度OCR）只管“把字认出来”，输出是一串扁平文字，连段落换行都靠空格猜。它不知道哪几个字是表格里的单元格，哪几行属于同一个段落，更别说区分“手写签名”和“印刷体条款”。结果就是：识别率再高，也得人工二次标注位置、手动切块、反复调试正则——这根本不是自动化，只是把体力活从打字搬到了调参上。

Chandra不一样。它不只“看字”，更在“读版式”。
它把整张图当作一个有层次的空间：标题在左上角、表格占中间三列、页码在右下角、手写批注浮在正文右侧空白处……这些空间关系，全部被编码进结构化输出里。而其中最关键的载体，就是JSON格式的坐标数据——每个文本块、每个表格单元、每个公式区域，都附带精确到像素的x,y,width,height，甚至支持多边形轮廓（polygon）。

这不是锦上添花的功能，而是让OCR真正进入“可编程文档理解”阶段的分水岭。
你不再需要写一堆OpenCV代码去框选ROI，也不用靠字体大小/行距/缩进规则去猜结构。只要拿到Chandra的JSON，就能像操作网页DOM一样，用几行Python精准定位、提取、重组任意区域。

2. 快速上手：本地部署vLLM后端，4GB显存跑起来

Chandra提供两种推理后端：HuggingFace Transformers（适合单卡轻量测试）和vLLM（面向生产级吞吐）。本文聚焦后者——因为只有vLLM能真正释放Chandra的结构化能力优势：高并发、低延迟、显存复用，尤其适合批量处理PDF或扫描件队列。

注意：官方明确提示“两张卡，一张卡起不来”——这不是夸张。Chandra的ViT-Encoder对显存带宽敏感，单卡（尤其是消费级GPU）易OOM。但vLLM的PagedAttention机制能高效管理KV缓存，让RTX 3060（12GB）或A10G（24GB）稳定运行，实测单页8k token平均耗时1秒。

2.1 环境准备：三步完成vLLM+Chandra联调

# 步骤1：安装vLLM（需CUDA 12.1+，推荐Ubuntu 22.04） pip install vllm==0.6.3 # 步骤2：安装Chandra官方包（含CLI、Streamlit、Docker支持） pip install chandra-ocr==0.2.1 # 步骤3：启动vLLM服务（以RTX 3060为例，指定显存限制防爆） python -m vllm.entrypoints.api_server \ --model datalab-to/chandra-ocr-v1 \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.9 \ --max-model-len 8192 \ --port 8000

启动成功后，你会看到类似日志：

INFO 01-25 14:22:33 api_server.py:172] vLLM API server started on http://localhost:8000 INFO 01-25 14:22:33 engine_args.py:214] Total GPU memory: 12.0 GiB

此时Chandra已作为vLLM托管模型就绪，可通过HTTP API或Python SDK调用。

2.2 验证输出：一张图，三种结构化格式

用任意PDF第一页（如合同首页）测试：

import requests import base64 # 读取图片并转base64 with open("contract_page1.png", "rb") as f: img_b64 = base64.b64encode(f.read()).decode() # 调用vLLM API response = requests.post( "http://localhost:8000/generate", json={ "prompt": "OCR this document and output structured result.", "images": [img_b64], "structured_output": True # 关键！启用结构化模式 } ) result = response.json()

result["output"]将返回一个嵌套字典，包含三个顶级键：

"markdown"：保留层级与表格的纯文本
"html"：可直接渲染的语义化HTML
"json"：全文档元素的坐标化树状结构

我们重点看"json"部分——这才是精准区域抽取的源头活水。

3. 解析JSON坐标：从“一整页”到“任意一块”

Chandra的JSON输出不是扁平列表，而是一个带空间层级的文档树。顶层是"pages"数组，每页包含"blocks"（文本块）、"tables"（表格）、"form_fields"（表单域）等子节点。每个节点都携带坐标与语义类型。

3.1 JSON结构精讲：读懂每个字段的含义

以下是一个简化的真实片段（已脱敏）：

{ "pages": [ { "page_number": 1, "width": 2480, "height": 3508, "blocks": [ { "type": "title", "text": "采购合同", "bbox": [120, 85, 420, 145], "confidence": 0.982 }, { "type": "paragraph", "text": "甲方：北京某某科技有限公司\n乙方：上海某某信息技术有限公司", "bbox": [120, 210, 1800, 290], "lines": [ { "text": "甲方：北京某某科技有限公司", "bbox": [120, 210, 950, 250] }, { "text": "乙方：上海某某信息技术有限公司", "bbox": [120, 250, 1800, 290] } ] } ], "tables": [ { "type": "table", "bbox": [120, 420, 2200, 1850], "cells": [ { "row": 0, "col": 0, "text": "序号", "bbox": [120, 420, 280, 480] }, { "row": 0, "col": 1, "text": "货物名称", "bbox": [280, 420, 1200, 480] } ] } ] } ] }

关键字段解读：

"bbox"：[x1, y1, x2, y2]—— 左上角与右下角坐标（单位：像素），所有区域抽取的绝对依据。
"type"：语义标签（title/paragraph/table/formula/checkbox等），比单纯坐标更可靠。
"lines"：段落内分行信息，用于精细切分（如提取“甲方”后的公司全称）。
"cells"：表格单元格级坐标，支持跨行跨列（"row_span"/"col_span"字段）。

小技巧：Chandra的坐标系原点在左上角，与OpenCV/PIL一致，无需转换。宽度/高度值（"width"/"height"）可用于归一化坐标（适配不同分辨率输入）。

3.2 实战案例：精准抽取合同中的“签约双方信息”

需求：从合同首页提取“甲方名称”“乙方名称”“签约日期”三个字段，存为字典。

思路：不依赖关键词匹配（易受排版干扰），而是基于坐标空间关系定位。

def extract_contract_parties(json_result): page = json_result["pages"][0] parties = {"party_a": "", "party_b": "", "date": ""} # Step1: 定位"甲方："和"乙方："所在段落（利用type=paragraph + 文本特征） for block in page["blocks"]: if block["type"] == "paragraph" and "甲方：" in block["text"]: # 提取"甲方："后的内容（利用lines中首行坐标精确定位） for line in block.get("lines", []): if "甲方：" in line["text"]: # 取"甲方："之后的文本（正则安全提取） import re match = re.search(r"甲方：(.+?)(?:\n|乙方：|$)", line["text"]) if match: parties["party_a"] = match.group(1).strip() if block["type"] == "paragraph" and "乙方：" in block["text"]: for line in block.get("lines", []): if "乙方：" in line["text"]: match = re.search(r"乙方：(.+?)(?:\n|签约日期：|$)", line["text"]) if match: parties["party_b"] = match.group(1).strip() # Step2: 定位"签约日期："——通常在页脚区域（y坐标靠近页面底部） footer_y_threshold = page["height"] * 0.8 # 页面下20%区域 for block in page["blocks"]: if (block["type"] == "paragraph" and "签约日期：" in block["text"] and block["bbox"][1] > footer_y_threshold): match = re.search(r"签约日期：(.+?)(?:\n|$)", block["text"]) if match: parties["date"] = match.group(1).strip() return parties # 调用 result = extract_contract_parties(chandra_json) print(result) # 输出：{'party_a': '北京某某科技有限公司', 'party_b': '上海某某信息技术有限公司', 'date': '2025年01月25日'}

这个方案的优势：

抗排版变化：即使“甲方”“乙方”换行、加粗、缩进，只要在同一个paragraph块内，lines字段就能准确定位；
空间鲁棒：页脚日期通过y坐标阈值判断，不依赖固定位置，适应不同模板；
零训练：纯规则+坐标逻辑，无需标注数据或微调模型。

4. 进阶技巧：用坐标做动态区域裁剪与RAG预处理

JSON坐标的价值远不止文本抽取。结合OpenCV或Pillow，你能直接从原图中裁剪出任意语义区域的图像片段，为后续任务提供高质量输入。

4.1 动态裁剪：把“表格”“公式”“手写签名”变成独立图片

from PIL import Image import numpy as np def crop_region_from_bbox(image_path, bbox, output_path): """根据Chandra JSON的bbox裁剪原图区域""" img = Image.open(image_path) x1, y1, x2, y2 = [int(x) for x in bbox] # 注意：PIL坐标是(x1,y1,x2,y2)，与Chandra一致 cropped = img.crop((x1, y1, x2, y2)) cropped.save(output_path) return cropped # 示例：裁剪第一页第一个表格 page = chandra_json["pages"][0] if page["tables"]: table_bbox = page["tables"][0]["bbox"] crop_region_from_bbox("contract_page1.png", table_bbox, "extracted_table.png")

生成的extracted_table.png是干净的表格截图，可直接喂给专用表格识别模型（如TableFormer），或作为RAG的chunk图像嵌入。

4.2 RAG友好预处理：按视觉区块切分文档，保留上下文

传统RAG按固定长度切分文本，常割裂表格或公式。Chandra的JSON让你实现语义感知分块：

def build_rag_chunks(json_result, max_chunk_len=512): """按Chandra blocks构建RAG chunks，保留表格/公式完整性""" chunks = [] for page in json_result["pages"]: for block in page["blocks"] + page.get("tables", []) + page.get("form_fields", []): # 每个block作为一个独立chunk（含坐标元数据） chunk_text = block.get("text", "") or "" if not chunk_text.strip(): continue chunk = { "content": chunk_text, "metadata": { "page": page["page_number"], "type": block["type"], "bbox": block["bbox"], "confidence": block.get("confidence", 0.0) } } chunks.append(chunk) return chunks # 输出示例 chunks = build_rag_chunks(chandra_json) print(f"生成{len(chunks)}个语义chunk，首个为：{chunks[0]['metadata']}") # {'page': 1, 'type': 'title', 'bbox': [120, 85, 420, 145], 'confidence': 0.982}

这样构建的向量库，搜索时不仅能返回相关文本，还能高亮其在原文中的精确位置（前端用CSS渲染position: absolute即可），真正实现“所见即所得”的知识检索。