LightOnOCR-2-1B OCR教程：自定义后处理逻辑（正则清洗+字段映射）-育师

LightOnOCR-2-1B OCR教程：自定义后处理逻辑（正则清洗+字段映射）

1. 为什么需要自定义后处理？

你可能已经试过 LightOnOCR-2-1B，上传一张发票截图，点击“Extract Text”，几秒后就拿到了识别结果——看起来很完整。但当你把结果复制进Excel准备做财务分析时，问题来了：金额里混着中文括号、日期格式不统一、商品名称前后多了空格和换行符、税率字段被识别成“税車”……这些看似微小的“脏数据”，却让后续自动化流程卡在第一步。

LightOnOCR-2-1B 的核心优势在于高精度多语言识别能力，但它默认输出的是原始文本流，不是结构化字段。就像一位速记员，记得准、写得快，但不会自动帮你分段、校对、归类。真正的生产力提升，往往不在识别那一刻，而在识别之后的“再加工”。

本教程不讲怎么装模型、不重复API怎么调，而是聚焦一个工程中高频却常被忽略的环节：如何把 OCR 输出的“文字流”，变成可直接入库、可对接业务系统的“干净字段”。我们将用最轻量、最易上手的方式，通过 Python + 正则表达式 + 字段映射规则，实现开箱即用的后处理逻辑。

你不需要改模型、不用重训练、不碰 GPU 显存配置——只需要在拿到 API 返回结果后，加几行代码，就能让识别结果从“能看”升级为“能用”。

2. LightOnOCR-2-1B 模型能力快速回顾

2.1 它能识别什么？

LightOnOCR-2-1B 是一个参数量为 10 亿的多语言 OCR 模型，专为复杂文档场景优化。它不是简单地“认字”，而是理解文档结构：

支持 11 种语言混合识别：中文、英文、日文、法文、德文、西班牙文、意大利文、荷兰文、葡萄牙文、瑞典文、丹麦文
对齐排版：能保持原文本的行列顺序，识别结果自带位置信息（x, y, width, height）
理解语义区块：对表格、收据、表单、带公式的科技文档有专门建模，不是纯字符拼接
高清适配：在最长边 1540px 的图片上识别效果最稳定，GPU 显存占用约 16GB（A10/A100 级别显卡可流畅运行）

2.2 它默认输出什么？

调用 API 后，你收到的不是一串乱序文字，而是一个结构化 JSON 响应。关键字段如下：

{ "choices": [{ "message": { "content": "发票代码：1234567890\n发票号码：987654321\n开票日期：2024年03月15日\n金额（大写）：人民币壹仟贰佰叁拾肆元伍角陆分\n金额（小写）：¥1234.56" } }] }

注意：content字段是纯文本，没有字段标签、没有坐标、没有置信度。这就是后处理的起点——所有信息都在这里，但需要你来“翻译”。

3. 实战：三步构建可复用的后处理管道

我们以一张标准增值税专用发票为例，目标是提取 5 个关键字段：invoice_code（发票代码）、invoice_number（发票号码）、issue_date（开票日期）、amount_chinese（金额大写）、amount_numeric（金额小写）。整个过程不依赖任何 OCR 框架，只用 Python 标准库 +re。

3.1 第一步：清洗原始文本（正则去噪）

原始识别结果常含干扰字符：多余空格、全角/半角混用、换行错位、OCR 误识字（如“率”→“車”、“零”→“令”）。我们先做“文本净化”。

import re def clean_ocr_text(raw_text: str) -> str: # 1. 合并连续空白（包括换行、制表、多个空格） text = re.sub(r'\s+', ' ', raw_text.strip()) # 2. 统一中文标点（将全角冒号、顿号、括号转为半角，便于后续匹配） text = text.replace('：', ':').replace('、', ',').replace('（', '(').replace('）', ')') # 3. 修复常见 OCR 错字（按业务场景补充） corrections = { r'税車': '税率', r'金額': '金额', r'令': '零', r'弌': '一', # 大写数字异体字 r'貮': '贰' } for pattern, replacement in corrections.items(): text = re.sub(pattern, replacement, text) return text # 示例 raw = "发票代码 ： 1234567890 \n\n发票号码：987654321\n开票日期：2024年03月15日" cleaned = clean_ocr_text(raw) print(cleaned) # 输出：发票代码: 1234567890 发票号码：987654321 开票日期：2024年03月15日

关键提示：这一步不是“越干净越好”，而是“为下一步匹配服务”。保留中文冒号、数字、汉字，只清理影响模式识别的噪声。不要过度清洗（比如删掉所有标点），否则会破坏字段边界。

3.2 第二步：字段抽取（正则精准捕获）

清洗后，我们用命名组正则（(?P<name>...)）一次性提取所有目标字段。每个正则模式都针对该字段的业务特征设计，而非通用模板。

def extract_fields(cleaned_text: str) -> dict: fields = {} # 发票代码：10位纯数字，前面有"发票代码"或"代码" code_match = re.search(r'(?:发票代码|代码)[:：\s]*([0-9]{10})', cleaned_text) fields['invoice_code'] = code_match.group(1) if code_match else None # 发票号码：8-10位数字，常跟"号码"或"NO." number_match = re.search(r'(?:发票号码|号码|NO\.?)[：:\s]*([0-9]{8,10})', cleaned_text) fields['invoice_number'] = number_match.group(1) if number_match else None # 开票日期：匹配"YYYY年MM月DD日"格式，兼容"2024-03-15" date_pattern = r'(?:开票日期|日期)[:：\s]*(\d{4}年\d{1,2}月\d{1,2}日|\d{4}-\d{2}-\d{2})' date_match = re.search(date_pattern, cleaned_text) fields['issue_date'] = date_match.group(1) if date_match else None # 金额大写：以"人民币"开头，以"分"或"整"结尾，中间是大写数字和单位 chinese_amt_pattern = r'人民币(?P<amt>[零壹贰叁肆伍陆柒捌玖拾佰仟万亿]+[元角分整])' chinese_match = re.search(chinese_amt_pattern, cleaned_text) fields['amount_chinese'] = chinese_match.group('amt') if chinese_match else None # 金额小写：匹配"¥"符号后跟数字（支持小数点） numeric_amt_pattern = r'¥\s*(\d+(?:\.\d{1,2})?)' numeric_match = re.search(numeric_amt_pattern, cleaned_text) fields['amount_numeric'] = numeric_match.group(1) if numeric_match else None return fields # 测试 test_text = "发票代码：1234567890 发票号码：987654321 开票日期：2024年03月15日 金额（大写）：人民币壹仟贰佰叁拾肆元伍角陆分 金额（小写）：¥1234.56" result = extract_fields(test_text) print(result) # 输出：{'invoice_code': '1234567890', 'invoice_number': '987654321', ...}

为什么不用一个大正则？因为不同字段的语义约束差异极大。“发票代码”必须是10位数字，“金额大写”必须是特定汉字序列。拆开写，每条规则独立可测、可调、可维护。

3.3 第三步：字段标准化与映射（业务逻辑注入）

抽取出来的值，往往还需一步“业务翻译”：日期转 ISO 格式、金额字符串转浮点数、中文大写转阿拉伯数字等。我们封装一个normalize_fields函数，把技术字段变成业务可用数据。

from datetime import datetime def normalize_fields(extracted: dict) -> dict: normalized = extracted.copy() # 日期标准化：统一转为 YYYY-MM-DD if extracted.get('issue_date'): date_str = extracted['issue_date'] try: # 尝试匹配"2024年03月15日" dt = datetime.strptime(date_str, '%Y年%m月%d日') normalized['issue_date'] = dt.strftime('%Y-%m-%d') except ValueError: try: # 尝试匹配"2024-03-15" datetime.strptime(date_str, '%Y-%m-%d') normalized['issue_date'] = date_str except ValueError: normalized['issue_date'] = None # 金额小写转 float if extracted.get('amount_numeric'): try: normalized['amount_numeric'] = float(extracted['amount_numeric']) except (ValueError, TypeError): normalized['amount_numeric'] = None # 中文大写金额转数字（简化版，仅支持基础数字） if extracted.get('amount_chinese'): # 实际项目中可引入专用库如 'cn2an'，此处演示逻辑 ch_to_num = {'零': '0', '一': '1', '壹': '1', '二': '2', '贰': '2', '三': '3', '叁': '3', '四': '4', '肆': '4', '五': '5', '伍': '5', '六': '6', '陆': '6', '七': '7', '柒': '7', '八': '8', '捌': '8', '九': '9', '玖': '9'} # 简化处理：只转换数字部分，忽略单位（实际需更复杂逻辑） num_part = ''.join(ch_to_num.get(c, '') for c in extracted['amount_chinese'] if c in ch_to_num or c.isdigit()) if num_part: try: normalized['amount_chinese_numeric'] = float(num_part) except: pass return normalized # 使用示例 final_result = normalize_fields(result) print(final_result) # 输出：{'invoice_code': '1234567890', 'invoice_number': '987654321', # 'issue_date': '2024-03-15', 'amount_chinese': '壹仟贰佰叁拾肆元伍角陆分', # 'amount_numeric': 1234.56, 'amount_chinese_numeric': 1234.0}

关键设计思想：normalize_fields是你注入业务规则的地方。比如财务系统要求日期必须是YYYY-MM-DD，销售系统要求金额必须是float，这些规则在此集中管理，与 OCR 识别逻辑完全解耦。

4. 集成到你的工作流（API 调用 + 后处理一键串联）

现在，把 OCR 调用和后处理打包成一个函数。无论你是用 Python 脚本批量处理，还是集成进 Web 服务，只需调用一次process_invoice。

import base64 import requests def process_invoice(image_path: str, server_ip: str = "127.0.0.1") -> dict: """端到端处理发票图片：OCR识别 + 清洗 + 抽取 + 标准化""" # 1. 读取图片并转 base64 with open(image_path, "rb") as f: img_b64 = base64.b64encode(f.read()).decode() # 2. 调用 LightOnOCR API url = f"http://{server_ip}:8000/v1/chat/completions" payload = { "model": "/root/ai-models/lightonai/LightOnOCR-2-1B", "messages": [{ "role": "user", "content": [{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img_b64}"}}] }], "max_tokens": 4096 } try: response = requests.post(url, json=payload, timeout=60) response.raise_for_status() ocr_result = response.json() raw_text = ocr_result["choices"][0]["message"]["content"] except Exception as e: return {"error": f"OCR调用失败: {str(e)}"} # 3. 执行后处理三步曲 try: cleaned = clean_ocr_text(raw_text) extracted = extract_fields(cleaned) final = normalize_fields(extracted) final["raw_ocr"] = raw_text # 保留原始结果用于调试 return final except Exception as e: return {"error": f"后处理失败: {str(e)}", "raw_ocr": raw_text} # 快速测试 if __name__ == "__main__": result = process_invoice("invoice_sample.png", "192.168.1.100") print("结构化结果：", result)

部署建议：这个函数可直接作为你业务系统的“OCR 适配层”。当未来更换 OCR 模型（比如换成 PaddleOCR 或商业 API），你只需修改process_invoice中的 API 调用部分，后处理逻辑clean_ocr_text/extract_fields/normalize_fields完全无需改动——因为它们只依赖“文本内容”，不依赖“谁识别的”。

5. 进阶技巧：让后处理更鲁棒

上述方案已覆盖 80% 场景，但真实业务中还有更复杂的挑战。以下是几个经过验证的增强策略，按需选用：

5.1 多模式 fallback（当主正则失败时）

有些发票格式千奇百怪。与其写一个“全能正则”，不如准备多个备选模式：

def extract_with_fallback(text: str, patterns: list) -> str: """按优先级尝试多个正则，返回第一个匹配结果""" for pattern in patterns: match = re.search(pattern, text) if match: return match.group(1) if match.groups() else match.group(0) return None # 为发票号码定义多个模式 invoice_number_patterns = [ r'发票号码[:：\s]*([0-9]{8,10})', # 标准格式 r'NO\.?\s*[:：\s]*([0-9]{8,10})', # 英文缩写 r'票号[:：\s]*([0-9]{8,10})', # 简称 r'([0-9]{8,10})(?=\s*[^\w]|$)' # 纯数字（最后兜底） ] number = extract_with_fallback(cleaned_text, invoice_number_patterns)

5.2 基于关键词位置的上下文抽取

当字段位置固定（如“金额”总在右下角），可结合 OCR 的坐标信息（如果 API 支持返回）。LightOnOCR-2-1B 的 Gradio 前端虽不直接暴露坐标，但你可以修改app.py在返回时加入boxes字段。此时，抽取逻辑可升级为：

# 伪代码：若 API 返回了 bounding boxes # boxes = [{"text": "¥1234.56", "x": 820, "y": 1050, "width": 120, "height": 24}] # → 找 y 值最大（最下方）且包含 "¥" 的文本块 → 即为金额

5.3 规则热更新（不重启服务）

把正则规则和映射表抽离成 JSON 文件，程序启动时加载。业务人员可直接编辑rules/invoice_rules.json来新增字段或调整模式，服务无需重启：

{ "invoice_code": { "patterns": ["发票代码[:：\\s]*([0-9]{10})"], "required": true }, "amount_numeric": { "patterns": ["¥\\s*(\\d+(?:\\.\\d{1,2})?)", "金额[:：\\s]*(\\d+(?:\\.\\d{1,2})?)"], "type": "float" } }