腾讯混元POINTS-Reader：高效文档图片转文本工具-育师

腾讯混元POINTS-Reader：高效文档图片转文本工具

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader：端到端文档转换视觉语言模型，结构精简无需后处理。支持中英双语提取，OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量，已支持SGLang部署，vLLM支持即将推出。EMNLP 2025主会收录，开源两阶段数据增强策略，轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

腾讯混元正式发布全新视觉语言模型POINTS-Reader，这是一款专注于文档图片转文本的端到端解决方案，以结构精简、无需后处理的特性重新定义文档信息提取效率，同时在中英文双语处理能力上展现出行业领先水平。

行业现状：文档理解技术迎来范式转变

随着数字化办公的深入推进，文档图片转文本技术已成为信息处理的关键基础设施。传统解决方案多采用多模块流水线架构，需要复杂的版面分析、文字检测、OCR识别等多个步骤协同工作，不仅系统部署维护成本高，各模块间的误差累积也会影响最终效果。近年来，基于视觉语言模型（VLM）的端到端解决方案逐渐成为趋势，但这类方案普遍面临模型体积过大、推理速度慢、多语言支持不足等挑战。

据行业研究显示，企业日常处理的文档中，超过60%包含复杂格式元素（如表、公式、多语言混排），现有工具在这些场景下的错误率平均高达25%。同时，随着大模型应用普及，用户对处理速度的要求不断提升，高吞吐量已成为企业级应用的核心指标。

产品亮点：四大核心优势重塑文档处理体验

POINTS-Reader在技术架构和实际表现上展现出显著优势，主要体现在以下四个方面：

极简架构设计，告别后处理负担

该模型完全遵循POINTS1.5的精简结构，仅将语言模型部分从Qwen2.5-7B-Instruct替换为更轻量的Qwen2.5-3B-Instruct，保持了视觉语言模型的原生端到端特性。输入仅需固定提示词和文档图片，输出即为可直接使用的文本字符串，彻底消除了传统方案中繁琐的后处理环节，极大简化了集成流程。这种"输入即图片，输出即文本"的设计理念，使开发者能够以最少的代码实现高性能文档转换功能。

中英双语精通，评测成绩位居前列

POINTS-Reader目前已全面支持中英文文档提取，在权威评测集OmniDocBench上取得优异成绩：英文任务得分0.133，中文任务得分0.212（注：OmniDocBench采用编辑距离指标，数值越低表示效果越好）。这一成绩不仅超越了多数开源解决方案，甚至可与部分商业API相媲美，尤其在中文复杂文档处理上展现出独特优势，充分满足双语办公场景需求。

高效推理引擎，实现高吞吐量处理

为平衡性能与效率，POINTS-Reader选用600M参数的NaViT视觉模型，在保证识别精度的同时显著降低计算负载。配合对SGLang推理框架的深度支持，当前已实现令人满意的吞吐量表现，特别适合企业级批量处理场景。开发团队同时透露，vLLM支持即将推出，未来推理性能将进一步提升。这种对主流高效推理框架的适配，使模型能够在普通GPU硬件上实现工业化部署。

创新数据策略，开源可复用技术方案

在技术创新方面，POINTS-Reader提出了两阶段数据增强策略：第一阶段利用自动化数据赋予模型基础文档提取能力；第二阶段通过持续自进化提升模型生成数据的质量。这种自进化方法具有高度可扩展性，理论上可应用于任何类型模型的优化过程。相关技术细节已随模型一同开源，为行业提供了宝贵的技术参考。

行业影响：推动文档智能处理进入新阶段

POINTS-Reader的推出将在多个层面产生深远影响。对于企业用户而言，精简的模型结构降低了部署门槛，中小微企业也能负担得起高性能文档处理能力；高吞吐量特性使金融、法律、医疗等文档密集型行业的批量处理效率提升30%以上；而对中文的深度优化，则让中文办公场景的智能化水平迈上新台阶。

在技术层面，该模型证明了中小规模视觉语言模型在垂直任务上的巨大潜力，为行业提供了"小而美"的技术路线参考。开源的两阶段数据增强策略更是为模型优化提供了新思路，有望在更广泛的领域得到应用。随着vLLM支持的上线，POINTS-Reader的部署灵活性将进一步增强，预计将在企业级文档处理、智能内容管理、数字化档案建设等场景快速落地。

未来展望：持续进化的文档理解能力

尽管已展现出强大性能，POINTS-Reader团队仍坦诚指出当前版本的局限性，包括复杂版面（如报纸）处理易出现重复或遗漏、手写文档识别准确率有待提升、多语言支持范围需进一步扩展等。这些问题将成为未来迭代的重点方向。

作为腾讯混元大模型体系的重要组成部分，POINTS-Reader的技术演进将与混元生态深度协同。随着模型持续优化和更多行业数据的融入，预计在未来半年内将实现复杂版面解析、多语言支持（计划新增日文、韩文等）、手写体识别等关键突破，进一步巩固在文档智能处理领域的技术领先地位。对于追求高效文档处理解决方案的企业和开发者而言，POINTS-Reader无疑提供了一个兼具性能、效率和成本优势的全新选择。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考