news 2026/2/12 4:23:16

28、密集对应与古代文本分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
28、密集对应与古代文本分析

密集对应与古代文本分析

1. 引言

近年来,大规模的数字化和保护工作产生了大量历史手稿图像。以欧洲历史为例,近百万本手稿书籍和无数档案文件从一千多年前留存至今。这些手稿是历史、文学、哲学、科学、医学以及艺术史的宝贵资料,也反映了抄写和修道院文化、书写系统的发展、语言演变等。虽然数字化存储为保护和获取这些信息提供了新途径,但搜索这些手稿图像档案仍是一项挑战。

与印刷文本图像不同,手稿图像除了特定脚本或语言的专家外,其他人很难阅读。它们通常使用古老语言书写,训练计算机系统识别或处理这些手稿面临训练数据有限的问题。此外,缩写、抄写符号、手稿质量下降、墨水渗透等问题,使得历史文献的光学字符识别(OCR)变得极为困难。

一些著名的手稿收藏,如死海古卷、希腊纸莎草纸、西奈抄本等,都面临着上述挑战。我们的目标是提出一个系统,确定转录文本与扫描手稿中匹配图像区域之间的逐字母映射,从而在字符层面上访问这些手稿图像。据我们所知,此前还没有完全自动的方法来完成这项任务。

在之前的应用中,密集对应用于从参考示例向查询图像传递语义信息。在这里,我们使用相同的方法将字符标签从合成参考图像传递到手稿图像。我们的系统不尝试学习识别手稿中的字形,通过直接匹配历史图像和从文本生成的合成图像的像素,避免了字母分割的问题。通过将参考图像中已知的像素字符标签传递到历史文档图像,我们可以获得每个字母的范围(即分割)。

我们的系统在多种脚本、书写方向、书写风格和语言的手稿图像上进行了测试。此外,我们还讨论了如何通过手动纠正错误对应关系来提高从一行到下一行的对应估计质量。

2. 相关工作

虽然之前有关于文本与相同文本图像匹配的工作,但与自动文本

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/12 3:45:10

GitHub项目Star暴涨:Stable Diffusion 3.5 FP8成AIGC开发者新宠

GitHub项目Star暴涨:Stable Diffusion 3.5 FP8成AIGC开发者新宠 最近,一个名为 stable-diffusion-3.5-fp8 的开源模型镜像在GitHub上悄然走红——Star数在短短几周内迅速攀升,社区讨论热度持续升温。这不是又一次简单的版本更新,…

作者头像 李华
网站建设 2026/2/4 19:54:15

Windows显示器亮度控制终极方案:Twinkle Tray完整使用手册

Windows显示器亮度控制终极方案:Twinkle Tray完整使用手册 【免费下载链接】twinkle-tray Easily manage the brightness of your monitors in Windows from the system tray 项目地址: https://gitcode.com/gh_mirrors/tw/twinkle-tray 在Windows系统环境下…

作者头像 李华
网站建设 2026/2/10 11:13:22

VideoDownloadHelper 终极使用指南:轻松下载网页视频资源

VideoDownloadHelper 是一款专为 Chrome 浏览器设计的视频下载扩展工具,能够帮助用户快速保存网页中的视频内容。无论你是内容创作者、教育工作者还是普通用户,这款工具都能让你轻松获取所需的视频资源。 【免费下载链接】VideoDownloadHelper Chrome Ex…

作者头像 李华
网站建设 2026/2/10 1:01:54

高效STL转STEP工具:3D格式转换的完整解决方案

高效STL转STEP工具:3D格式转换的完整解决方案 【免费下载链接】stltostp Convert stl files to STEP brep files 项目地址: https://gitcode.com/gh_mirrors/st/stltostp 在现代三维设计与制造领域,STL转STEP工具已成为连接3D打印与工程设计的桥梁…

作者头像 李华
网站建设 2026/2/8 1:29:26

throw new Exception 如何指定返回code

解决方案:自定义异常类(推荐) Java标准库中的Exception、RuntimeException等基础异常类都没有提供错误码(code)的属性,因此最常用、最灵活的方式是创建自定义异常类,在其中添加code属性并提供对…

作者头像 李华
网站建设 2026/2/11 16:45:16

如何利用Cangaroo开源工具高效解决CAN总线开发难题

如何利用Cangaroo开源工具高效解决CAN总线开发难题 【免费下载链接】cangaroo 项目地址: https://gitcode.com/gh_mirrors/ca/cangaroo 在汽车电子和工业控制领域,CAN总线开发常常面临数据解析复杂、多接口管理困难等挑战。Cangaroo作为一款专业的开源CAN总…

作者头像 李华