自动化信息提取

自动化信息提取

古籍浩如烟海,全部人工录入是不现实的,需要自动化信息提取来提高效率。这包括图像预处理,版面分割、字符分割、字符OCR识别、自动标点等等。随着技术的进步,OCR和标点的准确率越来越高,但现有技术对繁体字、异体字、手写体的识别能力有限。随着大语言模型(LLM)的迅速发展,我们希望利用LLM来提高古籍数字化的效率。


核心目标

通过集成先进的 AI 和 OCR 技术,提升古籍数字化的效率。

1. 影像处理

目标: 将扫描或拍摄的原始图片(往往有透视变形、污渍、书页弯曲)转换为平整、黑白分明、版心居中的高质量图片,以便于 OCR 和 LaTeX 底图调用。

工具名称类型优势与用途评价
ScanTailor Advanced开源 (C++)神级工具。专用于书页处理。功能含:自动切页、纠偏 (De-skewing)、去噪、设定统一版心。必选。目前开源界最强的书籍图像预处理软件。
OpenCV (Python)开源库用于编写自动化脚本。如:批量去除红印章(通道过滤)、边缘检测自动裁剪。适合集成到自动化流水线脚本中。
Comic Enhancer Pro免费/闭源国内“老马”开发。在调节曲线、去除阴影方面针对中文书籍效果极佳。仅限 Windows,难以集成,适合单兵作业。

2. OCR 字符识别

目标: 识别文字坐标与结构(区分正文、双行小注、眉批),而非单纯的文字转录。

工具名称类型核心技术适用性分析
PaddleOCR开源 (百度)深度学习首选推荐。中文 OCR 霸主。支持竖排模型,可微调(Fine-tuning)刻本字库。其 PP-Structure 模块可做版面分析。
Tesseract 5开源 (Google)LSTM老牌工具。现代中文尚可,但在复杂的古籍版面(尤其是双行夹注)处理上不如 PaddleOCR 灵活。
Transkribus商业/学术免费HTR (手写识别)数字人文标准。专注于“版面分割”,适合处理复杂手稿。虽核心闭源,但是处理复杂版式的最佳参照。
eScriptorium开源Kraken/YOLO法国团队开发的 Web 平台。结合了版面分割与识别,非常适合作为搭建自家校对平台的蓝本。

3. 句读、标点

自动标点与语义分析。

目标: 对古籍原文进行自动断句和标点。

工具名称类型技术评价
GuwenBERT开源模型NLP / Transformer基于 RoBERTa 的古文预训练模型。可用于命名实体识别 (NER) 和自动断句,准确率极高。
SikuBERT开源模型NLP基于《四库全书》训练,对经史子集的语感把握更佳。
Jiayan (甲言)开源库统计/规则轻量级古文 NLP 工具,适合资源受限环境,但效果不如 BERT 系列。

另外还有一些闭源但免费(有限额,需注册)的工具如“吾与点”,“籍合网”。鉴于无法开源大规模免费试用,就不再详细展开。

参考资源


← 上一板块:专业排版 | 下一板块:校对工具 →