自动化信息提取

古籍浩如烟海，全部人工录入是不现实的，需要自动化信息提取来提高效率。这包括图像预处理，版面分割、字符分割、字符OCR识别、自动标点等等。随着技术的进步，OCR和标点的准确率越来越高，但现有技术对繁体字、异体字、手写体的识别能力有限。随着大语言模型（LLM）的迅速发展，我们希望利用LLM来提高古籍数字化的效率。

核心目标

通过集成先进的 AI 和 OCR 技术，提升古籍数字化的效率。

1. 影像处理

目标：将扫描或拍摄的原始图片（往往有透视变形、污渍、书页弯曲）转换为平整、黑白分明、版心居中的高质量图片，以便于 OCR 和 LaTeX 底图调用。

工具名称	类型	优势与用途	评价
ScanTailor Advanced	开源 (C++)	神级工具。专用于书页处理。功能含：自动切页、纠偏 (De-skewing)、去噪、设定统一版心。	必选。目前开源界最强的书籍图像预处理软件。
OpenCV (Python)	开源库	用于编写自动化脚本。如：批量去除红印章（通道过滤）、边缘检测自动裁剪。	适合集成到自动化流水线脚本中。
Comic Enhancer Pro	免费/闭源	国内“老马”开发。在调节曲线、去除阴影方面针对中文书籍效果极佳。	仅限 Windows，难以集成，适合单兵作业。

2. OCR 字符识别

目标： 识别文字坐标与结构（区分正文、双行小注、眉批），而非单纯的文字转录。

工具名称	类型	核心技术	适用性分析
PaddleOCR	开源 (百度)	深度学习	首选推荐。中文 OCR 霸主。支持竖排模型，可微调（Fine-tuning）刻本字库。其 PP-Structure 模块可做版面分析。
Tesseract 5	开源 (Google)	LSTM	老牌工具。现代中文尚可，但在复杂的古籍版面（尤其是双行夹注）处理上不如 PaddleOCR 灵活。
Transkribus	商业/学术免费	HTR (手写识别)	数字人文标准。专注于“版面分割”，适合处理复杂手稿。虽核心闭源，但是处理复杂版式的最佳参照。
eScriptorium	开源	Kraken/YOLO	法国团队开发的 Web 平台。结合了版面分割与识别，非常适合作为搭建自家校对平台的蓝本。

3. 句读、标点

自动标点与语义分析。

目标： 对古籍原文进行自动断句和标点。

工具名称	类型	技术	评价
GuwenBERT	开源模型	NLP / Transformer	基于 RoBERTa 的古文预训练模型。可用于命名实体识别 (NER) 和自动断句，准确率极高。
SikuBERT	开源模型	NLP	基于《四库全书》训练，对经史子集的语感把握更佳。
Jiayan (甲言)	开源库	统计/规则	轻量级古文 NLP 工具，适合资源受限环境，但效果不如 BERT 系列。

另外还有一些闭源但免费（有限额，需注册）的工具如“吾与点”，“籍合网”。鉴于无法开源大规模免费试用，就不再详细展开。

参考资源

← 上一板块：专业排版 | 下一板块：校对工具 →