自动化信息提取
自动化信息提取
古籍浩如烟海,全部人工录入是不现实的,需要自动化信息提取来提高效率。这包括图像预处理,版面分割、字符分割、字符OCR识别、自动标点等等。随着技术的进步,OCR和标点的准确率越来越高,但现有技术对繁体字、异体字、手写体的识别能力有限。随着大语言模型(LLM)的迅速发展,我们希望利用LLM来提高古籍数字化的效率。
核心目标
通过集成先进的 AI 和 OCR 技术,提升古籍数字化的效率。
1. 影像处理
目标: 将扫描或拍摄的原始图片(往往有透视变形、污渍、书页弯曲)转换为平整、黑白分明、版心居中的高质量图片,以便于 OCR 和 LaTeX 底图调用。
| 工具名称 | 类型 | 优势与用途 | 评价 |
|---|---|---|---|
| ScanTailor Advanced | 开源 (C++) | 神级工具。专用于书页处理。功能含:自动切页、纠偏 (De-skewing)、去噪、设定统一版心。 | 必选。目前开源界最强的书籍图像预处理软件。 |
| OpenCV (Python) | 开源库 | 用于编写自动化脚本。如:批量去除红印章(通道过滤)、边缘检测自动裁剪。 | 适合集成到自动化流水线脚本中。 |
| Comic Enhancer Pro | 免费/闭源 | 国内“老马”开发。在调节曲线、去除阴影方面针对中文书籍效果极佳。 | 仅限 Windows,难以集成,适合单兵作业。 |
2. OCR 字符识别
目标: 识别文字坐标与结构(区分正文、双行小注、眉批),而非单纯的文字转录。
| 工具名称 | 类型 | 核心技术 | 适用性分析 |
|---|---|---|---|
| PaddleOCR | 开源 (百度) | 深度学习 | 首选推荐。中文 OCR 霸主。支持竖排模型,可微调(Fine-tuning)刻本字库。其 PP-Structure 模块可做版面分析。 |
| Tesseract 5 | 开源 (Google) | LSTM | 老牌工具。现代中文尚可,但在复杂的古籍版面(尤其是双行夹注)处理上不如 PaddleOCR 灵活。 |
| Transkribus | 商业/学术免费 | HTR (手写识别) | 数字人文标准。专注于“版面分割”,适合处理复杂手稿。虽核心闭源,但是处理复杂版式的最佳参照。 |
| eScriptorium | 开源 | Kraken/YOLO | 法国团队开发的 Web 平台。结合了版面分割与识别,非常适合作为搭建自家校对平台的蓝本。 |
3. 句读、标点
自动标点与语义分析。
目标: 对古籍原文进行自动断句和标点。
| 工具名称 | 类型 | 技术 | 评价 |
|---|---|---|---|
| GuwenBERT | 开源模型 | NLP / Transformer | 基于 RoBERTa 的古文预训练模型。可用于命名实体识别 (NER) 和自动断句,准确率极高。 |
| SikuBERT | 开源模型 | NLP | 基于《四库全书》训练,对经史子集的语感把握更佳。 |
| Jiayan (甲言) | 开源库 | 统计/规则 | 轻量级古文 NLP 工具,适合资源受限环境,但效果不如 BERT 系列。 |
另外还有一些闭源但免费(有限额,需注册)的工具如“吾与点”,“籍合网”。鉴于无法开源大规模免费试用,就不再详细展开。