项目路线图

通过技术手段推动古籍的数字化、校对及开源存储,构建古籍知识图谱与 AI 模型


项目愿景

本项目致力于利用现代技术解决古籍数字化过程中的关键难题,通过开源协作与 AI 技术的深度融合,我们希望让古籍从“影印件”进化为“可提取、可搜索、可排版”的数字资产,降低古籍研究的门槛,赋予传统文化以数字生命。


五大板块

板块一:古籍排版

核心目标:实现符合古籍审美与学术规范的数字动态排版。

  • 完美还原:利用 LuaTeX-ja 等先进引擎,解决竖排、双行小注、版框绘制等难题。
  • 标准化:建立涵盖文字、图像、位置信息的开源通用古籍表示格式。
  • 多端呈现:基于 Flutter 实现跨平台渲染,在 Web 和移动端展示古籍原貌。

状态: 进行中


板块二:自动化信息提取

核心目标:大规模降低录入成本,提升数字化效率。

  • 专业预处理:集成 ScanTailor 等工具,生成高质量标准化底图。
  • 深度学习识别:利用 PaddleOCR、BERT 等模型处理繁体、异体字及自动句读。
  • 智能化标注:实现版面结构的自动解析,区分正文与批注。

状态: 规划中


板块三:数字化工具箱

核心目标:建立“图文对照”的高性能协作环境。

  • 异体字系统:内置 5000+ 异体字映射库,支持智能识别与转换。
  • 协作工作流:建立基于 Git 的“一校、二校、终审”严谨流程。
  • 质量分析:通过错误热力图等可视化手段,持续优化 OCR 与人工校对质量。

状态: 进行中


板块四:开源共享与检索

核心目标:构建开放的数字图书馆,免费提供古籍资源的共享与检索。

  • 开放格式:采用 TEI 等国际标准存储,支持版本管理与 API 调用。
  • 社区驱动:建立类似维基文库的协作机制,确保数据的长期可持续性。
  • 授权规范:基于 CC 协议,免费提供古籍资源的公共化与社会化。

状态: 规划中


板块五:知识图谱与 AI 模型

核心目标:从“数字化”走向“智能化”,让 AI 读懂古籍。

  • 深度关联:构建人物、地点、事件、典籍关联的古代知识图谱。
  • 专用大模型:训练针对古汉语理解、翻译、研究的领域大模型。
  • 智能研究:提供语义搜索、典故溯源、智能注疏等前沿功能。

状态: 规划中