项目路线图

通过技术手段推动古籍的数字化、校对及开源存储，构建古籍知识图谱与 AI 模型

项目愿景

本项目致力于利用现代技术解决古籍数字化过程中的关键难题，通过开源协作与 AI 技术的深度融合，我们希望让古籍从“影印件”进化为“可提取、可搜索、可排版”的数字资产，降低古籍研究的门槛，赋予传统文化以数字生命。

五大板块

板块一：古籍排版

核心目标：实现符合古籍审美与学术规范的数字动态排版。

完美还原：利用 LuaTeX-ja 等先进引擎，解决竖排、双行小注、版框绘制等难题。
标准化：建立涵盖文字、图像、位置信息的开源通用古籍表示格式。
多端呈现：基于 Flutter 实现跨平台渲染，在 Web 和移动端展示古籍原貌。

状态: 进行中

板块二：自动化信息提取

核心目标：大规模降低录入成本，提升数字化效率。

专业预处理：集成 ScanTailor 等工具，生成高质量标准化底图。
深度学习识别：利用 PaddleOCR、BERT 等模型处理繁体、异体字及自动句读。
智能化标注：实现版面结构的自动解析，区分正文与批注。

状态: 规划中

板块三：数字化工具箱

核心目标：建立“图文对照”的高性能协作环境。

异体字系统：内置 5000+ 异体字映射库，支持智能识别与转换。
协作工作流：建立基于 Git 的“一校、二校、终审”严谨流程。
质量分析：通过错误热力图等可视化手段，持续优化 OCR 与人工校对质量。

状态: 进行中

板块四：开源共享与检索

核心目标：构建开放的数字图书馆，免费提供古籍资源的共享与检索。

开放格式：采用 TEI 等国际标准存储，支持版本管理与 API 调用。
社区驱动：建立类似维基文库的协作机制，确保数据的长期可持续性。
授权规范：基于 CC 协议，免费提供古籍资源的公共化与社会化。

状态: 规划中

板块五：知识图谱与 AI 模型

核心目标：从“数字化”走向“智能化”，让 AI 读懂古籍。

深度关联：构建人物、地点、事件、典籍关联的古代知识图谱。
专用大模型：训练针对古汉语理解、翻译、研究的领域大模型。
智能研究：提供语义搜索、典故溯源、智能注疏等前沿功能。

状态: 规划中