古籍整理平台 (Guji Platform)

🚧 项目正在积极开发中 — GitHub 仓库

古籍整理平台是一个基于 VS Code 的一站式古籍数字化整理工具，覆盖从资源采集、OCR 识别、文本校对到排版发布的完整七阶段流程。它将项目管理、自动化处理和协作编辑集成到一个统一的 IDE 插件中，让古籍数字化工作变得高效而规范。

为什么需要这个平台？

传统古籍数字化流程涉及多个独立工具和大量手工操作，效率低且容易出错。古籍整理平台将整个流程整合为一个统一的工作台，通过自动化和 AI 辅助大幅提升效率，同时保证数据的规范性和可追溯性。

七阶段数字化流程

平台实现了完整的古籍数字化管线，每个阶段都有专门的可视化界面：

阶段	名称	说明
01	资源采集	从 CText、哈佛图书馆、Archive.org 等 14+ 站点下载文本和图片资源
02	预处理	图片增强、文本规范化、结构标准化
03	信息提取	OCR 识别、TeX 文件生成、质量分析
04	校对	图文对照的精细化校对，支持异体字处理
05	编辑	添加标点、注释、翻译
06	排版	现代版式排版，通过 LuaTeX 实现 100% 复原古籍版式
07	发布	多格式导出与发布

项目仪表盘 — 七阶段进度总览

核心功能

索引管理

采用三层层级模型：著作 (Work) → 丛书 (Collection) → 单书 (Book)，配合 Snowflake + Base58 算法生成唯一标识符。支持本地文件夹和 GitHub 在线同步两种模式，内置索引浏览器，提供可视化检索。

索引浏览器

资源采集与下载管理

内置 14+ 网站适配器，支持从中国哲学书电子化计划 (CText)、哈佛图书馆、Archive.org 等主流古籍资源站批量下载。下载管理器提供实时进度监控、暂停/恢复/重试功能，并能智能提取元数据。

下载管理器

智能 OCR 与文本对齐

集成 open-guji-cv 图像处理引擎（基于 PaddleOCR），实现三层精确对齐：

册级对齐：一册 = 一个 TeX 文件 = 一组图像
页级对齐：TeX 输出页精确匹配扫描页
字级对齐：每个字符的网格坐标定位

通过 Merger 模块将 OCR 结果与文本自动对齐，生成高质量的数字化 TeX 文件，并提供标题匹配率、细节覆盖度等质量指标。

信息提取与 OCR

图文对照校对

提供多版本比较和可视化 diff 查看器，支持 OCR 位置感知高亮。校对人员可以在扫描原图和识别文本之间便捷切换，高效完成人工校验和错误修正。

图文对照校对

AI 辅助

集成多种 AI 服务（Gemini / OpenAI / Ollama），用于：

元数据智能提取
自动断句与标点
实体识别（人物、地点、书籍等）

支持本地部署的 Ollama 模型，无需联网即可使用 AI 功能。

技术架构

层级	技术栈
前端	TypeScript + React 19 + VS Code Webview API
后端处理	Python 3.8+ (PaddleOCR, LuaTeX)
UI 组件	@vscode/webview-ui-toolkit + Tailwind CSS
构建工具	esbuild
协作	Git 版本控制

快速开始

环境要求

VS Code 1.85.0+
Python 3.8+
Node.js 16+（开发时需要）

安装

目前处于开发阶段，可通过源码安装体验：

git clone https://github.com/open-guji/guji-platform.git
cd guji-platform
npm install
pip install -e .

在 VS Code 中按 F5 即可启动开发模式。

项目	说明
book-index	古籍索引数据仓库
open-guji-cv	古籍图像处理与 OCR 工具包
luatex-cn	LuaTeX 中文排版引擎

参与贡献

项目采用 Apache 2.0 开源协议，欢迎参与贡献！

🔗 GitHub 仓库 — 正在开发中，欢迎 Star 和关注
📋 Issues — 提交 Bug 或功能建议

古籍整理平台 (Guji Platform)

为什么需要这个平台？

七阶段数字化流程

核心功能

索引管理

资源采集与下载管理

智能 OCR 与文本对齐

图文对照校对

AI 辅助

技术架构

快速开始

环境要求

安装

相关项目

参与贡献