两个月没更新了,虽然崇文往事的目录规划了一些,但写作的进度还是很慢。另一方面,在菩提辞典项目上,有了很大的进展,也基于这个进展,有了一些新的想法。先记录一下,后面做了更新以后再详细说明。

之前发布的经文都是一篇一篇发布的。经文通过程序初校以后,我再逐一检查,修改,备注,所以非常耗时,进度也非常之慢。不过,也正是因为有了这5031篇人工检查的过程,使我对程序处理有了一些信心,进而转变了思路。所以这两个月,我重写了脚本,对全部1.3亿文字的经文全部做了分析处理。全部2918个文件,移除592个因为各种原因不适合程序处理的文件,其他文件经过处理后的结果如下:

脚本主要做了以下处理:

  • 统一使用全角标点符号
  • 统一使用半角数字以及英文字母
  • 移除多余空格、特殊字符
  • 拆分章节、目录
  • 提取章节扩展说明文字
  • 对经文章节样式分类
  • 提取作者、失译、佚名
  • 分词、提取关键字
  • 提取罕见字、缺字(組字式)
  • 标注拼音

所有8700万字符处理完成后保留下8200多万文字,拆分为2w多个章节,2.6w个目录。243w个罕见字、缺字,去重之后大概是1890个。以上工作已经完成,对处理结果进行了初步的检查校验,基本符合预期。

计划要做,还没做的事情还有一些:

  • 佛教注音字典:之前对佛教中一些文字的特殊发音定制佛教注音字典之前已经经过测试,后续还需要补全;
  • 处理佛教典籍中混合使用数字和中文数字的问题,统一使用中文数字,例如“一0”这一类编号
  • 使用数字分段的章节再次拆分,以便阅读、注音

其实上周末基本已经处理完了,但我卡在一个地方,就是如何整理这些内容,系统的把内容编织起来。今天,豁然开朗了。这还要从原始版本说起来。我现在处理的这些文件大概是2020年在网上下载到的,但是我今天找了一大圈,都不记得是从哪下载的了,但是可以肯定的是,应该属于《大正新修大藏经》。在查找的过程中,我看到中华电子佛教协会对经文在不断地校对更新,这对我有了很大的启发。

之前我只聚焦在一篇一篇经文上,未来将从藏经的角度来梳理,除大正藏外,还包括乾隆藏、嘉兴藏等,系统的处理这些藏经后,可以极大丰富菩提辞典的查询内容,建立辞书与藏经的互动查询阅读等。这是一个思路上的转变,非常重要!

另外,新年之后将启动对菩提辞典的重构,也是基于以上的认识,不过时间可能会比较长,因为都是下班后的空闲时间来做这些事情,还需要系统规划一下。

重构后除保留现在的功能,还需要增加两个主要功能,其他还没想到:

  • 提供经文下载,包括pdf、epub等
  • 提供罕见字的查询

好了,这就是菩提辞典最新的进展。

还有一个最重要的计划,所有处理完成后的经文将公开发布!开源!