首页English
  • 时政
  • 国际
  • 时评
  • 理论
  • 文化
  • 科技
  • 教育
  • 经济
  • 生活
  • 法治
  • 军事
  • 卫生
  • 健康
  • 女人
  • 文娱
  • 电视
  • 图片
  • 科普
  • 光明报系
  • 更多>>
  • 报 纸
    杂 志
    文摘报 2021年09月18日 星期六

    用数字化让蒙尘的古籍重焕新生

    《 文摘报 》( 2021年09月18日   08 版)

        源自文澜阁的《宋百家诗存》及乾隆朱印。(达摩院供图)

        流散海外八十多年后,文澜阁本《四库全书》中的《宋百家诗存》重现大众视野。

        在扫描影像中,这本中国古籍上的水浸、虫噬、霉变历历可见,每一处都是历史的风霜。1790年左右,《宋百家诗存》随《四库全书》入藏杭州文澜阁,清咸丰年间在太平军入杭后散失,1861年左右被嘉业堂收藏。抗战时期,部分嘉业堂藏书流落到了上海,可能被日本人收购,并于1949年辗转到了美国,如今藏于加州大学伯克利分校东亚图书馆。

        东亚图书馆收藏了大量中国古籍善本,截至2021年5月18日,其中二十万页被扫描影像、读取文字,以数字化形式回归祖国。

        这是阿里达摩院海外古籍回归项目“汉典重光”的成果之一。“汉典”指中国古籍,“重光”意为“让蒙尘的古籍重焕新生”。这批数字化古籍善本中既有宋元本,也有明清至民国时期著名学者的稿本、抄本,其中一些是以前很少有人见过的珍贵藏本,比如清文澜阁本《宋百家诗存》。

        古籍流散海外的原因多种多样,实体回归几乎是不可能的,比较可行的办法是数字化回归。

        此前的古籍数字化平台,大多是展示扫描后的古籍图片,读者只能在这些平台阅读图片,无法就书中内容进行检索分析。此次汉典重光的数字化团队不仅将古籍扫描,还将扫描下来的图片识别转化成了电子文字。搜索某一字词,可以跳转到字词所在书本的具体章节段落。

        这些古籍资源将向公众免费开放。阿里达摩院院长张建锋表示,汉典重光古籍数字化平台将被捐赠给权威公共机构长期运营。

        和机器一起认字

        此前国图与燕京图书馆的合作主要是扫描古籍、回归影像,汉典重光团队更进一步,从单纯的扫描图像变成了内容识别整合,使古籍真正数字化,做到阅读清晰、查询方便,为后续的分析研究打下基础。

        团队的算法负责人何梦超2017年参与过古籍OCR(对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程)项目,对北京龙泉寺的十本藏经进行识别。普通的OCR识别在现代印刷文本的使用上已经达到了很高的水平,2017年何梦超参与的《大藏经》项目里也能做到97%的准确率,但放到古籍上面,准确率降到了百分之三四十。

        古籍的数字化录入,比现代印刷品的数字化录入难得多。由于古籍本身文字状况的特殊性,古籍数字化无法套用已有的现代汉语词典和机器学习模型,需要团队从头搭建古文数据库和古文字识别人工智能模型。

        四川大学历史文化学院教授陈力是汉典重光项目的古籍专家。何梦超去四川大学与陈力探讨,陈力提到古籍文字种类非常多,而何梦超发现,其中很多字都是重复出现的。他想到了单字识别、再聚类的数据收集方法。也就是说,把一册古籍里的字全部切分开来单个识别,然后把形状、笔画类似的字放入一个类别,再让对古文字有所了解的人对聚类进行审核——拎出不属于这个类别的字。最后给这个类别打上标签,也就是这一类图片字的打印版原型。

        这是一项庞大的认字工程,几千册古籍,每册几千组文字需要人工审核。人手不够,团队招募对古籍感兴趣、有一定知识的大学生加入。

        四川大学历史文化学院2018级本科生张楚珏是第一批加入的,她想借这个机会增加自己对古籍的认识,也能赚一点零花钱。

        最初,机器识别、分类的单字图片让张楚珏感到疑惑——有的图片里有两个字,有的图片里不是字而是符号。

        机器“认错字”的原因是技术团队低估了古籍版式的复杂性。现代印刷品有通用的规范版式,古籍的版式则多种多样,在竖排文字中可能突然出现一些横排文字,同样宽度的空间,有时写着一列大字,有时写着两列小字。在二十万页古籍里就有近百种版式,技术团队将它们一一区分,机器识别准确率大大提高。

        版式问题解决之后,进入正式的人工审核环节。古文中的字有很多讲究,同一个字在不同使用情况下、不同朝代不同版本的书籍中,都可能有不同的写法,即一个字可能有多种异体字。比如国家的“国”字,有简体的“国”,繁体的“國”,还有“太平天囯”里没有一点的“囯”。在分组时,一个字的每种异体字都要单独分为一组。

        分组后,在电脑上把这些古汉字打出来也是一件难事。常用输入法一般都打不出异体字,就算有也在相当靠后的位置。加入的前两个月里,张楚珏一直都在摸索打古文字的方法。她找到了三个能够检索古文字的字典网站,即便遇到不认识的字,也可以通过检索部首找到这个字。

        学生们渐渐驾轻就熟,某个期末周,团队忽然发布了四万字的审核任务,一位男生一人就完成了一万字左右的工作量。

        古籍数字化新路径

        2021年5月18日,汉典重光在中国科技馆举办发布会,会后,包括国家图书馆、浙江图书馆、四川大学图书馆和一些私人馆在内的二十多家机构向该团队发来祝贺,并表示愿意在后续过程中与该团队合作,将自己的馆藏数字化并开放给公众使用。

        目前中国规模最大的古籍保护计划是2007年国务院提出布置的“中华古籍保护计划”,截至2016年,中国古籍保护网的“全国古籍普查登记基本数据库”已累计发布涉及13个省份及中直系统的96家单位所藏388963部3587347册古籍的普查数据。

        据媒体报道,国家古籍保护中心办公室副研究馆员赵文友做过一个估算,如果将全国尚未数字化的40万个版本的古籍全部数字化,采集、组织、加工、存储、管理等费用大约需要60亿元。而国家古籍保护中心每年用于古籍数字化工作的经费仅1000万元,很多地方图书馆的古籍数字化经费更是捉襟见肘。

        官方项目资金容易短缺,商业公司项目又不可避免涉及盈利,各种条件的掣肘下,古籍数字化的发展一直都没能实现飞跃。此次公益性质的汉典重光平台,在古籍数字化上趟出了一条新路径。

        (《南方周末》5.27 陆宇婷)

    光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

    光明日报版权所有