首页English
  • 时政
  • 国际
  • 时评
  • 理论
  • 文化
  • 科技
  • 教育
  • 经济
  • 生活
  • 法治
  • 军事
  • 卫生
  • 养生
  • 女人
  • 文娱
  • 电视
  • 图片
  • 游戏
  • 光明报系
  • 更多>>
  • 报 纸
    杂 志
    文摘报 2024年06月26日 星期三

    探访文溯阁《四库全书》数字化影印出版工程

    《 文摘报 》( 2024年06月26日   08 版)

        甘肃省图书馆文溯阁《四库全书》藏书馆主楼。 

        新华社记者 范培珅/摄

        引 子

        登临兰州北山九州台,甘肃省图书馆文溯阁《四库全书》藏书馆跃入眼帘——馆楼飞檐翘角,踞北山而瞰黄河。

        自正门入楼,穿鞋套,做登记,进书库。书库恒温恒湿,1128个香樟木书箱层层叠叠,收录典籍6141函、3474种、36315册的文溯阁《四库全书》就安放于箱中。

        《四库全书》编纂于清代乾隆年间,是我国历史上规模最大的丛书,修成后誊抄7部,分藏于紫禁城文渊阁、圆明园文源阁、盛京(今沈阳)文溯阁、承德避暑山庄文津阁、杭州文澜阁等地。目前存世三部半,分别为文渊阁本、文溯阁本、文津阁本,以及被称为“半部”的文澜阁残本。其中,文溯阁本辗转多地,于2006年入藏现在的藏书馆,也是“三部半”中唯一尚未完整影印出版的一部。

        为了让书写在古籍里的文字活起来,经过长期缜密的筹划论证,2021年8月,甘肃省正式启动文溯阁《四库全书》数字化影印出版工程。

        目前,文溯阁《四库全书》数字采集工作已全部完成,数据处理工作完成70%。从现在起至2028年,文溯阁《四库全书》将按经、史、子、集四部,分期分批推出全套影印版本。

        数字采集

        约8亿字的文溯阁《四库全书》共有多少页?数字化之前鲜有人知。

        “换算为现代书籍页码,共488万多页。”文溯阁《四库全书》数字化影印出版专职工作组组长宋学娟说。

        作为读者出版集团有限公司所属的读者古籍数字科技中心总经理,宋学娟过去两年多时间带领团队把文溯阁《四库全书》从纸上“搬进”了电脑——逐页扫描、存入,数据资源总量逾700TB(太字节)。“如果用常见的容量32GB的U盘存储,需要2.2万多个才能装下。”宋学娟说。

        文溯阁《四库全书》既是历史典籍,又是珍贵文物。若藏于高阁,难以活化利用;若活化利用,又有损坏之虞。如何破解“藏”“用”两难?2021年8月,甘肃省委宣传部制定《文溯阁〈四库全书〉数字化影印出版工作重启方案》,力求在保护的同时“唤醒”古籍。

        古籍真本由甘肃省图书馆提供,数据采集处理、影印出版等工作由读者出版集团有限公司具体实施。数字化影印出版工程分为“数字采集—数据处理—影印出版及数据库建设”3个阶段。所需经费,部分由中央文化产业发展专项资金、甘肃省财政资助,部分由读者出版集团有限公司自筹。

        数字采集,免不了要接触古籍真本,如何确保其安全无损?甘肃省图书馆和读者出版集团有限公司制定了周密完善的采集方案、流程规范和相关作业标准,“54条数字化工作流程规定,涵盖前期准备、文献出库、数据处理等全部流程。”宋学娟介绍。

        2021年12月23日,开机扫描;2022年5月23日,采集告竣。“整整5个月,经过人员倒班,实现每天工作16个小时、一天未休。古籍没有丝毫受损,函盒没有增加一道划痕。”阳光透过窗口,洒在黄底黑字的《文溯阁〈四库全书〉数字化工作手册》上,宋学娟长舒一口气。

        数据处理

        数字文件与古籍真本如同孪生,最大程度呈现古籍原貌

        偌大的房间里,数十名工作人员神情专注、紧盯屏幕,只听见键盘敲击声此起彼伏。在读者古籍数字科技中心的数据处理室,采集来的文溯阁《四库全书》数据,将被加工成标准的数字文件,供后续影印出版和数据库建设之用。

        “数据处理有4道流程,图版处理、一校、二校和质检存储。”宋学娟介绍,其中图版处理是关键,主要工作是拼接完整“叶”。

        叶,古籍特有的量词。不同于现代书籍,古代纸张多为单面印刷,一张纸即为一叶,书册由一叶一叶对折后装订而成。一叶,相当于现代书籍的两页。所以,数字采集到的扫描件实则都是半叶,图版处理就是让它们合二为一。

        “最初,我们先在电脑上制作一个标准叶模板,再利用智能软件,从扫描件上提取文字,贴在模板上。”宋学娟告诉记者,但实际操作中发现,智能软件可能会漏字、识错字,且原本每一叶的版式不尽相同,模板统一后,有“失真”之嫌。

        数字文件与古籍真本,如何保持孪生一般的相同面貌?“我们摒弃了标准模板,选择了逐叶拼接,最大程度呈现古籍原貌。”宋学娟说。

        图版处理不易,校对任务也很繁重。文溯阁《四库全书》数据校对人员张静从事古籍校对工作已有10年,但从未校对过如此海量内容。利用数字技术能够提速,但一些讹误很难被发现。

        不久前,张静在校对时发现,一个“丸”字疑为“九”字。经仔细核校后确认,果然是因为古籍宣纸里的植物纤维发生霉变,扫描时多出了这一“点”。

        起初,一天校对300叶是张静的上限。“刚开始时平均用力,耗时较多。”她说,而今这个数字翻了近3倍,“慢慢地,哪里容易出错、哪里容易变色,心里都有了数,效率提高不少。”

        为明确权责,避免误操作,从图版处理到一校、二校,再到最后的质检存储,文溯阁《四库全书》数据处理是条“单行道”。电脑之间不能互相访问,数据传给下一流程后,前一流程的人员将无权再改。

        “在数据处理程序软件和制度流程上,我们有一套完整设计,确保数据资源安全。”宋学娟输入账号、密码,登录数字化成果管理系统,所有成品文件呈现在眼前,函盒编码、书名、作者、朝代,以及长、宽、高和册数等基本信息,都有详细记录。“我们争取今年内基本完成图版处理工作。”她说。

        影印出版

        不少图书馆、藏书机构等正虚位以待,静待“四阁四库合璧”

        文溯阁《四库全书》影印出版,汇聚了社会各界的期待。

        西北师范大学教授赵逵夫全程参与了文溯阁《四库全书》影印出版工程专家论证会。他说,《四库全书》现存不同版本在内容、册数、卷数上皆有不同,通过数字化影印出版,方便学者比对研究,意义重大。

        兰州大学教授汪受宽也持相同观点。他曾用两年时间,带着学生对甘肃省图书馆编印的《影印文溯阁四库全书四种》进行整理、标点和精细校勘,并将收录其中的《易图说》《长安志图》《墨法集要》《璇玑图诗读法》这4种(每种各1册)书,跟文渊阁本进行对比,发现两个版本的文字、图片等存在901处差异。

        “4册书就有这么多差异,3.6万多册会是什么样?”汪受宽说,“文溯阁《四库全书》影印出版,将对文化史、史学史、文献学研究等都产生重要影响。”

        原彦平说,文溯阁《四库全书》多达3.6万余册,数据采集、处理、编辑、出版等投入大,且多为手工完成,成本高,发行对象则主要为图书馆、文化馆、高校、研究院所等专业机构和为数不多的研究者。

        2024年1月3日,文溯阁《四库全书》经部影印出版专题工作会议召开,确定了出版方案——缩印、16开本、236册。“我们将按经、史、子、集四部,分期分批推出缩印本。如果全套出齐,预计共1500册。”原彦平说。

        (《人民日报》5.31 董洪亮 王锦涛)   

    光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

    光明日报版权所有