底层没修好，上面的都要推倒重来

《中华读书报》（ 2015年11月11日 07 版）

读书报：古籍数字化目前的现状是什么样的？存在哪些问题？

尹小林：应该说现在的古籍数据库规模很大，水平很高。常用古籍几乎都已数字化，次常用古籍也数字化了不少，而且质量较精。问题主要有两点：一是图文对照和全文检索两种模式融合问题。图文对照数据库以《四库全书》为代表，主要面向专业研究人员，一般为繁体无标点，可以逐字检索；全文检索数据库以《国学宝典》为代表，一般为简体，经分段标点整理，既可为专业人员服务，也可供非专业人员使用。事实上，标点整理与使用推广关系十分密切，经标点整理，古籍文献的使用效率可提高好几倍。第二，字形问题。不同年代的文献，比如说汉代和唐代、明代和清代，同一个字的写法往往不同。数字化时，如果保留差异，就会导致于文字的混乱；如果统一字形，涉及到一个如何规范的问题。

目前分歧最大的是字形问题，俗体字保不保留？字形规不规范？现在，港台、日本、韩国都在使用中文汉字，但各国和地区字形都有差异。中文古籍数字化主要困难之一就是汉字字形太复杂了。阅读现代作品,认识三五千字就可以了，而搞古籍整理必须掌握一两万字，如果加上异体字，十万字也不止。异体字在古籍整理中非常难,专业性极强。

读书报：在前不久举行的第五届中国古籍数字化国际学术研讨会上，柴剑虹先生谈到敦煌文献电子化时也把字形问题形象地比喻成“拦路虎”。詹福瑞指出目前古籍数字化尚未形成严格规范的国家标准。这两者之间是否存在关联？

尹小林：国家标准除了字形以外还有其他的标准，比如说体例、版本等等。但是，字形肯定是最重要的，字形统一不了其他什么都别提了。

读书报：有学者认为“合作创新模式”是古籍数字化发展的方向，与此相关，还强调国际间的实质性合作。

尹小林：所谓国际间合作指两个方面：一是计算机层面，我们现在用的Windows是美国人开发的，其字库的制定和发布的权利是在多个国家组成的国际标准化委员会，中国没有权利决定哪个字规范，哪个字不规范。国际合作就是指中国要参与进去。二是在文献层面，比如敦煌的卷子在英国和法国，我们很难自由使用，或者只让看一部分，或者让看的是造假了的；又比如，《永乐大典》分散在很多国家，只有凑齐了才能达到最佳效果。

读书报：您指出古籍数字化领域目前的基础工作做得不够，具体指哪些？

尹小林：我们在古籍数字化方面只是拼命往上做，底层没修好，上面修了都要重来的。所谓底层就是基础数据，这主要指国学的那些原典。你看西安碑林把那些重要的经典都刻到石头上，类似的道理，我们也应该把重要的经典固化，国家请专家审定，比如说《红楼梦》《西游记》《周易》《孟子》《史记》，有个国家标准直接用就行了。没有固化，导致大家都出《红楼梦》，都出《史记》，每个出版社出的版本都不一样，反正只要差错率在万分之一里面都没问题。还有一种情况是我直接拿别人的用，你出什么我就出什么。我说的基础数据就是文史研究者绕不开的，《二十四史》《资治通鉴》、四大名著等等，应该有一个公认的通行版本，然后在此基础上你可以根据自身需要再去加工，如加工学术本，但是公用的像《唐诗三百首》这些早就可以定型了，即便有问题请专家鉴定即可。

读书报：在当前这个大数据时代，您认为中国古籍数字化该如何探索出一条可持续发展的创新之路？

尹小林：中国古籍数字化经过三十多年的发展建设，积累了许多经验和成果，有关部门稍加引导，在数据规模、加工质量、成果形态等方面都将取得突破。当务之急，一是要建立政府引导、学术支持、民间参与的良性循环机制；二是把中国传统文化传承创新纳入国家文化发展战略，大力表彰和奖励优秀文化企业。

读书报：古籍数字化的著作权归属问题一直争议很大。对此，您怎么看？

尹小林：首先，古人写的内容是古人的著作权，这点无须讨论。第二，今人对古人的书进行整理以后的著作权归谁，有多少，这是一个学术问题。有一些应该没有著作权，比如《唐诗三百首》《古文观止》。还有一些是今人修改、修订过的古籍，今人有一定的著作权，但是不等同于他的创作。这种情况下著作权应该开放，国外有强制授权，且按照国家规定付费，但这种费用应该是非常低才有可行性。这属于公众资源，所以国家应该想办法鼓励民间和其他机构的力量参与，而不是在版权方面去无限纠缠。古书只要存在，你加不加标点它的文意都不变，所以古籍标点不宜用著作权来保护。

返回目录放大

缩小

全文复制