读书报:古籍数字化目前的现状是什么样的?存在哪些问题?
尹小林:应该说现在的古籍数据库规模很大,水平很高。常用古籍几乎都已数字化,次常用古籍也数字化了不少,而且质量较精。问题主要有两点:一是图文对照和全文检索两种模式融合问题。图文对照数据库以《四库全书》为代表,主要面向专业研究人员,一般为繁体无标点,可以逐字检索;全文检索数据库以《国学宝典》为代表,一般为简体,经分段标点整理,既可为专业人员服务,也可供非专业人员使用。事实上,标点整理与使用推广关系十分密切,经标点整理,古籍文献的使用效率可提高好几倍。第二,字形问题。不同年代的文献,比如说汉代和唐代、明代和清代,同一个字的写法往往不同。数字化时,如果保留差异,就会导致于文字的混乱;如果统一字形,涉及到一个如何规范的问题。
目前分歧最大的是字形问题,俗体字保不保留?字形规不规范?现在,港台、日本、韩国都在使用中文汉字,但各国和地区字形都有差异。中文古籍数字化主要困难之一就是汉字字形太复杂了。阅读现代作品,认识三五千字就可以了,而搞古籍整理必须掌握一两万字,如果加上异体字,十万字也不止。异体字在古籍整理中非常难,专业性极强。
读书报:在前不久举行的第五届中国古籍数字化国际学术研讨会上,柴剑虹先生谈到敦煌文献电子化时也把字形问题形象地比喻成“拦路虎”。詹福瑞指出目前古籍数字化尚未形成严格规范的国家标准。这两者之间是否存在关联?
尹小林:国家标准除了字形以外还有其他的标准,比如说体例、版本等等。但是,字形肯定是最重要的,字形统一不了其他什么都别提了。
读书报:有学者认为“合作创新模式”是古籍数字化发展的方向,与此相关,还强调国际间的实质性合作。
尹小林:所谓国际间合作指两个方面:一是计算机层面,我们现在用的Windows是美国人开发的,其字库的制定和发布的权利是在多个国家组成的国际标准化委员会,中国没有权利决定哪个字规范,哪个字不规范。国际合作就是指中国要参与进去。二是在文献层面,比如敦煌的卷子在英国和法国,我们很难自由使用,或者只让看一部分,或者让看的是造假了的;又比如,《永乐大典》分散在很多国家,只有凑齐了才能达到最佳效果。
读书报:您指出古籍数字化领域目前的基础工作做得不够,具体指哪些?
尹小林:我们在古籍数字化方面只是拼命往上做,底层没修好,上面修了都要重来的。所谓底层就是基础数据,这主要指国学的那些原典。你看西安碑林把那些重要的经典都刻到石头上,类似的道理,我们也应该把重要的经典固化,国家请专家审定,比如说《红楼梦》《西游记》《周易》《孟子》《史记》,有个国家标准直接用就行了。没有固化,导致大家都出《红楼梦》,都出《史记》,每个出版社出的版本都不一样,反正只要差错率在万分之一里面都没问题。还有一种情况是我直接拿别人的用,你出什么我就出什么。我说的基础数据就是文史研究者绕不开的,《二十四史》《资治通鉴》、四大名著等等,应该有一个公认的通行版本,然后在此基础上你可以根据自身需要再去加工,如加工学术本,但是公用的像《唐诗三百首》这些早就可以定型了,即便有问题请专家鉴定即可。
读书报:在当前这个大数据时代,您认为中国古籍数字化该如何探索出一条可持续发展的创新之路?
尹小林:中国古籍数字化经过三十多年的发展建设,积累了许多经验和成果,有关部门稍加引导,在数据规模、加工质量、成果形态等方面都将取得突破。当务之急,一是要建立政府引导、学术支持、民间参与的良性循环机制;二是把中国传统文化传承创新纳入国家文化发展战略,大力表彰和奖励优秀文化企业。
读书报:古籍数字化的著作权归属问题一直争议很大。对此,您怎么看?
尹小林:首先,古人写的内容是古人的著作权,这点无须讨论。第二,今人对古人的书进行整理以后的著作权归谁,有多少,这是一个学术问题。有一些应该没有著作权,比如《唐诗三百首》《古文观止》。还有一些是今人修改、修订过的古籍,今人有一定的著作权,但是不等同于他的创作。这种情况下著作权应该开放,国外有强制授权,且按照国家规定付费,但这种费用应该是非常低才有可行性。这属于公众资源,所以国家应该想办法鼓励民间和其他机构的力量参与,而不是在版权方面去无限纠缠。古书只要存在,你加不加标点它的文意都不变,所以古籍标点不宜用著作权来保护。