【引子】
这些年,多部大型电子古籍资料库的面世,让“古籍数字化”工作看上去杂花生树,一派春光烂漫。可是,当我们深入到繁华表象的背后,却是“别有一番滋味在心头”。我们选取清华大学智能图文信息处理研究室和北京国学时代文化传播有限公司,作为“解剖麻雀”的样本;在此基础上,记者与国家古籍保护中心专家委员会委员、中国社科院研究员杨成凯先生展开对话,从宏观视角对古籍数字化相关问题进行观照。
期待通过这组报道,引发社会各界对古籍数字化研发和生产的重视。
【故事】
(一)
清华大学智能图文信息处理研究室——“谁为我们的技术买单?”
眼下,清华大学智能图文信息处理研究室的古籍识别技术研究,几乎处于停滞状态。研究室主任丁晓青教授为此焦虑不安。
汉文字和少数民族文字识别技术研究,是丁晓青团队20年来专注推进的一项工作。作为文字识别技术的具体化,古籍识别系统也在此间渐具规模。
丁晓青告诉记者:“对系统来说,识别和理解古籍要比现代印刷品复杂得多。而更有挑战性的是,处理每部古籍时,系统都要面对崭新的情况,比如,这部古籍有无钤印、句读、栏线,单行标注还是双行标注,写本还是刻本,普通的文本还是家谱、碑拓……此外,古籍中还有大量形态各异的异体字。情况异常复杂。要提高古籍识别系统准确性,必须让它尽可能多地接触古籍,提取出新的字样来扩充字符集;同时,在识别形态各异的版式过程中,增强其版面分析判断能力。唯有如此,别无他途。”
然而,接下来的问题就是:这些耗资甚巨的古籍训练样本从何而来?也正是这点,让古籍识别技术的推进举步维艰。
“现在,社会上对古籍数字化产品需求量本就不多,生产相关产品的企业更加稀少,几乎没有企业找我们合作,单靠市场这条路根本行不通。”丁晓青对记者说。
更让她无法释怀的是,“近10年间,古籍识别技术研究项目从国家一些重大规划中渐渐淡出了。现在,识别技术研究无法得到国家政策和资金上的支持。系统无法接触更多的古籍训练样本,要想提高识别能力根本无从谈起。”彭良瑞副研究员递给记者一份研究报告说:“与之形成对照的是,欧美对拉丁体系文字的古籍数字化研究却方兴未艾。近年来,欧盟26家图书馆联合推出IMPACT(Improving Access to Text)项目,旨在通过OCR(光学字符识别)等技术的研究,来推动15-19世纪英文等拉丁体系文字的古籍全文数字化工程。”
现在,研究室里只有寥寥一两个研究人员还在从事这项研究;而由于古籍识别系统日常使用太少,研究室入口处的公共演示平台也根本没有装入这套系统。
这种局面,让丁晓青深感痛惜。在她看来,对古籍进行数字化,就是用技术手段将传统文化“链接”进当代,不论对于古籍的保存还是中华文化的传扬,都是功莫大焉。她也深信,要真正实现古籍数字化,“核心就是要解决古籍的识别技术问题”。在她眼中,古籍识别技术的优势显而易见:古籍收藏单位提供的图像浏览方式不能进行全文检索;而人工录入校对古籍电子文本的成本大约是每页8元-10元,录入一册古籍的全文则需要几百元至数千元不等。
“现在我们只能靠一份责任感来艰难、缓慢地推进这项工作。”整个采访过程中,丁晓青反复追问一个问题:“谁为我们的技术买单?”
(二)
北京国学时代文化传播有限公司——“最致命的是易于复制”
北京国学时代文化传播有限公司董事长尹小林从书橱中搬下一册影印本《文苑英华》,打开,桌案顿显局促。
随着他的讲述,一个耗时耗力的古籍数字化流程展现在记者面前。“前期先要选定古籍版本,比如《文苑英华》就有四库本、明刻本等,要尽量搜罗内容完整的版本。之后,对文字进行分段、标点,录入计算机。随后,专业人员要对打印出来的文本进行校对,并由专家审订,继而由操作员在电脑上修正。这些工作都做完后,还要对数据进行标引和入库。最后才是做成软件。”尹小林说,每道工序都必不可少,像《文苑英华》6册、1000卷这样的体量,全部处理完要持续1年以上。
而对于公司全部工作量来说,这只能算沧海一粟。尹小林告诉记者,他们最大的一套数字化产品《国学宝典》现已收书6000种,最迟明年就能实现1万种目标,届时收录的所有古籍加起来将达到20亿字,比最大古籍丛书《四库全书》的体量还多2倍。而每册古籍都要重复同样的工序,整个过程繁复、枯燥而漫长。
即使产品成形后,时间和人力的投入仍绵绵不绝。尹小林抱来一摞《古籍整理研究学刊》《古籍点校疑误记录》《中国典籍与文化》说,他每天做的工作就是大量掌握最新研究成果,随时通查他们产品中的所有古籍,并及时进行修正和完善。类似工作从未间断。
非但如此。尹小林团队正凭一力推进,使自己的古籍数字化产品臻于完美:研发出数据格式和数据比对技术等独有核心技术,请各领域专家担纲古籍编选……
然而,艰苦的努力并未得到对等的回报。自产品面世那刻起,尹小林就再也无力掌控局面。
“谁来买?”这一点,尹小林作不得主。古籍数字化产品受众面很窄,其需求量可想而知。而与微弱的需求形成强烈反差的是,要真正做好古籍数字化工作,必须投入高昂的人力、财力和时间成本。如今尹小林公司已购买了几万册纸质古籍来充实资料库,“且不要说明刻本、清刻本了,即便是现代影印本一册也要几百、上千元钱,这几年光是购买古籍就投入了上千万元。而对一部纸质古籍进行数字化,其成本将达到其定价的几十倍。”利润微薄,缺少外部投资,也让试图涉足这一领域的企业望而却步。现在,古籍数字化市场上,只有少数几家企业在苦撑局面。
“最致命的,是数字化产品很容易复制。”尹小林告诉记者,现在《国学备览》光盘已经卖掉10多万片,但是使用的人肯定远不止这些。现在,尹小林能想出来的应对之道都被自己否定了——加密?成本太高,“加密一张盘就要多花几毛钱,相当于从原本微薄的利润里扣掉一半”;诉诸法律?取证太难,“假如说《国学备览》已经在网上下载100万次了,要怎么证明呢?必须找到盗版的服务器和日志,这对我们而言无异于天方夜谭。100万次?我们甚至连一次都证明不了。”
不足掌心大小的光盘几乎没有重量,但它却沉沉地压在尹小林心头。尹小林对记者说:“和卖好这些产品比起来,做好它们似乎还容易些。”
【对话】
“每个项目就只是一个孤立的实验”
——对话国家古籍保护中心专家委员会委员、中国社科院研究员杨成凯
“古籍数字化遇到的第一个重要问题是怎样处理异体字”
记者:与普通印刷品数字化相比,对古籍进行数字化处理会遇到什么特殊问题?
杨成凯:古籍数字化遇到的第一个重要问题是怎样处理异体字。今天所谓的一个字,古书中往往有几个不同的写法,有所谓繁体字、古体字、通假字等,例如古书有时把“嫦娥”写成“常娥”,“然”写成“肰”,“法”写成“灋”,这里姑且统称为异体字。把几个异体字归为同一个字,可以叫做给字归“位”。
数字化的古籍资料库最大的优势是便于处理文字内容。在几千万乃至几亿汉字的古书资料中查找一个词语,人工翻阅很难胜任,可是数字化以后编成资料库交给电脑处理,检索结果立等可取。然而这时异体字的问题会跳出来作怪,我们必需把可以归并的异体字关联在一起,当作一个字位,否则一个字有几个异体就要检索几次,使用者不仅不胜其烦,而且还会产生检索结果的遗漏。这时哪些字形可以关联,哪些字形不能关联,就是颇费踌躇的事情。我曾建议异体字的关联应该给使用者一定的自由,以便按自己的需要对系统既有的关联方式作一些移易。
记者:这个问题确实很复杂。有没有一些现成的做法可供我们参考?
杨成凯:就以大型古籍资料库“文渊阁四库全书全文检索系统”为例吧。系统有繁简字关联、古今字关联、通假字关联等功能,如果开启繁简字关联功能,那么要它检索一个字时,无论给它的是简体还是繁体,它都会连繁带简一起检索出来,无须我们简体查一次,繁体查一次,十分方便。然而这个功能还不完善,有时给它繁体它给出的检索结果要多于简体,这时若以简体检索结果为据就将漏去一些资料。
异体字的归并和关联情况确实十分复杂,我们平常说的《花草粹编》这部书,文渊阁本有时写作“粹”,有时写作“稡”,“四库检索系统”中互不关联,如果我们从书名“花草粹编”查寻,将找不到这部书。
“投入跟产出不相应,影响建设古籍数字资料库热情”
记者:除了以上谈到的古籍数字化系统本身要解决的问题外,就我们采访的情况来看,不论是古籍数字化的研究机构还是生产企业也都面临很多现实问题,阻碍了它们内部的良性循环,有些问题甚至是致命的……
杨成凯:古籍数字化要解决的一个重要问题是版权的问题。书籍的数字化都有版权问题,但是对古籍而言,版权的归属和使用有特殊的困难。首先,要想编制多功能的数字化资料库,要对古书进行标点整理,经过标点整理的文本就涉及版权的确定。一部古书,张三出版了一个整理本,李四再出版整理本,二者有没有版权关系,这就是难以处理的问题。这个问题应该引起各方面的注意,认真研究。
其次,纸本古籍盗版较难,责任也比较容易认定。而数字化之后,资料库中的数据容易被窃取,甚至会被直接盗版,发现侵权和认定责任颇有困难。投资开发古籍数字资料库,就不能不考虑这个问题。“文渊阁四库全书全文检索系统”和“四部丛刊全文检索系统”之后,这样的大规模古籍资料库没有赓续面世,显然与此有关。
还有就是投入跟产出不相应,在很大程度上影响建设大型古籍数字资料库的热情。作为一个产业,怎样争取更多的文化投资,获得更多的回报,使古籍数字化兴旺地发展起来,这是当前需要考虑的问题。
记者:如果从整个社会角度来看古籍数字化,可以说,目前古籍数字化的研究机构和生产企业大都是各起炉灶,并处于自生自灭的状态。关于这一点您怎么看?
杨成凯:现在社会各界都有使用古籍数字资料库的需要,许多单位也在做古籍数字化工作。但是,正像你所说,古籍数字化的工作基本上是单干,各筹资金,各立项目,缺乏信息、技术、成果的共享,也就难以形成一个大规模的系统工程。没有大体统一的技术平台和设计思想,每个项目就只是一个孤立的实验,而不能相互结合构成一个可持续发展的完整的系统。
特别是,在各方面对古籍数字化的人力物力投入还很有限的情况下,怎样整合各方面的力量,用小作坊组成大生产,就显得尤为重要。因此,如果说以前所做的工作是各出机杼,通过实践做了许多探索,那么现在是不是在总结经验的基础上,要更多地关注指导思想和理论模型的研究,解决我们所遇到的困难。特别是,理论的研究、技术的发展和实用的需要等各个方面需要很好地结合起来。
“行其所当行,止于其所不得不止”
记者:一般来说,对古籍进行数字化处理之后,其准确度、可靠性往往会有所降低,这让使用者特别是专业研究人员用起来很不放心。这个问题怎么解决?
杨成凯:的确。古籍数字资料库让人不放心的地方主要是担心资料库的文本不可靠,文字讹误、底本不佳。底本的问题容易解决,现在已经出版了大量版本很好的古籍,只要编制资料库时注意择优选用就是了。消除文字讹误则需要校对人员加强责任心。清乾隆时排印的《聚珍版丛书》,每页都有校对人署名,出现错字罚俸。我也听先人说过,民国时商务印书馆出版了一部字典,谁发现一个错字酬大洋一元,我们家乡果真有人得过一块大洋。我们看上世纪五六十年代出版的书就很少看到错字,有一部三十多万字的书,我曾通校一遍,竟没有发现一个错字,令人赞叹不已。可见如果说我们现在看到的古籍数字资料库多有错字,竟至不堪使用,那肯定是校对环节没有下工夫,工作不到家。
记者:除了加强校对环节和责任心外,要提高古籍数字化的质量,传统的古籍版本学、目录学、校勘学等专业支撑也必不可少吧……
杨成凯:古籍数字化的工作,首先要确定数字化的对象是哪些古籍,每一部古籍采用哪一个版本。选哪些书要看打算编制怎样的古籍资料库,可以像《四库全书》那样泛及经史子集各个门类,也可以像《全唐诗》《十三经》《二十五史》那样限定为一部书或一类书。选哪个版本要调查每部书的版本情况,按照数字化的要求作出抉择。
像当年编纂《续修四库全书》时,就是邀请各方面的学者选定书目,确定版本,工作相当认真。尽管如此,如今看来,还是存在一些问题,可见确定书目和确定版本不是简单的事情,即使行家通人也有失手的时候。考虑到编制古籍资料库需要相当的投入,起步阶段更需要慎重,书目和版本都有必要反复“磨勘”,听取更多的意见。
记者:而另一方面,古籍数字化的优势也是不言而喻的。那么,我们该怎么看待古籍数字化工作?
杨成凯:大型古籍数字资料库的建立,对学术研究和社会方方面面利用传统文化资源有不可估量的裨益,许多依靠人力颇感棘手的工作,在电脑可以悠游为之。在我看来,大型计算机软件难免出现瑕疵,古籍数字资料库设计的程序也会出现问题,像刚才说到的异体字关联的问题就是例子。遇到这种情况可以随时修正,何况古籍数字资料库目前使用的还是较简单的计算机程序,发现错误和改正错误都比较容易。既然事实已经证明它是学术研究的有力助手,那么只要慎重将事,还是让数字化行其所当行,止于其所不得不止吧。
(本报记者 贾 宇)