在相当数量的读者看来,自然语言处理尚是存在于实验室的产物,但在物联网大潮来临之时,自然语言处理也许会在瞬间变成大热门技术,从而给计算机图书市场创造新的机会。
一句话说清自然语言处理
要说清自然语言处理,还要先从自然语言谈起。自然语言是人脑与人脑的交际工具,与之相对应的是逻辑语言,也就是人脑与电脑的交际工具。思维和认知是知识的逻辑运算,任何计算化的自然语言分析都主要依赖逻辑语言对这种分析的表述。于是,也就有了编程语言等为计算机而设的“人造”语言。
长期以来,为计算机而设的“人造”语言成为一种先进文化的代表,掌握各类编程语言成入进入高端计算技术的必经之路。但这条路也有它先天的缺陷,这就是掌握这些编程语言并非易事。另一方面,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,因而对自然语言处理的需求也呈直线上升。在大量需求面前,自然语言处理的概念也变得极为清晰,用一句话概括,就是通过自然语言处理,能够让计算机像人一样理解人类世界中的自然语言。
这句话虽然简洁,但一般读者还是会感到费解。请想象一下iphone4s中Siri吧,人们通过语言就可以直接指挥手机完成拍照等一系列复杂的活动。而接下来在车联网中,由于驾驭人必须将视觉完全投注于驾驭活动中,语音就成了最好的人机接口。在不少厂商已经公布的产品和解决方案中,驾驭者只需应用语音,就可以完成诸如避开拥堵路段、拼车、选择自己喜爱的音乐播放等复杂活动。权威机构给出的数据表明,至今已有900万用户参与了车联网,而且增长速度不断在翻新。更可预见的是,基于语音的车联网设备,极可能在很短的时间内成为新车的预装标配。
再从物联网发展的角度分析,车联网不过是物联网爆发的前哨战,随着更多智能设备的联网,自然语言处理技术的应用会达到一个新的高峰。
自然语言处理类图书的致命弱点
综合分析当前自然语言处理(NLP)类图书,我们会发现相应于自然语言处理的应用高潮,同类图书存在相当大的问题。
从市场上来看,自然语言处理类图书的数量并不算少,但偏于学术类图书,同时,翻译类图书占据着主要的市场份额。
综合来看,类似于《Python自然语言处理》《自然语言生成系统的建造》《自然语言标注:用于机器学习》《多语自然语言处理:从原理到实践》都取得了不俗的市场业绩。从技术角度分析,自然语言最基本的层面是语音层面,表现在自然语言处理就是语音识别,但特定于汉语,与自然语言处理相关还有一些特定的应用,比如汉语的拼音文字转换。说白了,就是汉语拼音输入法。由于汉语中存在众多的多音字词,以及普通话中复杂的四声系统,将汉语拼音转化为正确的汉语词语片段,即使对使用这种语言的人来说也是一件不容易的事情。此外,在词语层面的应用,还会涉及到对一个句子(或词组片段)的正确理解。再到篇章层次,汉语本身对此都有一些特定的难点需要解决。而这些问题,显然不在国外自然语言处理大师的研究范围之列。
这样,表现在自然语言处理类图书市场上,就需要一些优秀的国产化作品,去引导或者直接给出一些解决方案。但反观国产自然语言处理类图书,我们就会发现其中存在一个巨大的空白点。
以国内较受好评的《中文信息处理丛书:统计自然语言处理》为例,作者宗成庆先生自身水平很高,也确实是付出了较大的努力,作品全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,但在需要更进一步开发自然语言处理应用的开发者看来,给出的评价却只是:此书将各方面内容都覆盖到了,但书写得很枯燥,和经典书籍还是不能比。甚至读者在浏览过国内自然语言处理类书籍后,认为国内根本没有太好的自然语言处理类图书。
我们实在无意苛责《中文信息处理丛书:统计自然语言处理》一书,只是想说,目前国内对于自然语言处理图书的认识,还只是将它设置在实验室层次,仅概括地介绍它的浅层内容。而随着车联网等技术的发展,自然语言处理类图书的写作,实有必要上升到一个新的应用层次。毕竟,它的应用高潮,马上就要到来了。