首页English
  • 时政
  • 国际
  • 时评
  • 理论
  • 文化
  • 科技
  • 教育
  • 经济
  • 生活
  • 法治
  • 军事
  • 卫生
  • 健康
  • 女人
  • 文娱
  • 电视
  • 图片
  • 科普
  • 光明报系
  • 更多>>
  • 报 纸
    杂 志
    光明日报 2018年10月21日 星期日

    信息时代需要文理兼通的语言学家

    作者:冯志伟 《光明日报》( 2018年10月21日 12版)

        光明图片/视觉中国

        今年在日本召开了语言资源与评测国际会议,谷歌公司在会议上设立了展台,测试参加会议的语言学家在工业界的地位,以便了解究竟哪些语言学知识是工业界真正需要的。从测试题目可以看出,自然语言处理的方法和技术以及计算机编程技术,都是工业界需要语言学家具备的知识,这样的测试反映了信息时代工业界对于语言学家的新要求。

        著名语音识别专家、美国工程院院士贾里尼克(FrederickJelinek,1932—2010)于1988年12月7日在自然语言处理评测讨论会上的发言中曾经说过这样的话:“每当一个语言学家离开我们的研究组,语音识别率就提高一个台阶。”根据一些参加这次会议的人回忆,当时贾里尼克的原话更为尖刻,他说:“每当我解雇一个语言学家,语音识别系统的性能就会得到一些改善。”贾里尼克对语言学家采取了嗤之以鼻的态度。

        贾里尼克的这些话在语言学界广为传播,使很多语言学家感到很茫然,觉得尽管信息时代对语言学的发展寄予厚望,但是自己在信息时代没有什么用处,有些灰溜溜的感觉。

        就在贾里尼克发表奚落语言学家的言论5年之后,1993年7月在日本神户召开了第四届机器翻译高层会议,英国著名学者哈钦斯在会议的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法。这种建立在大规模真实文本处理基础上的机器翻译,是机器翻译研究史上的一场革命,它会把自然语言处理推向一个崭新的阶段。哈钦斯在他的报告中并没有奚落语言学家,而是号召语言学家学习语料库的方法,更新自己的知识。

        把语料库方法引入到机器翻译中,改变了机器翻译研究者获取知识的手段,由于语料库是大规模的真实文本,人们就可以使用统计方法,从中获取更加完善的统计性的语言知识。但是这种统计方法常常出现数据稀疏的问题而导致机器翻译的错误,为了弥补统计方法的不足,在统计机器翻译系统中,导入短语结构和句法的知识,把基于规则的理性主义方法与基于语料库的经验主义方法结合起来,大大地提高了机器翻译的质量,加快了机器翻译系统的研制周期。

        在统计机器翻译的研究中,由于有语言学家参与语料库的加工,有效提高了语料库的质量,由于有语言学家在统计方法中导入了短语和句法规则,就克服了数据稀疏的缺陷。在参与统计机器翻译研制的过程中,不少语言学家努力学习统计机器翻译的理论和技术,不断进行更新知识的再学习,成为兼通语言学和统计方法的语言学家。

        语言学家更新知识之后,贾里尼克也改变了对于语言学家的成见,他在2004年发表了一次演讲,演讲的题目是“我的一些最好的朋友是语言学家”,他在演讲的最后说:“物理学家研究物理现象,语言学家研究语言现象。工程师要学会利用物理学家的真知灼见,而我们则要学会利用语言学家的真知灼见。”可见贾里尼克在16年前奚落的并不是所有的语言学家,而是那些故步自封并且不愿意更新知识的语言学家。

        2007年以来,采用深度学习的方法,以大规模的双语对齐的口语语料库作为语言知识的来源,从双语对齐的口语语料库中获取翻译知识,统计机器翻译又进一步发展成了神经机器翻译,口语神经机器翻译正确率已经超过了90%,针对日常口语的神经机器翻译已经可以与人的翻译媲美了。

        由于神经机器翻译的成功,也有人认为语言学知识对于自然语言处理已经没有什么用处了,甚至认为翻译人员就要失业了。我不赞同这样的看法。

        在神经机器翻译中,语言之间的翻译细节还是一个“黑箱”,尽管翻译的结果不错,但是我们对其中的语言处理机制和因果关系仍然是不清楚的,这需要我们在语言学上做出科学的解释。如果我们使用语言学的理论来研究神经机器翻译这个黑箱,也许就能够揭开这个黑箱的神秘面纱。

        为了达到这样的目的,语言学家必须更新知识,学习自然语言计算机形式分析的理论和方法,用数学的逻辑之美来揭示语言的结构之妙。知识就是力量,可计算的形式化的自然语言知识,必定会成为推动自然语言处理发展的巨大力量。

        自然语言处理就像一棵枝叶茂密的果树,果树上挂满了累累的果实,现在有些急功近利的人出于实用的需求,都在争相摘取那些低枝头的果实,那么,如果低枝头的果实都被摘完之后,谁去摘取那些高枝头上的果实呢?究竟怎样去摘取呢?由于自然语言处理的研究对象是语言,当然应当有形式化的语言学知识的支持,因此,要想摘取高枝头上的果实,除了依靠计算机技术之外,我们还需要依靠形式化的语言学知识去摘取。语言学家在自然语言处理中是大有可为的。我们要认真地学习语言学的知识,深入研究语言学中的各种规律和规则,同时还要与时俱进,进行更新知识的再学习,学习自然语言处理技术,学习现代数学知识,学习计算编程技术,成为文理兼通的新一代语言学家,才有可能摘取高枝头上的果实。

        (作者:冯志伟,系杭州师范大学特聘教授)

    光明日报
    中华读书报
    文摘报
    出版社
    考试
    博览群书
    书摘

    光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

    光明日报版权所有