首页English
  • 时政
  • 国际
  • 时评
  • 理论
  • 文化
  • 科技
  • 教育
  • 经济
  • 生活
  • 法治
  • 军事
  • 卫生
  • 养生
  • 女人
  • 文娱
  • 电视
  • 图片
  • 游戏
  • 光明报系
  • 更多>>
  • 报 纸
    杂 志
    光明日报 2012年12月15日 星期六

    重筑巴别塔

    ——机器翻译的梦想与现实

    《 光明日报 》( 2012年12月15日   05 版)
    插图:赵和平

        技术的新进展使人们对机器翻译的关注与热望达到前所未有的高度。本报记者采访一线专家,为你全面解读关于机器翻译的那些事儿:

     

        宇宙翻译器:究竟要多久才能出现?

     

        美国有一部热播了40年的科幻电视剧《星际迷航》,剧中有一个非常“打眼”的工具——宇宙翻译器。星际舰队成员把它别在胸前,它能将所有的已知语言翻译为听者所懂的语言,对其余的未知语言也可通过对简短几句话的分析而进行转换。不过按照剧中的设定,这种宇宙翻译器要到22世纪才能发明。

     

        然而,微软公司前不久的一项技术展示却让人们觉得似乎不需要等那么久。

     

        10月底,微软首席研究官、微软研究院院长里克·雷斯特博士(见右图)在天津举办的“21世纪计算大会”上展示了微软最新的研究成果——同声传译软件,向世人描绘了一幅“跨越语言、沟通无碍”的美好蓝图。

     

        在这个10分钟左右的演示中,雷斯特一直用中等速度讲英文,他背后有两个大屏幕。现场观众看到其中一个屏幕把他讲的话以英文文本的形式展示出来,速度大概只比他的声音慢小半秒。而在另一个屏幕上,上半部把英文文本中的单词提取出来,并对应中文单词,而下半部则按照中文语序排列成中文句子。随后,最令人激动的时刻到来了,翻译完的中文句子以普通话的形式“说”了出来,声音听起来还与雷斯特本人挺像,速度基本上是他一说完英语,机器就“说”出仿真声音的中文翻译,听起来就像雷斯特在给自己做同声传译。

     

        在演示过程中,发言人的英语单词几乎全部被识别(识别率维持在80%-90%之间)。更奇妙的是,微软研究院的这一系统还可以模拟发言人的口音,在经过大约1个小时的机器磨合之后,就可以完成这一功能。也就是说,如果是英国人来使用,那么系统的汉语发音将带有“伦敦腔”。此外,雷斯特表示,微软的同声传译软件不仅能英译汉,还能翻译西班牙语等26种语言。虽然目前还没有走出实验室,未来却可能做成同声传译器。

     

        微软的技术展示让机器翻译成为近来的大热门,人们纷纷猜测,这是否意味着发展了几十年的机器翻译如今真正走到了前台?是否意味着我们距离“语言大同”的世界正式迈进了?

     

        机器翻译:梦想的巴别塔

     

        据《圣经·旧约·创世记》第11章记载,古代人类都说一种语言,交流思想非常方便,劳动效率也很高。于是他们就想建立一座高达天庭的通天塔,叫做巴别塔,来显示他们的丰功伟绩。建造巴别塔的壮举震惊了上帝。上帝心想:如果人类真的修成宏伟的通天塔,那以后还有什么事干不成呢?一定得想办法阻止他们。于是便施伎俩,让不同的人说不同的语言,使人们难于交流思想,无法协调工作,以此来惩罚异想天开的巴别塔建造者。结果,巴别塔没有建成,而语言的不同,却成为人类相互交往的极大障碍。

     

        千百年来,人类繁衍迁徙,上天下海,创举无数,然而,不同的语言始终像城墙一样妨碍着人们的交流。尽管如此,人群之间的互动却从来没有停止过,无论是基督使徒传播福音,还是唐玄奘赴西天取经,无论是国际合作,还是世界大战,都需要翻译。人们并没有忘记那个遥远的废墟,内心仍隐约感觉得到那座高耸入云的巴别塔的投影。直到世界互联的今天,不仅仍然需要翻译,翻译的主体也从古代的僧侣、纵横家、文士、商人等演变为现代的职业翻译人员;不仅更多的人在从事翻译,人们还期望造出智能机器,来自动翻译。

     

        机器翻译(Machine Translation,简称MT),顾名思义,就是指利用计算机等非人工的方法把一种自然语言转换成另一种自然语言的过程。

     

        现代机器翻译的鼻祖当数苏联人特洛扬斯基,他于1933年提出借助机器进行翻译的详细步骤,并设计出由一条传送带和一块台板依靠机械原理进行翻译工作的样机。1954年美国乔治敦(Georgeton)大学在IBM公司的协同下成功研制了第一个机译系统,一时间机器翻译蓬勃发展。

     

        然而,1966年的一份报告改变了一切。美国的语言自动处理咨询委员会(ALPAC)从1964年始,调查了机器翻译的速度、质量、花费以及对机器翻译的需求量等,于1966年公布了著名的ALPAC报告,认为机器翻译存在语义困境,并宣称“在近期或可以预见的未来,开发出实用的机器翻译系统是没有指望的”。在此报告的影响下,各类机器翻译项目锐减,世界范围内的机器翻译出现了空前的萧条。

     

        进入20世纪70年代中后期,随着计算机技术和语言学的发展以及社会的现实需求,机器翻译才开始复苏并日渐繁荣。1976年加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了TAUM-METEO系统。这个系统是机器翻译发展史上的一个里程碑,标志着机器翻译由复苏走向繁荣。

     

        中国从1956年开始进行机器翻译研究。在《科学发展纲要》、“六五”、“七五”、“八五”和“863计划”里,均把机器翻译列为重点发展项目。1959年中科院语言所和计算所共同研制的俄汉翻译系统进行了我国第一个机器翻译系统试验。20世纪80年代以后,我国逐渐开发出一些实用化的系统,1987年我国军事科学院的“KY-1”(科译1号)研制成功,这是一个英汉翻译系统,后来被中软公司开发为“译星”翻译软件,成为我国第一个商品化的翻译软件。1992年中科院计算所陈肇雄博士“IMT/EC863”英汉机译系统研制成功,获国家科技进步一等奖,并使用该软件制成“快译通-863”。

     

        20世纪90年代以来,随着互联网的飞速发展,全球化进程加快,人们对机器翻译的需求更加迫切。由于计算机和语言学的发展,除对传统的机器翻译系统进行开发改进外——如美国在乔治敦大学机器翻译系统基础上开发的大型机器翻译系统SYSTRAN——还出现了在线翻译(如Google的在线翻译系统)和辅助翻译(如德国开发的TRADOS)。值得一提的是,类似TRADOS的计算机辅助翻译(Computer Aided Translation,简称CAT)系统由于兼顾了翻译质量和效率优势,近来发展势头甚猛。有数据表明,目前国内外大型翻译公司几乎全部采用了辅助翻译软件。

     

        计算机与人:永远的纠结

     

        微软研究院的新展示引发了人们对机器翻译的热议,甚至有人惊呼译员都要失业了!这种关于计算机与人之间的竞争的纠结其实早已有之。早在1997年5月11日,国际象棋大师卡斯帕罗夫在和计算机“深蓝”对弈时宣布失败,就引发了人们对于计算机最终是否会取代人的激烈讨论。

     

        具体到翻译领域,一些人认为,翻译是作品的再创作,是一种艺术。语言可以翻译,但其所承载的文化却是不可译的。很多翻译连人都难以做到“信、达、雅”或者“对等”,何况机器呢?他们觉得,机器永远不能超越更不可能取代人,机器翻译只是“不可能的任务”。

     

        不过,也有一些人十分看好机器翻译的前景。著名的发明家、作家、未来学家雷·科兹威尔(Ray Kurzweil)曾在接受媒体采访时断言,到2029年时,机器就将达到人类的翻译水平。科兹威尔还在他的新书中预言,到2019年,语音翻译技术应用将变得非常普遍。然而他也反复强调即便是最先进的自动翻译技术也无法取代语言学习,因为即使是最高级的翻译技巧也无法真正实现伟大的文学作品之间的语言转换。”

     

        中国翻译协会副秘书长、本地化服务委员会秘书长崔启亮博士认为,人们对于机器翻译的争议,不少是对机器翻译的误解。有的人之所以不相信机器翻译,是因为他们的期望值过高,在不该使用机器翻译或者缺乏人工编辑的情况下,也想要机器能达到和人一样的水平。崔启亮说,没有必要神话机器翻译,机器翻译的质量通常比人工翻译的差,只适合用于某些特定的领域。文学翻译主要目的是传播文化,对译文要求高,以目前计算机对语义和语用的分析技术,机器翻译还无法应用到文学领域。但是在IT、通信、信息检索、专利、科技等领域,机器翻译的应用越来越多,而且发挥了非常重要的作用。

     

        崔启亮认为,由于应用领域不同,人们对翻译的时效和质量等要求也不尽相同。有些翻译需要专业人员精雕细琢,而有些翻译只是需要在短时间内获取有关信息的大体内容,并不要求精准的高质量——这时机器翻译就是最好的选择,成本低、耗时少、效率高。即使对于专业性较高的翻译,机器翻译同样也不是完全没有用处。对于高质量的翻译要求可以采取定制的机器翻译系统处理后再后期人工编辑的方法,这样既可以提高翻译效率,也能提高翻译质量。

     

        根据中国翻译协会与中国翻译行业发展战略研究院于本月6日联合发布的《中国语言服务业发展报告2012》显示,从1980年至2011年,我国语言服务企业总数从16家发展到37197家,年平均增长率达到了30.3%。截至2011年12月31日,我国语言服务业专职从业人员达到119万人,其中翻译人员占53.8%,约为64万人。2011年我国语言服务业的年产值为1576亿元人民币。《报告》预计我国语言服务业年产值在十二五期间将会保持年均15%的增速,到2015年将超过2600亿元人民币。《报告》指出,目前语言服务业的人才从数量、质量,到培养方向都远不能满足翻译市场的需求,缺口巨大。

     

        崔启亮认为,巨大的市场压力也迫使人们必须更多地采取机器翻译技术,提高翻译效率和质量,弥补翻译人手不够的问题。此外,虽然近些年机器翻译技术取得了巨大发展,但是ALPAC报告提到的语义困境仍然存在,即使市面上最好的机器翻译系统还是无法完全和人工翻译相比。因此,目前来看,没有必要恐惧机器翻译,机器翻译不会代替人工翻译,专职译者不会失业。

     

        崔启亮介绍说,从广义上讲,机器翻译可按照自动化程度分为自动翻译和辅助翻译。前者由于没有人工参与,难以直接得到很高质量的译文,但可以用于信息的快速浏览和获取。后者通过人机互助,可以得到高质量的译文用于出版、发布等信息传播目的。

     

        事实上,机器翻译技术的发展为翻译从业者带来了挑战和机遇。以前,做好翻译只需要懂外语,而现在还需要懂得如何利用技术手段,否则就容易在竞争中因为效率低、成本高而被淘汰。如果掌握了技术手段,就能从繁杂的翻译工作中解放出更多的精力,提高自身能力,努力做好机器无法完成的工作。

     

        巴别塔之咒:机器翻译的未来

     

        随着翻译技术的发展,人类在未来是否可以克服巴别塔之咒,真正实现对语言障碍的消除?机器翻译最终会发展到什么程度?

     

        北京大学信息管理系博士生导师、中国科学技术信息研究所研究员王惠临教授是机器翻译及自然语言理解与分析领域的知名专家,曾获中科院科技进步一等奖和国家科技进步一等奖等奖励。他介绍说,机器翻译研究本质上属于人工智能的一个研究领域。一般认为人工智能是利用计算的思想和方法来研究智能的学科,换言之,人工智能是利用计算机等人造物对人类智能行为的仿真研究。目前我们对人类智能的机理还不是很清楚,这便带来对这种行为仿真的困难。

     

        王教授说,人工智能有很多分支学科,各个学科既相互独立,又相互交叉,相互促进,密不可分,如机器翻译与语言学、语料库、自然语言理解、数据挖掘、机器学习、模式识别等等。过去几年,由于网络和信息技术的发展,这些学科都取得了重大进展,从而又进一步推动了机器翻译的进步。王教授介绍说,过去说机器翻译通常是指文本翻译,随着社会的发展和人们需求的增加,语音机器翻译系统将成为研究的热点。微软此次演示的同声传译技术,实际上就包含了计算机语音识别、自然语言理解、计算机翻译、个性化语音合成等核心技术。

     

        对于未来机器翻译究竟会发展到什么程度,王教授表示,作为横跨信息技术、语言学和数学的交叉学科,机器翻译还有赖于学科的共同发展。王教授介绍说,最开始的机器翻译主要是基于词典和简单的语言学规则,后来,尤其是近几年,由于信息技术的飞速发展,人们开始处理和利用互联网上的海量信息,出现了基于对大型语料库和实例库进行统计、分析和学习的机器翻译。语义和语用的问题是影响机器翻译质量的最大障碍,也是目前需要攻克的难关,研究人员正在采用规则和统计相结合的方法探讨这个问题。但即使是规则和统计方法本身也是需要再深入研究的问题,这还涉及到逻辑学、语言学、数学等学科,更重要的是要让计算机能够通过分析、学习已有的规则和实例创造出新的规则,而这又是自然语言理解和机器学习方面的问题了。

     

        业内人士认为,从某种程度上讲,机器翻译是人工智能的巅峰技术之一,因为语言是人类智能的高级表达,所以人工智能能走多远,机器翻译就能走多远。如果有一天完美的机器翻译实现了,那么完美的人工智能就产生了。 

     

        不过,在可以预见的未来,全自动高质量机器翻译还无法完全实现,但我们现在要做的,就是尽可能地让机器去做机器能做的事情。

     

        (本报记者 王水平)

     

    光明日报
    光明日报(1985.01 - 2009.12)
    中华读书报
    中华读书报(1998.01 - 2010.08)
    文摘报
    文摘报(1998.01 - 2010.08)
    出版社
    考试
    博览群书
    博览群书(1998.01-2009.08)
    书摘
    书摘(1998.01-2009.08)

    光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

    光明日报版权所有