计算机：会听会看能思考

作者： 《光明日报》（ 2012年11月20日 12版）

走在大街上，你能从车流声、叫卖声、音乐声中分辨出同伴的絮语；随意扫一眼，各家店铺的商品就一目了然……对于人类来说，识别图像、语音和文本信息，再据此决定自己的行为，并不是难事。可如果将这一任务交给计算机来完成呢？尽管现代计算机的运算速度早已令人类无法企及，但在处理这些可被人类直接感知和理解的信息方面，计算机的能力却远逊于人类，“也许连幼儿园的孩子都不如”，中国工程院院士郑南宁说。正因为如此，国家自然科学基金委员会设立了重大研究计划——“视听觉信息的认知计算”，希望借鉴认知机理和数学等相关最新研究成果，建立新的模型和方法，提高计算机对这类信息的理解能力和处理效率。

无人车“考验”计算机理解能力

在看到图像，听到语言时，人类的大脑如何从庞杂的信息中择取对自己有用的信息，理解这些信息的含义，并以此来主导自己的行为？这是一个至今仍让科学家不断追索的问题。然而，在大量不可预测的人类行为中，总有一些人类行为是符合逻辑的，这意味着，我们可以根据一些预先设定好的，大家共同遵守的规则，对这类行为进行事先的推理。比如，当你开车在路上遇到了红灯，或者看到了写着“停”字的交通标志牌，这个时候，对你接下来行为的推理，就是你会“停车”。

在“视听觉信息的认知计算”重大研究计划项目组的科研人员看来，按照交通规则驾驶车辆行驶，是适合计算机模拟的人类行为，因为这个过程符合逻辑推理，也比较容易验证模拟的结果——如果在红灯时停车，绿灯时前行，遇到行人时会避让，这就说明，对于视觉图像的获取是准确的，对这个图像所传达信息的理解是正确的。

正是基于这样的理解，在“视听觉信息的认知计算”这个重大研究计划中出现了无人驾驶汽车，随之诞生了“中国智能车未来挑战赛”。尽管人们极为关注每一辆无人驾驶汽车在比赛中的表现，但在重大研究计划中，无人驾驶汽车所扮演的角色并不仅仅是“中国智能车未来挑战赛”中的“选手”，它们有更重要的任务——验证图像与视觉信息的计算、语音与听觉信息的计算、脑—机接口这些方面的研究成果。

“大脑”控制无人车

在近日举办的第四届“中国智能车未来挑战赛”中，有14辆汽车前来参加比赛，每一辆无人驾驶汽车都装有摄像机，顶部有激光雷达，有些雷达还会不停的旋转，这是三维激光雷达，能够探测到360°范围内的物体。这些汽车的后备箱里装着一个大箱子，这是智能驾驶装置，由计算机系统组成。

“无人驾驶汽车就是一个四轮机器人，摄像头和激光雷达是‘眼睛’，智能驾驶装置相当于‘大脑’。”郑南宁说，在比赛中，如果遇到突发情况，无人驾驶汽车需要完全依靠自己的“大脑”来判断处理——摄像机和激光雷达会将拍摄到的环境数据信息传输到智能驾驶装置，对这些信息整合处理后，智能驾驶装置会对汽车目前所处的环境作出判断，并发出让汽车前进、加速、转弯、停止、绕行等指令。

让无人驾驶汽车能听、能看，能思考、能判断、能有所行动，这是一个信息科学、生命科学和数理科学相互交叉的领域。这需要研究人类的大脑如何在运动的状态中抓取图像信息，并进行分析，还需要研究构建新的计算机模型与计算方法，然后将这些模型转化为计算机语言。这些研究最终将提高计算机对非结构化视听觉感知信息的理解能力和海量异构信息的处理效率。

除了应用在无人驾驶汽车上，“视听觉信息的认知计算”重大研究计划的成果还有其他的用途，例如，基于有关视听觉信息融合的模式识别技术，出现了一种新的视频信息检索和网络敏感信息检索技术，它可以识别视频信息中的图像和语言，对视频信息搜索的查准率比同期国外最好水平高5%—10%。

计算机的视听觉本领不断提高

第四届“中国智能车未来挑战赛”在设置比赛起点时，就与上一届有所区别，悄无声息的红绿灯取代了发令枪。这实际上是对无人驾驶汽车图像识别能力的考验——当红灯变为绿灯时，每一辆无人驾驶汽车需要自动识别出交通灯的状态，并在绿灯亮起后8秒钟的时间内，向前行驶。

在第四届“中国智能车未来挑战赛”的赛场，还有模拟行人过马路、模拟施工道路，模拟雾天天气等“障碍”，在到达终点时，无人驾驶汽车要能识别路旁写着“停”字的交通标志，并在这里停止行驶。与上一届比赛相比，第四届“中国智能车未来挑战赛”还新增加了乡村公路赛区，同时增加了考核的难度。

“设置这些‘障碍’是希望研究在各种光照条件下，特别是在雨、雪、雾和黑夜等条件下，无人驾驶车辆的智能驾驶装置对道路交通标志和图文信息的实时检测、识别和理解技术。”郑南宁说，这些无人驾驶车辆可能还要面对褪色，变形污损的交通提示信息和目标文字信息，并对这些信息进行实时检测，识别和语义理解，“这需要有较高的检测，识别和理解能力。”

尽管增加了难度，但“视听觉信息的认知计算”重大研究计划专家组的成员对比赛结果却比较满意——来自军事交通学院的参赛车辆在3.38秒的时间内就识别出了绿灯信号，在乡村道路的行驶中，这辆汽车也独立跑完了全程，没有经过任何人工干预，来自西安交通大学的参赛车辆也表现不俗，在遇到模拟的行人时，能够及时识别并避让……“有些无人驾驶汽车表现非常好，这说明重大研究计划资助的相关研究有一定进展。”专家组成员之一，清华大学教授孙富春说。

　　链接：

“懂你”的计算机

美国纽约宾厄姆顿大学的计算机科学家尹立军致力于让计算机识别人类的表情，并据此调整自己的表现。目前尹立军在这一领域的研究大多以计算机视觉为中心。尹立军最为感兴趣的是让计算机直接“看到”用户，最好让计算机能懂得：当你看它时，你想让它干什么。

通过对100个实验对象的脸部3D扫描，尹立军的团队已经建立起了包含2500个面部表情的数字数据库。不过，目前数据库中的表情只有六种类别：愤怒、厌恶、恐惧、喜悦、悲伤和惊讶。尹立军希望自己研究的算法不仅可以在视觉上对这六种表情进行简单区分，还能识别它们之间的微妙变化。目前这个数据库是对非盈利研究组织免费开放的。

这一研究不仅能用于开发“懂你”的电脑，还有“懂你”的医疗设备——万一哪天被病痛折磨的说不出话来，计算机会读懂你的面部表情。另外，它也能用于帮助自闭儿童学会识别他人的表情。

计算机同声翻译

近日，微软首席研究官里克·拉希德在天津演示了一项新技术——对着新研发的语音识别、翻译和生成系统说了8句英语，系统随即模仿他的语调翻译成普通话，虽然翻译的普通话听起来有点“伦敦音”，但每句话的意思基本都得到明确表达。

微软方面介绍说，这一技术的工作流程大体是：系统通过接收语音，识别说话者的声调和语言，建立模型；将这些语言翻译转换；一次性用另一种语言输出，再由同样的人声表达。

据拉希德透露，计算机同传实现的关键在于微软研究院和多伦多大学的研究人员取得了一项突破——利用模拟人脑行为的“深度神经网络”技术，提升了语音识别器的辨识能力。拉希德说，通过这种人脑仿生技术，微软的语音识别错词率较以往降低了30%，以前每4到5个单词中便有1个错词，如今7到8个词中才错1个。错词率的降低被视作计算机同传技术中决定性的改变。

通过计算机实现原声同传，是微软在计算机语音识别技术上的重大进展。拉希德表示，希望再过几年，“能够打破人与人之间的语言障碍”。

(本报记者詹媛)

返回目录放大

缩小

全文复制下一篇