【解码“新动力人群”】
只需动动嘴,说出几句指令,各种智能设备就会自动执行;会议结束,由录音实时转写的记录已整理成电子文档;出国旅行,小小的翻译机让中文与英法德等60多种语言实现即时互译……
随着人工智能应用场景与人们生活的融合越发紧密,不少昔日的科幻情节已渐成日常“标配”。从想象到现实的这“一大步”,离不开人工智能领域科研人员的不懈攻关。科大讯飞股份有限公司(以下简称“科大讯飞”)核心技术研发平台团队,就是其中代表。
2020年4月,第24届“中国青年五四奖章”名单出炉,隶属于核心技术研发平台的“认知智能国家重点实验室创新团队”赫然在列。
2020年12月,科大讯飞轮值总裁、团队带头人胡郁获评2020年“最美科技工作者”,他也是唯一一位来自企业的获奖者。
“20世纪90年代,人工智能语言在国内鲜被关注,我们是向西方学习。进入21世纪,我们慢慢掌握研究方法,接近甚至赶超了世界先进水平。”胡郁说,以前是摸着别人的石头过河,现在团队要摸着自己的石头过河。
1.从“能听会说”到“能理解会思考”
20余年前,从事人工智能研究是一件需要勇气的事,因为那意味着从零开始。
“当时我们不懂什么是人工智能,但我们觉得让机器说话一定是个发展方向,并且这个方向在国内还有很多技术空白。”胡郁说,“我们希望智能语音技术能在自己手中有所突破,并实现产学研结合。”
智能语音涉及很多学科的交叉,不仅是计算机科学,也需要语音学和语言学的专业支撑。
“只有弄懂了汉字的发音,每个汉字韵母和声母之间的关系、声调和语调之间的关系,才能在智能技术上有所突破。”团队成员、语音识别方向高级算法工程师胡尹说。
为此,科大讯飞董事长刘庆峰特地赶到北京,每天去中国社会科学院语言研究所知名语言学家吴宗济老先生的家里拜访,向他学习实验语音学相关的知识,这一学就是整整三个多月。
就这样一步一个脚印,团队逐渐在“语音江湖”闯出了一番名堂——2011年,科大讯飞承建我国首个语音及语言信息处理国家工程实验室;2015年,语音识别技术首次超过人类速记员;2018年,人工智能翻译系统全球首次通过翻译专业资格(水平)考试;录音笔、输入法等内嵌智能语音技术的产品为人们生活带来极大便捷……
但团队的“野心”并不止于智能语音技术。“光让机器听懂人讲话是不够的,还要让它能理解、会思考。”胡郁说。
2020年12月,中国驻特立尼达和多巴哥大使馆发布了一则视频短片,短片中的主播用中、英、法、西四种语言向网友致以新年祝福。其实,这位主播并非真人,而是团队研发出的人工智能虚拟主播。这位主播精通13国语言,可自由调整坐姿、站姿、造型、情绪,还能与观众互动交流、智能问答。
“我们的目标,是要实现从智能语音技术到感知智能技术、认知智能技术的齐头并进。”胡郁解释道,要像这位虚拟主播一样,让机器拥有听觉、视觉的感知智能,能够眼观六路耳听八方,同时,让机器可以像人类一样理解思考,拥有逻辑推理等认知能力。
2017年,我国首个认知智能国家重点实验室由科大讯飞承建。“产学研相结合这条路,我们团队会一直走下去,希望为中国人工智能生态环境的构筑贡献一份力量。”胡郁说。
2.整个团队都有点“完美强迫症”
在科学研究上,没有平坦的大道,特别是掌握核心技术,绝非一件易事。
20余年前,团队初创,得到了和当时国内一家大型技术公司合作的机会。
“但团队写的软件第一次在该公司测试时,就崩溃、宕机了。”胡郁回忆,对方很恼火,甚至撂下“狠话”:“你们不能把我们当做测试部门!再这样,我们就不买你们的软件了!”
“那是我们团队第一个大单子,所以大家都很看重。”胡郁记得很清楚,“当时团队上上下下几十人,包括现在已是公司领导层的很多人,连续三天三夜没合眼,吃住都在办公室。”就这样,团队终于排除了软件宕机问题,通过了对方的测试。
“燃烧最亮的火把,要么率先燎原,要么最先熄灭。”这句话被刻在讯飞的办公大厦上。团队成员始终用这句话激励自己,在智能语音和人工智能的科研道路上一路高歌。
2019年,团队研发的新一代输入法上线。新的语音识别框架将以往的两套中、英文系统合成一套,实现了中英文免切换语音输入。为了能够在既定日期准时发布,胡尹和团队其他人不断寻找突破口。
“团队小伙伴每天都在加班加点,不断和语音学家进行研讨,寻求最优方案,就这样整整奋斗了3个多月,最终新的输入法按时上线了。”胡尹说。
“整个团队都很拼,有点‘强迫症’,一定要做完美了才罢休。”团队成员、训练平台方向高级工程师姚文军说。
有一个周末,姚文军本来在和女友吃火锅,接到同事电话:“技术可能有些问题,不过等你周一上班再解决吧。”放下电话,姚文军却怎么也吃不下了,和女友作了解释,就直奔办公室。
“本以为只有自己一个人,可到了才发现,已经有两个同事在埋头苦干了。”姚文军说,要想解决核心技术问题,一定要有牺牲精神和奉献精神,这是团队成员的共识。
3.“让人工智能像水和电一样进入千家万户”
孙磊是2020年毕业后加入团队的,但在2015年前,他对人工智能的概念都不甚明了。
“人工智能究竟会怎样改变人们的生活?”抱着这样的好奇,孙磊进入了中国科学技术大学语音及语言信息处理国家工程实验室,攻读博士学位,也正是在此期间,他不断见证团队研发的技术从实验室走向市场,转化为具体场景的应用。
2020年年初,新冠肺炎疫情暴发,人们的工作和生活方式纷纷从线下转到线上。“疫情期间停课不停学,在我们的平台上,光是线上口语评测一项,流量就翻了近10倍。”团队成员、云计算研究院人工智能云方向高级工程师刘坤说。
为了应对突然的流量和新增的需求,团队成员一刻也不敢放松。“有的同事因疫情滞留农村老家,网络信号不好,他就每天裹着厚衣服、拿着小板凳,爬到平房房顶上办公。”刘坤说,团队接续奋战,保证人们的线上会议等办公需求,值得一提的是,团队还紧急优化了武汉方言的识别技术,能让援鄂医生顺利诊疗。
“板凳要坐十年冷。”在团队成员、教育认知方向高级研究员沙晶看来,虽然身处技术迭代很快的人工智能行业,但仍然要沉下心来做科研,开发真正能为人们提供便利的产品。
5年前,团队开始研究智能作文评分技术。“当时国内这项技术是空白的。”沙晶说,随着一遍又一遍的改进算法、累积数据,如今机器人已经能达到人工批阅作文的水平,并常态化应用于国内作文考试中,极大提高了教学效率。
“只有足够高的目标和追求,才能实现最好的技术和科研。”胡郁认为,现在我国有机会在世界舞台同最先进的国家竞争,我们的目标是要让人工智能核心技术保持全球领先,“让人工智能像水和电一样进入千家万户”。
■链接
团队科研成就:
①成为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商。
②被任命为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。
③建立首批人工智能开放创新平台,终端用户数累计约30亿。
(本报记者 李睿宸)