盲文是视力残疾人语言文字权益的核心,是提高盲人文化教育水平的关键,是盲人共享文化权益、教育权益平等的保障。推进盲文信息化、出版规范化,关乎我国1700多万视力残疾人文化素质的提高,关乎残疾人实现全面小康的进程。这是“十三五”物质生活脱贫后,“十四五”视力残疾人精神文化生活脱贫的攻坚战。
“十三五”期间,由教育部、国家语委、中国残联发布的《国家通用盲文方案》解决了近70年来一直悬而未决的盲文读音不规范问题,在保持盲文稳定、新旧衔接的前提下,实现了盲文由“猜”到“读”的转变,结束了盲文“猜调”的历史。国家通用盲文能够准确地记录国家通用语言的声韵调,使我国盲人有了相当于汉语拼音功能的文字工具,能够准确地使用国家通用语言。
国家通用盲文实现了读音规范化,分词连写问题成为国家通用盲文进一步规范化、信息化的绊脚石。在语料库建设过程中,我们发现了盲文分词连写问题的全貌,违反语法、语义逻辑、语用习惯的现象俯拾皆是,零散的单音节大量存在。同一个语义单元内分写,两个不同语义单元之间连写。盲人中间流传的“该连的没连、该分的没分”典型示例大量涌现。
目前的分词连写不仅没有实现提高盲文表义能力的初衷,还成为国家通用盲文规范化、信息化最后的瓶颈。研制面向盲校教学等多领域的系统完整、逻辑自洽、细则简明、可操作性高的分词连写规则已迫在眉睫。简明分词连写规则配以高精度的智能分词连写词库,以“规则+词库”的组合方式能兼顾盲文教学、出版及信息化、规范化的需求。
从汉字到盲文的翻译,核心难点在于分词和读音标注。盲文的分词连写规则涉及语义和语法信息,很难被计算机描述和处理,导致基于规则的方法性能不佳。针对当前汉盲翻译的问题,要引入最新的深度学习技术,基于机器学习模型自动学习盲文分词规则和多音字、轻声的辨析规则,实现高准确率的汉盲翻译。
针对盲文与汉字分别存储,盲文文档容易丢失对应的汉字信息这一问题,需要研究和制定国家通用盲文全息(盲文-拼音-汉字)存储标准,在字符串级别实现盲文-拼音-汉字的对照存储,使得盲人在阅读电子盲文文档时,可以随时根据需要获取盲文、汉字、拼音中的一种或多种精确对照的信息,并可进一步将其转换为语音等其他通道信息,实现多通道、多模态的全息阅读体验。
目前,盲文的校对环节还存在极大的提升空间。研究开发盲文翻译“一明对多盲”支持技术。对盲文校对环节明眼人和盲人一对一配合,盲人摸读盲文内容,明眼人对照原文进行检错和纠错进行彻底的技术革新,实现盲人基本独立无障碍完成校对流程,取代两人协作带来的工作流程复杂性、效率低、成本高的校对模式。
针对国家通用盲文出版应用研究问题,深度开发盲文编辑软件的纠错功能,支持样本训练、样本学习,对不同用户的手动纠错结果进行数据复用。在正确理解原文内容的基础上,实现校对流程的语音朗读、盲文点显器显示,能够使用计算机键盘快捷键在原文和盲文之间进行快速而直接的查阅和比对。引入在线联网纠错服务,实现自动对汉语文本中的分词连写、标调、标点、疑难词等多种问题进行纠错校对,同时在原文和盲文中提示错误位置并返回修改建议。实现快捷键在各纠错结果之间进行查看,对纠错内容进行手动二次纠错,使盲人可无障碍操作。
当前,移动电子设备上的盲文信息处理技术尚不完善,为缩小或消除“信息鸿沟”,需要开展移动电子设备盲文信息处理技术研究及应用。重点突破智能电子设备上的盲文信息化与交互无障碍问题。研究盲文与点位汉字编码互转的算法,为盲文的语音识别与转换奠定基础。研究盲人触摸手势采集、清洗、归一化、数据标注、数据训练、模型计算等关键技术。研究多重触控手势识别、盲文与手势关系匹配等构建方法。研究国家通用盲文与语音双向转换,实现盲文的语音识别和语音输出。
此外,开展数理化公式、电路图、几何图、音乐乐谱盲文信息处理关键技术研究也是加快推进盲文规范化信息化的重要路径。
(作者:钟经华,系《国家通用盲文方案》课题组组长、北京联合大学教授)