首页English
  • 时政
  • 国际
  • 时评
  • 理论
  • 文化
  • 科技
  • 教育
  • 经济
  • 生活
  • 法治
  • 军事
  • 卫生
  • 健康
  • 女人
  • 文娱
  • 电视
  • 图片
  • 科普
  • 光明报系
  • 更多>>
  • 报 纸
    杂 志
    文摘报 2024年07月31日 星期三

    破译甲骨文,AI准备好了吗

    《 文摘报 》( 2024年07月31日   08 版)

        7月5日,上海,2024世界人工智能大会。安阳师范学院团队宣布全球首个甲骨文多模态数据集正式开源。所谓多模态,是指包含一万片甲骨拓片、摹本,以及甲骨文单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。研究人员可基于该数据集开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法。

        人工智能的应用为甲骨文研究提供了新的思路。玄幻的殷商甲骨文与科幻的人工智能碰撞,这是属于中华文化独有的浪漫。

        当前的甲骨文释读工作处在一个瓶颈期,在甲骨学再继续发展的道路上,遇到了文字释读滞后的障碍,给甲骨学商史研究的再深入造成了困难。中国文字博物馆于2016年至2024年间开展了两次甲骨文释读优秀成果征集评选。对破译未释读甲骨文并经专家委员会鉴定通过的研究成果,单字奖励10万元。第一次,复旦大学蒋玉斌摘得一等奖,拿到了10万元奖励。第二次,复旦大学陈剑和吉林大学周忠兵同时获得一等奖。8年,3个字,这就是今天破译甲骨文的速度。

        为何破译如此之难?目前学界公认甲骨文有4500多个单字,其中已经破译近1500字,剩下的3000多字都是较难释读的,譬如没有对应的现代汉字,或是后世不再使用的地名、人名。甲骨文破译是从已知推理未知。1991年安阳殷墟花园庄东地H3坑的发掘是距今最后一次甲骨大发现。近三十年,新发现的甲骨增量太少,也使释读研究工作陷入巧妇难为无米之炊的境地。

        为此,很多学者将目光投向存量甲骨挖潜,希望从中压榨出有价值的新线索。现存甲骨多以碎片的形态存世。一是因为甲骨用于占卜,经过钻凿、火烧,沧海桑田,绳编断绝。二是早期甲骨收藏者在安阳小屯村收购甲骨,按片计价。村民便将挖出来的甲骨掰碎出售。所以后来就改为按甲骨上有多少字来计价收购。甲骨往往沿龟腹甲的天然纹裂而碎,其小者比人的指甲盖大不了多少。如果将甲骨碎片缀合起来,就能得到新的连贯的句子,学者加以句读,从而获得全新的解读。

        然而,甲骨整理繁难且极费人工。故宫博物院是世界第三大甲骨收藏单位,所藏2万多片殷墟甲骨,此前绝大多数从未整理出版。“故宫博物院藏古文字数字平台”的阶段性成果,也仅仅是公布了《故宫博物院藏殷墟甲骨文》“马衡卷”“谢伯殳卷”中的300余件甲骨藏品高清影像及其拓本。人工缀合甲骨碎片需要记忆大量的甲骨文信息,专业要求高、工作量大。一所高校能有几个研究甲骨文的人才,他们寒窗苦读,皓首穷经,才堪堪够格参与这项工作。古人考释文字如同射覆,意即如猜谜一般,靠直觉,没有数学公式推导那样的规律可循。有学者感慨,甲骨断痕的边缘并无一定的规律,而人对信息的敏感是有偏好的,此处敏感别处未必敏感,因而遗漏甚多。

        计算机没有直觉,只有数字和概率。与人不同,它可以找到没有规律的边缘信息进行匹配,在瞬息间就能输出缀合结果。

        目前的技术能够让选定的一片甲骨匹配另一片或者一批甲骨。如果要让计算机在大批量甲骨图像中一次找出可缀合的一对或多对甲骨,需要新的算法和更强大的算力。除了技术因素,还有一个问题困扰着研究者。全世界现存约16万片甲骨,分散在15个国家、181家馆藏机构。相比之下,经过整理可供研究且公开发布的甲骨拓片资料就很少了。而机构与机构之间、国家与国家之间的交流合作、资源共享并非易事。

        为此,安阳师院团队今年正式启动“全球甲骨数字回归计划”,争取国家、省、市三级政府部门和社会各界的支持,希望到国内外保存甲骨的馆藏机构进行数据采集,让散落各地的甲骨“回家”。

        (《文汇报》7.25 沈竹士)

    光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

    光明日报版权所有