首页English
  • 时政
  • 国际
  • 时评
  • 理论
  • 文化
  • 科技
  • 教育
  • 经济
  • 生活
  • 法治
  • 军事
  • 卫生
  • 健康
  • 女人
  • 文娱
  • 电视
  • 图片
  • 科普
  • 光明报系
  • 更多>>
  • 报 纸
    杂 志
    文摘报 2018年01月09日 星期二

    只言片语暴露你的秘密

    《 文摘报 》( 2018年01月09日   07 版)

        计量文体学分析是计算机科学本科课程里的常见内容,也是大学和出版社每天都在使用的剽窃监察软件的核心功能。另外,刑侦专家也利用罪犯在网上留下的文字确认他们的身份。

        这类分析最常见的用途,一是精确认定是谁写了某段文本,二是总结一个未知作者的文笔特征:他的年龄、性别、教育程度、母语为何等。

        有一个著名的例子:某绑匪写了一封勒索信,要求人质的家属把赎金放在“devil strip”上。警方找到华盛顿特区乔治城大学的语言学家罗杰·舒伊帮忙。舒伊刚好知道“devil strip”指的是人行道和车道之间的那片草地,这个说法极其罕见,罕见到只有俄亥俄州阿克伦市的居民才会用。舒伊问警方是否有嫌犯来自阿克伦,警方果然有这么个嫌犯,他后来也招供了。

        如果你不想被自己的文字出卖,光是避免方言或其他特殊词汇还是不够的。因为暴露你身份的线索往往是那些容易受到忽视的文本特征,比如哪些单词大写,标点后空几格,段落前要不要缩进等等。

        亚利桑那大学的计算机科学家陈炘钧提出了“笔纹”的概念。所谓笔纹就是语言的指纹,它是我们写作风格中的细微差异,包括词汇、句长和段落铺陈等的不同。2013年,宾州杜肯大学的帕特里克·尤奥拉用类似的方法指出J.K·罗琳是长篇小说《杜鹃的呼唤》的作者,使这项技术进入了大众视野。

        当有人想要采集你的语言指纹时,你又该如何脱身呢?那就是化妆成别人的语气和句式。不过一般人很难成功,比如在“devil strip”的案子里,那个勒索者故意拼错了一些单词,想以此伪装成一个文化程度不高的人。但这个计谋并未得逞,因为他反倒把一些难词拼对了。

        躲避计量文体分析的最佳手段是联合写作:一个人写下文本,再由另一个人编辑,两个或更多个作者的语言指纹就会相互抵销。

        (《周末》2017.12.28 麦伊德)

    光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

    光明日报版权所有