计量文体学分析是计算机科学本科课程里的常见内容,也是大学和出版社每天都在使用的剽窃监察软件的核心功能。另外,刑侦专家也利用罪犯在网上留下的文字确认他们的身份。
这类分析最常见的用途,一是精确认定是谁写了某段文本,二是总结一个未知作者的文笔特征:他的年龄、性别、教育程度、母语为何等。
有一个著名的例子:某绑匪写了一封勒索信,要求人质的家属把赎金放在“devil strip”上。警方找到华盛顿特区乔治城大学的语言学家罗杰·舒伊帮忙。舒伊刚好知道“devil strip”指的是人行道和车道之间的那片草地,这个说法极其罕见,罕见到只有俄亥俄州阿克伦市的居民才会用。舒伊问警方是否有嫌犯来自阿克伦,警方果然有这么个嫌犯,他后来也招供了。
如果你不想被自己的文字出卖,光是避免方言或其他特殊词汇还是不够的。因为暴露你身份的线索往往是那些容易受到忽视的文本特征,比如哪些单词大写,标点后空几格,段落前要不要缩进等等。
亚利桑那大学的计算机科学家陈炘钧提出了“笔纹”的概念。所谓笔纹就是语言的指纹,它是我们写作风格中的细微差异,包括词汇、句长和段落铺陈等的不同。2013年,宾州杜肯大学的帕特里克·尤奥拉用类似的方法指出J.K·罗琳是长篇小说《杜鹃的呼唤》的作者,使这项技术进入了大众视野。
当有人想要采集你的语言指纹时,你又该如何脱身呢?那就是化妆成别人的语气和句式。不过一般人很难成功,比如在“devil strip”的案子里,那个勒索者故意拼错了一些单词,想以此伪装成一个文化程度不高的人。但这个计谋并未得逞,因为他反倒把一些难词拼对了。
躲避计量文体分析的最佳手段是联合写作:一个人写下文本,再由另一个人编辑,两个或更多个作者的语言指纹就会相互抵销。
(《周末》2017.12.28 麦伊德)

上一版


缩小
全文复制