只言片语暴露你的秘密

《文摘报》（ 2018年01月09日 07 版）

计量文体学分析是计算机科学本科课程里的常见内容，也是大学和出版社每天都在使用的剽窃监察软件的核心功能。另外，刑侦专家也利用罪犯在网上留下的文字确认他们的身份。

这类分析最常见的用途，一是精确认定是谁写了某段文本，二是总结一个未知作者的文笔特征：他的年龄、性别、教育程度、母语为何等。

有一个著名的例子：某绑匪写了一封勒索信，要求人质的家属把赎金放在“devil strip”上。警方找到华盛顿特区乔治城大学的语言学家罗杰·舒伊帮忙。舒伊刚好知道“devil strip”指的是人行道和车道之间的那片草地，这个说法极其罕见，罕见到只有俄亥俄州阿克伦市的居民才会用。舒伊问警方是否有嫌犯来自阿克伦，警方果然有这么个嫌犯，他后来也招供了。

如果你不想被自己的文字出卖，光是避免方言或其他特殊词汇还是不够的。因为暴露你身份的线索往往是那些容易受到忽视的文本特征，比如哪些单词大写，标点后空几格，段落前要不要缩进等等。

亚利桑那大学的计算机科学家陈炘钧提出了“笔纹”的概念。所谓笔纹就是语言的指纹，它是我们写作风格中的细微差异，包括词汇、句长和段落铺陈等的不同。2013年，宾州杜肯大学的帕特里克·尤奥拉用类似的方法指出J.K·罗琳是长篇小说《杜鹃的呼唤》的作者，使这项技术进入了大众视野。

当有人想要采集你的语言指纹时，你又该如何脱身呢？那就是化妆成别人的语气和句式。不过一般人很难成功，比如在“devil strip”的案子里，那个勒索者故意拼错了一些单词，想以此伪装成一个文化程度不高的人。但这个计谋并未得逞，因为他反倒把一些难词拼对了。

躲避计量文体分析的最佳手段是联合写作：一个人写下文本，再由另一个人编辑，两个或更多个作者的语言指纹就会相互抵销。

（《周末》2017.12.28 麦伊德）

返回目录放大

缩小

全文复制下一篇