纽约石溪大学的计算机科学家们开发出一种新的算法,用来预测一本书能否取得商业上的成功,并宣称它“惊人地有效”,准确率高达百分之八十四。
这种技术名为统计文体学,利用数学方式考察目标图书的词汇和语法,检视其趣味性、新奇性、写作风格和情节安排。
科学家们从网络图书馆“古登堡工程”下载古典作品,进行文本分析,并与它们当年是否畅销的历史信息做比对。
他们发现,成功的小说大量使用连词,如“and”(和)和“but”(但是),并有更多的名词和形容词。
不成功的小说使用更多的动词和副词,而且更依赖那些明确描述动作和感情的词,如“想要”、“拿”或“保证”。相形之下,更成功的小说使用的是描述思想过程的词汇,如“认出”或“记起”。
但是,科学家们也承认,运气往往起到重要的作用。
另外,他们的分析是针对英语文本的。
相关论文已由计算语言学协会(Association of Com?鄄putational Linguistics)发表,作者之一崔业金(Yejin Choi,音)说,科学家们分析了八百本书,涉及从古典文学到科幻小说在内的多种类型,基于词法、句法和人物话语模式等建立了多种模型,从而发现了成功作品的共同特征。
论文的第二作者叫冯松(Song Feng,音)。
(王胡)