德国柏林图书馆门前有这样一句话:“这里是知识的宝库,你若掌握了它的钥匙,这里的全部知识都属于你。”这里所说的“钥匙”,就是指信息检索的方法。信息检索就是把我们想得到的信息通过某种途径快速而准确地获得。在现代社会,随着各种网络平台的出现,信息出现了爆炸式增长。面对如此海量的信息,我们经常感到无所适从。如何找到符合自己要求的信息呢?答案是用先进的信息检索工具。先进的信息检索工具离不开信息检索理论与技术支撑,而建模是其中的关键理论之一。徐建民教授的著作《基于术语关系的贝叶斯网络检索模型扩展》从多个方面对信息检索建模进行了积极的探索,具有重要的学术价值。
本书的研究成果为国内基于贝叶斯网络的信息检索模型研究积累了有价值的资料。贝叶斯网络首次应用于信息检索领域是在20世纪80年代末,至今先后产生了三类有影响的模型。国内对贝叶斯网络在信息检索领域的研究甚少,徐建民教授自2004年起展开对贝叶斯网络信息检索模型的扩展研究,至今已经持续了15年。从本书的参考文献来看,徐建民教授团队形成了几十篇研究论文,本书即为相关研究成果的结晶。
徐建民教授对基于贝叶斯网络的检索模型进行的扩展研究,填补了国内相关研究的一些空白。基本的贝叶斯网络检索模型,是以术语节点或文档节点为查询匹配基础,在文档推理和检索的过程中,并未充分考虑术语间的关系,故在实现语义检索中有很大的局限性。为了解决这个问题,本书作者在国内首次提出利用术语间关系扩展信念网络模型、简单贝叶斯网络模型、结构化文档检索模型的新方法,对语义检索技术的发展发挥了重要作用。同时,作者还充分利用信念网络模型可以组合不同检索证据的特点,探索了基本模型中组合同义词证据,以及在科技文献检索中组合文献引用证据的实现方法,并实验验证了上述方法的有效性。一般地,合理利用给定文档中的术语关系或采用与查询术语有关联关系的词语进行查询扩展,可实现一定意义上的语义检索,有效提高信息检索的性能。作者以此为出发点所做的上述多种尝试,开阔了信息检索领域的研究视野,对该领域的研究者有很好的启发作用。
本书探索出术语关系和贝叶斯网络应用的新视角和新领域,实现了研究工作的新突破。除了用术语关系扩展贝叶斯网络检索模型的研究外,作者将术语关系应用于特征词提取、文档相似度计算、局部伪相关反馈方法的改进,取得了一些研究进展。尤其需要说明的是,作者将信念网络用于话题识别与追踪领域,为话题识别与追踪建模研究提供了新的思路,也开拓了贝叶斯网络应用的新领域。
(作者:赵杰,系河北大学电子信息工程学院教授、博士生导师)