智能时代：用知识图谱来学习和理解世界

徐云峰《中华读书报》（ 2018年03月14日 17 版）

机器学习的实质是从大量数据中学到知识，从与环境的不断交互中学到知识，实现对知识图谱进行构建和自动扩展，很大程度上解决了知识表示与自动获取问题。其中知识图谱本质上是一种叫做语义网络的知识库。进入 21世纪，语义网络有了一个新的应用场景，即语义 Web。通过 W3C1的一些标准来实现Web的一个扩展，从而数据可以在不同应用中共享和重用。

信息时代数据化，智能时代知识化。人类进入智能时代，电脑用怎样的方式理解和描述世界呢？众所周知，传统人工智能遇到的问题是知识表示与获取，而AlphaGo和AlphaGoZero的巨大成功是它们都自学了人类的知识和专家的经验，也使得机器学习成为认知决策的关键，成为智能时代的标志，其中知识图谱是目前最常用的机器学习方法。

机器学习的实质是从大量数据中学到知识（即深度学习），从与环境的不断交互中学到知识（即强化学习），实现对知识图谱进行构建和自动扩展，很大程度上解决了知识表示与自动获取问题。其中知识图谱本质上是一种叫做语义网络的知识库，即具有有向图结构的一个知识库，其中图的节点代表实体或者概念。而图的边代表实体/概念之间的各种语义关系，比如说两个实体之间的相似关系。语义网络可以看成是一种用于存储知识的数据结构，即基于图的数据结构，这里的图可以是有向图，也可以是无向图。使用语义网络，可以很方便地将自然语言的句子用图来表达和存储，用于机器翻译、问答系统和自然语言理解。

知识图谱的概念由谷歌2012年正式提出，旨在实现更智能的搜索引擎，并且于2013年以后开始在学术界和业界普及，并在智能问答、情报分析、反欺诈等应用中发挥重要作用。到了20世纪80年代，人工智能研究的主流变成了知识工程和专家系统，特别是基于规则的专家系统开始成为研究的重点。这一时期，语义网络的理论更加完善，特别是基于语义网络的推理出现了很多工作，而且语义网络的研究开始转向具有严格逻辑语义的表示和推理。20世纪80年代末到90年代，语义网络的工作集中在对于概念之间关系的建模，提出了术语逻辑以及描述逻辑。进入21世纪，语义网络有了一个新的应用场景，即语义Web。通过W3C1的一些标准来实现Web的一个扩展，从而数据可以在不同应用中共享和重用。语义Web跟传统Web的一个很大的区别是用户可以上传各种图结构的数据，并且数据之间建立链接，从而形成链接数据。链接数据项目汇集了很多高质量知识库，比如说Freebase、DBpedia和Ya⁃go，这些知识库都是来源于人工编辑的大规模知识库——维基百科。这些高质量的知识库的发布，也为谷歌知识图谱项目的成功打下了坚实的基础。

那么，知识图谱到底有些什么用呢？知识图谱比较适合需要建立数据关联和需要从非结构化数据中转化出结构化数据的场景。以下是知识图谱几个常见的应用场景。

提供语义搜索

知识图谱这个概念是谷歌提出的，谷歌做知识图谱自然是跟搜索引擎相关，即提供语义搜索。这里语义搜索跟传统搜索引擎的区别在于搜索的结果不是展示网页，而是展示结构化知识。

例如在百度中，当用户输入“jackiechan"，搜索引擎可以识别出jackiechan其实就是成龙，而且，会给出成龙的各种属性信息，比如说出生日期、国籍、配偶等。这些都是以前基于关键词的检索做不到的，有了知识图谱以后，就可以即问即答了。点击成龙的配偶“林凤娇”，可以直接进入她的知识卡片，然后还可以继续点击房祖名看他的信息。这里我们可以把成龙、林凤娇、房祖名看出图的节点，成龙跟林凤娇之间有一个关系，即夫妻关系，林凤娇跟房祖名之间有一个关系，即母子关系，这就是成龙家庭的一个小的关系图谱。

股票投研情报分析

通过知识图谱相关技术从招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息，构建出公司的知识图谱。在某个宏观经济事件或者企业相关事件发生的时候，券商分析师、交易员、基金公司基金经理等投资研究人员可以通过此图谱做更深层次的分析和更好的投资决策，比如在美国限制向中兴通讯出口的消息发布之后，如果我们有中兴通讯的客户供应商、合作伙伴以及竞争对手的关系图谱，就能在中兴通讯停牌的情况下快速地筛选出受影响的国际国内上市公司从而挖掘投资机会或者进行投资组合风险控制。

反欺诈分析

通过融合来自不同数据源的信息构成知识图谱，同时引入领域专家建立业务专家规则。我们通过数据不一致性检测，利用绘制出的知识图谱可以识别潜在的欺诈风险。比如借款人张XX和借款人吴X填写信息为同事，但是两个人填写的公司名却不一样,以及同一个电话号码属于两个借款人，这些不一致性很可能有欺诈行为。

面向多源异构关系数据的自然语言问答

现在很多企业都有自己的数据库，而且这些数据库因为不是同一批人构建的，所以维护数据库的成本很高，访问数据库也很不方便，而且数据库之间的关联也很难发现。通过构建一个本体（该本体可以是从数据库的schema抽取后，然后通过人工来修改得到），然后构建本体和数据库的schema的映射以及数据之间的匹配，就可以方便的实现数据的集成和数据的语义关联，并且可以利用构建的本体和通过本体集成得到的知识图谱来对自然语言做解析，从而将自然语言查询直接转化为SQL去查数据库，并且给出答案，答案可以是用图表的方式来给出。

辅助司法判案

知识图谱技术可以帮助我们快速构建一个法律知识图谱，虽然目前还缺乏法律知识图谱的理论工作。跟其他领域的知识图谱相比，法律知识图谱需要考虑法律的逻辑，每一个犯罪行为都有主体、客体、主观要件和客观要件，我们就需要从文本中去抽取这些信息，从而形成一个关于犯罪行为的图谱，而通过对海量判决书的挖掘，可以建立犯罪行为之间的关联，比如说，防卫过当和故意伤害之间有一个关联，即误判行为的关系。通过这个图谱，给定一个判决书，可以辅助法官判断一个案件是否有误判，是否需要补充信息。

返回目录放大

缩小

全文复制下一篇