达观数据:知识图谱和 Neo4j 浅析

作者:网友投稿 时间:2018-05-19 09:16

字号
人工智能+区块链的发展趋势及应用调研报告

在当前大数据行业中, 随着算法的升级, 特别是机器学习的加入,“找规律”式的算法所带来的“红利”正在逐渐地消失,进而需要一种可以对数据进行更深一层挖掘的方式,这种新的方式就是知识图谱。下面我们来聊一下知识图谱以及知识图谱在达观数据中的实践。

达观数据:知识图谱和 Neo4j 浅析

一,什么是知识图谱

知识图谱(Knowledge Graph)是一种用点来代替实体,用边代替实体之间关系的一种语义网络。通俗来说,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络,它提供了站在关系的角度去分析问题的视角。站在这个角度我们可以从“找规律”的维度上升到“理解”的维度, 这也就是为什么有人说知识图谱是 AI 的未来。

“达观数据是一家人工智能公司”这句话在机器看来只不过是一连串的字符, 但是在我们人看来却可以分成主谓宾三部分,即主语“达观数据”谓语“是”宾语“人工智能公司”。 那么有没有一种数据的组织形式让机器看到这句话时不再是一个字符串, 而是一个具有类似主谓宾可以“理解”的结构呢?当然,这就是知识图谱要干的事情。

知识图谱可以表示成一个实体关系网络图,实体就是一个包含信息的个体,画出来叫节点;关系是两个实体之间的联系,画出来叫边。借用上面的例子“达观数据是一家人工智能公司”,“达观数据”和“人工智能公司”就是两个实体,“是”即这两个实体之间的关系。所以这句话用知识图谱可以表示图1。

达观数据:知识图谱和 Neo4j 浅析

图1

二,知识图谱的应用场景

知道了什么是知识图谱,那么知识图谱有什么用处呢?这里我举两个例子:知识图谱在搜索引擎中的作用以及在银行风控系统中的应用。

1, 知识图谱在搜索引擎中的应用

有时候我们在使用搜索引擎时, 我们的搜索词(Query)往往看起来更像是一个问题,比如“张三是从哪里毕业的”,这时我们需要搜索引擎直接给出我想要的结果,而不是一个网页排名(page rank) 。比如我在 Google 中搜索“扎克伯格的妻子是谁”, 我需要是扎克伯格的妻子普莉希拉?陈的详细信息而不是一些包含了她信息的网页。我们先看下 Google 的结果:

达观数据:知识图谱和 Neo4j 浅析

图2

那么Google是怎么做到的呢?其实早在2012年Google 就已经在搜索中加入了知识图谱,用户可以通过Google 构建的知识图谱直接查询到结果,这种方式极大地提升了用户体验。而且对于 Google 来说处理起来也比较便捷,首先将“扎克伯格的妻子是谁” 这个 Query通过自然语言处理技术(NLP)处理成“扎克伯格”实体和”has_wife" 的关系,从已经构建好的知识图谱中查询, 然后将查询结果返回给用户。

然而就是这样的一个改动,从用户使用的角度来看已经从普通的搜索引擎变成了智能问答的系统,用户体验上升了一个层次。

2,知识图谱在隐含关系挖掘中的应用。

马克斯·韦伯曾说“人是悬挂在自我编织的意义之网上的动物”,这句话从侧面说明人与人之间的关系是很复杂的,我们是否可以将复杂的人际关系进行一次挖掘呢?

首先人际关系实际形如一张网, 既然是网那么它一定具有一个特性,即网上两个相邻节点之间的路径损坏,并不一定影响整张网。比如一张网(无向图)中相邻的 A 节点到 B 节点的路径“坏了”, 有极大可能找到另一条从 A 到 B 的路径,而不影响整张网。那么网的这个特性应该怎样应用到数据挖掘上来呢?我们来看一个知识图谱在银行风控系统中的一个例子。

达观数据:知识图谱和 Neo4j 浅析

图3

我们可以根据借款人借款时填写的关系构建知识图谱, 如图借款人跟张三是朋友关系,跟李四是父子关系。当我们试图把借款人的信息添加到知识图谱里的时候,“一致性验证”引擎会触发。引擎首先会去读取张三和李四的关系,从而去验证这个“三角关系”是否正确。很显然,朋友的朋友不是父子关系,所以存在着明显的风险。这里的隐含关系挖掘可以借用通用的关系挖掘引擎,也可以自己实现隐含关系的挖掘引擎。通用关联关系的挖掘由于其通用性,通常难以保证对关系挖掘的正确性,通常是自己配置规则来确保关系挖掘的准确性。对隐含关系的挖掘技术目前是知识图谱研究的前沿方向, 如果有兴趣,可以查阅相关论文。

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
关键词 >>知识 图谱 Neo4j
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接