什么是知识图谱

Posted by

1.回顾搜索行为

重新审视我们习以为常的搜索行为:根本需求是求知(智慧)。目前我们所处的搜索阶段是以“问题”搜“问题”,是以自己尚未了解的问题(甚至不知道如何描述这个问题),去匹配网络上已知的问题,最终确定对应的答案。

也就是说,答案往往被包裹于记录问题的文档(Document)之中。是的,如今的互联网,仍然只是“文档以及文档之间的链接”。

但是,当我们进行搜索时,我们关心的不是文档,也不是问题,而是答案,更应该是一个全面的摘要或精确的信息。究其本质,这个要求不在于苛求一次性终结用户提出的任何问题,而是在是否需要二次搜索的问题上,最大程度地减少用户判断的时间成本。

和数据打交道的一线战士们对此一定深有体会:每当进入陌生领域时,多次搜索都无法把握问题的关键词,导致搜索效率低,甚至无法解决问题。这如同一个新手司机走上高速,遇到每一个高速出口都要犹豫,生怕走错路。

所以,拥有更强大的搜索技术,能让每个人都成为——“老司机”。

 

2.Google的“知识图谱”

我了解知识图谱源于Google发布的Knowledge Vault产品,现已整合到了Google搜索之中,逐步探索并完善效果。

在Google搜索的右侧栏,知识图谱总会提供它认为有效的信息。如果一个搜索语句(比如奥巴马的生日,星际穿越的演员等)触发了知识图谱搜索,在原本放置网页链接的位置会插入知识图谱的结果。其他内容依次后移。

 

什么时候会触发知识图谱搜索呢?

Google在接受到你的搜索请求,会将你所用的关键词拓展成一系列高度相关的词组。如果算法认为能够用知识图谱技术提供结果,就会触发。这好比我们要出远门,经过复杂的高速公路网络时一定有一条最优路线,导航软件可以通过遍历的方式知道答案。但老司机会考虑更多人性化问题:要不要途径某地?需要多少个服务区?哪个服务区更适合你?

 

3.什么是“知识图谱”

二十出头的我不能为你讲述Web1.0到Web3.0的历史进程。但作为一个数据爱好者,我能从数据组织的角度为你解释什么是知识图谱。

大家都很熟悉Excel表格或关系型数据库,用一行行记录的形式来表示(主键和其他字段)的关系,用外键进一步表示表与表之间的连接。但初学者一定觉得这种“关系”不人性化。因为有主键和外键的存在,我们可以说这种关系是不对称的。

我觉得这是因为数据库技术成熟时,信息存储的成本仍然很可观。我们难以在“关系的抽象”和“信息的冗余”中取得很好的平衡。因此我们采用了一种较为朴素的做法。

而知识图谱是一种结构化数据处理的新方法,主要用三元体(Triple),即(点, 边, 点)的方式表示关系。利用关系来组织所有的对象(实体),形成有向图结构。所谓知识,是一种戏称,即点或边对应的信息。类似地,我们日常所做的数据挖掘工作,也被称为KDD(Knowledge Discovery in Database)。

人,不是人,而是一切社会关系的总和。”——马克思

如果这句话放在写社交网络的文章中,可以用来解释为什么我们要刷朋友圈。但在这里,我们可以体会到:刻画一个对象是不必要的,与它有关的所有关系已经描述了它的存在。这强调了“关系”在现实世界的地位。而依靠记录(包括行形式和文档形式的数据记录)来描述关系总是存在冗余的,而使用图结构来描述关系,契合了关系本身的特性,是一种对关系本身的直接建模。

拿人际关系举例子,族谱就是一个简单的知识图谱。

 

4.知识图谱技术

知识图谱涉及知识的提取、表示、存储、检索等一系列技术。从渊源上讲,它是知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合。但无论如何,作为数据的组织形式,它首先必须忠实于事实(不一定是真相)。

有人说:“Google的数据库,已经记录了这个世界所有的事实。”也许这句话并不严谨,但Google非常希望从庞大的数据库中发现更多的知识,为用户提供更多的价值。除了需要整合多源异构的数据,知识图谱亟待解决的问题是“知识发现”。这与传统数据挖掘的期待是一致的。也就是说,我们希望通过已有的关系,推断事物之间潜在的,尚未记录的关系,将知识图谱补全得更加完整。

还是拿族谱举例子:族谱记录了AB之间的父子关系和AC之间的母子关系,我们能够有多大的把握,推断BC仍然保持婚姻关系呢?单靠族谱很难做出判断,但通过整合他们的社交网络,出行信息,消费习惯变化等多源异构数据,我们能快速提升推断的把握。

回到文章开头的图片,在搜索“奥巴马的生日”时,知识图谱还提供了川普、希拉里、米歇尔夫人的生日,这印证了本文的观点:“搜索引擎务必在是否需要二次搜索的问题上,最大程度地减少用户判断的时间成本。”全面的摘要或高度相关的信息都能够提高用户的判断效率。

 

因为,不论整合多少多源异构的数据,服务于人类是产品的最终使命。至于什么时候能够深度体验知识图谱带给我们的乐趣。科幻作家William Gibson已替大家回答:“未来已经来临,只是尚未流行”。

 

5.Acknowledment

 

Google 的伟大征程之二:知识图谱

GitHub动手做知识图谱——文因互联 

 

 

来源:超级数学建模   
本文作者Ramon,专注于知识图谱研究方向。本文将从数据组织的角度,解释什么是知识图谱(下一代搜索技术)。