思维之海

——在云端,寻找我的星匙。

自然语言处理助手专项:知识图谱

110周年自然语言处理助手专项。

References

《知识图谱》,赵军

《知识图谱与深度学习》,刘知远,韩旭,孙茂松

什么是知识图谱?

知识图谱基础(一)-什么是知识图谱

知识图谱基础(二)-知识图谱的知识表达系统

OpenKG.CN

这是一份通俗易懂的知识图谱技术与应用指南

Preparation

任务:在“资料库”(一个结构化的维基百科式的数据库)基础上,从非结构化文本中抽取关键信息(“实体-关系-实体”三元组),校验算法抽取和人工抽取的结果,融合得到“知识图谱”。

知识图谱的构成方式

知识图谱的本质上是语义网络(Semantic Network)的知识库。

语义网络,语义网,链接数据和知识图谱

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

来源: 机器之心

实体 Entity

有时候会把实体称为topic。

关系 Relation

实体关系可分为两种:属性property,关系relation。

属性常常连接一个实体和一个描述;关系则是连接两个实体。

三元组

三元组:一个三元组由主体关系客体构成。

SPO三元组(Subject-Predicate-Object)

知识图谱的构建流程

知识图谱(Knowledge Graph)简介

主要涉及:

  • 实体命名识别(Name Entity Recognition)
  • 关系抽取(Relation Extraction)
  • 实体统一(Entity Resolution)
  • 指代消解(Coreference Resolution)

知识图谱主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储。

什么是知识图谱?

曾经知识图谱非常流行自顶向下(top-down)的构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如 Freebase 项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。

然而目前,大多数知识图谱都采用自底向上(bottom-up)的构建方式。自底向上指的是从一些开放链接数据(也就是 “信息”)中提取出实体,选择其中置信度较高的加入到知识库,再构建实体与实体之间的联系。

RDF标准

知识图谱基础之RDF,RDFS与OWL

RDF Schema 1.1

RDF是一种描述知识图谱构成的语言规范。

RDF(Resource Description Framework),即资源描述框架,其本质是一个数据模型(Data Model)。它提供了一个统一的标准,用于描述实体/资源。简单来说,就是表示事物的一种方法和手段。RDF形式上表示为SPO三元组,有时候也称为一条语句(statement),知识图谱中我们也称其为一条知识。