www.teandq.com
晓安科普

知识库与知识图谱的关系(图数据库和知识图谱的关系)学到了

2023-11-14Aix XinLe


导读:本文分享图数据库和知识图谱的基础内容以及我们做过的相关工作主要内容包括以下五个方面:什么是知识图谱知识图谱研究的多个维度从人工智能和大数据角度看待知识图

知识库与知识图谱的关系(图数据库和知识图谱的关系)学到了

 

导读:本文分享图数据库和知识图谱的基础内容以及我们做过的相关工作主要内容包括以下五个方面:什么是知识图谱知识图谱研究的多个维度从人工智能和大数据角度看待知识图谱我们的工作知识图谱相关案例01什么是知识图谱。

1. 搜索引擎方式革新

2012年5月6日,Google发布了“知识图谱”的新一代“智能”搜索功能传统的搜索引擎搜索数据,更多的方法是基于关键词匹配的方式近两年来,我们到各大搜索引擎上搜索信息时,比如搜索关键词“詹姆斯瓦特”,你会发现在某一个地方出现一些卡片,信息卡片的方式是搜索领域的一大革新,它是基于知识图谱的方式。

2. 知识图谱的本质

基于关键词匹配的传统搜索引擎,是将匹配到关键词后再把信息展现出来如果把信息的形式进行转换,例如将里面的人物、地点、时间等信息抽取出来,构建一个知识图谱的结构,就可以将“詹姆斯瓦特的校友是谁?”等问题的答案推理出来。

知识图谱实现了从原来的关键字匹配、内容匹配的方式,转变为对信息的推理、对信息的追溯这种方式知识图谱本质上是基于图的语义网络,表示实体与实体之间的关系02知识图谱研究的多个维度知识图谱相关领域包括知识工程、自然语言处理、数据库、机器学习等。

知识工程:例如知识库构建、基于规则的推理等自然语言处理:例如信息抽取、语义解析等数据库:例如RDF数据库系统、数据集成、知识融合等机器学习:例如知识图谱数据的知识表示(Graph Embedding)等。

1. 知识工程知识图谱是Web和⼤数据时代的知识⼯程新的发展形态知识工程的核心是知识库和推理引擎知识库包括以下几个方面:领域本体的构建:面向特定领域的形式化地对于共享概念体系的明确而又详细的说明知识抽取

:从海量的数据中通过信息抽取的⽅式获取知识知识融合:通过对多个相关知识图谱的对⻬、关联和合并,使其称为⼀个有机的整体,以提供更全⾯知识① 知识图谱数据模型RDF基于领域本体的构建,有几种基本的数据模型,比如常见的RDF数据模型。

RDF数据模型将知识库里面的各个本体以及它的属性,还有一些相关的属性值,以及它和其他的本体之间的关系,用一个3元组的方式来描述,即主谓宾三列的表。

RDFsRDF数据模型的一种变式,在RDF数据层的基础上引⼊模式层,定义类、属性、关系、属性的定义域与值域来描述与约束资源,构建最基本的类层次体系和属性体系,⽀持简单的上下位推理本体语言OWL进⼀步扩展RDFs词汇,可声明类间互斥关系、属性的传递性等复杂语义,⽀持基于本体的⾃动推理,提供了⼀组合适web传播的描述逻辑的语法,对机器友好,但认知复杂性限制了⼯程应⽤。

② 知识抽取

③ 大规模知识抽取知识库的构建有以下案例:Yago(Yet Another Great Ontology)融合了WordNet和Wikipedia,从Wikipedia的结构中抽取信息,利⽤⼈⼯采样评估 

DBPedia通过社区成员定义和撰写准确的抽取模板,进⽽从维基百科中抽取结构信息,并将其发布到Web上Freebase从Wikipedia和其他数据源(如 IMDB、MusicBrainz)中导⼊知识2. 自然语言处理

⾃然语⾔处理和知识图谱研究是双向互动的关系:⾃然语⾔处理为知识图谱抽取知识;知识图谱可以提升NLP任务的准确度(1)知识图谱与自然语言处理知识图谱与自然语言处理在如下两个方面关系紧密:①信息抽取 主要技术:实体识别与抽取、实体消歧、关系抽取 。

趋势及挑战: • 从封闭⾛向开放 • ⼤规模信息抽取 • 深层次挖掘信息背后的语义(从抽取到理解)②语义解析 语义解析就是将⾃然语⾔映射成机器可以表达的形式 主要技术:词义消歧、语义⻆⾊标注、指代消解等。

 应⽤: • ⾯向知识图谱的⾃然语⾔问答 • 聊天机器⼈等(2)实体识别在实体识别中,命名实体识别的主要⽅法有如下两种: ①基于规则的实体识别⽅法 基于命名实体词典的⽅法:采⽤字符串完全匹配或部分匹配的⽅式,从⽂本中找出与词典最相似的短语完成实体识别。

 优点:规则简单缺点:需要构建词典和规则;性能受词典规模和质量的影响②基于机器学习的实体识别⽅法 利⽤预先标注好的语料训练模型,使模型学习到某个字或词作为命名实体组成部分的概率,进⽽计算⼀个候选字段作为命名实体的概率值。

若⼤于某⼀阈值,则识别为命名实体 分为:最⼤熵模型(Maximum Entropy Model)和条件随机场模型(Conditional Markov Random Field)(3)语义解析之语义搜索。

语义搜索是指搜索引擎的⼯作不再拘泥于⽤户所输⼊请求语句的字⾯本⾝,⽽是透过现象看本质,准确地捕捉到⽤户所输⼊语句后⾯的真正意图,并以此来进⾏搜索,从⽽更准确地向⽤户返回最符合其需求的搜索结果 (4)语义解析之知识问答。

智能问答的主要⽅法有如下两种:①基于信息检索的⽅法 ⾸先利⽤中⽂分词、命名实体识别等⾃然语⾔处理⼯具找到问句中所涉及到的实体和关键词,然后去知识资源库中去进⾏检索,并通过打分模型对答案进⾏排序 ②基于语义解析的⽅。

法 将⼀个⾃然语⾔形式的问句,按照特定语⾔的语法规则,解析成语义表达式,将其转化为某种数据库的查询语⾔。两种主要方法的框架对比如下所示:

3. 图数据库知识图谱与图数据库的关系从以下四个方面介绍:知识图谱与数据管理、基于关系的知识图谱存储管理、原生知识图谱存储管理、知识图谱与图数据库① 知识图谱与数据管理知识图谱本质上是多关系图,通常⽤“实体”来表达图⾥的结点、⽤“关系”来表达图⾥的边。

关系型数据库:实体与实体之间的关系通常都是利⽤外键来实现,对关系的查询需要⼤量join操作图数据库:图模型建模实体(结点)和实体之间的关系(边),在对关系的操作上有更⾼的性能② 基于关系的知识图谱存储管理。

使用三元组进行知识图谱的存储:优点:简单明了 缺点:最⼤问题在于将知识图谱查询翻译为 SQL 查询后会产⽣三元组表的⼤量⾃连接操作为解决基于关系的是指图谱存储管理中出现的问题,采用以下两种方法解决:属性表:属性相似的聚为⼀张表

优点:克服三元组⾃连接的问题缺点:⼀对多联系或多值属性存储问题、RDF的灵活性等代表:采⽤属性表存储⽅案的代表系统是 RDF 三元组库 Jena垂直划分:以谓语划分三元组表优点:克服属性表的空值多值问题。

缺点:⼤量属性表、删除代价⼤。代表:采⽤垂直划分存储⽅案的代表数据库是 SW‐Store。③ 原生知识图谱存储管理RDF模型

gStore系统利用子图匹配整个图谱。优点:任意一个节点不满足子图的模式都可以跳过,实现高并发。属性图

典型属性图代表:Neo4j图数据库。与RDF的区别为:边也有属性,可以与RDF互相转换④ 知识图谱与图数据库

4. 机器学习在与机器学习的联系更多地表现在知识表示学习这一方面,应用较多的场景为知识推理① 知识表示学习知识表示学习的背景是基于⽹络形式的知识表示存在数据稀疏问题和计算效率问题 知识表示学习(representation learning)主要是⾯向知识图谱中的实体和关系进⾏表示学习,使⽤建模⽅法将实体和向量表示在低维稠密向量空间中,然后进⾏计算和推理。

 优点:显著提升计算效率,有效缓解数据稀疏,实现异质信息融合 应⽤:知识图谱补全、相似度计算、关系抽取、⾃动问答、实体链指举例:知识表示代表模型:TransE [Bordes et al., NIPS 13]。

 对每个事实(Subject, Predicate, Object),将其中的predicate作为从subject到object的翻译操作每个Subject/Predicate/Object,都映射成⼀个多维向量。

优化⽬标是S+P=O ② 自然语言问答

03从人工智能和大数据的角度看待知识图谱为什么要从这两个角度来看待?这主要是目前这两个角度非常火① 人工智能的诞生早在1956年达特茅斯会议上,首次提出“⼈⼯智能(Artificial Intelligence, AI)”的概念。

人们将他概括为“⽤机器来模仿⼈类学习以及其他⽅⾯的智能”人工智能目前有两个流派:符号主义(Symbolism)与连接主义(Connectionism)符号主义符号主义(symbolicism),⼜称为逻辑主义(logicism)、⼼理学派(psychologism)或计算机学派(computerism),其主要原理为认知过程就是在符号表示上的⼀种运算。

可以举例理解:⼩明认识⾃⾏⻋O:O(a,b,c,d,e) ,其中a(⻋把))b(⻋胎)d(坐垫)e(⻋架)c(脚踏)连接主义连接主义(connectionism),⼜称为仿⽣学派(bionicsism)或⽣理学派(physiologism),其主要原理为智能活动是由⼤量简单的单元通过复杂的相互连接后并⾏运⾏的结果。

 当前典型研究:深度学习、深度神经⽹络。可以举例理解:⼩明学骑⾃⾏⻋:经过⻓时间练习,⼩明终于学会了!却说不清楚“到底该怎样”骑。② 知识图谱与人工智能

计算机的发展分为三个阶段:计算智能、感知智能、认知智能人工智能需要机器智能,特别是认知智能,而认知智能依赖知识图谱目前的重要研究方向是和连接主义的结合(例如知识图谱的表示学习等)③ 知识图谱与大数据知识图谱与大数据的联系

“知识图谱”是⾯向关联分析的⼤数据模型大数据的5V 特性包括:Volume(大量),Velocity(高速),Variety(多样),Value(价值),Veracity (真实)其中最重要是Value,但价值是隐含的,而大数据里面隐含的关系,可以用一个知识图谱来表示。

知识图谱与大数据的应用知识图谱与大数据方面的应用包括以下几个方面:图机器学习,例如TransE,GCN等模型图数据库,例如RDF图gStore、Virtuoso,属性图Neo4j、janusgraph等。

图计算系统,例如点中心模型系统Pregel、GraphLab等。图挖掘算法,例如Pagerank、Simrank、社区发现、影响力传播等。04我们的工作① 研发路线图

我们团队来自于北京大学王选计算机研究所数据管理研究室,2011年开始做图数据库方面的研究,提出了子图匹配的方法来实现RDF的查询、2013年至2017年开发的gStore中提出了基于结构感知的图数据库索引和子图匹配查询优化理论。

② 技术路线图

基于图的生态链的系统平台分为三个步骤研发:知识图谱的构建、知识图谱管理、知识图谱应用知识图谱的构建大部分数据是结构化或非结构化等形式,存储在关系数据库中,而非以RDF或属性图的形式存储,因此在构建时需要进行数据形式的转换。

涉及知识抽取、知识融合等问题,是整个系统平台的重难点知识图谱管理解决转换成RDF或属性图的数据怎么存储、如何进行数据管理、为知识图谱应用提供高效访问接口等问题知识图谱应用开发知识图谱的应用,体现数据的价值,是整个系统平台的价值点。

③ 产品生态

gStore项⽬特点:基于⼦图匹配的图数据查询和优化策略,单机能⽀持50亿规模的图数据的存储和查询,以及更新等代码:除了SPARQL语法解析器外均为独⽴开发的,⽬前有14万⾏C++代码,完成⾃主知识产权。

目前版本:v 0.9.1项⽬主⻚:gstore.cn开源地址:https://github.com/pkumod/gStoregBuilder项⽬特点:知识图谱构建的⼀体化平台,包括Schema设计,结构化和⾮结构数据抽取,融合多种⽂本抽取的算法模型,以及抽取模型NAS搜索等。

gAnswer项⽬特点:基于⼦图匹配的知识图谱的⾃然语⾔问答⽅法开源地址:https://github.com/pkumod/gAnswergStore WorkbenchgStore可视化管理工具gCloud

“开箱即用”的gStore服务gMaster支持百亿规模分布式部署gStore高效RDF图数据库管理系统实现了自主可控国产化,能够与国产化CPU和操作系统适配赋能国产⾃主可控的计算机体系架构05相关案例

① 金融科技知识关联查询:⾦融实体查询、多层股权查询、⾦融实体关联分析⻛险分析:⻛险识别、资本系分析② 政府大数据社会的自然人会产生诸多数据,例如出生、教育、住房、就业、婚姻生育、医疗养老、死亡等方面的数据。

基于这些数据可以进行政府大数据融合与挖掘,例如用于民政和司法的亲属关系检索③ 智慧纪检可以使用知识图谱进行干部廉洁画像、社会关系分析、话单分析等④ 智慧医疗基于药物说明书构建“病-症-药”的知识图谱,可以进行疾病科室、疾病症状、疾病并发症、健康饮食智能问答等应用。

⑤ 人工智能例如智能问答等语音机器人⑥ 气象交通将规则写进知识图谱,实时采集气象信息并进行知识图谱的匹配,以起到预警的作用⑦ 公安知识图谱多维度知识探索:从“同程、同宿、同案件”等多个维度进⾏知识探索和知识推理。

隐含关系挖掘:从交通出⾏、⽹吧上⽹、出⼊境等部⻔和系统中获取数据,发现⼈物的“同⾏,同上⽹,同出国”等隐含关联关系嘉宾:李文杰博士 北京大学 博士后推荐阅读《图数据库原理、架构与应用》推荐语:这是一本能帮助读者快速掌握图数据库的原理、架构、算法、扩展、规划、测评、优化以及实战应用的著作,书中的理论和实践均来自国内领先的图数据库企业Ultipa的科研成果和实践经验,由Ultipa的创始人兼CTO孙宇熙领衔撰写。

- END -

●数据目录是什么?为何需要它?●京东畅销榜的这些书,100元带走!●《企业数据化管理图谱》全网首发!包邮送1000份,数据人必备!●崩溃!到底应该用ETL还是ELT?●Google、Bing、抖音、淘宝等巨头如何做AB实验的?

●一文搞懂DBMS和数据仓库的区别及联系●搞到一张全网都买不到的【数据分析知识鼠标垫】,包邮送500份!

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

知识知识库与知识图谱的关系(图数据库和知识图谱的关系)学到了

2023-11-14Aix XinLe72

知识库与知识图谱的关系(图数据库和知识图谱的关系)学到了
导读:本文分享图数据库和知识图谱的基础内容以及我们做过的相关工作主要内容包括以下五个方面:什么是知识图谱知识图谱研究的多个维度从人工智能和大数据角度看待知识图…

科学360杀毒评测(360杀毒怎样卸载)新鲜出炉

2023-11-14Aix XinLe89

360杀毒评测(360杀毒怎样卸载)新鲜出炉360杀毒软件是360安全中心出品的一款免费的云安全杀毒软件,因为360杀毒具有查杀率高、资源占用少、升级迅…

科学360杀毒评测(360杀毒怎样卸载)太疯狂了

2023-11-14Aix XinLe90

360杀毒评测(360杀毒怎样卸载)太疯狂了360杀毒软件作为一款常见的安全软件,虽然在保护电脑安全方面发挥了一定的作用,但也有很多用户对其性能和使用体验表示不满。如果你正在寻找一种方法来…

探索央视探索发现 纪录片探索平台官网客服

2023-11-14Aix XinLe0

央视探索发现 纪录片探索平台官网客服  表面方面,歌影探测的尾部外型十分类似,但在雾灯和排气灯的规划上探究平台官网客服探寻和探索的区别探寻和探索的区别,辨别较着探究平台官网客服…

探索探索发现2023最新探索发现2008年第369期

2023-11-14Aix XinLe0

探索发现2023最新探索发现2008年第369期  1cx4或LINK 02此中,CX-4)车头设想精美探究发明2008年第369期,此次要得益于镀铬饰条和程度进气格栅的活动…