www.teandq.com
晓安科普

知识库和知识图谱的关系(基于知识图谱的知识库构建)居然可以这样

2023-10-25Aix XinLe

在上一篇文章基于豆瓣电影数据构建知识图谱里面,讲到如何采用Neo4j来构建电影图谱,并且掌握了Neo4j里面

知识库和知识图谱的关系(基于知识图谱的知识库构建)居然可以这样

 

在上一篇文章基于豆瓣电影数据构建知识图谱里面,讲到如何采用Neo4j来构建电影图谱,并且掌握了Neo4j里面的初级查询功能(搜索实体属性、实体间的关系等)接下来,将进入电影图谱问答系统的学习,通过知识库和知识图谱来构建电影问答系统。

针对QA问答系统,由于笔者当前能力有限,本文仅介绍基于模板的知识库问答,讲解过程中如果有阐述不周之处,还请读者指出!下面,我们来看看如何对问题进行解析,并将图谱应用到电影问答系统Introduction

本文的电影QA问答系统工作流程如Fig 1所示,当接受到一个问题之后,我们首先对问题进行解析,包括分词、词性标注、关键字提取等预处理操作,并根据训练好的分类模型对问题进行分类,得到问题所属类之后,再根据图谱知识库搜索答案。

在整个工作流程中,知识库在上一篇文章已经构建好了,并且已经存储到neo4j中本文的主要工作是从问题到答案,端到端的实现重点在如何对问题进行解析和分类,其次是借助neo4j进行答案检索

Fig 1.QA问答系统工作流程问题解析当用户提出一个问题:”张国荣演过哪些电影?”时,我们需要对文本数据进行处理在这里可以采用jieba进行分词、词性标注等操作,然后提取关键字比如上面的问句,通过jieba进行词性标注的结果会是什么样子的呢?结果如下:。

我们看到“张国荣”被标记为nr,属于人名,演是动词,后面还有一些其他的,得到这个结果之后,接下来该怎么处理呢?我们再看看Fig 1,当问题解析完之后,我们需要对问题进行分类说到分类,就必须得有个训练模型才行!下面就是一个问题多分类模型。

基于问题模板数据来训练问题分类模型基于NB的问题分类模型在这个章节中,我们将采用简单的NB算法来训练我们的分类模型,感兴趣的童鞋可以试试其他的分类算法数据集首先,来说说我们的数据集,样例数据如下,数据集包括三列,第一列是label(多分类),第二列是text(问题模板文本),第三列是描述(可忽略)。

由于是实验demo,数据样例比较少,后续会根据需求不断扩展

Fig 2.问题分类数据集样例对于上面的数据集,可能有的童鞋会有点问题,nm表示什么?这里简单说一下,nm表示的电影的词性标注在问题解析阶段,会对jieba的分词注入用户个人字典,每个电影的词性标注均为nm。

这样,在分词之后,得到的结果也是nm例如:“红海行动讲的是什么故事?”,解析后的词与词性如下:

模型训练关于模型部分,,其中用到了sklearn、pandas、jieba库,完整的代码如下:

通过read_train_data方法,我们得到的分词后的x_train如Fig 3的value字段所示。

Fig 3.训练数据样例预测单独执行上面的代码,最后返回的结果如Fig 4所示。最终将”红海行动讲的是什么故事?”划分到第三个类别。

Fig 4.问题预测结果基于图谱的搜索通过预测模型,我们可以将问题划分到某个模板中,接下来,再基于问题模板构造图谱搜索,比如上面的问题,我们将其划分到第三类问题:电影简介接下来就可以采用py2neo连接neo4j图数据库,然后从图数据库中搜索出想要的答案。

最后得到的结果如下:

Fig 5.问题预测结果Conclusion本文主要讲解了如何端到端的构建QA系统,方法虽然比较简单,但可以让读者了解整个工作流,对后续的学习也会有很好的帮助为了将结果更好的展示出来,笔者将QA问答做成了服务,部署到了服务器中,并在服务器中搭建neo4j,构建电影图谱,最后将QA问答与微信公众号进行了集成,结果如Fig 6所示。

感兴趣的童鞋,可以到公众号里【斗码大陆】体验一下,由于知识库不全,答非所问之事还请多多包涵哈文中代码仅供参考,具体的源码等整理完之后再发布到github中吧关于如何发布QA服务和微信公众号自动问答的集成,我们下期再见!。

Fig 6.电影QA集成微信公众号References豆瓣13万电影数据统计与分析基于豆瓣电影数据构建知识图谱Knowledge Graph - WikipediaImporting CSV Data into Neo4j

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

知识知识库和知识图谱的关系(基于知识图谱的知识库构建)居然可以这样

2023-10-25Aix XinLe172

知识库和知识图谱的关系(基于知识图谱的知识库构建)居然可以这样在上一篇文章基于豆瓣电影数据构建知识图谱里面,讲到如何采用Neo4j来构建电影图谱,并且掌握了Neo4j里面…

历史历史学类考公(历史学考公属于什么大类)这样也行?

2023-10-25Aix XinLe51

历史学类考公(历史学考公属于什么大类)这样也行?全国大学授予的历史学学士占学士总数的1.44%,授予的历史学硕士占硕士总数的1.50%,授予的历史学博士占博士总数的2.21%。…

科学华师大版科学网课(华师大版科学网课数学初一 上海)真没想到

2023-10-25Aix XinLe12

华师大版科学网课(华师大版科学网课数学初一 上海)真没想到免费电子课本:2021年最新中小学全科全套高清电子课本(免费下载电子版!)…

科普除夕文案简短(除夕文案简短2022)不要告诉别人

2023-10-25Aix XinLe171

除夕文案简短(除夕文案简短2022)不要告诉别人虎年春节除夕文案,超适合过年发朋友圈的沙雕、高冷、个性短句~…

科学华师大版科学网课(华师大版科学网课数学初一 上海)越早知道越好

2023-10-25Aix XinLe183

华师大版科学网课(华师大版科学网课数学初一 上海)越早知道越好通过和老师们的交流,小编发现,电子课本是很多老师和家长需要的资料。可要如何去找到高清电子课本,却不那么容易。为了帮助到老师和家长,接下来的一段时…