www.teandq.com
晓安科普

知识库的定义是什么(语言学知识库是什么)一看就会

2023-10-31Aix XinLe

本篇文章介绍王仲远、王海勋博士在ACL2016会议上关于《Understanding Short Texts》报告中的Part II: Explicit Representation for Short Text Understanding

知识库的定义是什么(语言学知识库是什么)一看就会

 

本篇文章介绍王仲远博士和王海勋博士在ACL2016会议Tutorial关于《Understanding Short Texts》报告分享中的Part II: Explicit Representation for Short Text Understanding 部分。

Microstrong介绍的:Understanding Short Texts 部分1

目录:1. 什么是显性知识表示模型? 2. 知识库系统    2.1 常识性知识库系统    2.2 百科性知识库系统 3. 显性知识表示模型4. 应用《Part II: Explicit Representation for Short Text Understanding 》分享的内容主要是王仲远博士在微软亚洲研究院期间的研究成果,即如何通过常识性知识库系统来构建显性语义理解模型,从而使得机器能够像人类一样理解短文本,并最终改进现有搜索引擎、广告系统、聊天机器人等实际应用系统。

1. 什么是显性知识表示模型?为了更形象的理解显性知识表示模型,我们先来看几组例子,然后再给出具体的概念。1.1 例子(1)你能说出1881年10月25号具体代表什么意思么?

图1:1881.10.25显然,你只是知道1881.10.25是一个具体的日期,不能说出这个日期具体代表什么意思那么,再给你一个单词“Spanish”,你还能说出1881年10月25号具体代表什么意思么?。

图2:1881.10.25+Spanish这一次,你可能会想到1881.10.25是一个关于西班牙人的日期,或者是1881.10.25西班牙人做了什么具体大事情等等对于1881.10.25的含义,我们比上一次理解的稍微具体一点。

那么,再给你一个单词“Pablo Picasso”,你还能说出1881年10月25号具体代表什么意思么?

图3:1881.10.25+Spanish+Pablo Picasso当然,这一次我们能肯定的说出1881年10月25号是西班牙人毕加索出生的日期,或者是西班牙人毕加索去世的日期(2)你能说出apple具体代表什么意思么?。

图4:apple对于一个从事互联网的我来说,我看到apple的第一反应是,这是一家IT公司,生产苹果手机和苹果笔记本,或者是一种水果,或者是一种其它物品名称,apple代表的含义太多了那么,再给你一些单词“The engineer”,你还能说出apple具体代表什么意思么?。

图5:apple+The engineer这一次,我们能大致知道apple代表的是一家IT公司,生产苹果手机和苹果笔记本那么,再给一些单词“is eating an”,你还能说出apple具体代表什么意思么?。

图6:The engineer is eating an apple当然,这一次我们能确定apple具体就是指水果中的一个品种“苹果”1.2 概念类似于上面的例子,我们还能列出成千上万个我们举例子的目的是能形象的说明问题,然后总结出例子所反应问题的本质。

下面给出显性知识表示模型的具体概念:显性知识表示模型:通过很短的上下文,把某个词映射到概念层次,并对它进行语义的理解2. 知识库系统本部分主要介绍国际上主流知识库系统分类及现状近些年来,各种知识库系统如雨后春笋般涌现。

既有学术界发布的,也有工业界发布的这部分会将这些知识库系统分为“常识性知识库系统”和“百科性知识库系统”,并加以介绍知识库系统是显性语义理解的基础虽然目前存在很多的知识库系统,但是这些知识库系统又存在着一些区别。

比如图7所示,我们对短文本进行处理,处理过程需要包含两部分首先,我们需要对短文本进行理解,也就是把短文本转成机器内部的表示然后,基于内部表示找到相应的答案我们发现,在理解和回答的过程需要的知识是不一样的。

在理解的过程中,更多的是需要语言的知识和常识性知识也就是说,我们所有人没有办法知道维基百科的所有内容、没有办法知道所有酒店的名称、没有办法知道所有电影的名称、我们没有办法穷举和穷知所有的知识,但是给定一个我们不认识的单词、酒店名字中含有我们不认识字的文本,再给定一些上下文,我们仍然能理解文本的含义,可能我们没有办法回答。

所以在理解的过程中更多的是需要语言的知识和常识性知识在回答的过程中,更多需要百科性知识库系统来回答

图7:对短文本进行处理我们对常识性知识库系统和百科性知识库系统做一下对比常识性知识库系统是基于文本,而百科性知识库系统是基于实体常识性知识库包含的关系有一阶逻辑(isA)、属性关系(isPropertyOf)、共现关系(co-occurrence)等,而百科性知识库系统中关系是人工预先定义好的。

常识性知识库的特点是所有的知识都是含有一定概率,即所有的知识都是不确定的,而百科性知识库系统通常是确定的,我们用recall、精度来衡量它的质量常识性知识库系统比较有代表性的工作有:WordNet、KnowItAll、NELL、Probase,而百科性知识库系统比较有代表性的工作有:Freebase、Yago、DBPedia、Google Knowledge graph,具体的对比信息如图8所示。

图8:常识性知识库系统VS百科性知识库系统2.1 常识性知识库系统(1)WordNet简单介绍:WordNet是一个大型的英语词典数据库名词、动词、形容词和副词被分进认知同义词集合中,每一个集合都表达一个不同的概念。

WordNet的统计:

图9:对WordNet的统计例子:S: (n) China, Peoples Republic of China, mainland China, Communist China, Red China, PRC, Cathay (a communist nation that covers a vast territory in eastern Asia; the most populous country in the world)

作者:WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的大型的英语词典,该工程首先开始于普林斯顿大学的心理系,现在由普林斯顿大学的计算机科学系管理维护链接:WordNet的主页:A Lexical Database for English

地址:https://wordnet.princeton.edu/下载地址:https://wordnet.princeton.edu/download缺点:WordNet就像英文字典一样,只包含词本身,不包含实体。

比如说不包含“Microsoft”、“Facebook”等这些实体词(2)KnowItAll从网页中提取高质量的知识简单介绍:从网络中自然语言文本上,OpenIE 抽取语义关系工具:TextRunner->ReVerb->Open IE,part of KnowItAll。

KnowItAll统计:从超过十亿的网页中产生超过五十亿的抽取例子:From “U.S. president Barack Obama gave his inaugural address on January 20, 2013.”。

To: (Barack Obama; is president of; U.S.) (Barack Obama; gave; [his inaugural address, on January 20, 2013])

新闻:OpenIE v4.1.3 已经发布作者:华盛顿大学图灵中心链接:OpenIE的主页:http://openie.allenai.org/ReVerb的主页:http://reverb.cs.washington.edu/。

(3)NELL简单介绍:NELL的全称为“Never-Ending Language Learning”,中文名字是“永无止境的语言学习”NELL是一个研究项目,它试图创建一个随着时间的推移学习阅读网页的计算机系统。

自2010年1月以来,我们的计算机系统NELL(Never-Ending Language Learner)一直在运行,每天都在尝试执行两项任务:1)首先,它试图“读取”或从数以亿计的网页中找到的文本中提取事实(例如,playsInstrument(George_Harrison,guitar))。

2)其次,它试图提高其阅读能力,以便明天它可以更准确地从网络中提取更多的事实NELL统计:1)通过读网页可以获得超过5亿的candidate beliefs他们被认为处于不同的置信水平2)high confidence in 2,817,156 beliefs.。

例子:

图10:NELL的Recently-Learned Facts新闻:NELL不断在网上学习事实,资源是公开的作者:卡内基梅隆大学NELL研究团队链接:NELL主页:http://rtw.ml.cmu.edu/rtw/。

下载地址:http://rtw.ml.cmu.edu/rtw/resources(4)Probase简单介绍:Probase的目标是让机器“意识到”人类的心理世界,使机器更好地理解人类的交流 我们通过给机器提供某些general knowledge或某些常识(certain common sense)来做到这一点。

Probase网络概览:

图11:Probase网络概览图Concepts:

图12:Probase概念的展示应用:Probase的目标是使机器更好地理解人类的沟通例如,在自然语言处理和语音分析中,知识库可以帮助减少语言的模糊性由于Probase在人类思维中拥有与概念空间(一般事实)一样大的知识库,因此在这些应用中具有独特的优势。

此外,借助Probase提供的概率知识,微软构建了几个有趣的应用程序,如主题搜索,Web表搜索和文档理解,如图13所示

图13:Probase和它应用的概览新闻:2016年9月,微软通过“Microsoft Concept Graph”主页来发布Probase项目的最新信息,发布的名字是“Microsoft Concept Graph”。

Microsoft Concept Graph地址:https://concept.research.microsoft.com/作者:微软亚洲研究院链接:Probase工程主页地址:https://www.microsoft.com/en-us/research/project/probase/

Microsoft Concept Graph:https://concept.research.microsoft.com/2.2 百科性知识库系统(1)Freebase简单介绍:百科性知识库最具有代表性的工作是Freebase。

Freebase是一个众所周知的协作知识库,由社区数据组成统计:1)Freebase包含超过二千三百万的实体2)Freebase包含1.9亿的三元组(triple)3)每一个三元组的形式如:。

4)Freebase是一个事实的集合。5)Freebase只包含节点和关系。6)Freebase是一个代标签的图。以上所有的信息如图14所示:

图14:Freebase的Statistics新闻:1)Freebase的数据被合并到Wikidata2)Freebase被Google收购,Google基于Freebase创建了自己的知识库系统Google Knowledge Graph。

3)在2016年8月31号,Freebase的API会被完全的关闭,取代它的将是Google Knowledge Graph API作者:Freebase社区链接:Freebase主页:http://wiki.freebase.com/wiki/Main_Page   (这个地址不能访问了)。

Freebase下载地址:https://developers.google.com/freebase/Wikidata主页:https://www.wikidata.org/(2)Google Knowledge Graph

简单介绍:Google知识图谱是Google从各种来源收集的语义搜索信息来增强其搜索引擎搜索结果的知识库。统计:5.7亿个对象和关于不同对象之间关系的超过180亿个事实。例子:

图15:Google知识图谱例子作者:谷歌公司链接:谷歌知识图谱主页:https://www.google.com/intl/es419/insidesearch/features/search/knowledge.html。

(3)YAGO简单介绍:YAGO是一个巨大的语义知识库系统,它是由GeoNames、WordNet和Wikipedia的数据导出组成的统计:1)超过一千万的实体(人、组织、城市等)2)超过一亿两千万的关于实体事实。

3)超过三万五千类分配到实体中4)它的许多事实和实体都是附有时间维度和空间维度的例子:新闻:1)YAGO的知识库系统源代码在GitHub上可以获得。

2)YAGO目前的知识库系统版本是3.1作者:Max Planck Institute for Informatics in Saarbrücken/Germany and DBWeb group at Télécom ParisTech University.。

链接:YAGO主页地址:http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago

下载地址:http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/

3. 显性知识表示模型本部分主要介绍显性知识表示模型相比于深度学习模型,基于知识库系统所构建的模型可以称之为显性知识表示模型它会更加贴近于人类的思考过程这部分会重点介绍一些模型的基本思想,并以实例加以解释。

3.1 Single Instance Understanding我们对搜索查询做了统计,通过对搜索查询文本用Freebase、Probase做了字典,把文本分成Instance(或者实体)比如,"Microsoft HoloLens"是两个词,但是确实是一个实例。

我们发现44%的搜索查询只包含一个实例所以我们在解决短文本时,首先要解决对一个实例的理解3.1.1 这个实例是有歧义的么?判断一个实例是否有歧义,学术界做过一些工作下面具体介绍这些工作(1)词歧义学术界工作

:Word sense disambiguation:rely on dictionaries(WordNet)缺点:WordNet只包含词,不包含实体,所以在实体方面是否有歧义效果不是很好(2)实例有歧义。

总结学术界工作:Instance sense disambiguation:extra knowledge needed我们知道许多实例是有歧义的比如:harry potter可能指一本书,也可能是一部电影。

也就是说,有歧义的实例包含很多的意思(sense)那么对sense的定义,有以下两个工作:1)Pre-definition for Ambiguity:Sense[Hua et al. 2016]这个工作解决了“在语义网络中Sense是什么?”,即把Sense做为a hierarchy of concept clusters。

举个例子:比如,如图16所示:“Germany”是属于“country”、“region”两个概念聚类,但是这两个概念聚类又有包含关系,所以我们认为“Germany”是没有歧义的。

图16:Sense2)Pre-definition for Ambiguity:Concept Cluster[Li et al.2013,Li et al.2015]这个工作解决了“什么是概念聚类(Concept Cluster)?”,即,使用类似K-Means的方法将类似概念聚类到概念集群中,该方式是(K-Medoids)。

基于上面两个工作,我们可以把实例歧义分成三类,具体如下3)Definitions of Instance Ambiguity[Hua et al. 2016]我们可以将一个实体是否有歧义,可以分为三类:。

i)Level 0:无歧义只包含一个sense例如:dog(animal),beijing(city),potato(vegetable)ii)Level 1:介于无歧义和有歧义之间包含两个或多个sense,但是这些sense是相关的。

例如:google(compay & search engine),french(language & country),truck(vehicle & public transport service)

iii)Level 2:有歧义包含两个或多个sense,并且这些sense相互之间是非常不相同的例如:apple(fruit & company),jaguar(animal & company),python(animal & language)。

3.1.2 这个实例基本的概念是什么?这一部分主要是如何找到这个实例最符合的概念比如说,“Microsoft”可以属于company、software company、international company、largest desktop OS vendor等很多很多的概念。

如果我们把”Microsoft“映射到”company“,显然这是一个很好的映射,但是并不是一个最好的映射因为我们不能把Microsoft与KFC公司和BMW公司区分开Microsoft与KFC之间的区别还是很大的。

如果把Microsoft映射到一个太具体的概念,那么这个概念只包含Microsoft一个,没办法用这个概念和其它概念做一个区分所以,在语言学上有一个术语”Basic-level Conceptualization“,即把词映射到即不是特别具体的概念上,也不是特别抽象的概念上。

例如,把Microsoft映射到software company是比较好的,如图17所示。

图17:Basic-level概念那么,如何把一个实体(Instance)映射到”Basic-level Conceptualization“呢?具体做法有两个:(1)Typicality(2)Pointwise Mutual Information(PMI)。

(1)Naive Approach 1:TypicalityTypicality:理解对象与其概念之间关系的重要手段那么,具体什么是Typicality呢?当我们提到bird这个概念的时候,我们会认为”robin“比”penguin“更加typical;再比如说,我们提到country这个概念的时候,通常会想到美国、中国这样的大国,不会想到像Seychelles这样的非洲或太平洋的岛国。

所以Typicality就是,给定一个概念究竟哪些词是比较有代表性的。

图18:Typicality概念在图18中,我们有两个公式可以计算出哪些词是具有代表性的,但是可以得出结论:不管是哪个公式,都会导致概念太泛化或者是太具体。

图19:计算词的代表性(2)Naive Approach 2:PMIPointwise Mutual Information(PMI):两个术语之间关联强度的常用量度PMI通过一些公式的推倒,它会退化成Typicality。

因此也会出现把词映射到特别具体的概念上,或者是特别抽象的概念上基于以上两种方法的缺点,在2015年,wang等人提出用Rep(e,c)来”Basic-level Conceptualization“同时在微软的官方主页上,提供了在线的demo,大家可以输入实体,然后微软的”Microsoft Concept Graph“基于不同的计算方法得到的一个分数分布。

链接地址:https://concept.research.microsoft.com/Home/Demo3.1.3 这个实例相似的实例是什么?对于单个实体,我们还有一个很重要的工作是:给定一个实体我们希望找到与它相似的另外一些实体。

比如说给定apple,我们希望知道Microsoft跟它是相似的,pear也是跟它相似的,但是跟ipad是相关的,但不是相似的,如图20所示。

图20:apple相似的实体找到一个实体相似的其它实体,比较常用的方法有四个:1)基于字符串的方法;2)基于知识库的方法;3)基于Corpus的方法;4)基于Embedding的方法;以上方法或多或少都有些问题,所以现在比较常用的基于知识库的方法是”Term Similarity Using Semantic Networks“[Li et al. 2013,Li et al. 2015]。

这种方法操作步骤如下:1)Step 1:Type Checking2)Step 2:Context Representation(Vector)3)Step 3:Context Similarity3.2 Short Text Understanding

除了单实体以外,剩下的56%搜索查询是包含两个或两个以上的实体如果从distinct queries来看,有99%的distinct queries是包含两个或多个实体所以解决完单实体的短文本理解之后,最重要的是解决更加常见的多实体的短文本理解。

那就涉及到以下4个问题:(1)如何做短文本的分词?(2) 短文本的含义是什么?(也就是短文本的intent、senses和concepts是什么?)(3)在短文本中词之间的关系是什么?(4)如何计算短文本之间的语义相似度?

3.2.1 如何做短文本的分词?(1)2007年,有一篇论文“Supervised Segmentation [Bergsma et al. 2007]” 提出把短文本的分词转成一个分类器的问题,提出一堆的Features。

论文的基本思想是:对于短文本的每一个位置,基于一些Features,用分类器判断要不要在某些位置进行切分,这种模型的缺点是:需要有大量的训练数据,如图21所示。

图21:Supervised Segmentation(2)在2008年,有一篇论文“Unsupervised Segmentation [Tan et al. 2008]”论文的基本思想是:用N-Gram的方式对文本进行切分,然后用dynamic programming找到top k,最后用EM optimization来做语义的划分。

(3)在2011年,有一篇论文“Exploit Click-through [Li et al. 2011]”论文的基本思想是:把Click-through(点击率)考虑进来虽然我们不知道原始的文本如何划分,但是可以对Query点击过的文本中发现一些证据,例如“bank of america”、“credit card”总是一起出现,于是我们就知道如何对Query文本进行分割。

3.2.2 短文本的含义是什么?(1)在2009年,有一篇论文“Entity Recognition in Query [Guo et al. 2009]”论文的基本思想是:把Single-named-entirty query变成一个triple,提出了一个Probabilistic Generative Model。

(2)在2012年,有一篇论文“Signal from Click [Pantel et al. 2012]”论文的基本思想是:引入了Click-through思想以上的方法都是用文本本身和Click-through,从2013年和2014年开始就有很多引入知识库系统来做。

(3)在2013/2014年,有两篇论文“Join Interpretation and Ranking [Sawant et al. 2013]|| [Joshi et al. 2014]”论文的基本思想是:提出了一种Generative Model和一种Discriminative Model。

(4)在2015年,有一篇论文“Understand Short Texts with A Multi-tiered Model [Hua et al. 2015(ICDE Best Paper)]” 。

该论文的思想是:在理解短文本的时候分为三步:1)Text Segmentation - divide into a sequence of terms in vocabulary2)Type detection - determin the best type of each term。

3)Concept Labeling - infer the best concept of each entity within context(5)在2015年,有一篇论文“Mining Lexical Relationships [Wang et al. 2015b]”。

3.2.3 在短文本中词之间的关系是什么?(1)在2014年,有一篇论文“Head, Modifier, and Constraint Detection in Short Texts [Wang et al. 2014b]”。

该论文的主要思想是:把短文本分割成Head, Constrains, Non-Constraint Modifiers(2)在NLP中,有“Syntactic Parsing based on HM”方法。

因此,我们可以借鉴NLP的方法提出了 “Syntactic Parsing of Short Texts [Sun et al. EMNLP 2016]“方法处理短文本3.2.4 如何计算短文本之间的语义相似度?

(1)在2015年,有一篇文章”Short Text Similarity Using Word Embedding [Kenter and Rijke 2015]“该论文基本思想是:通过用embedding vector逐单词比较,计算短文本(短句子)之间的相似性。

(2)在2015年,有一篇论文”From the Concept View [Wang et al. 2015]“该论文的基本思想是:从概念图中,比较短文本之间的相似度4.应用本部分主要是具体应用介绍知识库系统及模型最终是服务于应用的。

这部分会分享一些在微软实际产品中使用显性知识表示模型,来改进各种应用的一些实例1)Ads/search semantic match2)Definition mining3)Query recommendation

4)Web table understanding5)Semantic search4.1 Ads Keyword Selection [Wang et al. 2015a]对于短文本的理解,我们可以应用到改进广告关键字上,提高广告点击率。

如图22所示,横轴表示:搜索关键字和语义关键字之间的相似度;纵轴表示:广告点击率(CTR,Click-through Rate)

图22:短文本改进广告关键字4.2 Definition Mining [Hao et al. 2016]4.3 Concept based Short Text Classification and Ranking [Wang et al. 2014a]

利用概念化的结果来做短文本分类器4.4 Table Understanding [Wang et al. 2012a]用概念来做表格的理解4.5 Semantic Search [Wang et al. 2012b]。

目前的搜索引擎是基于关键字的,如果我们能上升到概念的搜索,那么搜索的结果会更加有意思Reference:【1】Understanding Short Texts地址:http://www.wangzhongyuan.com/tutorial/ACL2016/Understanding-Short-Texts/。

【2】http://www.wangzhongyuan.com/tutorial/ACL2016/Understanding-Short-Texts/Slides/Understanding-Short-Texts-Part-II-Explicit-Representation.pdf

【3】2-王仲远-如何让机器像人类一样理解短文本【视频】地址:http://jiangmen.gensee.com/webcast/site/vod/play-15da50b39c4f411b860b48c4cc8f6b81

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

知识知识库的定义是什么(语言学知识库是什么)一看就会

2023-10-31Aix XinLe157

知识库的定义是什么(语言学知识库是什么)一看就会本篇文章介绍王仲远、王海勋博士在ACL2016会议上关于《Understanding Short Texts》报告中的Part II: Explicit Representation for Short Text Understanding…

科学关于科学和技术(关于科学和技术下列说法正确的是)一篇读懂

2023-10-31Aix XinLe90

关于科学和技术(关于科学和技术下列说法正确的是)一篇读懂
ENDING2022年5月至10月,为深入开展科普活动,提高全民科学素质,宣传贯彻党的十九大精神,宜春市科协以习近平新时代中国特色社会主义思想为指导,扎实推进全民科学素质问答活…

艺术二月二龙抬头的吉祥语(二月二龙抬头的顺口溜)万万没想到

2023-10-31Aix XinLe83

二月二龙抬头的吉祥语(二月二龙抬头的顺口溜)万万没想到2020年的开始我们没有遇到好的事情,但是在2020的结尾我希望能够有好的结束,二月龙抬头也到了,我们一起来看看二月二龙抬头顺口溜民间俗话。二月…

科学科学技术代表的是(代表明清科学技术主要成果)奔走相告

2023-10-31Aix XinLe131

科学技术代表的是(代表明清科学技术主要成果)奔走相告
甘肃省文物局党组成员、副局长 白坚:尊敬的各位领导、各位专家、媒体朋友们:大家上午好!值此瓜果飘香、气候宜人的美好时节,非常高兴与大家共聚云端、相会兰州,共同参加由…

知识北京大学机构知识库(北京大学机构授权码)怎么可以错过

2023-10-31Aix XinLe101

北京大学机构知识库(北京大学机构授权码)怎么可以错过5月11日,2019 第八届中国公司法务年会在北京维景国际大酒店召开。…