知识库和知识图谱的形容词(描述知识库与知识图谱的关系)新鲜出炉
随着大数据时代的降临,知识图谱在医疗、语言、心理等领域的应用越来越多,对于知识图谱的了解迫在眉睫。
导读随着大数据时代的降临,知识图谱在医疗、语言、心理等领域的应用越来越多,对于知识图谱的了解迫在眉睫。本文对知识图谱进行了简要的介绍,旨在让读者初步了解人工智能知识图谱这一领域。
哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信(Believed)简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、规则或原则(Rules&Principles)的集合。
基于向量的方式表示知识的研究由来已有表示学习的发展,以及自然语言处理领域词向量等嵌入(Embedding)技术手段的出现,启发了人们用类似于词向量的低维稠密向量的方式表示知识的研究通过嵌入(Embedding)将知识图谱中的实体和关系投射到一个低维的连续向量空间,可以为每一个实体和关系学习出一个低维度的向量表示。
这种基于向量的知识表示可以实现通过数值运算来发现新事实和新关系,并能更有效的发现更多的隐性知识和潜在假设,这些隐性知识通常是人的主观不易于观察和总结出来的更为重要的是,知识图谱嵌入也通常作为一种类型的先验知识辅助输入到很多深度神经网络模型中,用来约束和监督神经网络的训练过程。
知识图谱的表示方法基于符号的知识图谱表示方法 目前大多数知识图谱的实际存储方式都是以传统符号化的表示方法为主大多数开放域的知识图谱都是基于语义网的表示模型进行了扩展或删改下面主要 以语义网的知识表示框架为例简要介绍基于符号的知识图谱表示方法。
当然,语义网只是符号知识表示框架和方法的一种RDF是最常用的符号语义表示模型RDF的基本模型是有向标记图(Directed Labeled Graph)图中的每一条边对应于一个三元组(Subject-主语,Predicate-谓 语,Object-宾语)。
一个三元组对于一个逻辑表达式或关于世界的陈(Statement)
常见知识库及知识图谱的知识表示方法早期的知识库项目 Cyc 是持续时间最久,影响范围较广,争议也较多的知识库项目Cyc 是在 1984 年由 DouglasLenat 开始创建最初的目标是要建立人类最大的常识知识库。
典型的常识知识如“Every tree isa plant” ,”Plants die eventually”等Cyc 知识库 的知识表示框架主要由术语 Terms 和断言 Assertions 组成Terms 包含概念、关系和实体的定义。
Assertions 用来建立 Terms 之间的关系,这既包括事实 Fact 描 述,也包含规则 Rule 的描述最新的 Cyc 知识库已经包含有 50 万条Terms 和 700 万条 Assertions。
Cyc 的主要特点是基于形式化的知识表示方法来刻画知识形式化的优势是可以支持复杂的推理但过于形式化也导致知识库的扩展性和应用的灵活性不够Cyc 提供开放版本 OpenCycWordNet 是最著名的词典知识库,主要用于词义消歧。
WordNet 由普林斯顿大学认识科学实验室从1985年开始开发WordNet的表示框架主要定义了名词、动词、形容词和副词之间的语义关系例如名词之间的上下位关系(如:“猫科 动物”是“猫”的上位词),动词之间的蕴含关系(如:“打鼾”蕴含着“睡眠”)等。
WordNet3.0 已经包含超过 15 万个词和 20 万个语义关系ConceptNet 是常识知识库最早源于 MIT 媒体实验室的 Open Mind Common Sense (OMCS)项目OMCS 项目是由著名人工智能专家 Marvin Minsky 于 1999 年建议创立。
ConceptNet 主要依靠互联网众包、专家创建和游戏三种方法来构建ConceptNet 知识库以三元组形式的关系型知识构成ConceptNet 5 版本已经包含有 2800 万关系描述与 Cyc 相比,ConceptNet 采用了非形式化、更加接近自然。
语言的描述,而不是像 Cyc 那样采用形式化的谓词逻辑与链接数据和谷歌知识图谱相比,ConceptNet 比较侧重于词与词之间的关系从这个角度看,ConceptNet更加接近于 WordNet,但是又比 WordNet 包含的关系类型多。
此外,ConceptNet完全免费开放,并支持多种语言 ConceptNet5的知识表示框架主要包含如下要素:概念-Concepts、词 -Words、 短语-Phrases、断言 Assertions、关系-Relations、边-Edges。
Concepts由 Words 或 Phrases 组成,构成了图谱中的节点与其它知识图谱的节点不同,这些 Concepts 通常是从自然语言文本中提取出来的,更加接近于自然语言描述,而不是形式化的命名。
Assertions 描述了 Concepts 之间的关系,类似于 RDF 中的 StatementsEdges 类似于 RDF 中的 Property一个 Concepts 包含多条边,而一条边可能有多个产生来源。
例如,一个“化妆Cause漂亮”的断言可能来源于文本抽取,也可能来源于用户的手工输入来源越多,该断言就越可靠ConceptNet根据来源的多少和可靠程度计算每个断言的置信度ConceptNet5中的关系包含21个预定义的、多语言通用的关(如:IsA、UsedFor 等)和从自然语言文本中抽取的更加接近于自然语言描述的非形式化的关系(如:on top of,caused by 等)。
ConceptNet5 对 URI 进行了精心的设计URI同时考虑了类型(如,是概念还是关系)、语言、正则化后的概念名称、词性、歧义等因素例如“run”是一个动词,但也可能是一个名词(如basement比赛中一个“run”),其URI为:“/c/en/run/n/basement”。
其中,n代指这是一个名词,basement 用于区分歧义在处理表示“x is the firstargument of y ”这类多元关系的问题上,ConceptNet5 把所有关于某条边的附加信息增加为边的属性。
语义网与知识图谱互联网的发展为知识工程提供了新的机遇在一定程度上,是互联网的出现帮助突破了传统知识工程在知识获取方面的瓶颈从 1998 年 Tim Berners Lee 提出语义网至今,涌现出大量以互联网资源为基础的新一代知识库。
这类知识库的构建方法可以分为三类:互联网众包、专家协作和互联网挖掘Freebase是一个开放共享的、协同构建的大规模链接数据库Freebase 是由硅谷创业公司 MetaWeb 于 2005 年启动的一个语义网项目。
2010 年,谷歌收购了 Freebase 作为其知识图谱数据来源之一Freebase 主要采用社区成员协作方式构建其主要数据来源包括维基百科 Wikipedia、世界名人数据库 NNDB、开放音乐数据库 MusicBrainz,以及社区用户的贡献等。
Freebase 基于 RDF 三元组模型,底层采用图数据库进行存储Freebase 的一个特点是不对顶层本体做非常严格的控制,用户可以创建和编辑类和关系的定义2016年,谷歌宣布将Freebase 的 数据和 API 服务都迁移至Wikidata,并正式关闭了 Freebase。
Freebase 的知识表示框架主要包含如下几个要素:对象-Object,事实-Facts, 类型-Types 和属性-Properties“Object”代表实体每一个“Object”有一个唯一的ID,称为 MID(Machine ID)。
一个“Object”可以有一个或多个“Types”“Properties” 用来描述“Facts”例如:“Barack Obama”是一个 Object,并拥有一个唯一的 MID:“/m/02mjmr” 。
这个 Object 的一个 type 是“/government/us_president”,并有一个 称为“/government/us_president/presidency_number”的 Property,其数值是“44”。
Freebase 使用复合值类型(CVT:Compound Value Types )来处理多元关系例如下面这个例子中的 CVT 描述了关于 Obama 的任职期限的多元关系 “government_position_held”。
这个多元关系包含多个子二元关系:“office_holder”, “office_position”,“from”,“to”等一个 CVT 就是一个有唯一 MID 的 Object, 也可以有多个 Types。
为了以示区别,Freebase 把所有非 CVT 的 Object 也称为“Topic”
DBPedia 是早期的语义网项目DBPedia意指数据库版本的 Wikipedia,是从 Wikipedia抽取出来的链接数据集DBPedia 采用了一个较为严格的本体,包含 人、地点、音乐、电影、组织机构、物种、疾病等类定义。
此外,DBPedia 还与 Freebase,OpenCYC、Bio2RDF 等多个数据集建立了数据链接DBPedia 采用了 RDF 语义数据模型,总共包含 30 亿 RDF 三元组Schema.org:Schema.org 是 2011 年起,由 Bing、Google、Yahoo 和 Yandex 等搜索引擎公司共同支持的语义网项目。
Schema.org 支持各个网站采用语义标签(Semantic Markup)的方式将语义化的链接数据嵌入到网页中搜索引擎自动搜 集和归集这些,快速的从网页中抽取语义化的数据Schema.org 提供了一个词汇 本体用于描述这些语义标签。
截止目前,这个词汇本体已经包含 600 多个类和 900 多个关系,覆盖范围包括:个人、组织机构、地点、时间、医疗、商品等谷歌于 2015 年推出的定制化知识图谱支持个人和企业在其网页中增加包括企业 联系方法、个人社交信息等在内的语义标签,并通过这种方式快速的汇集高质量的知识图谱数据。
WikiData: WikiData 的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库WikiData 由维基百科于 2012 年启动,早期得到微软联合创始人 Paul Allen、Gordon Betty Moore 基金会以及 Google 的联合 资助。
WikiData 继承了 Wikipedia 的众包协作的机制,但与 Wikipedia 不同, WikiData 支持的是以三元组为基础的知识条目(Items)的自由编辑一个三元组代表一个关于该条目的陈述(Statements)。
例如可以给“地球”的条目增加“”的三元组陈述截止 2016 年,WikiData 已经 包含超过 2470 多万个知识条目WikiData 的知识表示框架主要包含如下要素:页面-Pages,实体-Entities,条 目-Items,属性-Properties,陈述-Statements,修饰-Qualifiers,引用-Reference 等。
WikiData 起源于 Wikipedia,因此,与 Wikipedia 一样,是以页面“Page”为基本组 织单元Entities 类似于 OWL: Things,代指最顶层的对象每一个 Entity 都有一 个独立的维基页面。
主要有两类 Entities:Items 和 PropertiesItem类似于 RDF 中的 Instance,代指实例对象Properties 和 Statement 分别等价于 RDF 中的 Property 和Statement。
通常一个 Item 的页面还包含有多个别名-aliases和多个指 向维基百科的外部链接-Sitelinks每个Entities 有多个 Statements一个Statement 包含:一个 Property、一个或多个Values、一个或多个 Qualifiers,一个或多个 References、一个标示重要性程度的 Rank。
修饰-Qualifiers 用于处理复杂的多元表示如下图中的一个陈述“spouse: Jane Belson”描述了一个二元关系我们可以使用Qualifiers 给这个陈述增加多个附加信息来刻画多元关系,如:“start date: 25November 1991” and “end date: 11 May 2011,”等。
引用-References用于标识每个 陈述的来源或出处,如来源于某个维基百科页面等引用也是一种 Qualifiers,通常添加到 Statements 的附加信息中WikiData 支持多种数值类型,包括:其自有的 Item 类型、RDF Literal、URL、媒体类型 Commons Media 和三种复杂类型:Time、Globe coordinates 和 Quantity。
WikiData 允许给每个 Statement 增加三种权重:normal(缺省),preferred 和 deprecatedWikiData 定义了三种 Snacks 作为 Statement 的 具 体 描 述 结 构 :PropertyValueSnack、PropertyNoValueSnack、PropertySomeValueSnack。
“PropertyNoValueSnack”类似于 OWL 中的“Negation”, 用于表示类似于““Elizabeth I of England had no spouse.” 的知识“PropertySomeValueSnack’类似于 OWL 中的存在量词“someValuesFrom”,用于表 示类似于“Pope Linus had adate of birth, but it is unknown to us”这样的知识。
往期精彩:威尼斯悖论:气候变化将重塑全球经济体BRICS:通过推动金砖五国间本币结算机制,降低金融和贸易对美元的依赖金融平台兴起——初创企业该如何回应?林毅夫:预测中国经济未来十年为什么英国的股票市场正在缩水
经济在下行,平台没红利,电商开始走下坡路了吗?大数据时代,你身边的大数据你知道几个?日益谨慎的谷歌AI,会在自我限制中越走越慢吗?区块链大旗还能扛多久?区块链是什么?用漫画来告诉你智能合约与代币经济2020年14个金融科技趋势
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186