开源知识图谱:开源知识图谱平台
OpenKG知识图谱干货来了
1 月 10 日,2021 开源数据运动线上研讨会成功举办EpiK 借助区块链去中心化的协作模式搭建共建共享共益的开放知识库,推动知识图谱的开放与互联此次大会,EpiK 邀请清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席、著名知识图谱专家王昊奋、著名数据及知识图谱公司创始人及项目负责人王会珍等重量级嘉宾参与。
众位专家学者纷纷就知识图谱开放与互联发表精彩演讲
中国计算机学会知识图谱 SIG 主席、著名知识图谱专家王昊奋的主题演讲《开源知识图谱如何保持实用性》,王老师指出,在区块链+知识图谱方面,Epik 铭识协议有很深的研究,现在也在推出自己更强大的平台全文如下:
关于知识图谱知识图谱是用来刻画事物之间的关系,沉淀我们的领域知识我们经常会提到知识的获取,特别来自于非结构化、结构化、多媒体,现在的物联网数据,甚至包括一些众包的数据进行一定的关联和提炼,形成我们称之为经验规范的数据,这其实就是知识。
知识图谱还有一个关键词,叫做图谱,图谱其实就是对于所抽取到的数据进行深度关联,现在有一块专门体系关注原来传统的符号主义和现在的神经连接主义,特别是深度学习为主的联系因此,当前大家会看到我们现在对于知识的定义,就不再是原来传统的推理,而是称之为知识引擎,这个时候我们就可以赋能下游任务,包括语义的搜索,智能的问答,语言理解,媒体理解,推理引擎和我们各种各样的决策引擎,因此,知识图谱现在越来越多的受到国家、企业、行业以及科研机构关注。
当然不得不提到,清华人工智能研究院的张波院士发文提出了第三代人工智能,第三代人工智能就是从原来最早期的仅以符号为主的专业系统和仅以数据为主的现代深度学习两者的结合,去做到数据和知识的双轮驱动,为下游各种任务进行赋能。
知识图谱从上世纪的一个专家系统开始,引入了很多哲学本体的概念;伴随着 Web 的成长,从 Web 到语义网,并得到了图灵奖获得者 Web 之父 TimBerners-Lee 的大力支持2006 年,知识图谱的原型出现—Linkeddata,强调数据的开放、数据的链接和数据的语义化;2012 年,谷歌在 2010 年把 mataweb 收购了以后,将最大的知识图谱合并到了谷歌知识图谱的核心,用知识图谱来赋能搜索引擎,从而让知识图谱进入大众视线。
知识图谱其实是跟一个跨学科多学科以及非常复杂的工程,它聚合了 web 领域,知识表示和推理领域、AI 领域、自然语言处理领域、数据库领域、多媒体领域等等,是各领域各学科的结合当前各大机构都在在构建知识图谱,这对组织与应用知识图谱给到了相当多的帮助。
关于 OpenKGOpenKG 社区目的是为了去推进知识图谱本身各方面的发展,从标准的制定,到数据集的开放,再到工具链的开源开放,再到模型的开放在这过程,我们就一直在思考到底我们能做些什么万维网是 open 的,语义万维网也是 Open 的,知识图谱迎来了 OpenData,但在开放过程中和想象有出入,这主要是因为数据涉及到隐私保护的问题。
但知识本来作为是一个数据上的高度的统一和抽象,代表一类人共识,因此,知识的开源和开放,其实相比数据开源开放来的会少很多问题
接下来说开源工具,深度学习包括自然语言处理,包括知识表示,以及数据库,他们就构成了我们的开源工具集深度学习被狭义地认为是人工智能,为什么它发展如此迅猛?这主要来源于开源工具,包括国内的百度深度学习的开源框架,以及开源的代码和开源的模型、开放的数据集,促成了这样的生态繁荣,所以说知识图谱要做到这样一件事,也必须这样。
最后,我也将会提及一些 BlockChain 方面的内容,进行简单的知识分享。
知识图谱的开放基因是多学科和多领域结合的结果历史上曾出现过很多语义网的开放项目,包括 2006 年的 Linkeddata,国际上知名的 schemaorg,大家共同去提出的一些上层的知识表示的一个规范。
其中,VPdata 是现在最大的知识众包或者国际上的众包,或者知识库的知识图谱的一个开源平台,当然也包括 OpenKG,当前 OpenKG 的口号就是链上的开放知识图谱OpenKG 主要的特点是以中文核心为基础的一个开放知识图谱,依托中国中文信息学会作为上级指导单位,涵盖了清华大学、浙江大学、东南大学等高校以及其他产业界如小米,微软,华为等等各方面的同事,共同支持推动这一平台的发展。
OpenKG 平台数据集、工具、算法均是开放的,而成员也大多是企业或高校成员,这些成员会发布各类文章,包括学术前沿、产业落地,每年都会出白皮书来指导工作。
今年新冠期间,我们做了一个新冠的专题,主要详细介绍一下新冠的病毒开放知识图谱这里面包含了百科、科研、药物、防控、临床、流行病学等 15 个内容,我们是由 10 余家单位共同构建,包含很多科研的内容,如所属的类别,相似病毒等等,其中有药理学或者宿主以及传播路径,还有很多的防范和临床的指导。
除此之外,通用开放知识图谱也是非常重要的,包括复旦大学的知识工厂提供了 CMBDP,北大提供的 PTUbase,东南大学和我这边一起提供的知识 .me,清华大学提供的是 SDI 的 KG 等等除了数据集还会有很多的工作,比如知识的关系抽取,数据库、知识表示等等,还有包括知识查询和推理,这些都可以在 OpenKG 上找到的比较重要的工具。
前面讲到了国际上有一个叫做 cnSchemaOpenKG,它是由谷歌和微软以及雅虎、俄罗斯最大的搜索引擎定义的上层的 Schema,但并不符合我们的实际,OpenKG 也做了一个 cnSchema,是以 Schema.org 作为蓝本,对其中的内容进行一些梳理,扩充了很多符合自身特色的数据源,其中提到了一个顶层的 Schema 和指导关联的内容。
另一个需要重点提及的是 Openbase,这是 OpenKG 下面的一个知识图谱众包平台,Openbase 的目的就是使得大家可以上传一些数据源,提供高质量的知识图谱以新冠为例,在平台上,除了游客之外,还有审核员、校对员和管理员等角色。
知识图谱是由点和边组成,审核任务包括实体审核和关系审核,当然用户也可以申请成为数据的审核组成员,但这需要完成一定的任务,就像 B 站上要成为一个 up 主一样,需要通过一定的测试来证明申请人自身的专业性以后,才可以成为这方面的审核员。
在平台角色中,游客主要是起到了下载和浏览的作用,审核者是数据标注和图谱的数据审核,验收者是对于审核者提交的内容确定最终的质量,作出接收或者是退回的操作,他是一个最终的把关和守门员的作用同时,为了方便大家碎片化的时间去做很多的众包任务,也进行了一些交互的设计,比如通过小程序可以让大家做很多的判断题和一些相应的选择题,在过程中,用户也可以查看相应的一些信息来得到额外信息帮助他们做判断。
接下来说一下,OpenKG 在区块链上的尝试,为什么会考虑到与区块链的结合呢?
知识互联的语义部分强调的是数据的规范化描述和强关联,这也是知识图谱本身最最狭义的一个概念,但是有了互联和链接的硬需求以后,但是还会存在很多的问题,主要在于我们会面临和所有权的一个定界,同时我们也会存在很多新粒度的价值计算和可信的溯源机制,所以我们就需要进一步的落实一些去中心化的架构,来保证每个人都可以维护自己的知识库,并且通过知识的一些可信共识,来确定知识的可信度,因此需要做很多的溯源。
同时在这个过程中,因为有很多人参与到了知识的加工或者做知识的挖掘工作,这就需要去做本身价值的计算OpenKG 在 2019 年早期,开始尝试做确权、溯源以及价值激励的思考知识图谱的技术是强调将分散碎片化的数据进行互联和链接融合,同时还需要强调多部门的协同,以及明确部门之间的责权利。
知识的生产者需要去确权和追溯责任,同时也需要去评估可信度在消费者角度来说,通过搜索,通过推理和分析,通过问答进行各种各样的点亮,在各种点亮的过程,就可以对价值进行更多的量化,形成很多的激励这其中还包含了区块链的核心技术,包括共识算法,分布式帐本以及价值的传播和计算等等。
OpenKG 上链,这里面分为几块内容第一块,是所有的数据源和开源工具,是去做粗粒度的上链这个时候的粗粒度上链,也就是当下载数据集的过程,会做点亮和传播第二块,细粒度的知识上链,先是从 cnSchema 开始,也就是众包上链,接下来就是 Openbase 当中去审核的各种各样的三元组,包括实体和关系,在这里,三元组做了链上的传阵和分配产生的楼阈值,上传、审核、编辑、搜索下载和查询的一些操作的上链等均可追踪。
当然在这个过程中,测试平台做了一些小规模的测试,也包括一千多位确权的知识贡献者,上链的测试日均点亮的峰值达到一万多次,总计的点亮和链上的存证是 160 多万次,并首次验证了实现了实体和三元组粒度的知识确权。
OpenKG 区块链,我们叫做可信开放的联邦知识图谱平台目前它是一个联盟链的架构,初始节点差不多七个,交给不同的大学和企业来独立运营,相互的独立,来保证它本身是一个多中心的基础架构,并且是通过共识机制来做分布式帐本,共同提供可信基础设施。
在区块链+知识图谱方面,Epik 铭识协议有很深的研究,现在也在推出自己更强大的平台EpiK Protocol 铭识协议EpiK Protocol 致力于去中心化的超大规模知识图谱构建,通过去中心化存储技术(IPFS)、去中心化自治组织(DAO)和通证经济模型(Token Economy),组织并激励全球社区成员将人类各领域知识梳理成知识图谱,共建共享并持续更新这一人类永恒知识库,从而将人工智能(AI)的视野拓展到更智能的未来。
代币名:EPK合约地址:0xdaf88906ac1de12ba2b1d2f7bfc94e9638ac40c4生态合作机构:Chainlink,清华大学大数据研究中心,Open Knowledge Foundation,OpenSLR,CSAGI,小牛思拓,面壁者数据,中软国际,DR.SEEK等等
EPIK 官网 :https://www.epik-protocol.io/EPIK 钱包:https://epik-protocol.io/walletEPIK GitHub:https://github.com/EpiK-Protocol
EPIK 微信公众号: EpiK Protocol 铭识EPIK 微信社群:Sigrid_EpiKEpiK电报群: https://t.me/EpikProtocol「EPIK 铭识」扫码一键关注
扫码添加「小智」加入 EPIK 社群
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186