java知识图谱:java知识图谱插件
近日,在北理工张华平博士的带领下,对protege汉化后又对webprotege进行了汉化,并成功上线,可以使大家很方便的在线进行知识图谱语义本体的自动构建。
知识图谱语义本体已经成为当今在大数据应用领域共同关注的前沿课题,目前被广泛应用于自然科学与人文科学领域相比较以往的可视化技术存在一系列缺点,新兴的知识图谱可将某个学科领域或者知识单元间错综复杂的交互关系用节点与链接等现代可视化大数据技术进行处理与展示,使人们可以清晰直观的了解某个学科或者领域发展进程中的知识结构、研究趋势等。
运用知识图谱能够有效的从众多数据中获取知识,也是目前人们从浩如烟海的数据中获取知识的一种有效方法
protege汉化版Protege软件是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具相比与其他的本体构建工具而言,。
Protégé最大的好处在于支持中文,在插件上,用Graphviz可实现中文关系的显示为了方便大家,在北理工张华平博士的带领下,对protege汉化后又对webprotege进行了汉化,并成功上线,使大家可以在线进行知识图谱语义本体的自动构建。
webprotege汉化版知识图谱语义本体的构建流程图:
知识图谱包括实体与关系节点代表实体 连边代表关系 事实可以用三元组表示(head, relation, tail)概念发现1.格式解析对PDF、Word、XML等主流文档,抽取出结构化的文本信息。
2.分词标注NLPIR-ICTCLAS分词系统可以融合已有本体库,实现专业领域的分词标注3.概念发现 (1).NLPIR-ICTCLAS新词发现可直接从原始语料中直接发现新词、新概念 (2).采用基于规则与统计相结合的方法实现从新词中过滤筛选本体概念。
关联计算使用POS-CBOW模型对数据进行训练,然后对数据完成关联关系分析POS-CBOW方法综合了词性、词的分布特点,采用word2vector改进模型,通过训练,自动提取出了语义关联关系如果训练文本为专业领域的生语料,该模型可以产生专业领域的本体关联关系。
依存句法分析
关系抽取实际上是实体与关系的抽取,一般是通过上面提到的三元组方法不断迭代实现例:1、通过“X是Y的首都”模板抽取出(中国,首都,北京)、(美国,首都,华盛顿)等三元组实例;2、根据这些三元组中的实体对“中国。
-北京”和“美国-华盛顿”可以发现更多的匹配模板,如“Y的首都是X”、“X是Y的政治中心”等等;新发现的模板抽取更多新的三元组实例,通过反复迭代不断抽取新的实例与模板集成验证构建工具---- Protégé。
1.OWL:W3C开发的一种网络本体语言,用于对本体进行语义描述类(Class)、个体(Individual)、属性(Property)2. Protégé: 斯坦福大学基于Java语言开发的本体编辑和知识获取软件,是语义网中本体构建的核心开发工具。
效果展示:
知识图谱自动构建在线云平台
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186