知识图谱应用领域(知识图谱技术)学到了
知识图谱于2012年5月17日由Google正式提出,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验随着人工智能的技术发展和应用,知识图谱作为关键技术之一,已
知识图谱于2012年5月17日由Google正式提出,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验随着人工智能的技术发展和应用,知识图谱作为关键技术之一,已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。
一、基本概念在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。
(图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边但相反,多关系图一般包含多种类型的节点和多种类型的边比如左下图表示一个经典的图结构,右边的图则表示多关系图,因为图里包含了多种类型的节点和边。
这些类型由不同的颜色来标记)
知识图谱里,通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”实体: 指的是具有可区别性且独立存在的某种事物如某一个人、某一个城市、某一种植物等、某一种商品等等。
世界万物有具体事物组成,此指实体实体是知识图谱中的最基本元素,不同的实体间存在不同的关系属性(值): 从一个实体指向它的属性值不同的属性类型对应于不同类型属性的边属性值主要指对象指定属性的值如图1所示的“面积”、“人口”、“首都”是几种不同的属性。
属性值主要指对象指定属性的值,例如960万平方公里等关系: 形式化为一个函数,它把kk个点映射到一个布尔值在知识图谱上,关系则是一个把kk个图节点(实体、语义类、属性值)映射到布尔值的函数二、知识图谱的架构。
知识图谱的架构包括自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构1) 知识图谱的逻辑结构知识图谱在逻辑上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。
如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j、Twitter的FlockDB[8]、sones的GraphDB[9]等模式层构建在数据层之上,是知识图谱的核心,通常采用本体库来管理知识图谱的模式层。
本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小2) 知识图谱的体系架构
知识图谱的技术架构知识图谱的体系架构是其指构建模式结构,如图所示其中虚线框内的部分为知识图谱的构建过程,也包含知识图谱的更新过程知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,这一过程包含:信息抽取、知识表示、知识融合、知识推理四个过程,每一次更新迭代均包含这四个阶段。
知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如Freebase项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。
自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的Knowledge Vault[11]和微软的。
Satori知识库现在也符合互联网数据内容知识产生的特点三、代表性知识图谱库根据覆盖范围而言,知识图谱也可分为开放域通用知识图谱和垂直行业知识图谱开放通用知识图谱注重广度,强调融合更多的实体,较垂直行业知识图谱而言,其准确度不够高,并且受概念范围的影响,很难借助本体库对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。
通用知识图谱主要应用于智能搜索等领域行业知识图谱通常需要依靠特定行业的数据来构建,具有特定的行业意义行业知识图谱中,实体的属性与数据模式往往比较丰富,需要考虑到不同的业务场景与使用人员下图展示了现在知名度较高的大规模知识库。
四、知识图谱构建的关键技术大规模知识库的构建与应用需要多种技术的支持通过知识提取技术,可以从一些公开的半结构化、非结构化和第三方结构化数据库的数据中提取出实体、关系、属性等知识要素知识表示则通过一定有效手段对知识要素表示,便于进一步处理使用。
然后通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。
五、知识图谱的存储知识图谱主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储它们之间的区别如下图所示RDF一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。
其次,RDF以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景
六、知识图谱的应用1、知识图谱系统的关键特性有哪些?1.可视化展示,知识图谱的魅力之一就是让人直观的看到多实体之间的关系,能用图标示的就不要哔哔2.多种服务提供方式,有些服务使用方,不需要图,那么可能通过api或者批量文件的方式比较合适。
所以从系统建设角度来看,最好能提供多样的服务对接方式,满足前端服务使用方的不同需要,发挥系统价值,是值得考虑的地方3.查询速度,在用户进行图操作,例如实体查询、关系推演扩展时,系统响应时间应该较低,避免大并发情况下用户体验的降低。
数据建模、批量时间相对来说,外界感知不到,因此不那么重要2、知识图谱适用场景有哪些?主要涉及关系分析的场景,利用账户、自然人或者资金交易形成的关系来判定结果是否可用时,比如担保圈、分析实际控制人、实际受益人、识别冒名贷款。
而且通常,数据分析的深度在3度到5度,才能体现出优势分析深度小于3度,与传统关系型数据库没有太大差别,大于5度有可能引入较多的噪音数据当然不排除某些场景下分析5度以上数据的可能性以银行风控领域应用为例:。
担保圈分析担保贷款是信贷业务的一种,客户之间互相担保会放大信贷经营风险,因此一直是信贷部门重点排查对象之一但是受限于上面的分析,已有的技术手段只能发现部分问题,例如一个客户给多个客户担保,多个客户为一个客户担保或者两个客户互相担保。
对于三个或三个以上的客户形成的环状担保,则无法分析这部分问题属于知道存在,却难以无法发现贷款回流内部审计的员工行为排查内容之一,是行内员工与贷款客户之间的资金往来,关注是否存在利益输送在实际操作中,贷款客户可能会将资金直接或间接转至员工配偶、父母、子女的账户中。
目前的数据分析手段无法综合分析自然人之间的关系和账户之间的关系,排查范围仅限于员工名下账户与借款人名下账户之间的直接交易数据受限于模型开发难度和模型运行时间成本,大量的违规数据还没有被甄别出来反洗钱模型。
基于传统关系型数据库的反洗钱模型,通常只能关注1度的交易行为在图数据库中进行数据分析,通常以5度交易为分析范围以频繁汇入模型为例,传统模型筛选条件是5日内汇入金额大于5000元、转入次数超过50次的账户,且该账户在5日内将资金集中转出,转出次数低于5次、余额小于10元,即在所有的B->A->D的资金交易中找到满足条件的A。
因图数据库在关联关系分析方面的便利性,可以在较短的运行时间内完成模型的运行,识别出5度资金链条,即C->B->A->E->F中满足条件的A随着分析深度和广度的增加,单个模型涉及的账号通常成指数级增长,可以从大的数据维度上判断交易是否可疑,提升交易甄别的准确性。
客户群体划分实体的属性是图数据一个重要数据维度,与标签功能类似通过对自然人相关数据的分析,例如交易关系、消费数据、手机银行定位位置、担保关系等,能够提炼出用户特征信息,是存贷款数据的重要补充,这些数据有助于我们更好的理解客户。
在应用时,可以通过API查询具有一个或多个属性的客户列表,例如查询日均存款大于10万元、手机银行常用登陆地为西安城六区、年龄大于40岁、性别为男性这一群体的客户列表失联客户管理此应用场景与社交网站中“你可能认识的人”的推荐功能类似。
现实中,不少借款人在借款成功后出现不还款并且失联的现象,使得催收人员无从下手在关系分析模块中,通过2度或3度关系分析发现可能与借款人认识的潜在联系人,从而帮助催收人员提高催收成功率3、有没有业务场景是只能用知识图谱实现的?。
而其他技术方法无法实现?从技术角度考虑,应该没有,有的是效率孰高孰低、开发成本孰高孰低4、知识图谱应用时会面临哪些主要的困难,如何解决?主要是确认需求,一方面是适不适合用知识图谱这个工具,另一方面做好与其他系统的对接工作,如何能将知识图谱这个服务以简便快捷的方式输出给其他系统。
前者可以和多方面行内外专家交流,后者主要还是要与业务部门进行沟通,确认业务部门的期望,技术实现大多时候不是难点,难的是如何满足欲壑难填的需求5、知识图谱系统的建设核心是什么?建设核心是图数据的存储和分析方法。
不同的核心,外围使用的方法也不同如果换一种图数据库,整个外围都会跟着调整所以图数据库的选型不能进场图数据本身考虑,而应该结合整体规划,建设成本,多系统间的关联关系层面进行统筹考虑,甚至可能会为了大局牺牲一些效率。
6、图形数据库应该怎么选型?选的时候需要考虑哪些问题?从系统自身考虑的话,包括高可靠性,读写效率、扩展性,与其他系统相同除此之外,还应该从整体规划和这个系统所处的位置进行考虑,为了满足整体规划,牺牲一些性能或者成本也是必要的。
7、知识图谱的建设都有哪些重要的环节,需要注意什么?从自身项目实施来看,有三个地方:1.建模时多系统数据的融合,比如客户的信息存在多个系统中,核心、信贷、理财等,因为系统建设时间不一、多次升级等问题,导致数据不一致,数据质量较差,这样就需要花费很大精力去处理数据质量问题,还可能导致程序返工。
2.模型开发过中,选择哪些业务场景也很重要,知识图谱不是万金油,有些场景比较费力应该选择那些跟关联关系分析相关的,有明确结果,业务人员能够明确正确与否的应用场景,便于展示这个工具的优越性3.交付前的测试也很重要。
因为知识图谱基本上都是需要融合各个业务系统的数据,涉及面较广因此要给测试过程留够时间,便于测试人员发现一些数据处理上的遗漏8、关于实体、属性、关系的识别和存储?大多数情况下实体关系属性都是比较明确的,因为知识图谱的建模是与现实世界相符的。
比如银行来说客户就是实体,姓名,身 份 证 号码,手机号都是属性关系相对稍微复杂一点,不过常见的关系也都比较明确,比如客户经理和贷款户,机构和对公客户,合同和借款人等等银行这边的实体基本上都是自然人、账号,机构,合同、押品等,关系就是实体之间的关系,比如账号和自然人的归属关系。
七、知识图谱应用案例知识图谱在银行风控领域的应用(点击标题可直接阅读)在银行日常经营中,无论是风险防控还是客户营销,都有较多的关联关系数据分析场景,如担保圈、洗钱模型、资金链追踪等因传统关系型数据库的数据建模和数据储存结构原因,其在关联关系分析的应用方案弊端较多。
本文介绍了某行将图数据库和图算法等知识图谱理论的相关技术应用于系统建设,完成了行内知识图谱的搭建工作,并基于此开发了多个业务模型,在关联关系数据分析方面取得良好的效果本文第一至第五部分综合自网络,相关权益归原作者所有
第六部分来源于twt社区专家分享欢迎关注社区 "知识图谱"技术主题,将会不断更新优质资料、文章地址:http://www.talkwithtrend.com/Topic/120093下载 twt 社区客户端 APP。
长按识别二维码即可下载或到应用商店搜索“twt”长按二维码关注公众号
*本公众号所发布内容仅代表作者观点,不代表社区立场
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186