www.teandq.com
晓安科普

知识库知识图谱区别(知识图谱与思维导图的区别)太疯狂了

2023-10-26Aix XinLe

好友CC对“知识图谱”的理解

知识库知识图谱区别(知识图谱与思维导图的区别)太疯狂了

 

本文作者是我的好朋友CC,他毕业于早稻田大学,专攻人工智能领域,并在此领域有超过10年的工作经验他曾在不同类型的公司负责多个人工智能项目的实施工作,涉及各种行业在我朋友圈中,他被认为是对人工智能和GPT有着深刻理解的专家。

因此,我邀请他撰写一系列文章,本篇是关于知识图谱落地项目的,该项目是他五年前负责的我对他的输出进行了一些修改,以供作为我的研究方向的参考输入最近,一位好友开始了在职博士的学习,选择了知识图谱与产业相结合的研究方向。

由于我在项目中有不少关于知识图谱的开发经验,于是我们进行了一次深入的交流另一方面,今年以来,OpenAI的大语言模型GPT在人工智能领域引起了巨大的震动,使人们对于自然语言处理技术与人工智能技术的发展路线有了全新的认识。

因此,我决定在这篇文章中分享我对知识图谱的看法,同时探讨大语言模型下,知识图谱应该如何发展01发展历程知识图谱这一概念最早可以追溯到1956年,由Richens首次提出当时,人工智能处于起步阶段,主要是基于规则系统和专家系统进行知识表达和推理。

在这个过程中,知识图谱的表征方式被认为是一个有效的工具,由此诞生了医学诊断专家系统MYCIN和Cyc Project但由于技术条件的限制,这些项目最终没有实现它们的目标到了20世纪末,随着互联网的发展,知识图谱开始以网络的形式存在,资源描述框架(RDF)和Web本体语言(OWL)成为了其重要的标准。

2012年,谷歌提出了知识图谱这一概念,并开发了维基百科这样的大规模知识图谱项目,从此时开始知识图谱这一技术逐渐被人们接受,并在2015年后的几年里开始在各大国内互联网企业中有了重要的应用,例如美团”知识图谱大脑“,社交网络的图存储等。

02定义与本质思考当回顾知识图谱的发展历史时,可以很明显的感觉到知识图谱技术,从某种程度上说,是人类自我学习和理解世界的方式的一种具象化和工程化以日常生活为例,当我们面临自己已经非常熟悉的问题或领域时,我们可以快速得出结论,迅速作出决策。

但是当我们接触到新领域或者复杂问题时,我们常常会通过记笔记的方式来整理和梳理我们的思考和学习过程,以便于日后的复习和理解对比我们平常记笔记的方式,知识图谱的构建过程如出一辙首先,我们需要识别并提取信息,这可以类比为我们在读书或学习过程中,找出关键信息,识别重要知识点。

然后,我们需要将这些信息组织起来,构建出信息之间的关联和逻辑,这可以类比为我们在记笔记时,通过各种方式(如列表、图表、思维导图等)将知识点进行关联和组织,以便更好地理解和记忆最后,我们需要将这些信息以某种方式存储下来,以便未来查阅,这就如同我们的笔记本,是我们储存知识的地方。

从这个角度理解,知识图谱的本质,可以被看作是一种信息(也可以说是知识)的交换方式,它试图通过将自然语言的信息交换方式改进为结构化-半结构化的方式,以提高信息的传递效率和准确性尤其在处理大量复杂信息,或者跨领域的知识时,知识图谱的这种特性显得尤为重要。

03技术路线和先天缺陷知识图谱在过去的几十年里确实取得了显著的进展,然而,我们也不能忽视它存在的天生缺陷,这些缺陷在知识图谱的本质和历史中可以找到端倪从本质上讲,知识图谱是基于规则的系统也就是说,我们需要预先定义规则来抽取和表示知识。

但人类知识的复杂性和多变性使得这种方法难以覆盖所有的知识点比如,对于一门学科,其包含的知识点可能会随着新的研究发现和理论演进而不断扩充和更新,这就需要我们持续地修改和增加规则,这无疑会增加了维护知识图谱的难度。

此外,人类的语言也十分复杂和富有变化,一个概念在不同的上下文中可能有着完全不同的含义,而且人们在日常交流中还会使用大量的隐喻和比喻,这些都给基于规则的知识图谱提出了挑战其次,从历史发展看,知识图谱的实现和应用一直伴随着诸多挑战。

我们可以看到,早期的MYCIN系统和Cyc Project虽然立下了雄心壮志,但由于手动录入的工作量过大、属性模糊等问题,都未能达到既定的目标在知识图谱当前的应用项目以维基百科为例,这是一个众包的知识编辑模式,它的覆盖度和数据量相当庞大,几乎涵盖了所有主流的知识领域,但由于内容是由众多志愿者撰写和编辑的,这就意味着其内容的格式和风格存在相当大的差异。

这给知识图谱的构建带来了难题,因为我们需要预先定义好规则来抽取和表示知识,而如果格式和风格差异过大,那么定义这样的规则就会变得极其困难,另一方面,尽管维基百科的覆盖度很广,但其内容仍然有限,无法覆盖所有的知识领域。

更重要的是,维基百科的内容是静态的,无法实时更新这就意味着,知识图谱可能无法反映出最新的知识进展,所以维基百科在谷歌的产品设计中一直都只能作为谷歌搜索的补充,而不能完全取代搜索结果04知识表现形式随着OpenAI发布的ChatGPT出现,其表现出了强大的推理能力,理解能力,庞大的知识储备,刷新了人们对于人工智能能力上限的认知,使得人们不得不收起以往将计算机应用称为“人工智障”的玩笑,真正的将计算机程序应用视为“智能”。

在这里我们不去讨论ChatGPT的技术细节,而是从本质出发,去理解计算机在知识存储与知识传递(学习)上与人的区别,这种区别也是知识图谱与大语言模型在技术路线上的本质区别首先,计算机的设计原则是要能精准地执行指令,也就是说如果我们在不同的硬件上运行相同的程序,那么效果应该是一样的。

这就意味着程序中包含的知识是固定的,与具体的硬件没有关系(即使是不同的硬件,对于同样的输入也要能够得到同样的输出),为了达到这种目的,计算机需要在晶体管中以”数字化”的方式对程序进行存储在传统的计算机设计中,硬件与软件是分离的,软件仍然依赖于人类的设计与开发;随着机器学习算法应用及深度学习的产生,软件也从依赖人类设计进入到依赖于样本的学习的方式,我们可以将这种运行方式称为“数字智能” 与计算机智能对应,我们可以将人类的这种智能运行方式称为“生物智能”。

生物智能面临的主要问题是难以保证知识的传承由于生物智能与硬件高度相关,这就意味着当特定的硬件「死去」时,其学习到的知识也会一并消失另一个问题在于生物智能在知识的传播上,不能够像数字智能一样通过参数的复制或者加权就完成知识和信息的传递,而是通过类似于神经元激励的方式来获取新的知识,举个例子,例如,当我们试图教导一个孩子关于苹果的知识时,我们可能会给他一个实际的苹果,让他亲自去摸、去尝,或者通过语言和文字去描述苹果的特性,并不断的通过例子和体验去强化孩子对于苹果的认知,最终完成知识在社群中的传播。

最后的问题是在于知识的容量上,生物智能受限于其生物学构造限制,其“硬件条件“当前看来是很难进行提升的,这就导致个体的知识容量上是受限制的,而数字智能的硬件构造和存储知识的方式,使得数字智能在不考虑成本和消耗的前提下,理论上可以无限的提升其个体的知识容量。

05知识表现框架

——图片来自网络06实际案例知识图谱项目的开发涉及一系列深入且细致的工作,下面以我曾参与的一个文档库知识图谱项目为例,给大家展示一下知识图谱项目的开发流程和应用场景首先,项目启动之初,我们需要确定项目的数据源范围和数据类型。

在这个项目中,数据源就是各类文档,包括各种形式的文本、图表、图片等多模态数据我们还要确认这些数据的层级关系,例如,同一篇论文中的摘要、正文、参考文献等就构成了一个层级结构这些数据经过标准化对齐后,就可以转化为知识图谱所需要的结构化数据。

接着,我们通过领域的专家知识,确定领域的知识结构在这个项目中,我们基于业务需求,构建了从文档中抽取的属性、文档中的实体类型、文档与文档之间的关系等,这些就构成了知识图谱中经常提到的本体-实体-关系的schema。

这一步骤是十分关键的,因为它决定了知识图谱的质量和可用性有了知识结构之后,我们就可以开始从数据源中抽取结构化数据,进行知识填充了这个步骤与自然语言处理(NLP)技术交互最多,需要通过实体识别、关系抽取、事件抽取等方法,将原始的非结构化数据转化为知识图谱可以理解和处理的结构化数据。

这个过程需要经过多轮的迭代和优化,以保证知识图谱的准确性和完整性最后,我们将构建好的知识图谱作为基础设施,为后续的业务系统提供服务例如,在这个文档知识库中,主要的业务在于提升搜索的质量,后续服务的开发主要集中在应用知识图谱提升搜索补全、意图识别、系统的质量。

如果后续的业务聚焦于智能客服等对话系统,可以以知识图谱为基础,完善基于知识库的问答(KBQA)等传统的对话系统

这只是一个典型的知识图谱项目的开发和应用流程,实际上,知识图谱的应用场景非常广泛,涵盖了搜索引擎、推荐系统、人工智能、数据挖掘等多个领域而这些应用场景,无不反映出知识图谱的强大能力和广泛应用前景    下一篇将邀请朋友输出大语言模型及ChatGPT的简介。

每天给鸡血,接着让他输出一下如何将多种新技术结合期待你的分享点赞在看

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

知识知识库知识图谱区别(知识图谱与思维导图的区别)太疯狂了

2023-10-26Aix XinLe195

知识库知识图谱区别(知识图谱与思维导图的区别)太疯狂了好友CC对“知识图谱”的理解…

科普春节手抄报2022年简单又漂亮(春节手抄报2022年简单又漂亮图片)奔

2023-10-26Aix XinLe102

春节手抄报2022年简单又漂亮(春节手抄报2022年简单又漂亮图片)奔走相告2022年新年手抄报简单又漂亮教程,春节手抄报简单版绘画模板说起春节,不得不说的就是由来已久的守岁啦,除夕守…

知识仙境幻想官网(仙境幻想手游)深度揭秘

2023-10-26Aix XinLe105

仙境幻想官网(仙境幻想手游)深度揭秘《仙境传说》是一款非常受欢迎的MMORPG手游,它以其独特的幻想世界观、丰富的职业系统和卓越的社交功能而受到玩家们的喜爱。添加预约客服微:Bn1…

历史历史学类专业包括了哪些专业(文科生最好的六个专业)真没想到

2023-10-26Aix XinLe133

历史学类专业包括了哪些专业(文科生最好的六个专业)真没想到在新高考选科中,历史组可选择的专业要比物理组少得多。根据2022年福建高考招生计划统计,物理组招生计划数为87074,历史组招生计划数为2566…

科普春节手抄报2022年简单又漂亮(春节手抄报2022年简单又漂亮三年级)

2023-10-26Aix XinLe96

春节手抄报2022年简单又漂亮(春节手抄报2022年简单又漂亮三年级)满满干货虎年春节到了,萌妹老师在这里祝小朋友们新春快乐,万事如意,身体健康,学业顺利哦!今天萌妹老师给大家带来三款简单漂亮的虎年春节寒假手抄报模板,含文字内容哦!希望大家能用得到。…