知识图谱制作软件(知识图谱网站)学到了吗
从知识图谱的绘制流程(数据检索、数据预处理、构建知识单元、数据分析、可视化与解读),系统梳理国外研究现状,详细阐述9种专门知识图谱绘制工具,并对相关研究进行展望。
1前言知识图谱是以科学知识为对象,显示学科的发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征;作为对科学知识及其间的关系可视化所得出的结果,具有较为直观、定量、简单与客观等诸多优点;是一种有效的、综合性的知识可视化分析方法和工具,被广泛应用并取得较可靠的结论;目前成为科学计量学、科学学、管理学等领域的研究热点与实践探索趋势。
知识图谱对图书情报学科具有更重要意义,目前图书情报研究“知识化”现象明显,知识图谱大有用武之地,不仅可以可视化学科知识结构,也有助于信息检索、文献分类与知识服务等在知识图谱的研究中,对绘制方法与工具的研究一直是其重点,国外众多学者关注于知识图谱绘制方法的改进及提出新的方法,开发功能强大、使用简单、展示形象的可视化软件。
本文把“知识图谱”主要限定在Science mapping、Bibliometric mapping、Literature mapping、Mapping knowledge domain等内容,主要是对狭义知识图谱的分析:运用文献计量学方法,通过文献知识单元分析来可视化科学知识的结构、关系与演化过程。
对知识地图、认知地图、概念地图、天体图、地形图等内容没有关注通过阅读,发现许多论文涉及多个方面,例如纯理论思辨性论文很少,一些论文提出新的方法与思路,同时往往通过案例予以实证;而对某一领域或学科可视化研究中也常用到系列知识图谱方法和工具。
2知识图谱的绘制流程具早在1997年,White等人将文献计量可视化的步骤归纳为5点;针对新环境下的知识可视化,Brner(2003)等人将其分为6部分:提取数据、定义分析单元、选择方法、计算相似度、布局知识单元和解释分析结果。
Cobo(2011)等人则将其分为7部分:数据检索、处理、网络提取、标准化、作图、分析和可视化我们认为知识图谱绘制过程可由8部分组成,体内容见图1
2.1 数据检索样本数据的检索与获取是绘制知识图谱的前提和基础大型文献数据库的建立并提供网络访问,可以较大批量下载数据,为样本获取提供方便最常用的数据库有WoS,Scopus,Science Direct、USPTO等;也出现了Google Scholar、arXiv、CiteSeer等许多网络数据库。
已有许多研究对各类数据库的功能、收录范围、覆盖广度、质量对比分析,结果表明文献数据库都各有特色,特别是新兴的网络数据库具有新的功能,例如CiteSeer实现了基于语境的引文分析功能科学知识图谱常以传统文献为数据源,但是越来越多的科学知识通过网络交流和获取,学术网站网关记录了远远多于引文数据的网络日志,这些日志保存了即时出版行为和大量的用户行为记录。
Bollen等人使用出版商、机构联盟等著名学术机构网站中超过10亿用户的记录,从用户交互日志中提取了点击流模型,并进行验证;他认为点击流数据能够产生更清晰、更详细、更及时的科学图谱在另一研究中,Bollen认为通过期刊的使用记录来可视化学科知识,认为与WoS数据相比,更能反映最新的情况。
Leydesdorff使用中国科学引文索引(CSOD)进行期刊共引的可视化,发现CSCD的差异,例如包括大量的大学学报,期刊也更具有跨学科性质Park通过网络计量方法研究了韩国e-Science研究的内容变化、学科范围与研究机构;具体使用LexiURL提取“yahoo.com”网站中的数据,然后可视化网页间的链接及网页中的术语。
在拉美,交互式科学中心和博物馆是科学交流的关键机构,Gouveia对18个这些机构的网站间关系进行可视化展示;具体使用AltaVista收集数据,聚类和多维尺度分析网站间的共链情况Harries等人认为与引文类似,学术网站间的链接能用来可视化学科结构及学科间的联系;具体对数学、物理和社会科学的系列网站对比分析,发现链接与引文的类型、不同学科的链接特征、站内链接与站外链接的差异。
2.2数据预处理知识可视化的质量、合理性和可靠性很大程度上依赖于所用数据的精确性和全面性即使最权威、公认质量很高的WoS,也存在数据著录格式(如人名和地名的不统一)和遗漏的问题从数据库检索出原始数据需要经过系列预处理才能分析,例如改正字符错误,统一或增补国家和机构名等。
另外,为进行历时或分时段的对比分析需要对数据分段处理;如果样本数据过大,需要进行有代表性的抽取,例如选择高被引论文、机构或发文最多的作者等作者是知识创新和管理的主体,但对作者的识别与去重一直存在问题,涉及作者、机构与国家等知识单元计量与可视化的准确度(尤其是微观层次的分析),特别是随着网络环境下作者数量剧增,中国等发展中国家作者的大量出现,这一问题更加复杂。
目前存在的方法有人工识别、模糊匹配、多阶段匹配,结合心理学的认知地图和网络分析中的ASE(Approximate Structural Equivalence),Tang提出一种基于知识相似度(例如计算所发表论文参考文献的相似程度)的识别作者唯一身份的新算法;通过实证表明该方法算法更简单,识别度更好。
Shiffrin等人提出知识可视化的基础是高质量的样本数据,对不同格式和不同质量数据的清洗和预处理是必不可少的过程;对样本数据最好能免费自由地公共获取2.3构建知识单元知识单元是知识处理的基本单位在知识可视化过程中,常见的知识单元有:关键词、题名、作者、机构、刊名、分类号、学科等等。
目前也扩展到摘要、参考文献和全文之中,另一方面也有两种或以上的单元结合进行可视化分析(例如共词与共被引结合),来达到更好的效果不同的知识单元具有不同作用,例如期刊图谱可以获取学科的全貌,也能对各学科的定位及其关系可视化,还能微观分析特定学科。
而文献这一层面使用最广,被用于知识评价、知识检索、学科结构等多方面“作者”单元最典型的应用包括:通过作者共引来推断学科知识结构与流派,利用合作网络可视化学者与地域间的合作交流利用“关键词”知识单元构建语义网,这些词来自论文的标题、摘要、关键词或全文,组成的图谱可明晰特定领域的研究内容、未来的研究趋势等。
除简单个体统计外,对知识单元关系可视化研究需要定义测算指标,目前一致认同的是1997年White的描述他把知识单元关系分为两种:一种是文献(单元)间的直接联系,用前缀“inter”表示另一种是知识单元在一个文献(单元)内的共现,用前缀“co”表示,例如共词、共被引、共分类号、共标引词等。
另外,Zitt等人将知识单元关系分为基于引证关系的和基于词语义的两种不同方式,通过实证分析,以块状矩阵图对比其异同,认为两者不能替代或混合,而只能相互补充知识单元关系分析中,Small可视化引文分析的语境,具体分析学术论文中施引部分中,相邻文本的语义(对被引文献的态度和喜好),分为全局和局部、学科间和学科内两个层次对比分析出现的词语语义特点。
Small也将共引中的语境分析运用于学科间知识交流的可视化,他认为通过分析引文上下文的关键术语可以了解作者引用时的动机和想法,跨学科引证主要体现施引者“类比”和“表达不确定性”两种语义从20世纪90年代起,对全文文本的统计分析与文献计量研究的相互借用与结合已有初步探索,Glenisson等人有系统的研究。
他认为全文文本挖掘与文献计量结合是一种可行的方法,文献计量可视化适合结构方面的分析;全文挖掘能提供额外的信息,扩展、改进、描述和解释文献计量形成的结构图Van Eck认为术语图(比论文关键词更广)是通过展示术语间的联系来可视化特定学科领域的结构,术语需要人工选择或领域专家判断,存在的缺点是主观性强、费时费力;他提出一种术语的自动识别新方法,以运筹学为例,所产生的术语图通过该领域专家分析表明方法非常理想。
借鉴H指数思路,Schubert提出基于H指数相似度的期刊聚类可视化算法,通过实证分析,认为其结果能对现有的学科分类方法进行补充和完善Ahlgren对比文献耦合和论文文摘抽词,这两种知识图谱关系构建方法。
具体使用《信息检索》期刊上的43篇论文为样本,由业内专家对其人工分类,通过Cosine对原始数据标准化无论是耦合强度和文摘词干频次的排序,还是由两种方法形成的聚类结果,两种方法的相似度都很低;两种方法形成的聚类结果与专家得出的分类结果相似度也不高。
在后续的研究中,Ahlgren使用同样的样本和方法,对5种知识单元间的关系(包括两种基于文本术语、一种基于引证关系的文献耦合、两种文本和耦合相结合),用5种方法进行了实证分析;具体应用Rand指数对比了这些方法形成的分类与人工分类的相似性,相似算法使用一阶和二阶两种。
结果表明通过这些自动的可视化分类可达到较高的准确度;基于二阶算法,一种基于文本和基于混合方法的效果最好Jarneving对比了在研究前沿可视化中,文献共引和耦合两种方法,以JCR中环境科学高被引的50种期刊73 379篇论文为例,对比了使用两种方法形成的聚类与内容。
Brner对比讨论了用不同方法,综合、及时地洞察学科知识,并提议使用语义网作为已有知识关系分析的可行替代和补充,详细例证对比了三种用来描述和了解学科知识的方法:问卷调查、文献库中的引文数据和个人书目记录。
2.4数据分析为便于可视化,简单地频次计算的单元数据,往往需要标准化与简化标准化常常通过数据间的相似度测量,主要有两大类:一是集合论方法(Set-theoretic measures),包括Cosine、Pearson、Spearman、Ochiai指数和Jaccard指数;二是概率论方法(Probabilistic measure),主要有合力指数(Association Strength)和概率亲和力指数(Probabilistic Affinity)。
Van从理论和实证分析都得出第二类方法更适合于共现的知识单元分析为发现知识间的关系,更好地展示各单元,需要样本数据的进一步处理,即简化分析:因子分析、多维尺度分析、自组织映射图(SOM)、寻径网络图谱(PFNET)。
此外,还有聚类分析(Cluster)、潜在语义分析(Latent Semantic Analysis)、Force Directed Placement(FDP)、三角法(Triangulation)、最小生成树法和特征向量法(Eigenvector)等。
基于知识单元可视化和聚类的原理和假设前提不同,Waltman等人提出知识可视化和聚类结合的统一方法;实证认为VOS可视化技术和基于权重参数变量的模块化聚类方法,都源自相同的基本原则Van Eck对比了传统的多维尺度分析和新兴的VOS(Visualization Of Similarities)方法,在理论算法上分析了两者的数学关系;通过作者、期刊和关键词三方面图谱实证发现,VOS比MDS产生的图谱更加真实与形象(特别是较大规模的样本)。
近年来,在高质量语义可视化知识图谱中,Pathfinder算法常常用来对大规模、复杂的知识单元关系网络简化;但是传统的Pathfinder算法复杂Quirin提出Fast Pathfinder算法,实证分析表明其结构简单且计量时间减少。
Cointet提出非对称范式临近算法(Asymmetrical paradigmatic proximity)从大规模底层微观数据中提取知识结构和范式,该算法的优点是既不要处理全文,也不要在动态构建学科范式的多层结构时对术语进行特别处理。
具体从几百万篇文献中提取“复杂系统科学”的概念术语,他们详细阐述了三层知识图谱的绘制,从微观、中观和宏观三个层面展示领域知识的进化情况Leydesdorff提出双连接(Bi-connected)图形分析算法来可视化知识结构网络,具体使用了JCR(2001)中的期刊共引数据对所有期刊可视化与分类。
Polanco在传统SOM基础上,提出Multi-maps,通过图谱扩展,使用多个图从特定角度展示数据;他分析了图谱的产生机制、聚类及聚类的命名,还有各图之间的联系,并且以转基因植物专利为例实证分析在自然语言中广泛存在一词多义和一义多词的情况,传统的因子分析和聚类分析对知识可视化存在问题;Kwakkel提出了混合因子分析模型(Mixtures of Factor Analyzers,MFA),通过实证表明该方法效果更优。
测度各知识单元间的联系是文献计量的核心任务之一,Gmur以组织科学194篇高被引论文为例,用6种不同的算法(包括原始矩阵、Pearson、因子分析等)进行可视化,对比分析了网络聚类数量、大小、密度和差异。
Klavans对不同知识可视化算法设计了整套定量评价框架,包括四大标准:精确度、覆盖面、可测度规模和稳健性,具体测评10种算法在期刊共引图谱的情况结果表明在小样本量时,对原始数据测度时Pearson算法是最精确的,但是综合考量(包括大样本量和降维处理中),Cosine和改进的Cosine算法效果更好。
Moya-Anegon对比分析了SOM、MDS和Ward聚类三种方法,具体以图书情报学科为例,以作者共引和期刊共引两种角度进行分析得出6个图谱;认为三种方法是从不同的角度分析同一事物,三者互补;SOM试图呈现局部修正后的投影视图,而MDS尝试保持所有点间的距离;SOM的框式可视化图更符合人的视觉器官,用户(特别是非专家)观察起来更加舒适和直观;MDS适合于变量集聚类结构的展示。
Mccain对比分析了在知识图谱中的文献计量与知识抽取两种方法,以软件工程为例,一方面运用作者共引和PFNet算法分析60位高被引作者;另一方面,运用知识抽取的卡片分类法,通过46个软件工程专家主观得出领域的知识图谱;他认为两方法可互补优势,起到交叉验证的作用。
2.5可视化与解读处理后的知识需要在人机界面中有效、精确地展示早在1996年Shneiderman以“整理现状、引导未来”为目标,从四方面规范了信息可视化框架在此基础上,Brner等人对知识可视化提出具体要求:具有理解大量数据样本的能力;减少可视化过程时间;对复杂数据集具有良好的理解展示能力;揭示未引起注意的关系与知识;数据集能同时从多个角度展示;结果成为有效的知识决策源。
知识单元及其关系可以通过不同模拟来可视化展示,例如几何图、战略图、冲积图、主题河图、地形图、星团图、簸幅图等在知识图谱的解读过程中,常常需要对图谱进行相应操作,包括浏览、放大、缩小、过滤、查询、关联和按需移动等。
解读方法主要有:历时分析,从时间角度对系列知识单元的模式、趋势、季节性和异常分析,认识现象的本质;往往通过不同时间段的对比,发现领域(知识)在不同时期的变化情况突变检测,通过检测短时间内知识单元的急剧变化,主要分析知识的前沿趋势,发现知识演变的转折点和焦点。
空间分析的数据来源于文献所著录的机构信息,主要分析知识的空间分布,明晰知识的地理位置关系网络分析,一般借鉴社会网络分析理论,对知识节点及其关系进行测定,相关指标有中心性分析、凝聚子群分析、核心—边缘结构分析。
Khan认为运用基于数学图论的社会网络分析,可以可视化科学知识;并提出“核心网络”的概念,它是通过在理论结构、模型和概念间构建网络,来可视化科学知识对于知识的地理位置分布,可使用通用软件例如网络工具Google Earth和Google Maps,地理信息系统软件ArcGis,空间计量软件Geoda,社会网络分析软件Pajek等可视化。
Leydesdorff通过自编小程序可视化知识,认为在城市这一层次的全局视图中,WoS和Scopus等数据可直接使用,但是在组织或机构层面数据就存在问题;Pajek在可视化时有强大的分析功能,而Google Maps及相关产品具有丰富的网络功能。
Klavans认为在评价跨学科和多学科研究影响时,全局性的大图更有优势;通过与Small和Griffith等人已有8个全局图谱对比评价,认为使用VxOrd软件和Cosine算法更适合大图绘制;具体使用的定量评价指标包括局部精确度、区域精确度、学科差异和聚类一致性。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186