科学知识图谱(科学知识图谱在学科可视化研究中的应用)干货分享
1.引言美国德雷克塞尔大学陈超美团队开发的 CiteSpace是一款在科学文献中识别与可视化新趋势与新动态的
1.引言美国德雷克塞尔大学陈超美团队开发的 CiteSpace是一款在科学文献中识别与可视化新趋势与新动态的Java应用程序 , 已成为信息分析领域中影响力较大的信息可视化软件近年来, 我国兴起运用科学知识图谱方法来把握学科研究前沿和知识基础 发展动态的浪潮。
刘泽渊等运用 CiteSpace揭示了航空航天工程 、纳米生物技术 、数字图书馆 、能源技术等学科的发展脉络和学科前沿, 取得了很好的效果, 并且撰写出有关学科前沿网络结构以及科学知识图谱的一批论文但是, 迄今为止还很少有人运用科学知识图谱方法来分析 CiteSpace自身在国内的研究状况 。
本文拟用 CiteSpace绘制CiteSpace主题词论文的科学知识图谱, 以窥探近四年来我国运用 CiteSpace开展研究的情况2.数据来源与科学知识图谱绘制2.1数据来源本论文所用的全部数据来源于。
CNKI全文数据库和 CSCI引文数据库 笔者于 2010 年 8 月 5 日以“CiteSpace”为主题词在 CNKI中检索到 2007 -2010年间的 55 篇论文 CNKI的论文较全 , 但引文数据不完整, 所以还需要借用 CSCI中的部分引文数据 , 再加上手工补充部分引文数据, 共计得到 742 条有效引文。
2.2科学知识图谱绘制笔者首先对关键词和引文数据进行了辨识、合并和规范化处理, 以便于开展相关统计分析然后, 利用自编的中文字符串处理程序将文献数据转换成CiteSpace可处理的默认格式 , 如表 1 所示:。
表 1 CiteSpace数据格式的主要字段说明
数据处理完毕以后, 启动 CiteSpace2.2 R9, 并转换为能识别中文的编码模式, 选择时间跨度为 2007 -2010年, 时间分区为1年, 然后分别选择 Keyword、Institute、Author、CitedReference、CitedAuthor、CitedJournal作为分析对象 , 设定时间片的阈值为30。
这样,CiteSpace就可以开始对分析对象进行关键词共现分析、机构合作分析 、作者合作分析、文献共引分析、作者共引分析以及期刊共引分析, 并绘制相应的科学知识图谱3.CiteSpace研究前沿分析笔者运用
CiteSpace对分析对象的关键词 、期刊、作者以及所属机构等进行共现分析, 以揭示我国运用CiteSpace进行科学知识图谱研究的研究前沿 3.1关键词共现分析55 篇论文共计有 235 个、77种关键词。
在CiteSpace生成的关键词共现科学知识图谱中 , 共选择出 62种关键词以及关键词之间的 199 条连线, 如图 1 所示:
图 1 citespace论文关键词共现的科学知识图谱其次, 关注散落在图 1四周的一些小节点, 以揭示研究前沿和研究热点图 1 中出现了 “战略管理”、“知识管理”、“组织行为”、“人力资源管理”、“能源技。
术”、“航空航天工程 ”、“专利文献”、“数字图书馆”、“体育科学”、“社区服务”、“纳米生物技术”、“人体组织”等节点, 反映出我国学者近些年来运用了CiteSpace开展上述学科领域的科学知识图谱研究, 以发现这些研究领域知识发展的结构与演变情况。
相关学科领域的统计情况如图2所示:
图 2 我国运用 CiteSpace研究的学科领域分布的论文数量及主要关键词3.2机构合作分析在 CiteSpace生成的机构合作的科学知识图谱中 , 共选择出 23个机构以及机构之间的 16条连线, 如图 3 所示:
图 3 CiteSpace论文机构合作的科学知识图谱图3中最引人瞩目的是大连理工大学的 WISE实验室 、人文社会科学学院 、21 世纪发展研究中心, 这三家机构之间合作紧密, 走在我国运用 CiteSpace进行科学知识图谱研究的前列, 并且与其他多所高等院校 (如美国德雷克塞尔大学、清华大学 、上海交通大学 、中国医科大学 、北京联合大学 、河南师范大学等 )有过合作 。
大连理工大学是我国最早开始接触和研究 CiteSpace和科学知识图谱的高校, 该校的网络 -信息 -科学 - 经济实验室 (WISE实验室 )在该领域中影响力很大 美国德雷克塞尔大学的陈超美教授同时也受聘为大连理工大学的长江学者。
此外, 中国科学技术大学与合肥学院、中国科学技术信息研究所与北京邮电大学、中国人民大学与河北大学、中国科学院国家图书馆、军事医学科学院、天津师范大学与福建师范大学、河南工业职业技术学院也积极运用 CiteSpace进行科学知识图谱研究。
3.3作者合作分析在 CiteSpace生成的作者合作科学知识图谱中 , 共选择出 57 位作者以及作者之间的 78 条连线, 如图 4 所示:
图 4 CiteSpace论文作者合作的科学知识图谱图4所示的作者合作情况与图 3所示的机构合作情况基本一致刘则渊、侯剑华、陈悦、侯海燕等来自大连理工大学, 他们与多所高校的学者都有紧密合作此外, 河北大学的陈兰杰 、北京联合大学的房宏君 、合肥学院的吴彩丽在该领域也非常活跃。
CiteSpace知识基础分析运用 CiteSpace对分析对象的引文进行作者共引 、文献共引以及期刊共引分析, 以揭示研究前沿的知识基础4.Citespace基础分析4.1作者共引分析美国德雷克赛大学怀特
(White)博士认为 , 作者共引频次越高则作者学术相关性越强 在 55 篇论文的 742 条引文中, 共有 289位作者被引证, 平均每位作者大约被引证 2.6 次在 CiteSpace生成的作者共引科学知识图谱中, 共选择出 86个作者以及 407 条作者之间的连线 (见图 5 ), 图中较大节点的作者是在c。
iteSpace和科学知识图谱领域有突出作用的作者 从图 5可以看出, 该领域影响最大的是美国德雷克塞尔大学的陈超美, 他创造性地将信息可视化技术和科学计量学结合起来, 开创了以知识领域为分析单元的可视化综合性学术与应用领域, 他负责开发的。
CiteSpace文献计量分析软件对科学知识图谱理论与方法做出了奠基性贡献刘则渊教授作为大连理工大学WISE实验室的创始人 , 带领 WISE实验室团队在中国开拓了知识计量学与科学知识图谱研究的新方向陈悦 、侯海燕 、侯剑华等共同参与科学知识图谱研究 , 是我国第一批科学计量学博士。
普赖斯 、皮尔逊 、邱均平 、马费成等是科学计量学领域的著名学者 , 他们对科学知识图谱研究影响很大
图 5 CiteSpace领域重要作者的科学知识图谱4.2文献共引分析在 CiteSpace生成的文献共引科学知识图谱中 , 共选择出95条引文以及引文之间的 463 条连线, 如图 6 所示 (图中的每一个节点表示一篇文献 , 圆圈的厚度与相应年份的引文数成正比。
图 6 CiteSpace领域重要文献的科学知识图谱 图6中的重要文献构成我国运用 CiteSpace进行科学知识图谱研究最重要的知识基础, 共有 10 篇核心论文显现出来, 高被引的 5篇论文情况见表 2。
其中, 陈超美的两篇论文在图中节点最大, 影响也最大 :①CiteSpaceI:Detecting and Visualizing Emerging Trends and Transient Paternsin Scientific Literature是 CiteSpaceI的奠基之作 , 系统阐述了 CiteSpace的理论基础 、软件设计和成功案例 ;②Searching for Intelectual Turning Points:Progresive Knowledge Domain Visualization一文对 CiteSpace中识别关键节点的核心方法进行了详细阐述。
陈悦的《悄然兴起的科学知识图谱 》标志着科学知识图谱研究在我国的兴起刘则渊的《科学知识图谱 :方法与应用 》系统阐述了科学知识图谱的原理与方法, 并着重介绍了 CiteSpace在多个领域的成功应用侯剑华的 《战略管理学前沿演进可视化研究 》是我国一些学者如何应用CiteSpace的成功先例, 为我国运用CiteSpace进行科学知识图谱研究提供了典范 。
表 2 CiteSpace文献共引科学知识图谱的 5篇高被引文献
4.3期刊共引分析742条引文来自 252 种期刊和其他类型文献 (包括专著 、报告和网页等 )被引前 20 (50 种 )的期刊中的引文有 314 条, 占总引文的 42.3 在 CiteSpace生成的期刊共引的科学知识图谱中, 共选择出 76种期刊以及期刊之间的 438 条连线, 如图 7所示:。
图 7 CiteSpace领域重要期刊的科学知识图谱从图 7不难看出, 高被引的期刊主要来自图书馆学 、情报学以及科学学的核心期刊 , JournaloftheAmericanSocietyfor
InformationScienceandTechnology、《科学学研究 》、Scientometrics、《情报学报 》等 此外,其他学科的期刊也有相当高的被引频次, 因为运用CiteSpace对某领域进行科学知识图谱研究时 , 除了需要吸收图书馆学 、情报学 、科学学 、科学计量学的原理和知识之外, 还需具备某一领域的专业知识。
5.CiteSpace运用过程中存在的问题及对策建议尽管我国不少学者已能熟练运用 CiteSpace开展针对某一学科领域的科学知识图谱研究, 但在科研实践过程中仍然遇到不少问题如果能够加以解决, 则能为更多的学科领域研究提供更高质量的服务。
5.1研究缺乏标准运用 CiteSpace进行某一领域的科学知识图谱研究时所用的共现分析方法试图根据统计特征找出学科领域的研究进展和发展规律,从而进行更深入的研究, 为决策提供量化依据 但在明晰分析对象之后的科学文献获取阶段,目前缺乏相应的规范和标准。
比如, 选用什么引文库, 以什么检索式进行检索, 时间跨度应该多大, 样本量是否合适,科学文献样本能否代表某学科等值得庆幸的是, CiteSpace软件的稳定性非 常好, 只要输入相同的数据并且设定相同的参数,一定 会得到相同的结果。
但是,如何评估结果的有效性以及解释科学知识图谱的本质还没有统一的定论 因此,在科学文献获取阶段以及结果评估和解释阶段存在着一些争议, 迫切需要相关方面加强合作,制订统一标准5.2中文引文数据库不完善目前
, 我国已开发出 CSCI、CSCD、CSTPC等中文引文数据库, 但它们在著录格式方面存在着一些问题据笔者粗略统计, 10左右的引文不能直接转换成所需要的格式, 需要人工纠正 另外, CSCI每次最多只能导出 50篇论文数据, 与 WebofScience的 500 篇相比有很大差距。
因此, 建议国内有关单位开展合作, 参考美国科学情报研究所的 WebofKnowledge数据库 ,优化引文数据库结构, 加强数据规范管理工作, 改善数据库检索性能, 增强数据导出的容量和功能5.3分析中文文献存在困难
尽管我国近年来掀起了运用 CiteSpace进行科学知识图谱研究的热潮, 但大多是针对 WebofScience数据进行的可视化分析, 基于 CSCI等中文引文数据进行的可视化分析只占很少的比例另外, 我国还没有开发出一款成熟的信息可视化分析软件, 中文引文数据库采用的格式也不符合国际通行标准, 需要进行格式转换。
因此, 建议国家有关部门支持开发以下两类软件 :一类是能将中文引文数据精确转换成国际通行标准格式的字串处理软件 ;另一类是能针对中文引文数据进行可视化分析的科学知识图谱软件5.4引文行为存在差异不同学科的学者在引文习惯上有所差异。
, 尤其是自然科学和社会科学在引文习惯上差异很大尽管不同学科拥有不同的特点, 但这些引文差异以及我国已发表学术论文中出现的一些引文不规范行为会对科技 信息分析带来一定的误差 因此, 建议国内各学术单位积极联合各高校, 开展针对引文的原则 、规范 、标准等方面的宣传教育活动。
同时, 笔者还建议国内学者在引用他人文献时, 一定要养成良好的引用习惯以及对待科学的严谨态度
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186