探索同义词替换(影响的学术同义词替换)居然可以这样
开题对于写论文是一项非常重要的环节,良好的开题是成功的一半。本文将向您介绍如何获取文献以及如何利用文献计量学处理文献、寻找研究热点。
开题救星来啦 又到了研究生论文开题的时间,无论硕博,撰写开题报告都是一项非常重要的环节,良好的开题是成功的一半要想完成一个很好的开题就需要进行大量的文献检索和调研工作,这里将对对开题极为有用的文献计量学进行简要介绍,希望能对大家的开题有所帮助。
一文献计量学的基本概念及作用No.1文献计量学定义
文献计量学是以文献体系和文献相关媒介为研究对象,采用数学、统计学等计量方法,研究文献信息的分布、结构、数量关系,进而探索科学技术的某些结构、特征和规律的一门学科文献计量学(图书馆学)、科学计量学(科学学)信息计量学(情报科学)并称三大计量科学。
文献计量分析发展至今日,逐步发展为科学知识图谱(Knowledge Graph),成为人工智能领域一个重要的研究方向[1]No.2文献计量分析的应用综述
当我们使用文献可视化工具进行文献分析时,首先应当端正态度——文献计量学是一门有着严密理论基础的科学学科,使用文献计量学辅助科研也不是简单下载一些论文,摆弄一下软件就可以轻松搞定的事,它是一个严肃的科研过程,需要具备一定的理论知识和使用经验,其本质上和对神经网络进行调参、对有限元模型进行反演没有什么区别。
因此,使用文献可视化分析工具并不一定能节省阅读文献的时间,一个好的文献分析结果很可能需要事先阅读大量的文献,对该领域有一定的了解,并掌握数据分析的基本原理实际上,文献分析的结果本身就可以发表论文,比如图1所示的3篇论文[2,3,4],其中图1第3篇论文为Monash大学张乾兵教授在讲座上展示的结果,笔者在这次讲座上第一次接触到文献分析的概念,在此感谢张老师的启蒙。
图1 基于文献计量的期刊论文
文献计量分析工具种类繁多,包括Citespace、Bibexcel、VOSviewer等,很多文献数据库、搜索引擎本身也包含了文献计量分析的功能,如知网、Scopus等,知网本身即支持文献互引网络、关键词共现网络、作者合作网络分析。
本文所选用的VOSviewer为免费软件,界面简洁,操作难度低,基本可以满足一般性的科研文献计量需求 囿于笔者知识与准备时间,本文疏漏甚多,尚不足以作为文献统计分析的入门参考,撰稿目的意在抛砖引玉,并解各位同好眼前之急,望诸君姑妄观之。
主要分析流程——麻雀虽小,五脏俱全 进行文献计量分析的主要步骤如图2所示,包含了数据获取、预处理、计量分析和数据后处理四个部分,这与一般性的数据分析基本一致。
图2 文献计量分析的主要步骤二文献的基本获取方法No.1文献数据获取准备
通常文献计量分析软件对于输入的数据有一定格式要求,虽然下载下来的原始数据看起来是一个普通的txt文件,但实际上其中包含了格式字符为了避免手动设置格式字符的麻烦,原始数据可以从大型科研数据库中导出,如Web of Science、Scopus、PubMed等,这些数据源可以直接导入文献计量分析软件中;或者来自引文管理软件的文件,如RIS、EndNote等,知网的数据就可以导出为RIS文件输入VOSviewer中。
本文选择从Web of Science中导出SCI论文数据: (1)首先打开Web of Science,选择数据库,“Web of Science核心合集”是我们通常所说的SCI论文数据库,如果选择“所有数据库”,那么搜索结果中可能包含新闻报道、专利申请书等内容。
(2)确定文献计量分析的起止时间 (3)键入关键词No.2关键词尝试 关键词选择是否合适对文献的选取影响很大,同时一些关键词在不同的研究领域有不同的含义,因此不能一概而论,需要对关键词进行尝试和分析。
以无线传感技术在隧道工程中的研究为例,以wireless sensor和tunnel为关键词对2000~2019年间的SCI论文进行搜索,得到363篇,但是其中部分文献与我们想要的研究方向没什么关系,如下图所示。
这主要是因为tunnel这个词不仅仅指一种工程结构,它还可以表示风洞wind tunnel、电子隧道效应tunnel effect of electron、网络安全技术的隧道代理tunnel proxy等等。
因此我们搜集到的很多文献是无效文献,使用它们进行文献分析会导致我们对研究热点的错判
另一方面,很多文献并不一定同时包含这两个关键词,但它们与我们的研究密切相关,比如下图所示的这两篇论文。第一篇是有关无线传感网(WSN)在地下煤矿中应用的综述。01
这篇论文对过去数十年间WSN在煤矿工程中的应用案例作了梳理,归纳了应用种类,分析了研究热点,并将无线传感网、物联网(IoT)、人工智能相结合,预测了其未来发展趋势仅从以下归纳的图片,我们可以想见这样一篇综述性的论文对于我们了解无线传感网在地下工程中的应用会有巨大帮助,将矿山工程的相关研究结论稍作推广就可以适用于隧道工程,对于我们理清研究思路很有用处。
02
这一篇论文介绍了WSN在工程应用中的数据安全问题,并与时下盛行的区块链技术相结合,这是一个非常新颖的研究方向,在大家都在关注数据传输用什么协议、如何优化节点布置、供能问题如何处理时,已经有人考虑到了WSN在大规模工程应用中的加密安全问题,这对于我们寻找自己的研究方向将会是很好的启发。
以上两篇论文对于WSN在隧道工程应用研究的分析都很有帮助,但是遗憾的是他们都不在那363篇文献中,因此我们需要更加精确、更加全面的关键词描述,既不会错过重要文献,也不至于被无效文献、垃圾数据困扰。
No.3高级检索 针对上述关键词选择的问题,Web of Science为我们提供了更强大的搜索引擎——“高级搜索”,其界面如下图所示。
高级检索的核心是关键词检索式的编写,其详细说明在Web of Science上可以找到,以下仍以WSN在隧道工程中的应用为例,下图为笔者所尝试的各类检索表达式,TS为主题,AND、OR为逻辑词当几次检索表达式的结果相差较大时,说明关键词检索式中仍有语义不明或语义疏漏的地方,需反复调整直至趋于相对稳定的数值。
以TS=((wireless OR smart) AND (undergorund OR Geo-structure OR subway OR "shield tunnel" OR shield OR TBM) OR (smart AND tunnel)这句检索式为例,其含义为检索主题中包括无线或者智慧,且同时至少包含以下关键词之一:地下、岩土/地质结构、地铁、盾构隧道、盾构、TBM,或者同时出现了智慧与隧道的论文。
最后,初步确定了关键词检索式以后,我们可以用手头已有的论文校验一下,如上图中搜索结果为556篇论文的检索式,已包含了前述被遗漏的两篇论文 以上三种检索方法分别称为关键词检索、高级检索和表达式检索,每个数据库都有类似的检索方式,以中国知网为例,相关三种检索方式如下图,一框式检索即为关键词检索,是CNKI首页提供的检索方式,可以针对指定类型的关键词(主题、关键词、篇名、作者……,其中主题是题目、摘要、关键词的集和)进行检索。
在【检索】按钮右边有【高级检索】选项,点击即可进入高级检索界面,在高级检索中,我们可以通过窗口的方式设定自己的检索条件,同学们可以根据自己的需要进行设定,数据库并不要求对每一个条件都进行设定专业检索即通过检索表达式进行检索,检索表达式是通过逻辑运算符、关系运算符编写的检索条件,不同的数据库有不同的字段表达形式与逻辑运算符,在表达式检索界面可以找到。
No.4文献数据导出 确定了文献数据以后,需导出VOSviewer可以识别的引文数据格式选择“导出”→选择“其他文件格式”→选择记录条数→选择记录内容“全记录与引用的参考文献”→选择文件格式“制表符分隔(Win)”,如下图所示。
导出的文件为txt文本文件
三用文献计量分析寻找研究热点 原理:文献计量学、知识图谱、聚类分析 主要工具:文献计量分析工具VOSviewer(下载地址https://www.vosviewer.com/) 数据库:web of science
分析案例:2000~2019年TBM研究热点;2000~2019年无线传感技术在地下工程中的应用研究热点 适用场景:需要在短时间内浏览大量文献;寻找潜在研究方向;寻找研究热点;寻找重点文献;定位高影响力期刊,机构与科学家等
摘要:基于文献计量学、知识图谱、聚类分析的原理,本文详细介绍了如何使用文献可视化工具VOSviewer对SCI论文关键词进行统计,以分析某领域的研究热点仅介绍十分必要的理论,重在实操主要步骤包括:数据获取、数据预处理、文献统计分析、结果后处理。
No.1数据预处理 承接上文,在已经获得文献数据后,对文献数据进行计量分析数据导入1.1 打开VOSviewer(最新版本1.6.13),在右侧边栏选中File→Map→Create→在弹出的窗口中,选择Create a map based on bibliographic data→选择Read data from bibliographic data→选择下载好的数据(可以一次性选择多个)→选择将要分析的项目。
VOSviewer提供的分析类型主要为: (1)Co-authorship作者合作网络分析:分析研究者文章共同署名的情况,以此可以分析该领域里影响较大的学者、科研机构和国家/地区 (2)Co-occurrence关键词共现网络分析:分析论文中关键词(包括作者列出的和附加的)共同出现的情况,以此可以分析该领域研究热点与研究趋势变化。
节点数值(节点大小)代表关键词出现次数,连接强度(连线粗细)代表关键词之间的联系程度(3)Citation引文分析:直接引文分析,在聚类和计算节点连接强度时,不考虑那些出现在参考文献但没有包含在下载的数据集中的论文。
(4)Bibliographic coupling文献耦合分析:分析论文之间引用相同论文的情况,以此分析文献之间的静态联系程度,引文耦合愈多,说明文献之间的相关性愈强VOSviewer支持分析文献、期刊、作者、机构、国家之间的联系。
(5)Co-citation文献共(被)引分析:多篇论文同时被后来一篇或多篇论文所引证,则称这些论文构成共被引关系与文献耦合分析不同,共引分析随时间而变化,可以以此分析某领域的发展与演进状况,并确定该领域的核心文献。
同时文献耦合分析反映的是两篇引证文献之间的关系,共引分析反映的是两篇被引文献之间的关系 直接引文分析、文献耦合分析、共引分析均属于引文分析,在VOSviewer中由于采用了“匹配键”机制,这三种分析统计的引文数量可能不同,共引分析由于没有采用匹配键,统计得到的引文数量(即节点数值)可能较少。
关于三种分析引文方式的原理参见文献[5],学界对于三种分析方式代表研究前沿的分析精度多有讨论,在此不赘叙,感兴趣的读者朋友请自行参阅相关文献探索性分析1.2 刚刚获得文献数据以后,并不一定能够立即投入使用,就如同机器学习的原始数据需要经过数据清洗等调整过程一样。
因此,我们首先需要对获得的数据进行探索,以了解数据可能存在的问题探索性分析将为之后的同义词替换、普遍词屏蔽提供基础 通过探索性分析,我们可以观察数据中是否存在同义词以关键词共现网络分析为例,将原始数据按2.1的步骤导入VOSviewer后,可以发现关键词存在大量同义词和拼写问题,如tunnel和tunnels,tunneling和tunnelling,wireless sensor network、wireless sensor network (WSN)和WSN等,在涉及人名时,也会出现姓名简写不同的问题。
这些同义词表示的是同一个事物,但在进行文献计量分析时没有把它们考虑在一起,需要单独处理 针对同义词问题,VOSviewer提供了同义词合并的功能在VOSviewer安装目录下data文件里有两个名为thesaurus_authors和thesaurus_terms的txt文件,它们分别是用来替换作者同义词和词组同义词的。
以词组同义词为例,创建一个如下图所示的文本,第一列是目标词组,第二列是替换词组完成以后,在同义词库文件处读入,目标词组将被合并至替换词组
通过探索性分析,我们还可以观察数据对搜索使用的关键词(可能出现的非常普遍)是否敏感,并评估是否需要屏蔽普遍词当某些关键词出现过于频繁,对所要分析的问题意义不大,且对最终分析结果产生不利影响时,此时需要酌情考虑是否在分析中剔除这类“普遍出现”的词组。
如在分析TBM在岩石工程中应用的案例中,关键词出现频率最高的是tunnel和rock,占比较大影响到了聚类分析 屏蔽普遍词的方法和替换同义词相似,对于不想在分析中考虑的关键词,可以在替换词组列留空,如下图所示。
No.2文献计量学分析以关键词共现网络分析展示VOSviewer文献计量学分析过程: (1)在分析类别中选择Co-occurrence,选择关键词类型Web of Science的数据关键词有三种:All keywords,包括文章的标题、摘要、作者关键词;Author keywords,作者添加的关键词,即通常在下载的论文中看到的关键词;KeyWords Plus,网站通过聚类为论文添加的与论文主题相关的关键词。
(2)设置关键词出现的最小次数该值设置的越小,则挑选出的关键词数量越多对于该值的设定需要依靠使用者的经验和多次尝试,根据笔者的使用经验,当挑选出的关键词数量超过100个时,结果就会比较混乱,下图包含128个关键词。
(3)选择关键词数量。根据第(2)步计算满足要求的关键词数量,通常保持默认。 (4)确认关键词。在该列表处右击可导出关键词统计结果,如下图所示。
以WSN在隧道工程的应用为例,选择关键词类型为All keywords,关键词出现的最小次数设置为5,关键词数量为19,结果如下图所示,操作面板基本介绍如图所示。
各类参数的调整是一个反复尝试的过程,和有限元、神经网络调参类似,最终的结果应该是易于解释、较为合理的那一组关于VOSviewer中各参数的具体含义和分析原理参见VOSviewer Mannual v1.6.11[6].。
No.3数据后处理数据导出3.1 利用VOSviewer的save功能可以将分析所得的网络数据导出,在Pajek等复杂网络分析工具中进行处理,也可以直接利用screenshot的功能输出分析的图像。
人工分析3.2 最后,我们对导出的结果图像作最后的润色,以下展示两组案例的最终分析结果: (1)对无线传感网在地下结构中的研究有如下结论:过去20年无线监测技术在地下结构尤其是隧道中的研究主要分为三大类:无线传感网的性能研究、无线网络底层技术研究(信号传播、传感器电脑补充技术、传感器开发等)、无线网络系统具体应用研究,而在这三类研究中无线传感网监测系统的应用研究与隧道工程最为相关。
(2)对TBM在岩石隧道中的应用有如下结论:在过去20年中关于TBM的研究主要分为两部分:一部分是关于TBM刀盘的研究(红色区域),包括数值模拟、破岩机理等;另一部分则是关于TBM性能的研究(蓝色区域),包括掘进速率、性能预测等。
关键词出现频率频率最高的前10个关键词如图所示
No.4结语 文献计量分析是一项强有力的科研方法,通过对科研产物——文献——的数据挖掘与分析,帮助研究者了解学科研究的发展趋势、前沿热点,寻找核心文献、有重要影响力的研究者或研究机构文献计量学作为一门独立的学科,有着严密的理论基础,其进一步涉及到的知识表达、语义网、知识图谱是人工智能研究的重要课题。
因此在使用各类文献计量、可视化工具时,我们应当端正态度,认识到使用文献计量工具本质上和使用数值分析工具一样,需掌握完备的理论基础才能保证分析结果的可靠同时,我们还应认识到,文献计量分析的最终结果仍然决定于使用者的认知,在文献计量开始前就应当对该领域的研究有基本的了解,因为我们最终形成的分析结果是我们能够理解、解释的那一部分,这和数值分析、神经网络调参异曲同工。
科研有大道而没有捷径,与诸君共勉作者简介
徐昊(1995-),男,2018年毕业于武汉理工大学土木工程(岩土)专业,现为同济大学土木工程学院地下建筑与工程系隧道方向硕士二年级研究生,导师为李晓军教授,目前从事隧道排水对周边生态环境影响的研究。
参考文献[1] 尼克. 人工智能简史[M]. 北京:中国工信集团出版社/人民邮电出版社,2017:60-78.[2] 汪青,陈光复,张国栋,等. 基于文献计量学的近 20 年国内非饱和土研究综合分析[J]. 铁道标准设计,2019,63(12):1-9.
[3] Khan M A, Ho Y S. Top-cited articles in environmental sciences: Merits and demerits of citation analysis[J]. Science of the Total Environment, 2012, 431: 122-127.
[4] Zhang Q B, Zhao J. A review of dynamic experimental techniques and mechanical behaviour of rock materials[J]. Rock mechanics and rock engineering, 2014, 47(4): 1411-1478.
[5] Boyack K W, Klavans R. Co‐citation analysis, bibliographic coupling, and direct citation: Which citation approach represents the research front most accurately?[J]. Journal of the American Society for Information Science and Technology, 2010, 61(12): 2389-2404.
[6] van Eck N J, Waltman L. Manual for VOSviewer version 1.6.11[M]. Leiden: Univeristeit Leiden, 2019.
图文 | 地下系研究生会学术部编辑 | 晨阳
扫码关注我们
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186