作者合作分析与作者关键词耦合分析比较研究
摘 要 论文以《情报学报》 年间刊载的期刊论文为数据样本,通过构建共词矩阵、挖掘研究主题、计算中心度等对作者合作分析与作者关键词耦合分析方法进行比较,运用社会络分析软件进行图形的可视化分析。论文还对图书情报学科的组织结构与演进状况进行梳理,并讨论了两种方法在探寻学科知识结构、热门主题及其发展的适用性范围。
中国论文
关键词 作者合作 关键词耦合 比较分析 社会络分析
分类号 G250.2
Abstract Taking several papers published in “Journal of the China Society for Scientific and Technical Information” from 2010 to 2014 as a data sample, and comparing the two methods of author cooperating analysis and author keywords coupling analysis by building co-word matrix and mining research themes and computing degree, his paper uses social network analysis software to do the visual analysis of the graph. It also sorts out the status of the organizational structure and evolution of library and information subject, discusses the applicability range of two methods in exploring the structure of subject knowledge, popular themes and their development.
Keywords Author of cooperation. Keyword coupling analysis. Comparative analysis. Social network analysis.
0引言
学科专业发展是科学发展和技术进步的重要基础,是科技竞争力的重要体现,对促进学科交叉融合、协调发展,推动科技创新有着至关重要的作用。本文对作者合作分析(即作者合作程度与学科关联程度的相关性分析)和作者关键词耦合分析两种研究方法进行比较,试图探讨学科专业之间是否存在着隐含关系,以及这两种方法存在什么异同。
作者合作研究的产生和发展应该归结于科技不断进步和推陈出新,促使科研项目的复杂性和交叉性更加显著。一些科研项目,尤其是新型研究课题,单凭一人之力往往难以全面深入的探究其内含[1]。因此,科研人员间的合作化趋势不断增强,产出文献的合作研究比例持续走高,针对合作作者的各项研究应运而生。作者关键词耦合是从耦合研究、文献耦合逐渐发展而来,最初主要是用于研究领域分析,后来有学者将其用于团队科学交流特征与规律研究。
作者关键词耦合分析是以作者发表文献作为元数据[2],从文献中提取出关键词,将关键词进行一定规范化处理,利用分析软件分析出关键词共现关系,再结合计量学的相关知识得 到它们内部的联系[3],进而从关键词关联中得到学科专业的热门主题和今后的发展方向。本文研究主要有三个目的:(1)探究作者合作分析与学科耦合分析存在哪些共性和差异。(2)分析作者合作分析与学科耦合分析哪一种更能准确揭示学科专业的发展趋势。(3)通过对2010―2014年期间文献各项指标的统计与研究,预测图书情报学科将如何演变。
1数据来源、整理与研究现状
1.1数据的来源
现阶段,科学研究鼓励学科交叉合作或者跨学科合作。科技合作必定会产生大量成果,这些成果主要以期刊论文、科技报告等形式呈现,而科研合作呈现在各种载体上就形成了作者合著现象[4]。因此,作者合著现象的研究是研究学科专业发展、热点剖析的重要途径之一。本文的研究是基于情报学权威核心期刊《情报学报》进行统计分析。通过《情报学报》收录论文的作者所属单位名称可以看出,论文作者主要来自医药、农业、化学、数学、图书馆学、情报学等专业领域,这对本论题中探究学科专业之间的关联程度,奠定适当的基础。本文中,笔者以期刊名为字段进行检索,检索时间为2010年1月―2014年10月,共检索到701篇文献。去除期刊中包含的前言、卷语、投稿须知等内容的文献,最后得到686篇期刊论文。将这些论文数据进行下载,并导入到excel表格中,数据款目包括:篇名、作者、作者单位、作者主要研究方向、关键词、发表时间等信息。
1.2整理数据
本文主要探讨合著作者之间、关键词之间存在哪些内在联系,联系产生的原因,它预示着学科专业未来的怎样的发展等。将获取到的数据二次筛选,进行清洗[5]。合著者分析中,以第一作者名为标准,进行排序。在学术研究中,有人将合著文献的著者在文献形成过程中所做出的贡献程度划分为几个层次:8:2;7:3:1;6:2:1:1等。随着合著者的人数逐渐增多,排在后面的作者没有明显的贡献度。本文中研究合著者研究方向领域的学科发展问题,锁定的人群应该是在文献形成过程中起到主导作用的人群,以保证所得结果的真实性和准确性,选取文献的合著者人数小于等于3人。关键词分析中,对同一概念的关键词进行合并,书写格式不同的同类关键词去重,最终共得到568篇有效数据。
1.3研究方法及手段
社会络分析方法[6]( Social Network Analysis,SNA)在20 世纪30 年代出现并在70 年代后逐渐流行,是一套对社会络中各种关系结构及其属性分析研究的理论方法,主要分析行动者之间的关系模式。该方法已经被证实可以应用于作者合作关系分析及其络结构阐释。络计量学从最初的文献计量学,经过30多年的演变发展,成为研究文献耦合、著者耦合及作者关键词耦合最根本、最基础的方法。通过对合著发文情况及作者研究方向的分析, 发现其合作紧密程度与学科之间的交叉关系;通过关键词分析, 发现隐藏在简单关系络背后的学科关系络[7]。本文依据以上两种方法,借鉴前人的研究成果和经验方法,以期对图书情报领域的发展现状有深入的了解,为学科、专业的研究热点和发展趋势进行初步预测,为知识交流合作提供一定的参考。本文选择从论文著者的学科专业研究方向、作者关键词耦合情况这两种方法研究本领域热点,基于以下两个事实: 第一, 合作者可能来自不同学科领域的对同一主题的研究者,亦或是同一领域不同研究方向的著者的集合,可以很好的反映出学科交叉和学科热点。第二, 文献关键词是一篇文献的核心部分,反应文献的研究主题,通过词间的关联可以看出专业领域的热点话题和热点延伸方向,是预测未来的发展的一种科学性指标。主要步骤:通过Excel的基本统计与筛选排序功能实现数据的标准化与规范化;将规范化的原始数据导入专业数据处理软件中,进行词频统计等工作;将所得矩阵[8]导入社会络常用工具UCINET,输出可视化图形,进而分析讨论。 2作者合作分析研究
2.1合作度与合作率
首先,引入作者合作分析之间的两个衡量概念:合作度与合作率。合作率=(某种期刊一定时期内)合作论文数/(某种期刊在一定时期内)论文总数;合作度=(某种期刊一定时期内)作者总数/(某种期刊在一定时期内)论文总数[9]。在确定检索范式进行初步检索时,共得到686篇期刊论文全部含有作者和关键词,可以此为总体研究对象,但其中包含独著和合著文献两种。清洗数据后得到的568篇论文作为具体的研究对象进行分析。对作者合作情况进行分析主要有两个指标:合作度和合作率。忽略作者重名情况,经统计,合作率为82.8%;作者总数为900人,论文合作度为1.31。作者合作详细情况统计如图1所示。
2.2作者合作络分析结果
利用Ucinet软件研究作者合著情况,此时作者合著可被想象为一张人际社会络图,每个节点表示一位作者, 节点间的连线代表着合作关系。整体合作复杂,不便分析,也无法突出重点,确定核心作者群体是一个前提。
首先,利用BIBEXCEL程序进行合著者频次统计,得到共现频数,并生成作者合作共现矩阵。导入UCINET中分析处理,共556个节点,可视化得到作者合作络总体图形,如图2所示。作者合作络由作者对形成一个个子,圆形和方形代表着各个作者,图形间的连线代表者作者之间的合作关系,连线的粗细代表作者间的合作次数多少。颜色不同代表着其K―core的不同,K-core越大的其度数中心性越大。由图可知,合作者间关系复杂、散落。笔者将原因归结为:某些作者仅发文次,与其他作者联系较少,不足以形成较大的络集群,分散在外;合著者是以某研究机构为团体,机构内部形成小型络,可视化图形中出现若干小团体;合著者是以某导师为核心与学生形成团体等。前面提到整体络不便于分析,因此,笔者对原络的子进一步剖析,共得到14个相互关系的团体,如图3;对子中作者的单位进行整理,如表1。表中体现的作者合作关系络的人数分布不等,团体最多人数为23人,最少为5人。从每个团体中的作者单位可以看出,包括*事所、研究所、实验室、计算机、数学、医学、财经、国外大学、企业机构等不同研究领域的作者,从此可以大体看出图书情报领域与以上提到的领域存在着交叉关系。要探究本领域具体的发展方向与前沿热点,要根据作者具体的研究方向做进一步的研究确认。
2.3作者合作中的学科潜在联系
为了通过研究各领域间的合作关系所反映出的作者共同研究主题,进而探究该领域的热点研究主题,笔者对几个大的子合作作者研究方向进行分析,发现:以朱庆华为中心的5人子研究方向为络信息资源管理、信息服务和电子商务;以郑彦宁、李纲为中心的22人子研究主题主要是竞争情报、专利分析、数据挖掘与分析处理和数字图书馆应用;以温有奎为中心的5人子研究主题主要是信息检索、语义挖掘、知识组织与分析;以王知津为中心的5人子研究主题主要是竞争情报与计量学;以苏新宁为中心的12人子研究主题主要是信息检索与数据挖掘;以邱均平为中心的5人子研究主题是引文分析、知识管理、科学计量,此子相对独立且合作频次较少,图中并无显示,但具有一定的代表性,特殊加入表1中。其他子比较稀疏,关联度不高,研究主题相对分散,可以分为三个种类,商务智能、情境感知计算与应用、舆论分析。通过挖掘合作关系的热点研究主题,可以看出其研究主题较为分散,主题交叉情况较多。一方面说明不同专业作者之间的合作交流频繁,不同知识相互融合可以产生更多的创新点。另一方面也说明合作作者的研究主题具有多元化的特点,作者之间才能形成交集。需要引起注意的是,对前文中对作者的单位做以统计后发现,虽然不同作者研究主题相同,但是其单位不同,说明其侧重点一定是存在差异的,才促使他们之间形成合作络。综上所述,将各个子的研究主题和研究单位进行归并,最终得出与图书情报学科关联密切的学科主要包括:计算机(分析软件)、数学(数据统计与处理)、经济学、医学(计量分析)、*事(情报检索与分析)。图书情报领域的热点研究主题有信息资源建设与管理、数据挖掘、情报分析、算法语义、社交络、社会络分析方法、电子商务与商务智等方面。
3 作者关键词耦合分析研究
3.1构建矩阵与中心性分析
将文献中提取出的关键词进行规范化处理,导入UCINET软件中得出共词矩阵,进一步将矩阵导入NETDREW,形成关键词联系络。笔者对所得到的关键词状图进行了部分的截取,如图4所示。为了更精确地判定这些关键词之间的重要关系,引入中心性分析。中心性是由中心度来体现的,在社会计量学中称中心性高的群体为“明星”;是用来衡量人重要与否、职务的地位优越性或特权型, 以及社会声望等的一种常用指标。中心度大体分为:整体中心度、相对中心度。整体中心度是用来衡量团体中的核心人物;相对中心度则衡量了一个人作为媒介者的能力,也就是占据拐点位置的人。笔者对中心性较高的词群进行了截取,如表2。
通过图4,可以比较直观的判断知识增长与老化之间存在的关系最紧密,K-core最大,其次,社会络分析、引文分析、计量学、知识图谱等研究主题处于较核心的位置。表中,“社会络分析”及相关主题中心度最高;数据挖掘、信息检索、知识管理与知识老化紧随其后;统计、计量学各分支的学科,用户服务、用户体验等主题的中心度相对较弱。由此可知,形成大型子及使各关键词相互联系的大多是社会络、计算机、数学、管理学等领域的主题。从侧面可以看出,这些学科与图书情报存在密切联系。
3.2关键词络主题分析
挖掘关键词之间的潜在关系,关键词子中大体分为7类。子类1,社会络分析:以寻求络中存在的潜在关系为目的的研究,多于计算机、数学等主题相关联。子类2,社交络:包括微博、、个性化推荐等主题方向。子类3:计量学,包括文献计量学、信息计量学、络计量学,与统计学知识相关。子类4:知识图谱、可视化分析、聚类,以大连理工大学WISE实验室陈超美开发的Citespace软件的应用为主的相关研究。子类5:信息管理,以经济学与计算机为基础的数据挖掘、商务智能、电子商务。子类6:知识管理:知识组织、知识交流、隐形知识等与管理相关的研究主题。子类7:用户服务:信息检索、用户需求、用户查询行为等研究方向。可知,近期图书情报领域的研究热点,多与计算机和络相关。 4 结果和讨论
4.1研究方法的比较分析
本文运用作者合作分析、作者关键词耦合分析方法进行对比分析,通过构建共现络矩阵、状图的可视化分析、主题因素的中心度测定等具体测量手段,对图书情报领域的热点课题和交叉学科进行探究。
从学科专业的热点课题角度,得到的主题有:数据挖掘、信息检索、社会络分析与商务智能。这些专业主题大多与数字图书馆、情报学、信息组织等研究方向相近,即进入信息社会后,人们对计算机等电子设备的应用更为广泛。从管理经济学中的电子商务的兴起,就可以直观的说明络在人们生活中的重要地位;相对于图书情报领域,由于文献媒介数字化的蔓延,使信息无时无刻不存在于人们的身边,图书馆想要抢占先机,馆藏数字化的建设是不可避免的,而如何合理进行馆藏文献数字化就成了本领域学者率先研究的课题。信息检索、情报信息的收集与分析,可以应用到企业、医学、经济、管理、*事等多个领域,因而检索、收集、组织和处理信息的方式为学者们所重视。然而,这些研究主题只是图书情报领域的一小部分。从两者研究方法来看,作者关键词耦合分析更能挖掘出学科专业的热门课题,作者合作分析相对确定的范围较窄。
从交叉学科的角度,图书情报与计算机、数学、经济学的联系最为紧密。应用于图书馆管理中的技术设备大多需要运用计算机语言和一些算法实现;计量学、信息的处理与加工、组织管理中多运用统计、运筹、概率论和线性代数等多种数学方法;经济学中运用情报信息分析未来趋势的例子也层出不穷。在探索交叉学科的问题上,作者合作分析的方法优于作者关键词耦合分析,从作者所在单位和其研究方向中可以更清晰的看出合作作者涉及的不同学科,而作者关键词耦合分析易于找出研究主题,但对与学科的划分较为困难。
4.2结论
本文基于对我国图书情报领域的作者合作、研究热点、关键词耦合等问题进行了社会络研究,通过上述研究与操作过程,得到以下研究结论:首先通过作者合作频次和密集程度,对合作者团体进行划分,进而发现了不同学科、相同研究主题的学者之间的合作关系,确定与图书情报交叉的学科范围。笔者在最初整理文献资料的时候发现,生物、化学、机械等自然科学学科与图书情报学科之间也存在着合作现象,然而数量极少,不能作为准确的数据分析使用。但是,大胆的设想在信息检索与信息收集方面,这些学科之间极有可能存在依存的关系,自然科学学科在未来也极有可能成为图书情报学科的一类交叉学科。其次,从高频关键词和中心性关键词角度分析图书情报学领域的研究热点,主要与计算机、络方面的主题相近,可以代表着研究前沿领域,这些研究主题不断拓展、创新和深化,即形成新型的发展趋势。这些研究主题中,计量学和知识管理算是存在时间较长的两个热点话题,但笔者认为其内涵尚未完全开发,持续研究的意义较大。最后,从本文研究学科发展的趋势来看,两种研究手段各有利弊,将两者适当的结合必定对预测学科专业的发展有较为深远的意义。
参考文献:
[1] 邱均平,王菲菲. 基于SNA的国内竞争情报领域作者合作关系研究[J].图书馆论坛, 2010,30(6):.
[2]邱均平.信息计量学[M].武汉:武汉大学出版社, 2007:.
[3]刘志辉,郑彦宁.研究专业演化图谱及其应用研究[J].情报学报,2011,30( 11) : .
[4]刘志辉,张志强.作者关键词耦合分析方法及实证研究[J].情报学报,2010,29(2): .
[5]宋艳辉,武夷山.作者文献耦合分析与关键词耦合分析比较研究:Scientometrics实证分析[J]中国图书馆学报,2014,40( 1) :.
[6]邱均平,董克.作者共现络的科学研究结构揭示能力比较研究[J].中国图书馆学报,2014,40( 1) : .
[7]刘志辉,郑彦宁.基于作者关键词耦合分析的研究专业识别方法研究[J].情报学报,2013,32( 8) : 788 -796.
[8]陈卫静,郑颖.基于作者关键词耦合的潜在合作关系挖掘[J].情报杂志,2013,32(5) : .
[9] 邱均平,温芳芳. 作者合作程度与科研产出的相关性分析:基于“图书情报档案学”高产作者的计量分析[J].科技进步与对策,2011(3):.