引文分析存在的问题及其原因探究.docx
- 文档编号:30169616
- 上传时间:2023-08-05
- 格式:DOCX
- 页数:19
- 大小:70.94KB
引文分析存在的问题及其原因探究.docx
《引文分析存在的问题及其原因探究.docx》由会员分享,可在线阅读,更多相关《引文分析存在的问题及其原因探究.docx(19页珍藏版)》请在冰豆网上搜索。
引文分析存在的问题及其原因探究
引文分析存在的问题及其原因探究
杨思洛
2012-10-2615:
39:
47 来源:
《中国图书馆学报》(京)2011年3期
【英文标题】TheProblemsofCitationAnalysisandTheirCauses
【作者简介】杨思洛,湘潭大学公共管理学院知识资源管理系讲师,武汉大学信息管理学院博士研究生。
通讯地址:
湖南湘潭大学公共管理学院。
邮编:
411105。
【内容提要】目前引文分析已成为文献计量学的主要研究内容之一,但少有对其存在的问题进行分析。
本文从引文分析理论(基础理论和引用动机)的不完善,引用过程中存在的不足,引文分析方法、工具和数据库的缺陷,引文分析应用与实践(科学评价和科学交流)的局限四个方面较系统地总结引文分析存在的问题及原因。
目前应该以谨慎的态度看待引文分析,对其方法和结果作客观评价,在充分了解其优缺点的基础上进行完善与发展。
Citationanalysishasbecomeoneofthemaincontentsinbibliometrics,butfewstudyhasfocusedonitsproblems.Theproblemsincitationanalysisandtheircausesaresummedupfromfouraspectsinthispaper:
theweaknessofcitationtheory,thedeficienciesintheprocessofcitation,thedrawbackofthecitationanalysismethodsanddatabases,andthelimitationsincitationapplications.Atpresent,weshouldtreatcitationanalysiswithacautiousattitude,evaluateobjectivelythemethodsandtheresultsobtained,andthenimproveitonthebasisoffullyunderstandingitsmeritsanddemerits.
【关键词】引文分析/引文分析理论/引文分析方法/文献计量学Citationanalysis/Citationanalysistheory/Citationanalysismethod/Bibliometrics
自从16世纪后期论文引用制度形成以来,参考文献成为学术论文的第二特征,也是合理有效地进行科学交流的必要部分[1]。
20世纪中期,时任美国霍普金斯大学图书馆员的E.Garfield受1870年谢拨德引文的启发,开创了科学引文索引(SCI),掀开了引文分析的新篇章。
随后“文献耦合”(Kessler,1963),“科学引文网络”(Price,1965),“同被引”(Small,1973)、“引文可视化”(White,1998)等相继提出。
1998年,网络版数据库WoS(WebofScience)的问世进一步促进了引文分析的普及。
在此过程中,对引文分析有效性、可靠性的争论与批判一直不断。
从20世纪90年代开始,国内出现了关于引文分析反思性的文章,这是引文分析从介绍、引入,到应用发展的必然。
进入21世纪,由于国家科技经济的快速发展,科学评价及科技管理的需要,再加上信息可视化技术的突破、大规模引文数据库的出现,使得引文分析研究出现新的跨越式发展。
但在人们热衷引文研究应用的同时,对引文理论和引文分析的不足相对研究较少。
目前,从引文分析实践的惯势及其所支持的理论思维常态中走出来,对新环境下引文分析存在的问题作系统的探索,显得十分迫切和必要。
1引文分析理论的不完善
1.1基础理论
对引用行为的理论分析是进行引文研究的前提与基础。
20世纪中期,一些学者意识到需要基础理论来解释作者的引用行为。
1974年,Mulkay[2]提出没有明显的证据表明引文反映了科学知识的影响过程。
证据的缺乏使得对施引过程和原因知之甚少。
此后,众多学者从不同方面对此问题进行了探索。
特别是1998年科学计量学期刊Scientometrics以一期的篇幅,专题讨论引文分析理论。
下面将对其中涉及的几个主要理论进行论述。
1.1.1引文规范理论
1965年,Kaplan[1]首先阐述了这一理论。
他认为引用行为是通过教授对学生的口授和不同期刊的不断检验调整两方面而推广的;其主要功能是科学行为潜在准则的重申。
引文规范理论基于以下假设:
科学是一个由内部奖励和惩罚机制进行治理的规范机构;科学家为获得承认(以奖励或引文的形式)而交换信息(以出版物的形式)。
引文是用于偿还智力债务的一种形式,“引文是学者付给同行的硬币工资”。
后来许多学者企图从科学社会学的角度构建引文规范理论。
但是该理论认为,当作者引用文献资料,则证明资料对他们有价值;而且,科学行为具有一致性,即他们引用的决定不会受功能不相关的特征影响,这些特征包括作者性别、种族、宗教和级别等;同时假定科学家们是无私的,不寻求通过奉承他人或自引来获得个人的利益;此外,该理论还认为科学家们对待他们自己的作品,持有和对待他人作品相同的怀疑态度[3]。
这些假设促进了引文分析的发展,Smith对假设作了进一步总结:
文献被引用表示文献确实被作者利用;文献被引用是文献价值的反映(质量、意义与影响);最好的作品才会被引用;施引文献与被引文献之间是内容相关的;所有引文的价值相等[4]。
显然该理论是一种理想的状态,与现实情况存在着很大差距,也反映了这一理论的局限性。
1.1.2社会结构理论
从社会结构角度关注科学交流和科学研究。
社会结构领域学者认为科学的形成是协商过程的结果,在此过程中一方靠劝说的手段使其他人信服。
从此角度,当作者引用文献时,他们通过组编以前的文献,说服读者相信他们观点的合理性。
大多情况下,作者常常仅仅是为了自身的需要而选择引用文献,就像推销和广告商品一样。
White从两方面对此理论进行了总结:
作者引用是为了达到自己目的而特意歪曲文献的本意;作者为获得认同不成比例地引用已有的权威作品[5]。
MacRoberts也认为引用的主要动机是说服而不是引文规范理论所宣称的“致谢”或“还债”[6]。
尽管此理论得到了许多学者的赞同,但也有众多学者从实证的角度加以反对。
例如White通过对文献被引频次的研究表明,引文呈正态分布,即引用名人和引用不知名人的著作都较少,大多数引文来自中等声誉作者的文献。
这与结构主义学者所宣称的作者为了说服而喜欢引用“大牌”作者的文献的说法矛盾。
Moed和Garfield在系列论证基础上,也认为“说服不是主要的引用动机”[7]。
1.1.3心理过程理论
众多学者认为引用行为可当做一种心理认知的过程,相应地,引文理论的构建应该基于对个体引用者的研究,具体可通过访谈技术、放声思考法(thinkingaloud)、行为模式记录等方法实现[3]。
Harter认为“引文活动是一个动态、复杂的认知过程”[8],他提出在科学研究中,通过检索系统或其他途径获取文献是一个相关性判断的过程,引起了研究者认知的变化;研究过程中,参考的文献对作者造成影响(包括对研究的概念构架、问题的提出、研究方法及结果的解释);最后,这些参考过的文献与研究是特别相关的,它们被整合到呈现研究结果的论文参考文献列表中。
参考文献列表以及特定的引文,告知读者引文与研究的历史相关性。
虽然Harter的观点得到了一些后续研究者的支持,但也出现了很多反对者,批评他无视社会文化的影响,如认知能力、教育背景和所处物理环境的差异等。
正如Nicolaisen所评论:
“Hatter没有研究为什么最初文献被认为是相关的;当作者在后来的论文中参考这些文献,他们使用了什么标准。
”因为缺乏广泛深入的研究,减少了Hatter引用理论的说服力。
1.1.4自反引文理论(theReflexiveCitationTheory)
一些学者关注于引文的表征特征,探究引文如何反映和代表科学,而不是为什么作者引用文献。
Wouters在其博士论文及系列著作中对这一观点进行了深入分析,他认为从作者引用行为角度来寻求解释引文理论将进入死胡同[9],因此必须放弃这种追求,而是集中精力于引文的象征特点和指示能力。
类似于信息语义学理论,他的理论基于对“参考”和“引文”是两种不同标志的解释。
不同于“参考”,“引文”是无量纲的也是无意义的。
仅仅在引文分析家的手中引文才得到意义,因此对作者引用行为的研究,有利于解释参考模式,而不是引用模式。
但是,自反引文理论带有和语义信息学理论同样无法解决的问题,因为它无法处理误报(falsepositives),例如,在文献计量学领域,一般认为引文是衡量论文质量的指标,这种方法假定被引量和文献质量齐头并进,因而是线性相关的。
引文分析的合法性研究也因此寻求科研质量和被引用的频次间表现一种线性关系,但许多研究表明,两者并非如此理想的关系[3]。
1.1.5引文进化理论
基于生物进化角度,1970年以色列生物学家扎哈维发表“不利条件原理”(handicapprinciple),含义是动物和人类不是在做出最冒险、最过分的行为之余侥幸能兴旺,而正是因为有这类行为而兴旺。
引文的引用行为也可从这个角度进行理论的探究,Nicolaisen在其博士论文中对将此原理引入引文理论中进行了深入研究,但也受到了一些学者的质疑[10]。
目前引文分析基础理论远未完善,影响最大的是引文规范理论和社会结构理论,但这两种理论恰好存在对立性,各有支持者,都有合理的一面,同时又有许多不足。
形成此现象的原因主要有:
一是由于理论提出的目的不同,角度不同,方法不同,对本质认识的不同,从而产生不同的看法;二是引文的形式及所处的外部环境在不断发展、变化,在不同的发展阶段,人们对于它的认识也是发展变化着的;三是由于引文现象的复杂性,研究者因各人所涉及的学科领域、所使用的杂志和论文类型、出版物的可获取性及技术因素的不同,都会影响到研究者的认知与结论。
1.2引用动机
引文理论往往建立在引用动机的基础上。
引文动机是相当复杂的,它深深地影响作者的引用行为及引用结果。
但引用行为动机的差异,使得引文分析时无法有效地控制各种因素,可行性因而大打折扣。
目前更严重的问题是对引用动机也没有统一的归纳。
20世纪下半期开始,众多学者关注于此领域,Weinstock系统归纳文献被引证的15种原因,这些引证动机对于科学发展、文献交流来讲,属于正常动机。
但是,也存在一些与上述目的相反的动机。
Thorne归纳了19种不遵守学术规范和学术道德的行为:
为阿谀某人而引证;为互相吹捧而带有偏见的引证;以自诩为目的的引证;为支持某一学术研究派别利益的不正当引证;迫于权威压力的引证等[11]。
Brooks根据前人的研究,将引文动机分为7类[12]:
①新颖性,只引用最新的资料,以彰显自己搜集资料的新颖程度。
②负面证据,引用反面的证据批评、否定、反驳他人的作品。
③操作型信息,沿用其他研究者的研究方法、结果、参考工具等。
④说服,引用文献说服他人。
⑤正面评价,对于同领域的论文或相近的研究成果给予正面评价。
⑥提醒,提醒读者注意背景数据、原始数据和最新资料。
⑦社会认同,为了得到他人在学术上的认同而引用。
Liu在1993年绘出了引用行为的内在动机和外在因素在引用过程中的关系图,充分表现了引用过程中复杂的影响因素[13]。
1994年,Baird及Oppenheim提出作者引文的17种动机[14]。
对引文动机研究缺乏一致性的分类主要原因是由于对作者引用动机的分析方法受到众多非议。
目前,引用动机的分析方法主要分为两种:
①背景与内容分析法;②问卷调查与访谈法。
早期研究常用背景与内容分析法,主要通过研究者对特定论文集的参考文献进行分类,分析施引论文的内容达到对引文特征分析的目的。
例如在1975年,Moravcsik和Murugesan使用自建分类表,对发表在1968-1972年的《物理评论》上30篇论文的706个参考文献进行了分类。
而在网络环境下该方法也频繁使用,例如Kousha和Thelwall[15],还有Vaughan和Shaw[16]对网络引文进行的系列分类分析。
但此方法遭到质疑,一方面并没有统一的分类标准,另外研究归类时,主观性太强,施引者动机的多样性对分类也是一种挑战。
从问卷调查与访谈法这一分析方法的角度来看,有学者提出从现象学的视角分析,即通过直接调查了解作者引用文献的动因。
例如Brooks归纳了引用理论模型,总结出7种引用动机,对26位学者在近期发表论文的参考文献动机进行了问卷调查[17]。
但是以上分析都存在一个根本性问题:
不能解释为什么被引文献在最初被作者发现是相关的。
一个人往往无意识地或有意识地不承认引用特定文献和不引用其他文献的原因。
因此,调查一个作者引用或不引用文献的动机,不能揭示作者已经施引的实际引用原因。
由于引用行为因人而异,没有一定的标准,没法表明引用文献与被引用文献是否真有相关性。
由以上两种分析方法得出的结论可信性都存在问题:
因为这些研究的设计方案间的变化与差异很大,其结果很难具有可重复性;研究方法普遍存在不足;而且有证据表明,施引者存在引用动机的多样性及动机归纳的随意性[18]。
2引用过程中的不足
引文是作者引用过程的结果,但目前引用过程中存在许多不足。
梁立明等在利用ISI数据库检索Nature的被引情况时发现,有一篇1970年发表的论文总被引频次超过19万次。
但在这些引用该论文的记录中,出现了大量的错引,仅仅卷码和页码标注就有518种错引类型,4,133条错引记录,错引率2.13%。
他们推测是由于科学家的引文失范行为,也就是引用者在没有阅读原始文献的情况下,复制了其他论文的参考文献,即间接引用或转引[19]。
Simkin估计仅仅20%的引用者读了原文,并认为一篇高频引用论文的错引记录按照错引类型的被引频次从高到低排列,呈齐普夫分布[20]。
Prabha对19个研究者的问卷调查表明,转引占所有引用的4%[21]。
Moed和Vriens检验了来自5种学术期刊的4,500篇论文,被25,000篇论文所引用,在引文数据库中10%的引文在标题、作者姓名或页码上存在误差。
漏引在学术论文中普遍存在。
在实际中,没有一位著者会列出全部参考过的书目,即使引用过的文献,对于著者的影响程度及发挥的作用明显不同。
Macroberts通过多个学科的实证分析表明漏引问题普遍存在,最严谨的学者也仅列出其实际参考文献的64%。
例如在15篇遗传学发展史方面的论文中,应该列出719篇参考文献才能完全包括其中所含已有出处的信息内容,但实际引文只列出216篇,仅占应引文献的30%[22]。
在国内这一现象更为严重,2003年我国科技论文中的1,576种统计源期刊,其中没有参考文献的论文就有25,283篇(9.21%)[23]。
这么多科技学术论文居然可以没有一篇参考文献,这一现象曾被外国人认为是不可思议的。
金标的调查也发现,在12种优秀图书馆学期刊中,有约25%的文章省略或没有文后参考文献;只有17.5%的引文作了标注,而且采用多种标注方式;参考文献用语使用相当混乱[24]。
另外,在国内这一问题还存在其他更为严重的现象:
一些学术期刊公开声明,为了节省篇幅,刊物将来稿中的参考文献删去,或者不经作者同意擅自增删;有的刊物提出所有刊登论文必须引用该刊1-2篇论文;还有的期刊,为了进入核心期刊阵列,故意提高被引率。
这些引用过程中的失范行为,对引文分析无疑是巨大的打击。
引用过程中产生的问题是多方面原因造成的。
漏引问题产生的原因有可能是由于作者写作过程时间较长,无法再找到原文的出处,最终只好不引;有些作者外文水平较差、知识面窄,遗漏与论文相关的重要文献;某些作者不负责任,为图省力,简单列几篇,未一一列出全部引文;还有作者对引文不重视,不管相关程度如何,随便列出其中一部分;也有作者主观故意造成的因素,这种故意漏引则是作者学术道德的深层问题[25]。
引用过程的不足不只与作者的引用态度和行为习惯相关,文献的产生和出版过程中各环节都可能对其造成影响。
编辑对引文的处理方式过于草率、引文规格多样化、引文规范的过时等都是常见的现象。
例如《GB/17714-2005文后参考文献著录规则》是推荐性国家标准,但是在各期刊中执行的普遍度不高;另外相关规范不明致使著录混乱;电子文献著录规范也过于笼统且自相矛盾[26]。
3引文分析方法与工具的缺陷
引文分析是文献计量学的重要组成部分,目前形成了整套方法、工具和测度指标体系,但很多方面一直受到学者的质疑。
3.1引文分析方法
引文分析常见的方法可分为两大类:
将引文款目作为独立计量单位的分析和将款目间的联系作为计量单位的分析[27]。
其中前者因为相对简单,较为成熟,但也存在分析方法的改进问题,如对影响因子的计算年限、最大引文年限、引文半衰期的数据统计方法等;而后者,因为可以得出更深层次的有意义结论,是目前引文分析的重点,但也存在众多缺陷和问题。
例如,共引和耦合是引文分析法中的重要概念,共引分析法与耦合分析法是对学科内部结构与研究群体可视化的知识发现和信息聚类的重要方法,然而共被引与耦合究竟在多大程度上体现着两主体的相关性还是一个涉及较少的论题。
所以共引或耦合分析究竟能够多大程度准确定量地描述主体间的结构与关系仍是未知。
对于引文分析方法存在缺陷的原因,一方面引文分析方法出现的时间较短,许多方面还有待于进一步深入探索,需要进一步完善,例如在引文分析过程中引入权重进行差别性计算。
另外引文分析方法的机理存在不足,其计算方法随着引文的发展也需要进一步改进。
以现在应用得最为广泛的共引分析方法为例,因为引用文献的原因多种多样,两篇论文可能出于完全不同的原因或从不同的角度引用同一篇早期文献,一篇可能是引用其方法,另一篇可能是引用其结果,那么这两篇文献在内容上的联系就有可能是虚假的。
同样,一篇论文也可能出于完全不同的目的同时引用两篇已有的文献。
引文有些是发生在前言和篇名中;有些在正文中;有些发生在结论或讨论中。
引文过程中有四种类型:
点对点、点对面、面对点和面对面。
在这些情况下,作者对原文的引用内容和程度是不同的。
EdgeD以《为什么我不是一个共引研究者》为题,从6个方面对共引分析进行了强烈的反对与批评[28]。
3.2引文数据库
基于引文分析研究与评价的质量、合理性和可靠性很大程度上依赖于所用引文数据的精确性和全面性,不准确或不全面的数据往往造成不精确甚至错误的结果,而数据库的检索功能与响应速度对引文分析的效率也影响重大。
在50多年前,加菲尔德建立SCI,此后的几十年里,该系列数据库作为唯一的综合性引文分析工具而被广泛使用。
但一直以来,对SCI功能的质疑和缺点的批评不断。
首先,收录的期刊比例很少,《科学引文索引扩展版》只收录了约6,000种重要期刊,约占各国现有科学期刊总数的3%;另外,所收录的期刊在国别地区、学科及语种等方面十分不均衡,例如对我国现行数千种期刊只收10余种,许多国家、许多学科、许多语种的较高水平的刊物被排斥在外;还有,选刊标准受到彼此相差很大的“影响因子”干扰,马太效应迭现;由于文献之间的引用与被引用关系极其复杂,仅仅依据SCI所作出的评价和结论往往有一定偏差[29];而且在人文社会科学,学者引用的文献类型更多的是图书或报告等,通过论文数据库进行引文分析的结果将扭曲实际情况[30]。
另外,也存在数据著录格式(如人名和地名的不统一)和遗漏的问题。
在国内,引文索引库的研究虽然起步较晚,但成功地借鉴了SCI及其他数据库建设的经验,近年来取得了令人瞩目的成绩。
出现了有一定特色的系列引文数据库,较常用的有中国学术期刊全文数据库、中国科学引文数据库、中文科技期刊引文数据库、中国社会科学引文索引。
但与国外相比,国内引文库还有一定差距,引文数据库间缺少必要的沟通与合作,尚存在不少问题。
如数据产品质量不高、生产周期过长、不支持引文链接、引文产品影响小等[31];在期刊选取、用户支持、系统功能、系统性能、系统规范性等方面存在诸多问题[32]。
随着科学技术的进展,网络环境下出现了多种引文分析工具,如学科专业性引文数据库CiteSeer(计算机科学)、SmealSearch(工商管理)和RePEc(经济学);综合性有Scopus和GoogleScholar等。
尽管这些新出现的数据库比传统的SCI在某些方面有优势,如内容更全面、索引更深入或功能更强,在引用关系的基础上建立了全面的链接关系。
但存在的问题也很普遍,不如传统引文数据库规范、系统、权威,不够稳定、适用。
而且对同一目标,使用不同引文数据库分析,得出的分析结果有很大不同,甚至截然相反。
目前缺乏对这些数据库的系统比较,不知道哪些数据库适应哪些领域或者适合什么特定应用的需要。
正如ISI引文索引的诞生极大地促进了引文分析理论和方法的发展,网络引文库中新的数据和工具也会进一步促进信息计量学理论和方法的扩展、提高和创新。
现在要研究的问题包括:
如何将基于第一被引著者的引文分析研究扩展到所有被引著者、如何使用类似于Google的PageRank的更复杂而巧妙的算法进行基于引文分析的科研评估、如何利用大规模的数字信息研究引文网和知识流的结构和特点[33]。
3.3分析工具
引文分析往往涉及大规模数据,为提高分析效率出现了许多引文分析工具,专门用于信息计量分析的工具有Bibexcel、Citespace、Histcite等,通用处理工具有SPSS、SAS、Pajek、Ucinet等。
现在引文可视化是研究重点,但不同的可视化工具、不同的方法与过程都会产生不同的结果,而且不同软件产生的可视化图谱的侧重点也不同。
不管是因为具体的软件,还是这些软件中的具体算法,或者说是因为不同形式及不同的角度,使得可视化结果不同,其效率和效果都存在问题。
表面上看来较为客观的引文计量分析,实际上是十分主观的不太可信的结果。
这些软件工具对数据往往具有特定要求,很多只适合处理WoS题录,特别是缺少中文引文分析工具。
而在引文分析工具中一般会用到数学算法。
例如,在相似性测度时,传统共引分析中,文献共引分析代表人物Small主要采用Salon余弦测度或Jaccard系数测度文献间的相似性,而作者共引分析的代表人物White主要用Pearson相关系数进行作者间的相似性计算。
目前学术界对此仍然没有达成共识。
它们的数学机理不同会给计算结果造成显著影响,例如皮尔逊相关系数自身存在的问题明显地影响到引文分析结果的真实展示[34]。
目前中文引文分析工具的缺乏,一方面与国内的引文数据库相关,很多中文引文库数据很不规范,在对其进行引文自动分析时存在困难,虽然有少数人尝试开发了软件工具,但没有像国外一样免费拿出供他人共享;另一方面,这也与国内对通用引文分析工具开发的不重视相关。
4引文分析应用的局限
引文分析主要有以下应用领域:
对科学家、出版物和科学机构进行定性和定量评估;模拟科学技术的历史发展;信息资料的查找与检索;预测学科结构与发展趋势[35]。
4.1科学评价方面
引文分析模式被认为能反映、评估论文或作者表现的影响力,但实际上存在许多问题。
早在20世纪60年代,加菲尔德就告诫人们,仅用引文分析作为评价指标必须慎之又慎,并指出引文分析在评价中可能出现的混杂与疏漏[36],“盲目地作出被引频次最多的著者就该得诺贝尔奖金的结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 引文 分析 存在 问题 及其 原因 探究
![提示](https://static.bdocx.com/images/bang_tan.gif)