引文文本分类与实现方法研究综述.docx
- 文档编号:2343683
- 上传时间:2022-10-28
- 格式:DOCX
- 页数:9
- 大小:27.13KB
引文文本分类与实现方法研究综述.docx
《引文文本分类与实现方法研究综述.docx》由会员分享,可在线阅读,更多相关《引文文本分类与实现方法研究综述.docx(9页珍藏版)》请在冰豆网上搜索。
引文文本分类与实现方法研究综述
引文文本分类与实现方法研究综述
引文文本一般是指引文脚注所在的句子或与上下文句子的集合[1],能提供施引文献与被引文献之间关系的重要信息,具有重要的研究价值和意义。
目前围绕引文文本的研究主要有引文文本分类、引用动机调查、引文主题抽取3个方向[2-5]。
相对而言,引文动机调查和主题抽取的理论和方法比较成熟,而关于引文文本分类的研究文献数量众多,分类标准和实现方法各有不同,没有统一的模式[6]。
近几年来,国内关于引文文本的研究文献逐渐增多,如文献[6]对引文文本分析方法的主要步骤和相关研究进展进行了综述;文献[7]概述了引文文本类型识别的步骤和实践进展;文献[8]尝试从概念、研究范畴、步骤和功能系统地构建引用内容(文本)分析的理论。
然而这些文献中较少对不同的引文文本分类标准的特点进行归纳,对不同的分类方法的优缺点也没有系统梳理和对比。
因此,本文拟在前人研究的基础上对中英文相关文献进行研读、梳理,系统总结归纳现有引文文本的各种分类标准及特点,对比分析引文文本分类实现方法的优缺点,理清引文文本分类的主要应用领域,剖析当前存在的问题,并对未来的研究重点进行展望。
1引文文本的分类标准
引文文本的分类标准,主要是指科学家对引文文本进行内容分类分析时采取的角度或维度。
在对引文文本分类的相关研究中,1993年,M.X.Liu[2]将相关研究的分析目的归纳为3个方面:
提高检索效率,研究引用功能,研究引用质量。
2004年,H.D.White[9]从情报学和语言学的不同学科角度,探讨了不同学科对引文文本分类方法的不同研究角度。
2013年,祝清松等[7]在对引文类型标注方法进行综述的基础上将分类标注定为引用功能和观点倾向两类。
笔者通过对主要综述性文献的比较和其他相关文献的广泛研读,认为引文文本的分类方式主要可分为以下5种类型。
1.1基于引用功能的分类
引用功能是指被引文献在施引文献中起到的作用和产生的意义,早期对引用功能的研究以描述性讨论为主,功能定义比较单一,主要观点认为引文是对前人研究工作价值的肯定,是对知识产权的维护[10-14]。
其中,具有代表性的是M.J.Moravicsik与P.Murugesan[15]从4个不同维度对引文文本进行分类,特别是第一个维度——将引文文本分为概念性引用、操作性引用和其他功能的引用,超过一半的引用(53%)为概念的引用,仅有7%的引用属于其他功能的引用。
其对引用功能的划分比较粗略,没有考虑到更为复杂的情况,其后有很多学者对其加以应用和改进。
C.Oppenheim和S.P.Renn[16]将引文句的功能划分为7个大类,以1930年以前出版的28篇论文的施引文献为例,发现出版很久的论文仍被高频引用主要是因为该文献提供了研究的历史背景,而不是具体内容被借鉴。
S.Cole[17]为研究社会科学家R.Merton提出的“社会结构与失范”理论思想的价值,将R.Merton相关论文被引文献中的引文文本分为10类,认为其他作者引用R.Merton的论文可能是为施引文献提供论据。
Y.W.Chang[18]研究LittleScience,BigScience杂志对自然科学和社会科学的作用与影响,抽取该杂志的引文文本进行人工判断和统计分析,发现虽然在自然科学和社会科学所有文献中引用该杂志比例最高的两个功能都是提供证据、展示相关研究,但是功能所占比例及比例排序都有不同。
以上不同学者提出的分类研究系统有明显差异,但也存在一定的相似性,因此M.Camacho-Minano[19]使用文献计量和内容分析方法,对127篇研究引用功能分类的文献进行聚类,最后将引用功能总结为九大类。
M.Camacho的结果与M.J.Moravcsik[15]、D.E.Chubin等[20]的分类类似,但是没有指出与其他分类之间的对应关系。
国内学者陈晓丽[21]选取我国社会科学一级学科具有代表性的期刊,通过分析期刊中文献引文文本和注释,将引用功能分为6个大类、19个小类,并认为该分类更符合中文期刊中引用功能的情况。
上述各学者的观点总结见表1。
从引文文本功能分析角度进行研究,发现文献、期刊、学科层面更深层次的引用规律,虽然基于引文功能的划分标准目前尚不统一,但这些信息是基于被引频次的引文分析方法无法识别的,不同研究的实验结果也都充分说明引文文本分析能够作为学术评价、提高检索准确性的重要参考。
1.2基于引用动机的分类
引用动机是指施引作者引用对应文献的心理内在和外在动因,即基于什么目的引用。
引文功能从引用的结果对引文的作用、意义进行研究分析,而基于动机分类的引文文本分析,是从引用原因探究引文的作用和价值,两者分类的角度有所不同,但研究目的是一致的,甚至在很多文献中,将引文动机与引文功能的分类方法不加以区分[13,22-23]。
早期的研究中,学者主要认为引用动机出于“说服”目的,施引为了提高文献的权威性[24-26],增强对读者的说服性。
1965年,E.Garfield[27]为了探究作者施引的原因,结合高能物理学的期刊文献中的具体引文文本案例,将引用动机归纳为15大类。
其对引用动机的划分被M.Weinstock[28]继承,并利用科学引文文本的实例进一步说明每一类别的具体意义,E.Garfield的划分标准奠定了关于引用动机的研究基础。
不同于E.Garfield和M.Weinstock,F.C.Thorne[29]认为施引作者的引用动机里会有一些“不公正”的因素,并随机选取了物理学主要期刊文献1945~1975年的引文文本案例,将引用动机划分为19个大类,考虑到作者作为社会人的属性,除了“公正”的动机外,还有自利、政治因素、内部争斗等“不公正”的动机。
S.K.Sen[30]选用情报学的期刊文献对不同动机进行描述,认为自引、对重要同行的引用等行为是出于增加重要性的动机,对于这种动机是否“公正”并没有做说明,态度倾向中立。
将以上作者的动机分类进行梳理,见表2。
使用引文文本对引用动机进行分类研究的文献并不多见,原因是很多学者研究发现使用问卷调查或访谈的方式更能准确了解施引作者的引用动机[31-33]。
如1985年T.A.Brooks[32]访谈某大学的26位科研工作者,最终形成七大类动机描述,对比之下认为从引文文本获得的引用动机数据并不可靠,此后关于引用动机的研究文献(包括国内的研究文献),多摒弃引文文本分析方法而普遍采用问卷调查或访谈法[34-35]。
1.3基于情感倾向的分类
引文内容的情感倾向是指施引作者对于引文文献的态度——是支持,还是反对,或是保持中立。
M.J.Moravcsik和P.Murugesan[15]较早对引文情感的不同进行研究,在分类系统中使用了正向与负向对引文进行分类,发现在高能物理学中约有1/7的文献是属于负向引用。
他们还在后续研究中,使用了同样的分类系统分析物理学4本期刊之间的引用情感倾向,发现从总体上看每本期刊获得的负向引用比例并没有什么差别,但是PhysicsReview对HighEnergyPhysics持有的反对意见是所有杂志中最多的,达到14%,相比之下NuclearPhysics杂志对HighEnergyPhysics杂志的反对意见仅有2%[36]。
D.E.Chubin[20]改进了M.J.Moravcsik[15]的分类系统,以分类树的形式对引文文本进行分类,分类树的第一层分为正向和负向两个子树,发现在高能物理学杂志中读者评论文章中的负向引用比期刊论文中的负向引用高很多。
D.E.Chubin[20]还发现被负向引用的论文在被证伪之后还会在一定的时间范围内继续被引用,但作者认为被负向引用的论文并不代表没有价值。
B.V.D.Martens等[37]则将引用内容的情感分析应用于交叉学科,发现绝大部分文献中的引文文本是正向的,中性文本的比例为39%,负向文本所占比例仅有4%。
B.V.D.Martens列举了有代表性的实例来说明不同情感倾向的表达方式,但是对处理方式的细节没有做过多的说明。
2014年,C.A.Sula[38]通过对情感倾向的表述规律进行分析,认为引文功能的分类表述可以与情感倾向对应。
刘盛博等[39]也采用类似的方式将引用功能与情感倾向进行对应,如认为对引文中方法、技术、数据等的引用以及对方法、结果的比较属于正向引用,对引文中观点的批评则属于负向引用。
通过对引文内容情感倾向的研究可以发现引文继承关系中的态度,进而可以分析学术期刊之间的亲近关系,还可以结合引文的其他属性,如位置信息,发现学术引用中更为潜在的引用规律。
1.4基于影响力的分类
影响力是引文关系中最为直接的概念,考察引文文献对施引文献贡献的大小。
同一篇引文对不同施引作者的影响力是不一样的,同一篇文献中不同引文的影响力也是不同的。
M.H.Macroberts和B.R.Macroberts[40]在基因学领域选取若干篇文献的被引文献,比较引文文本与施引文献和被引文献内容的相关性并将其分为“有影响力的”和“无影响力的”两类。
发现施引作者会存在一定的隐瞒行为,比如,施引作者会以平淡的语言描述对文献写作具有重要作用的文章,以掩盖被引文献的真正影响力。
S.Bonzi[41]根据引文文本的表述方式和引文在施引文献中出现的次数,将被引文献的影响力程度按等级划分,发现大部分被引文献只是被作者在文中简单提及,而这些文献对确定施引文献的主题并没有帮助。
X.J.Wan[42]将实验数据的引文文本按影响力程度先分为5个等级,分值为1~5,并将其设为因变量,以引文出现的次数、出现的位置、引文发表时间、引文句子的平均长度、引文发生的平均密度、是否自引作为自变量进行回归分析。
方程通过检验后,根据获得的方程系数计算其他文献、作者的影响力程度,结果显示84%的文献影响力值在2~3之间,即绝大部分引文是不重要的或重要性一般的,这与M.H.Macroberts等[43]、S.S.Teufel等[44]研究发现绝大多数的引用是冗余的结果具有一致性。
陈晓丽[45]从引用的力度和深度探讨引文对施引文献的影响力,引用的力度主要根据引文文本来进行判断,分为有力引用、适度引用、表面引用和无关引用。
其中,有力引用是指“引文对文章立论、提供论据、继承发展学术成果起到较大的支持作用,文献对引文的依赖也较大”,与引文的功能具有一定的关联性。
不同作者基于引文影响力的分类观点总结见表3。
引文的影响力既可以从引文文本的定性角度去分析,也可以通过一定的处理方法设置定量计算的指标,分析的角度较为多元化。
而直接获取影响力分组的研究相对较少,更多的研究是将引文文本作为计算影响力分类方式的一个辅助。
1.5基于引用位置的分类
一般而言,科学文献的编纂有一定的组织结构和格式,如分为背景、方法、结果、讨论4个部分[46]。
引文文本的位置即为所在的结构组织,而引文文本的位置蕴藏着丰富的信息,既能结合引文文本的其他属性研究引文的特性,也可以通过章节提高检索效率,另外,还能够通过引文文本的位置,发现学科之间的引用规律。
B.C.Peritz[22]研究引文文本所在的位置与引文功能之间是否具有一致性,将引文位置分为介绍、方法、结果、讨论和总结、附件5个部分,发现在不同的杂志中引文文本位置并不能代表引文功能,作者指出将功能与位置进行统一对应有时候会失灵。
G.Herlach[47]通过药学期刊的少量的样本研究参考文献在文献结构中被多次提及的情况,主要分为4个部分:
介绍、方法、结果、讨论,发现大约1/3的引文在全文中会被多次提及,被多次提及的引文出现在讨论章节中的次数明显比其他章节要高,总体来说,在介绍部分出现的引文数量最多。
G.Halevi等[48]则通过引文内容的位置
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 引文 文本 分类 实现 方法 研究 综述