数学模型引用评价系统科技期刊论文排序.docx
- 文档编号:6816785
- 上传时间:2023-01-10
- 格式:DOCX
- 页数:18
- 大小:149.33KB
数学模型引用评价系统科技期刊论文排序.docx
《数学模型引用评价系统科技期刊论文排序.docx》由会员分享,可在线阅读,更多相关《数学模型引用评价系统科技期刊论文排序.docx(18页珍藏版)》请在冰豆网上搜索。
数学模型引用评价系统科技期刊论文排序
数学建模课程论文
题目:
引用评价系统——科技期刊论文排序
一、摘要
根据题目要求,我们尝试建立一个以论文引用情况为基础的数学模型作为评价期刊的工具。
此次建模分为三个模块:
1.建立相应的数学模型并提出求解方法,给出图中给出的15种科技期刊的排名;
2.根据引用网络(CitationNetworks)的规模和模型,将会讨论我们所建立的模型是否是适合对该学科的所有期刊进行排序;
3.为了在实际中应用此套模型,我们将在引用网络(CitationNetworks)分析建模的基础上再引入新的分析方法来完善我们的数学模型。
对于上述三个模块中的第一部分,我们首先仅仅是根据其干的引用情况来对15种期刊进行排序;我们根据期刊中论文的被引用次数,将15种期刊粗分为4组。
然后我们将定义一个常数和一个随机数,这两个数均与与期刊质量水平和影响力指数相关(根据引用的关系),最后使用层次分析法(AHP),决定不同部分所占的比重。
如果模型进一步泛化,推广到在这一领域的所有期刊,那么期刊的数量和引文网络结构将发生相应的变化。
但是,评价指标的本质没有改变,因此调整后的模型能够适用于此领域的所有期刊。
此模型仅仅考虑了期刊中论文被引用次数对期刊的水平进行建模并评价。
但是在实际的应用中,期刊的水平通常包裹许多其它方面的影响因素。
在上述第三部分中,我们将修改在涵盖了一些相关因素之后对现有的模型做出修改以使模型推导出的结果更加符合实际情况。
二、问题重述
期刊的论文被其他期刊的论文引用是期刊水平高低的重要标志,通常高水平刊物的文章会被其他刊物的文章引用。
因此,学校科技部门规定:
将某刊物论文被引用情况作为该刊物水平高低的标准。
例如,刊物A中的论文经常被刊物B中的文章引用,则记为A->B,此时,认为刊物A优于刊物B。
但在实际操作时发现,刊物中的文章有互相引用的情况,A<->B;或者多家刊物中的文章循环相引用的情况。
图1为某一学科15种期刊中文章相互引用的情况。
图1
1.建立相应的数学模型并提出求解的方法,为这15中期刊排序;
2.能否将你的方法推广到该学科的全部期刊;
3.以上是以引用作为评价标准,就某一学科,通过搜集资料,提出你认为合理的评价标准,并说明为什么?
三、模型的假设与符号说明
1)基本假设
科技期刊作为科技界发表和讨论科研成果的重要手段之一,为科技的进步做出了巨大的贡献。
网络期刊作为一种新兴的信息交互系统,在交流科学和科技信息方面扮演着越来越重要的角色,但是网络期刊良莠不齐、彼此引用复杂的情况又让人难以在众多的网络期刊中合理地做出选择并提取出有效信息。
因此,我们此次建模主要针对期刊网络对期刊的质量做出评估(其中也包含其它的分析方法),从而使每种期刊的质量和贡献都能得到一个较为客观公正、数量化的评价。
我们假设:
1.为了避免造成因为语言的使用和普及情况造成的评价模型偏差,期刊采用不同官方语言来发表论文未在我们的考虑范围之内;
2.每种刊物文章的数量和期刊每期发行的总量是相同的,这样我们就能够避免因为不同数量的文章和不同印刷数量的期刊对于建立模型的影响;
3.未考虑“自引用”和其它非常规的引用方法;
4.对于一个科学领域中,我们很难确定一门学科及其子学科之间的边界,因此我们假定在模型中出现的学科是非常不同于其它的学科,不可能在其它学科的期刊中出现此学科的论文引用,并且此学科没有可以单独划分的子学科;
5.引用关系的前提为:
我们认为a期刊在一段时间内,被b期刊引用文章数占总文章数的比超过5%时,我们认定a期刊经常被b期刊引用。
6.假设我们所得到的引用数据均是在近两年内,并且忽略其它时间因为对建模的影响。
7.允许一种期刊不必全部引用所有其它的期刊,也就是说一种期刊可以自由选择它所引其它期刊的种类和数量;
8.每个期刊都趋向于引用比自身更加高级的期刊中;
9.对于间接引用(如A->B->C),在计算过程中我们将不追溯到其“根”出处,即一种期刊的所有引用都包含在其自身的计算当中而不回溯。
2)符号和术语
符号:
:
影响指数,根据期刊中论文被引用的次数和期刊的声誉来描述期刊的影响力。
:
期刊i的初始值,由该期刊的学术质量决定;对于同一等级的期刊具有相同的X。
:
当期刊i被更高等级的期刊引用时的加分项。
:
当期刊i被更低等级的期刊引用时的加分项。
术语:
期刊1至期刊10等价于图标中的1-10。
四、问题分析
我们所得到题目中的图表缺乏很多相关的数据,此外图表的结构也是对称的。
为了解决这一情况,我们运用随机数来代替计算所需要的数据。
随机数会在一定程度上影响计算的结果,所以我们采用多次取随机数计算并群品均值得方法来减少随机数所带来的误差。
数据越多,选取的样本越大,结果就会更精确并且更能反映实际情况。
五、模型的建立与求解
1.为15种期刊排序
A.粗略分组
根据题目中的相关描述,我们认为期刊中刊物被引用的次数越多,就能初步推导出其期刊的学术水平较高。
为了将所给途中的15中期刊进行排名,我们根据被引用次数将其粗略分为4组,下图显示了详细的分组资料:
组号
引用次数
期刊编号
1
4
14
2
3
2,3,9,12
3
2
1,4,5,6,7,8,13,15
4
1
10,11
B.定义期刊的影响指数
在粗略分为4个组之后,我们将每种期刊的影响力(水平)分为三部分,这样我们就能用方程来更精确地描述每种杂志的学术水平。
W受以下因素影响:
期刊i的初始等级(组别)i,
;当期刊i被更高等级的期刊引用时的加权值
;当期刊i被更低等级的期刊引用时的加权值
;能用下列方程来表示W:
其中
表示期刊i的“基本学术水平值”,其定义规则如下:
组号
各组的基础值
1
4000
2
3000
3
2000
4
1000
的定义公式为:
在公式中:
;
表示期刊i中被期刊j所引用的论文数占期刊i总论文总数的比率。
在处理比率问题上,我们认为在两种期刊的学术等级差距最小的情况下,其比率最大,反之亦然。
因为数据上的缺乏以及所给图形的对称性(特殊),我们引入一个随机因子Rand,定义公式中的
.在此公式中,Rand是一个有Mathlab产生的0~1之间的随机数。
的定义公式为:
在此公式中:
;
表示期刊i中被期刊j所引用的论文数占期刊i总论文总数的比率。
在处理比率问题上,我们认为在两种期刊的学术等级差距最小的情况下,其比率最大,反之亦然。
因为数据上的缺乏以及所给图形的对称性(特殊),我们引入一个随机因子Rand,定义公式中的
.在此公式中,Rand是一个有Mathlab产生的0~1之间的随机数。
和
表示指数的加权值。
C.使用层次分析法(AHP)确定指数的加权值
对于排名问题,我们之前并没有对其进行定量的描述。
学术水平和引用加权是认为给定的,这就导致了影响指数难以用量化的指标来描述。
为了解决这样半定性半定量的问题,我们引入了层次分析法(AHP)来决定标准衡量X,Y,Z所占权值,用以确定
and
.
a)运用AHP成对比较矩阵的权重向量
这种模式只涉及准则层和目标层,所以我们在使用之前需要做出一些改变。
要将X,Y,Z的影响表现在W上,我们首先假设一个成对比较矩阵如下:
在这个矩阵中,
表示X和Y对于W的重要比率(?
),
表示X和Z对于W的重要比率(?
)。
我们从层次分析法(AHP)的创始人Saaty处从得到成对比较矩阵的数值。
经过改进,图重绘如下:
相对重要性的数值
含义
1
比较弱的影响
3
较强的影响
5
强的影响
7
有明显影响
9
非常明显的影响
2、4、6、8
介于各值之间
在这个模型中,我们认为,X和Y对W的的影响其重要性比例是5,Y和Z对W的比例为4。
这里有一个向量
,and
,这个向量
被定义为一个权重向量。
实际上,
是归一化特征向量对应的矩阵A的最大特征值。
b)一致性检查
设置一个矩阵
,如果元素
与
一致,则A是一致的矩阵。
通常情况下,成对比较矩阵不是一致矩阵,但它应该被用来计算比较因素的权重向量。
因此,其不一致的,应按规定允许的范围内。
矩阵A的一致指数为:
是矩阵A的最大特征值,当CI=0,矩阵A是一致矩阵。
较小的CI是,将一致矩阵的A。
为了保证矩阵A的不一致的允许范围,CI的标准是必需的。
因此,引入随机的一致指数RI的概念,它是:
当
定义是:
随机构造一个正互反矩阵,
是1,2,3,...,9和1,1/2,1/3,...,1/9之中的),以足够大的样本,以获得最大的特征值,
.的平均^*.根据Saaty的实验中,随机一致指数的一种形式,是获得如下:
n
2
3
4
5
6
7
8
9
10
RI
0
0.58
0.90
1.12
1.24
1.32
1.41
1.45
1.49
在这个模型中,n=3。
定义CR如下:
CR是一致随机矩阵的比例,A当CR<0.1时,成对比较矩阵A的一致性。
在这一点上,我们可以使用矩阵的A相应的最大特征值
作为权重向量作一个比较。
当CR≥0.1,成对比较矩阵需要调整,直到达到一致性。
基于以上的证明,我们CR=4.7
<0.1,它达到一致性。
那么我们有:
这十五种期刊的影响指数的表格如下(具体数据见附录):
期刊号
影响力指数
1
1260.291
2
2088.023
3
2289.278
4
1275.519
5
1422.624
6
1100.654
7
1358.92
8
1397.904
9
1640.42
10
511.3575
11
742.3273
12
2138.497
13
1163.819
14
2311.926
15
1086.409
重十次复此过程,获得十组数据。
我们十套数据求平局值。
15期刊影响力指数排名结果显示在下面的表格(具体数据建附录):
期刊号
平均影响力指数
1
1298.719
2
2103.681
3
2265.783
4
1390.965
5
1446.194
6
1129.855
7
1343.637
8
1441.277
9
1690.087
10
585.5807
11
745.137
12
2250.795
13
1192.499
14
2303.605
15
1140.12
因此,我们对15个期刊排名结果如下:
14,12,3,2,9,5,4,7,8,1,13,6,15,11,10(期刊号)。
2.推广模型
建立上述模型是基于之间刊物频繁引用关系,这意味着,该模型建立在引用网络期刊的结构之上。
如果模型推广到这一领域的所有期刊,期刊的数量和引文网络结构将发生变化。
然而,评价指标的本质没有改变,因此该模型可以在调整后得到推广。
首先,以减少不同的循环所带来的负面影响,P是修改为:
同时,期刊的数量在增加;两篇论文是否有引用的关系的条件应修改为:
当P>0.01,两本期刊经常被互相引用,当P<0.01,两本期刊互相引用很少。
其次,注意到引文的时间和频率将被期刊的数量增加影响,初始分组的标准是以被引用10次为一档次。
例如,每次被引10次,该刊将达到较高的水平。
该模型修改为:
3.新的评价体系
以上只构建模型只考虑了引用方面。
由于事实上,期刊的水平的评价标准通常包括:
(1)它是否出版:
全国统一的版本编号(CN)和在国际标准连续出版物编号(ISSNInternationalStandardSerialcode),在这些地方发表过是合适进入评价范围的;
(2)期刊主办单位;
(3)专家的审查:
杂志是由专家评估对期刊质量的影响更大;(4)编委会成员,并在杂志上发表他们的文件;
(5)发表次数;
(6)有拨款的论文:
有拨款的论文一般是指由国家和省,市和国家重大工程项目支持的研究论文;
(7)引用杂志的循环利用;
(8)引用是一个更客观的评价学术期刊的方式;
(9)杂志是否正在由世界权威的检索工具的呈现。
杂志的定量评价,这是不仅仅限于一个单一的评价指标,如传统的评价指标,引用半衰期,即时指数等,后来发展成一个综合指标,包含大量的信息,通常,他们是RCR[1],RI,RW,PI,PW[2],NMCR,FCSm,Hindex,ACIF等。
(“学术期刊的评估和评价研究之间的关系”)由于单一指标的限制,多属性评价是广泛应用于学术期刊的评价方式。
多属性评价在一定技术的基础上,将综合反映学术期刊的各方面指标。
因此,唯一的结果包含的信息量更大。
在这一领域的研究方法主要是结构方程建模,数据包络分析,加权综合指数系统,灰色评价,排名和具体的评价,判别分析,层次分析,主成分分析和综合评价方法。
范围的课题研究活动起到一定的效果的行为。
学术影响力影响学术质量和论文质量,这是在科学活动中的作用和价值,以及在社会效益和经济效益的综合反映。
因此,要选择在期刊评价指标,我们要坚持这个标准。
学术影响力的组成部分,主要包括学术含量指标,作者指标和引文索引。
在评价方法,应选择多个方面。
杂志更全面的评估,在我们所说的影响因素使用数量指标的基础上,考虑资金支持论文的百分比(J),的平均引用次数(V),平均作者数(N),引用半衰期(β)。
基于这些因素的影响期刊的水平,然后我们提供的最终评价。
根据《sourcesofindicatorsofacademicjournalsandinfluenceEmpiricalStudy》的研究(在我们的引用内容里),我们调整的影响指数W到:
并且:
有了这个模型,我们把各方面的因素一起,并给予一个更全面的评估,该杂志的学术水平。
六、模型分析与结论
这个模型,我们把各方面的因素一起,并给予一个更全面的评估,该杂志的学术水平。
我们构建了一个模型来处理的第一个问题,为避免题目中期刊网络图的对称性,我们使用MATLAB产生基本的各期刊影响力初值(随机数)。
实际上生活中,人们对各期刊的学术质量有一个大致的评价,我们通过数学的手段,以随机数的形式给各期刊赋予学术价值是合理的。
在第一个问题,除了在十五个期刊引文网络的关系,我们有没有其他的定量数据,如总引用次数。
随机数和Xi,两个经常被引期刊第十一也用在其他两个因素,Yi,Zi,影响力指数,被引期刊的引用期刊的贡献可以使用Yi和Zi。
因为随机Xi和Zi的初始数据的组成部分,对同样的问题反复使用该模型将略微改变。
一个完美的模型可以接受的重复性。
同时,Yi依赖基本的学术数值,Xi和随机数,Xi是期刊的唯一影响因素,很小,所以缺乏完整性。
此外,15个期刊分为四个水平,使用的唯一标准:
被引用次数。
当然,在很大程度上期刊被引用的频率反映了该杂志的水平,但如果我们忽视影响因子(IF),H-Index,非自引率,总引用次数,被引用次数,平均作者数,扩展因素和引用半衰期等。
结论是:
划分等级的标准,应该更有说服力。
附录1:
参考文献
[1]L.EggheandR.Rousseau,IntroductiontoInformetrics:
QuantitativeMethodsinLibrary,DocumentationandInformationScienceElsevier,Amsterdam,1990.
[2]FilippoRadicchi,SantoFortunato,BenjaminMarkines,andAlessandroVespignani,“Diffusionofscientificcreditsandtherankingofscientists”:
PHYSICALREVIEWE80,056103,2009
[3]ChenYanli,“JournalRankingSchemesandItsRelationshipwithOtherIndexesofBibliometrics”:
JournalofHenanUniversity(NaturalScience)Vol.40No.4Jul.2010
[4]YuLiping,PanYuntao,WuYishan,“AnalysisaboutIndicatorsSelectioninScienceandTechnologyEvaluation”:
JOURNALOFINTELLIGENCEVol.28No.3Mar.2009
[5]LiangYan,Coreelementsofclassificationofacademicjournals:
JOURNALOFCHANGZHOUUNIVERSITY(SOCIALSCIENCEEDITION)Vol.12No.3Jul.2011
[6]YuLiping,PanYuntao,WuYishan,Comparabilityofmulti-attributeevaluationmethodsforacademicjournals:
ACTAEDITOLOGICA2010-1022(5)
[7]“CitationAnalysisasaToolinJournalEvaluation”EssaysofanInformationScientist,Vol1,p.527-544,1962-73Reprintedfrom:
Science,(178):
471-479,1972
附录2:
部分程序代码
1.Codesegment[1]产生15个随机数,用来产生15期刊的初始值
function[rand_15]=rand_rand_15()
%RAND_RAND_15Summaryofthisfunctiongoeshere
%Detailedexplanationgoeshere
rand_15=rand(1,15);
end
2.Codesegment[2]产生15个初始值
function[x_15,level]=init(all_info,rand_15)
%UNTITLED3Summaryofthisfunctiongoeshere
%Detailedexplanationgoeshere
%·´»ØÒ»¸ö15´óСµÄÊý×飬ÄÚÈÝÊÇÿ¸öµêÉä³öµÄÊý
x_15=zeros(1,15);
level=zeros(1,15);
count=0;
fori=1:
15
count=0;
forj=1:
15
if(all_info(i,j))
count=count+1;
end
end
level(i)=count;
end
%output(1:
n)=1000*level(1:
n)+ran(1:
n)*500-250;
fork=1:
15
x_15(k)=1000*level(k)+rand_15(k)*1000-500;
end
end
3.Codesegment[3]产生0-1之间的15*15个随机数,用以产生各期刊之间的引用比
function[rand_all]=rand_rand_all()
%UNTITLED2Summaryofthisfunctiongoeshere
%Detailedexplanationgoeshere
rand_all=rand(15,15);
end
4.Codesegment[4]同过已经产生的随机数最终确定各个期刊之间的引用比
function[weight]=getweight(all_info,rand_all,x_15)
%如果有n个开n次方(1/n);
%UNTITLEDSummaryofthisfunctiongoeshere
%Detailedexplanationgoeshere
weight=zeros(15,15);
fori=1:
15
forj=1:
15
if(all_info(i,j))
%weight(i,j)=rand_all(i,j)/to(j);%
%t=(x_15(i)/1000-x_15(j)/1000)^2;
%temp1=exp(-t/(2*2.718));
%tt=abs(x_15(i)/1000-x_15(j)/1000);
%temp2=1/(exp(-tt^0.5)+1);
%weight(i,j)=rand_all(i,j)*temp1*temp2;
%tt=abs(x_15(i)-x_15(j))/1000
%temp2=log(5-tt)+1;
%weight(i,j)=1.5*rand_all(i,j)*temp1/temp2;
temp=exp(abs(x_15(i)-x_15(j)-1000)/2000);
weight(i,j)=0.5*rand_all(i,j)/temp;
if(weight(i,j)<0.05)
weight(i,j)=0.05;
end
end
end
end
end
5.Codesegment[4]计算出结果
function[result_15,y,z]=yyl(x_15,weight,factor)
%YYLSummaryofthisfunctiongoeshere
%Detailedexplanationgoeshere
y=zeros(1,15);
z=zeros(1,15);
add_greater=zeros(1,15);
add_less=zeros(1,15);
result_15=zeros(1,15);
fori=1:
15
forj=1:
15
if(weight(i,j)>0)
add1=weight(i,j)*x_15(j);
add2=weight(i,j)*x_15(i);
add_greater(i)=add_greater(i)+add1;
add_less(j)=add_less(j)+add2;
end
end
end
fork=1:
15
y(k)=add_greater(k);
z(k)=add_less(k);
result_15(k)=factor
(1)*x_15(k)+factor
(2)*add_greater(k)+factor(3)*add_less(k);
end
end
附录2:
涉及图表
初始值设定:
编号
初始值设定
排次结果
1
1989
10
2
2945
4
3
314
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学模型 引用 评价 系统 科技期刊 论文 排序