学生成绩分析数学模型.docx
- 文档编号:30769699
- 上传时间:2023-08-23
- 格式:DOCX
- 页数:25
- 大小:489.89KB
学生成绩分析数学模型.docx
《学生成绩分析数学模型.docx》由会员分享,可在线阅读,更多相关《学生成绩分析数学模型.docx(25页珍藏版)》请在冰豆网上搜索。
学生成绩分析数学模型
科学全面的学生素质评价体系
摘要
随着现代科学技术的迅猛发展,社会对人才提出了越来越高的要求。
用人单位更强调人才的综合素质,而不仅以学习成绩论成败。
社会上人才观念的这一变化,凸显了提高大学生综合素质的重要性。
客观、科学地全面评价学生,是对学生个体的认可、也是对学生鼓励;激励先进,勉励后进,是营造良好学风的关键之一。
如何全面、客观、科学地评价大学生的综合素质能力,建立一套科学合理的素质评价体系则是解决这一问题的重中之重。
本文采用层次分析法,构建了一套评价普通高校大学生综合素质的指标体系,希望能够在大学的教育教学管理中提供借鉴。
本文首先通过分析附件中的612名学生四个学期综合成绩,发现成绩会根据试题的不同导致分布状态的变化,利用SK法,Q-Q图检验为负偏态分布。
所以首先利用转化函数将所给的成绩进行标准化使得标准化后的成绩能够满足统一的正态分布曲线,去除了试卷难度对于学生的影响。
然后在对学生学习的评估中,利用了VirsulFoxpro语言最基本的赋值语句对学生的综合素质结果进行复制后我们有运用了建立方差分析法、聚类分析法、对学生成绩坐了进一步的分析与判定。
在计算过程中,我们运用了SK法、Q_Q图、析法,在探讨过程中,我们发现假设在学生学习情况不变的情况下excel中的方差分析法、以及聚类分都能得到可行性的科学评估值,可以很好的反应学生的动态的进步情况,而SK法、Q_Q图只能单方面的反应,并不全面。
最后,我们对我们所建立的模型进行了客观的比较,并对其应用前景进行了展望。
关键字:
2问题的重述
正确地、科学的评价学生的学习状况对于学校的教学工作至关重要,它是学生认识自己的前提条件,是激励学生努力学习不断进步的动力,同时也是教师培养学生的参照基础。
然而,现行的评价方式单纯的根据“绝对分数”评价学生的学习状况,忽略了基础条件的差异;只对基础条件较好的学生起到促进作用,对基础条件相对薄弱的学生很难起到鼓励作用。
在本题中,附件给出了
名学生连续四个学期的综合成绩。
要求我们做到以下三点:
1.根据附件数据,对这些学生的整体情况进行分析说明;
2.根据附件数据,采用两种及以上方法,全面、客观、合理的评价这些学生的学习状况;
3.根据不同的评价方法,预测这些学生后两个学期的学习情况。
3问题的分析
1、首先我们通过原始数据可以做出其基本的统计量和直方图。
考虑到在学生成绩评价中会收到试卷难度等因素的影响。
所以必须得构造转化函数将所给的成绩进行标准化使得标准化后的成绩能够满足统一的正态分布曲线,去除了试卷难度对于学生的影响。
2、在学生整体成绩评估中,我们可以分析学生成绩平均值和稳定度的关系、分析学生成绩段人数、分析学生整体进步度、分析基础成绩对于总成绩的影响。
3、对于构造模型对学生学习状况进行合理有效的评估,我们可以利用方差分析法、聚类分析法以及层次分析法这三个模型进行评价。
4模型的假设
1、假设每个同学的学习能力基本不变
2、假设每个学生处于相同的考试环境中
3、假设附件中所给数据为学生真实考试成绩,不存在作弊问题
4、以后两个学期与前面四个学期采用同样的记分方式
5、在模糊预测模型中我们假设两个学期学生的学习状况是不变的
5符号的说明
P:
学期
M:
学生序号
D:
:
总评价的分
他主要符号将在模型建立的时候详细说明
6模型的建立
5.1数据标准化
为了避免现行评价方式中仅根据“绝对分数”评价学生学习状况,设计出一种新型的发展性目标分析法,必须考虑到基础条件的差异,学生原有的学习基础,也注意到学生学习的进步因素。
首先注意到题干中所给出的数据为学生四个学期的分数,由于在实际中,如果单单注意绝对分数的话,由于试卷的难度的不同,会导致单纯通过题干给出的数据信息进行分析肯定是不准确的。
根据教育学与统计学的理论,一次难度适中信度可靠的考试,学生的成绩应接近正态分布。
也就是说,当学生的成绩接近于正态分布时,说明此次考试基本达到了教学要求。
判断成绩是否接近正态分布最直观,最有效的方法就是将成绩分布曲线与均值和方差相同的正态分布曲线加以比较。
如果是负偏态分布,则说明试题总体难度偏高;如果是正偏态分布,则说明试题总体难度偏低;如果是陡峭型分布,则说明试卷中难度中等的度量占比重太大。
这样首先做出所给数据中四个学期成绩的方差分析和原始成绩的统计分析,其中实线表示正态分布的曲线,直观的说明所给成绩为偏正态分布。
这样我们的目标就变为构造一种变换使学生每个学期的成绩符合相同的正态分布曲线,这样也就能将试卷难度等影响消去,才能对所给的每个学期的成绩相互之间进行比较。
方差分析:
单因素方差分析
SUMMARY
组
观测数
求和
平均
方差
学期1平均成绩
612
44402.222525
72.552651185
90.251045421
学期2平均成绩
612
45516.610084
74.373545888
112.30517151
学期3平均成绩
612
44780.19827
73.170258611
81.238387361
学期4平均成绩
612
45938.579721
75.063038759
104.90480951
方差分析
差异源
SS
df
MS
F
P-value
Fcrit
组间
2372.2741196
3
790.75803988
8.137476022
2.166326607E-05
2.6085441047
组内
237495.34183
2444
97.174853449
总计
239867.61595
2447
其次对原始数据进行SK检验得:
第一学期
第二学期
第三学期
第四学期
Sk
-1.236
-1.919
-1.944
-2.928
Ku
2.5
7.043
8,142
14.479
这样通过以上的分析,我们可以发现,直方图在标准正态分布曲线的右边,且Sk<0,则都属于负偏态分布,说明试题的总体难度是偏低的。
而且根据Ku值渐渐变大可以发现试题中中等难度的题目越来越多了。
根据其平均值和方差可知:
学生在第四学期的平均成绩最高,其次是第二学期,第一学期和第三学期的平均成绩略低一些;但是从方差来看,第一、三学期低于第二、四学期,这从上图中也可以明显看出,第一、三学期学生的成绩分布要比第二四学期学生的成绩分布要集中。
那么下面我们构造一种方法使得每个学期学生转化后的成绩符合相同的正态分布曲线。
定义:
(i=1,2…n)为n个学生的某一学期的原始成绩。
,这样就可以将一个偏正态分布转变成了
满足的正态分布,由于该函数单调递减函数,原始成绩高的反而变得成绩低了,为和传统保证一致,进行以下变换
。
这样就能得到一个满足标准正态分布的数据了。
下面通过坐标的偏移拉伸使得其满足相同分布的正态分布。
的方差为:
,得到
,这样均值就偏移到了x=0处,且标准差为1。
作出
的直方图如下:
利用Q-Q图检验其正态性得:
说明其具有良好的正态性,那么数据的标准化和检验均告完成,这样就去除了试卷难度等客观因素导致成绩分布不合理产生的误差。
下面就可以根据已得到的标准化数据对于学生成绩进行评估。
以上所述为整体分析,我们又用Excel处理了原始数据——B题附件,由于数据的庞大,为了简化模型,利用系统抽样随机选取其中的十名同学进行分析。
系统抽样步骤:
1)共有612名学生,从学生编号为1的同学开始,每隔60名抽取一位同学;
3)得到结果:
选取第1、61、121、181、241、301、361、421、481、541、601位同学。
如:
表1:
学生编号
学期1平均成绩
学期2平均成绩
学期3平均成绩
学期4平均成绩
综合素质评价
1
79.0
74.8
74.3
77.0
A
61
76.0
72.1
75.2
71.0
B
121
79.3
77.8
72.9
63.5
C
181
64.9
62.7
72.8
58.0
C
241
68.3
68.8
68.1
70.5
A
301
56.5
41.9
63.1
74.4
B
361
83.0
82.8
70.8
80.4
A
421
78.6
80.9
64.8
76.3
A
481
75.0
76.5
71.3
77.0
B
541
83.3
87.0
89.8
86.1
A
601
81.5
78.3
69.0
71.7
A
注:
综合素质评价为学生参与班级公共事务、帮助同学、遵守纪律等日常表现的总体评价。
共分A,B,C,D四个等级,A级最高。
为了使结果数字化,利用VirsulFoxpro语言最基本的赋值语句结构:
变量名列表=表达式
>>clear
A=90
B=80
C=70
D=60
根据显示结果,
表2:
综合素质评价
90
80
70
70
90
80
90
90
80
90
90
为了更好的、全面的客观分析每一位同学的全方面的综合成绩,在把每位同学的综合素质评价转化为分数后,为了得到更全面的学生评价,我们用下一种方法——聚类分析法重新分析现有数据:
聚类分析又称群分析、点群分析,是定量研究分类问题的一种多元统计方法。
人类认识世界往往首先将被认识的对象进行分类,因此分类学便成为人类认识世界的基础科学。
在社会生活的众多领域中都存在着大量的分类问题。
以前人们主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。
聚类分析包括很多种方法,系统聚类法是最基本、最常用的一种,此外还有有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,不同的方法适合解决不同类型的问题,本文主要采用的是最常用的系统聚类法。
聚类分析用于系统类群相似性的研究,其实质上是寻找一种能客观反映样品或变量之间亲疏关系的统计量,然后根据这种统计量把样品或变量分成若干类。
常用的统计量有距离和相似系数。
在距离中,我们主要使用间隔尺度:
间隔尺度:
是用连续的实值变量来表示的,是由测量或计数、统计所得到的量。
如:
经济统计数字、抽样调查数据、身高、体重、年龄、速度、压力等。
不同类型的变量,其距离和相似系数的定义方法有很大差异。
用得较多的是间隔尺度,因此只采用间隔尺度的距离和相似系数的定义。
N位学生p学期形成形成的原始数据资料矩阵中,每一行表示一个学生,每一列表示一学期的成绩。
因此,两个样品的相似性可用矩阵中两行的相似程度来刻划;两个变量的相似性可用矩阵中两列的相似程度来刻划
1.距离定义:
将n个学生
看成p维空间中的n个点,两个学生间相似程度可用p维空间中两点的距离来度量。
下面用matlap编程来求解
function[sol,eval]=fitness(sol,options)
L=sol
(1)
eval=squ((x-y)﹡2)
initpop=initt=ializega(612,[02],fitness,[],initpop[1-612])maxgenterm612,normgeomselect,……
下面列举了学号在前的十位同学之间的相互距离:
2
3
4
5
6
7
8
9
10
2
0
7.62
26.99
10.25
11.31
14.62
22.80
72.24
13.65
3
0
21.23
9.06
12.09
13.12
18.37
56.34
15.77
4
0
23.34
13.54
20.12
22.87
74.55
23.93
5
0
12.06
15.01
29.05
66.24
18.39
6
0
19.34
23.39
71.06
26.17
7
0
21.82
61.29
21.32
8
0
63.23
23.45
9
0
57.71
10
0
根据以上表格可以得出各个距离段的人数分布表以及条形图
距离段
0~10
10~20
20~40
40~100
人数
2
129
441
40
通过以上分析我们了解到,距离集中在20到40之间的是比较多的,而在两端的人数明显很少,从中可以看出不及格的人数和成绩靠前的学生人数是很少的,成绩越是集中,就越能说明着说明了成绩分布比较稳定且集中在某个数附近,这正好和上文中中SK分析得到的结果一致,也就是陡峭度越来越大。
从柱状图图中还可以看出,成绩的分布渐渐朝着高分发展,这与SK分析中Sk值渐渐减小也是相一致的。
显然在这一步的分析中,造成这个结果的产生,可能因为试卷的原因,也可能是学生们通过学习进步的结果。
计算出任何两个样品之间的距离排成距离阵D,根据D可对612个学生进行分类,距离近的学生归为一类,距离远的学生归为不同的类
2.相似系数:
将n个学生看成p维空间中的n个向量。
(2) 相关系数
对整个表格用excel函数进行计算其相关系数,可得如下表格:
74.825
74.29
76.98
74.825
1
74.29
0.687677
1
76.98
0.651139
0.774516
1
以上是学生分类常用的距离和相似系数,它是在p维空间中来研究n个样品间的相似;而对变量分类是在n维空间中来研究p列变量间的相似,其相似性也用距离和相似系数来度量
在实际问题中,对样品分类常用距离,对指标分类常用相似系数;用距离时找最小的元素并类,用相似系数时找最大的元素并类
系统聚类分析也叫分层聚类分析,是目前国内外使用得最多的一种方法,有关它的研究极为丰富,聚类分析的方法也最多。
●
(1)计算n个样品两两之间的距离记为矩阵D;
●
(2) 首先构造n个类,每一类中只包含一个样品;
●(3) 合并距离最近的两类为新类;
●(4)计算新类与当前类的距离,若类的个数已经等于1,则转入5,否则回到3;
●(5) 画谱系图;
(6)决定类的个数和类。
系统聚类允许一类整个地包含在另一类内,但在这两类间不能有其他类与之重叠
样品之间可以用不同的方法定义距离,类与类之间的距离也有多种定义。
用不同的方法定义类与类之间的距离,就产生了不同的系统聚类方法
●
(1)最短距离法:
定义类与类之间距离为两类最近样品的距离,使空间浓缩,形成链状,分类效果不好;
●
(2)最长距离法:
定义类与类之间距离为两类最远样品的距离,受奇异值的影响大;
●(3)中间距离法:
介于最长与最短距离之间的一种距离,当β=-1/4时,即为三角形的中线,以它作为类与类间距离。
●(4)重心法:
以两类重心之间的距离作为两类间的距离。
重心即该类样品的均值。
每合并一次类,都要重新计算新类的重心。
不具单调性,图形逆转,限制了其应用,可能引起局部最优,但在处理异常值方面较稳健
●(5)类平均法:
以两类元素两两之间距离平方的平均作为类间距离的平方。
●(6)可变类平均法:
与5相比,考虑了两类Gp与Gq之间距离Dpq的影响。
●(7)可变法:
其中β是可变的,分类效果与β的选择关系极大,β常取负值。
(8)离差平方和法:
又称Ward法,其基本思想是认为同类样品的离差平方和应当较小,类与类的离差平方和应当较大。
首先n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有样品归为一类。
它分类效果较好,应用较广泛,对异常值较敏感
●
(1) 类与类之间距离定义不同;
●
(2)计算新类与其他类的距离所用的公式不同,因而并类距离不同;
●各种方法并类步骤完全一样。
在采用欧氏距离时,可归结为统一的递推公式,对编制微机程序提供了很大的方便
评价学生的学习状况
(1)方差分析法
根据上文中我们发现评定学生学习状况的依据有,学生的平均分,学习波动度,进步度。
下面从三个方面对学生进行综合评定。
设:
第M个同学的因素集
={平均分
,学恩习波动度(标准差)
,平均进步率
},评语集
={优
,良
,中
,差
}
对于每名学生基于其四个学期成绩及成绩变化做单因素评价:
首先我们确定优良中差的比例固定为1:
4:
4:
1,这样就能使学生评价处于平均,增强学生的学习动力。
1、对于平均分
因为不同基础的同学对某一得分同学的评价不同,所以当一名学生得60分时,得分大于80分的同学会认为其基础差。
所以对学生的分数进行优良中差的比例分类:
评者
被评者
1.12~2.50
0~1.12
-1.07~0
-3.65~-1.07
1.12~2.50
良0.1
优0.4
优0.4
优0.1
0~1.12
中0.1
良0.4
优0.4
优0.1
-1.07~0
差0.1
中0.4
良0.4
优0.1
-3.65~-1.07
差0.1
差0.4
中0.4
良0.1
得到
的单因素评价向量为:
,
分别为优良中差的权重
2、对于标准差
得:
评者
被评者
0~0.206
0.206~0.413
0.413~0.750
0.750~2.000
0~0.206
良0.1
优0.4
优0.4
优0.1
0.206~0.413
中0.1
良0.4
优0.4
优0.1
0.413~0.750
差0.1
中0.4
良0.4
优0.1
0.750~2.000
差0.1
差0.4
中0.4
良0.1
得到
的单因素评价向量为:
,
分别为优良中差的权重
3、对于平均进步率
得:
评者
被评者
0.317~0.9
0.009~0.317
-0.317~0.009
-1.14~-0.317
0.317~0.9
良0.1
优0.4
优0.4
优0.1
0.009~0.317
中0.1
良0.4
优0.4
优0.1
-0.317~0.009
差0.1
中0.4
良0.4
优0.1
-1.14~-0.317
差0.1
差0.4
中0.4
良0.1
得到
的单因素评价向量为:
,
分别为优良中差的权重
这样得到单因素评价矩阵:
考虑到对于差生的鼓励作用,我们认为平均进步率和平均成绩甚至比平均成绩更加重要,这样我们将三个因素分配权重为:
C=(0.4,0.1,0.5)
做模糊变换:
这样就能得到特定同学的评价向量了。
在对其总分进行加权分析得:
学生总评价分
由于总评价分是在区间[0,3]上的,所以可以划分为4类:
[9/4,3],[3/2,9/4],[3/4,3/2],[0,3/4]分别为优良中差。
下面计算前10名同学的评价向量和总评价分:
数据为:
可以得到第一名学生的
这样
=(0.3,0.4,0.25,0.05)
=1.95所以第一名学生的评价应该为良
利用Matlab通过以上方法对所有数据进行求解得:
(仅列出前10名同学的数据)
学号前十的学生的综合评价排名为:
我们可以发现,由于构造加权系数的时候,我们在学生的优良中差的比例设置中将良和中的比例设置的比较高,这样导致了我们得出的分类评价中良和中比例比较高。
这样也符合教师评价学生的一般规律。
(2)基于层次化分析的模糊评价的改进模型
在5.3.1中我们发现上述的模型建立会出现如下问题:
1、在5.3.1中,对于数据的结果我们发现,虽然我们求出了学生总评价分
,但是
是一个类似量子化得值,这是由于我们在模型建立的第一步就已经将各种成绩的数据进行了分类。
这样由于
的值的影响,我们会发现很多通过已给的成绩可以比较相互之间差异的同学,我们通过
的值发现两者的学习状况是一样的,这显然是有问题的。
那么我们可以很容易的想到直接利用所得到的标准化的成绩进行分析。
2、在5.3.1中我们了解到所给的权值都是我们自己预设的,这样的科学根据显然是不精确的,这样我们想到了利用层次分析法对权值进行估计。
3、在5.3.1中,我们对于每个学期成绩的影响视为完全相同的,这显然是不精确的,在实际问题中,对于当前学生学习成绩的评估,最近一次的成绩当然是更加重要的。
这样我们可以得到分析所用的层次图:
首先对数据进行处理,由于评分的原因,不论是哪一学期的成绩还是进步度,抑或标准差,他们的单位首先是要统一的,我们将每组数据都除以改组数据的最大值,这样就能将他们的数据的满分设为1,这样总体评价分的满分也设置为1了。
得到处理后的数据为:
下面根据层次分析法进行权值分析:
设第i名学生的j个学期的成绩为
,第k次成绩进步度为
,标准差为
首先是第一层:
同样是为了鼓励学生,我们设学生进步情况比学生成绩情况稍强,设为2;学生成绩情况比成绩波动性明强,设为5,学生进步情况比成绩波动性设为6;这样可得到比例矩阵为;
这样通过matlab可得最大特征根λmax=3.0291
得到第一层权值向量为W1=(0.34200.57690.0811)
通过检验得:
CR=CI/RI=0.01042<0.1检验正确可行
其次对第二层进行分析:
设每学期对于学生总体成绩评价的影响度逐步提升,得到:
同样可得:
最大特征根λmax=4.0310
得到第二层成绩权值向量为W2=(0.09540.16010.27720.4673)
检验可行性成立
同样成绩进步度对于成绩进步情况的影响逐步提升,得到:
同样可得:
最大特征根λmax=3.0092
得到第二层成绩权值向量为W3=(0.16340.29690.5396)
检验可行性成立
综上所述:
准则层
成绩
进步程度
基础
单排序
0.3420
0.5769
0.0811
子准则层
成绩1
成绩2
成绩3
成绩4
进步1
进步2
进步3
单排序
0.0954
0.1601
0.2772
0.4673
0.1634
0.2969
0.5396
设612位同学的成绩向量,进步向量,波动性向量分别为:
总成绩评价为:
得到评价如下表,通5.3.1的流量中差比例为1:
4:
4:
1进行分类得到:
学号
总体评价
分类
学号
总体评价
分类
学号
总体评价
分类
1
0.0426
良
11
-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学生 成绩 分析 数学模型