聚类分析在学生成绩管理系统中的应用罗文彪吴旭冉夏强纪稳Word下载.doc
- 文档编号:13268598
- 上传时间:2022-10-09
- 格式:DOC
- 页数:18
- 大小:1.29MB
聚类分析在学生成绩管理系统中的应用罗文彪吴旭冉夏强纪稳Word下载.doc
《聚类分析在学生成绩管理系统中的应用罗文彪吴旭冉夏强纪稳Word下载.doc》由会员分享,可在线阅读,更多相关《聚类分析在学生成绩管理系统中的应用罗文彪吴旭冉夏强纪稳Word下载.doc(18页珍藏版)》请在冰豆网上搜索。
4. 参考文献 16
1.研究目标
在高校学生成绩管理中,影响学生学习成绩的因素很多,因此要进行综合分析。
传统分析无非是得到均值、方差等一些简单的分析结果,往往还是基于教学本身。
其实,还有一些教学中不易察觉的因素和教学以外的因素影响学生学习成绩,这些都需要进一步分析,从而得出结论,为教学管理人员及学生做出相应的决策。
而这些信息是无法从传统的学生成绩分析方法中获得,但可以通过从20世纪90年代中期兴起的数据挖掘技术中获得,从而找到影响学生学习成绩的真实原因,制定相应措施,提高教学效果。
目前在学校的本科教学数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯的记载了数据信息,却很难直观的从这些数据中发现其背后所隐藏的信息。
然而事实上,无论是课程与课程之间,还是每门课程中的知识点之间,以及学生的成绩与课程的设置之间都存在着千丝万缕的联系。
现阶段已有的数据并没有发挥其真正的价值,为了解决这一问题,可以利用数据挖掘中的一些相关技术对这些数据进行合理的利用和深层的分析,从而更好的指导教师在教学中的工作。
本文利用所学的数据挖掘技术,针对学生在已学的各主要学科的成绩构成(参考我校信管10级两个班级的成绩构成),同时,本文主要研究了数据挖掘当中的聚类技术在学生成绩分析中的应用,以WEKA为工具,采用K-means聚类方法对信息管理与信息系统专业学生的成绩进行分析处理,并对所得数据进行选择,预处理,数据挖掘以及对模式进行评估。
运用聚类技术分析学生对哪个课程的强弱选择,从而为具有不同成绩特征的同学在课程选择以及以后如何开展学习提供一定的参考意见,同时对我校教学及管理工作也将具有重大的指导作用和现实意义。
把这个理论研究思想推广开来,将数据挖掘技术应用在高校教学的各个方面,应该会得到大量的有现实意义的结果,从而制定相应的措施,提高教育教学质量。
2.分析方法与过程
2.1总体流程
本例主要包括以下步骤:
步骤一:
原始数据的准备,从原始数据中选择部分数据作为挖掘数据;
步骤二:
对这部分数据进行整理,和处理,并转换数据存储格式,方便进一步的数据处理;
步骤三:
运用数据挖掘工具wake,对处理好的数据进行挖掘。
2.2具体步骤
数据准备
本文在数据挖掘过程当中所使用的工具是WEKA,而WEKA所支持的数据格式有两种:
ARFF文件和CSV文件。
我们分析的原始数据是EXCEL文件,必需将此原始EXCEL数据文件转换为ARFF或CSV文件。
转换方法为:
在EXCEL中打开“学生成绩.xls”,选择菜单—>
另存为,在弹出的对话框中,文件名输入“xueshengchengji”,保存类型选择“CSV(逗号分隔)”,保存,便可得到“xueshengchengji.csv”文件。
其结果如图,所示:
打开WEKA软件的Exporler,点击Openfile按钮,打开刚得到的“xueshengchengji.csv”文件,点击“Save”按钮,在弹出的对话框中,文件名输入“xueshnegchengji”,文件类型选择“Arffdatefiles(*.arff)”,这样就得到的数据文件为“xueshengchengji.arff”。
数据预处理
(1)聚类数据的预处理
现实世界中的数据库存在大量的噪声数据、空缺数据和不一致数据。
基因表达数据也存在这种情况。
有很多数据预处理技术可以去掉数据中的噪声,纠正不一致。
为了提高涉及距离度量的聚类算法的精度和有效性,可以采用数据规范化的一些方法。
(2)数据清理
在实际数据库中往往存在着一些空缺值和噪音数据。
对于空缺值,可以采用以下方法填写空缺值。
1)人工填写空缺值。
这种方法对操作人员要求较高。
并且,该方法很费时,当数据集很大时,该方法可能行不通。
2)使用该空缺值所在属性的平均值来填充。
比如当进行样本聚类时,如果某个样本在某个指标值上的值空缺,可使用其它样本在该指标上的平均值来填充该空缺值。
对于噪声数据,我们可以采用一些数据平滑技术来平滑数据。
3)数据规范化。
如果数据库中的各属性的量纲和单位不同,在计算机对象间的距离之前,必须把不同的度量单位统一成相同的度量单位。
由于属于不同概念范畴的属性具有不同的含义,把所有的属性转化成某个特定的度量单位是不可能的。
常用的方法是把属性的值域映射为一个相同的区间(通常是[0,1]区间),这个过程成为属性的标准化或规范化。
K-means算法只能处理数值型的属性,遇到分类型的属性时要把它变为若干个取值0和1的属性。
WEKA将自动实施这个分类型到数值型的变换,而且WEKA会自动对数值型的数据作标准化。
因此,对于ARFF格式的原始数据“xueshengchengji.arff”,我们所做的预处理只是删除去属性“xuhao”。
修改过程可以在写字板中更改,由于本文分析的数据是高校学生成绩,其属性都是数值型,所以只删除“xuhao”即可,其它不需要修改。
其结果如图所示:
这样最终得到的数据文件为“xueshengchengji.arff”,含有90条实例。
算法应用
打开WEKA软件中的Exporler,点击刚才得到的“xueshengchengji.arff”,出现下面的窗口,如图所示:
17
点击右下角的“VisualizeAll”可以看到所有学生实例各科成绩的直方分布图,如下图所示:
切换到“Cluster”,点“Choose”按钮选择“SimpleKMeans”,这是WEKA中实现K均值的算法。
点击旁边的文本框,修改“numClusters”为3,说明希望把这90条实例分成三个方向,即K=3。
下面的“seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。
默认值为10。
如下图所示:
选中“ClusterMode”的“UseTrainingset”,点击“Start”按钮,观察右边“ClusterOutput”给出的聚类结果如下:
===Runinformation===
Scheme:
weka.clusterers.SimpleKMeans-N3-A"
weka.core.EuclideanDistance-Rfirst-last"
-I500-S10
Relation:
xueshnegchengji-weka.filters.unsupervised.attribute.Remove-R1
Instances:
90
Attributes:
26
shengchanyunzuo
caozuoxitong
tongjixue
yingxiao
maozedong£
¨
1£
©
2£
shujuku
shujujiegou
jingjifa
jingjixue
weiji
yunchou
yingyu
(1)
yingyu
(2)
yingyu(3)
yingyu(4£
wuli
(1)
wuli
(2)
gailv
xinxikexue
xiandai
makesi
guanli
jisuanji
gaoshu
(1)
gaoshu
(2)
Testmode:
evaluateontrainingdata
===Modelandevaluationontrainingset===
kMeans
======
Numberofiterations:
6
Withinclustersumofsquarederrors:
69.72650873573264
Missingvaluesgloballyreplacedwithmean/mode
Clustercentroids:
Cluster#
AttributeFullData012
(90)(30)(32)(28)
=============================================================
shengchanyunzuo72.911167.533371.406380.3929
caozuoxitong70.466.466771.343873.5357
tongjixue70.677865.766770.531376.1071
yingxiao76.355669.633376.937582.8929
maozedong£
76.311167.733378.2583.2857
74.244470.433374.687577.8214
shujuku71.544464.033371.12580.0714
shujujiegou71.164.733370.87578.1786
jingjifa74.388967.376.437579.6429
jingjixue77.355671.366778.343882.6429
weiji7768.333376.968886.3214
yunchou
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 学生 成绩管理系统 中的 应用 罗文彪吴旭冉夏强纪稳