学校的学生成绩进行聚类分析Word格式.docx
- 文档编号:19629569
- 上传时间:2023-01-08
- 格式:DOCX
- 页数:8
- 大小:47.97KB
学校的学生成绩进行聚类分析Word格式.docx
《学校的学生成绩进行聚类分析Word格式.docx》由会员分享,可在线阅读,更多相关《学校的学生成绩进行聚类分析Word格式.docx(8页珍藏版)》请在冰豆网上搜索。
算法首先随机地选择K个对象,每个对象初始地代表了一个簇的平均值或中心。
对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。
然后重新计算每个簇的平均值。
这个过程不断重复,直到准则函数收敛。
K-Means算法的准则函数定义为:
即E是数据库所有对彖的平方误差的总和。
其中x是空间中的点,表示给定的数据对象,是簇的平均值。
K-means算法描述为:
输入:
簇的数目k和包含n个对彖的数据库
输出:
k个簇,使平方误差准则最小
(1)assigninitialvalueformeans;
//任意选择k个对彖作为初始的簇中心
(2)REPEAT
(3)FORj二itonDOassigneachxjtotheclusterwhichhastheclosest
mean;
//根据簇中对彖的平均值,将每个对象赋给最类似的簇
(4)F0Ri=ltokDO
//更新簇的平均值,即计算每个对彖簇中对彖的平均值
(5)ComputeE;
//计算准则函数E
6)UNTILE不再明显地发生变化;
从上面的算法思想和算法框架,我们不难看出,K个初始聚类中心点的选取对聚类结果具有较大的影响,因为在该算法中是随机地选取任意K个点作为初始聚类中心。
如果有先验知识,
可以选取具有代表性的点作为初始中心点。
在上面这个算法中,一次迭代中把每一个数据对象分到离它最近的聚类中心所在的类中,这个过程的时间复杂度为0(nkd),这里n指的是总的数据对象的个数,k是指定的聚类数也叫簇数,d是数据对象的维数;
新的分类产生以后需要计算新的聚类中心,这个过程的时间复杂度为0(nd)o所以这个算法一次迭代需要的总的时间复杂度为0(nkd)o
4、数据准备与数据预处理
(1)聚类数据的预处理
现实世界中的数据库存在大量的噪声数据、空缺数据和不一致数据。
基因表达数据也存在这种情况。
有很多数据预处理技术可以去掉数据中的噪声,纠正不一致。
为了提高涉及距离度量的聚类算法的精度和有效性,可以采用数据规范化的一些方法。
(2)数据清理
在实际数据库中往往存在着一些空缺值和噪音数据。
对于空缺值,可以采用以下方法填写空缺值。
1)人工填写空缺值。
这种方法对操作人员要求较高。
并且,该方法很费时,当数据集很大时,该方法可能行不通。
2)使用该空缺值所在属性的平均值来填充。
比如当进行样本聚类时,如果某个样本在某个指标值上的值空缺,可使用其它样本在该指标上的平均值来填充该空缺值。
对于噪声数据,我们可以采用一些数据平滑技术来平滑数据。
3)数据规范化。
如果数据库中的各属性的量纲和单位不同,在计算机对彖间的距离之前,必须把不同的度量单位统一成相同的度量单位。
由于属于不同概念范畴的属性具有不同的含义,把所有的属性转化成某个特定的度量单位是不可能的。
常用的方法是把属性的值域映射为一个相同的区间(通常是[0,1]区间),这个过程成为属性的标准化或规范化。
准备500学生的成绩包含:
数学、英语、语文、物理、化学、历史、地理等
5、RapidMiner聚类分析
分析流程:
读取数据库>聚类分析>存储csv文件>结束
1、打开RapidMiner工具,进入白板界面
•r
■
W8T&
t
2、读取数据库:
拖曳左侧中的Database>ReadDatabase标签,读取数据库,然后设置数据库的基本条件,点击白板中的ReadDatabase,查看右侧信息1)数据库连接条件:
点击Connection右边的数据库连接配置按钮,输入相关信息如:
数据库名称、用户名、密码、Host等,然后点击下方的测试一下连接是否成功。
v^oc
Datuoasesellerne
nt
User
(O(X
Pa&
swctd
URL
||dbcumr5qL/1fil2.1Bd-2.?
3:
l3M/sludert
❼Ccnrwdisn«
ULi»
un^noAn
2)读取数据库中表以及相关属性数据配置:
点query右侧的图标,选择数据库下的表击
3、聚类算法:
拖曳左侧中的Modeling>
segmentation>
K~Means标签到白
板中,聚类算法插件,用于数据的聚类分析
OAdsData=▼
►°
Sam昨zs
■■nay
严X
■MOdfti0014)
■二9・gnwnUlion(Q
话k-M^ans
■(Ktm»
l)
■■U^a;
亠(f"
l,
■ds
Pe4dfkrt4ibMbe
OiMerwto
1)配置聚类算法的参数:
簇数、迭代次数
4、存储文件:
拖曳左侧中的DataAccess>
Files>
Write标签到白板中,存
储文件插件,
用于分析结果的存储然后在右侧csvf订e配置存储路径
5、分析流程图---规划,通过连接线连接整个的执行流程,并点击执行按钮
如图所示
PrOCMB
Process»
6、执行结果
1)、分析具体结果数据2)、统计数据:
最大、最小、平均值、聚类3)、聚类分析图
CClHi■農■(XCCMM^w
WQtiamoM
*xdot
V9I0U9
“W-r・
•|C3<
81
21"
001
Z38
9S
*
a
9nidejfro»
e,
••••-
•MM
八
-j
•W
e
im
0声啲
ggS4
2C9H
Hww
9fl
F
99
MM
C叫
AdtJ^ulOctAud4
290U
■•■■■■
96
-•H
InnuMMd4
68
<
*w
・r>
u
••Z*4
008
•ftMAl
rt
••H
8Z
-
o
966^9
66
*<
n
€Svw
Q”H
MW»
6沧
M0
n'
jdisnj
(S
leiMUG*.
SotSI&
S
«
is*xnwAt-•cf6JjMQ
2tN
Data
JAH
7、结果分析:
第一个图可以看出:
1)每科目的最低分、最高分、平均分等信息
2)聚类:
三簇数据,每簇数据的学生个数第二个图可以看出:
1)每科分值的分布情况,看出大部分学生的成绩分布在【70-80]之间,90分以上的偏少第三个图可以看出:
1)聚类按三簇进行聚类,也就是说分为了三类学生
2)cluster_0结合第一个图有378个学生实例,从成绩上分析学习情况:
地理成绩不及格;
语文、化学成绩偏差;
物理、英语较好;
数学最好
cluster_l结合第一个图有136个学生实例,从成绩上分析学习情况:
地理成绩不及格;
历史、化学成绩偏差;
语文较好;
物理、英语、数学最好
cluster_2结合第一个图有26个学生实例,从成绩上分析学习情况:
历史、花学成绩偏差;
语文、数学、物理较好;
英语最好
因此,根据分析的数据来看,这三类的学生,老师可以根据不同的情进行分类着重辅导。
况,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学校 学生 成绩 进行 聚类分析
![提示](https://static.bdocx.com/images/bang_tan.gif)