书签分享收藏举报版权申诉 / 8

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 学校的学生成绩进行聚类分析Word格式.docx

学校的学生成绩进行聚类分析Word格式.docx

文档编号：19629569
上传时间：2023-01-08
格式：DOCX
页数：8
大小：47.97KB

《学校的学生成绩进行聚类分析Word格式.docx》由会员分享，可在线阅读，更多相关《学校的学生成绩进行聚类分析Word格式.docx（8页珍藏版）》请在冰豆网上搜索。

学校的学生成绩进行聚类分析Word格式.docx

算法首先随机地选择K个对象，每个对象初始地代表了一个簇的平均值或中心。

对剩余的每个对象根据其与各个簇中心的距离，将它赋给最近的簇。

然后重新计算每个簇的平均值。

这个过程不断重复，直到准则函数收敛。

K-Means算法的准则函数定义为：

即E是数据库所有对彖的平方误差的总和。

其中x是空间中的点，表示给定的数据对象，是簇的平均值。

K-means算法描述为：

输入：

簇的数目k和包含n个对彖的数据库

输出：

k个簇，使平方误差准则最小

（1）assigninitialvalueformeans；

//任意选择k个对彖作为初始的簇中心

（2）REPEAT

（3）FORj二itonDOassigneachxjtotheclusterwhichhastheclosest

mean；

//根据簇中对彖的平均值，将每个对象赋给最类似的簇

（4）F0Ri=ltokDO

//更新簇的平均值，即计算每个对彖簇中对彖的平均值

（5）ComputeE；

//计算准则函数E

6）UNTILE不再明显地发生变化；

从上面的算法思想和算法框架，我们不难看出，K个初始聚类中心点的选取对聚类结果具有较大的影响，因为在该算法中是随机地选取任意K个点作为初始聚类中心。

如果有先验知识，

可以选取具有代表性的点作为初始中心点。

在上面这个算法中，一次迭代中把每一个数据对象分到离它最近的聚类中心所在的类中，这个过程的时间复杂度为0（nkd）,这里n指的是总的数据对象的个数，k是指定的聚类数也叫簇数，d是数据对象的维数；

新的分类产生以后需要计算新的聚类中心，这个过程的时间复杂度为0（nd）o所以这个算法一次迭代需要的总的时间复杂度为0（nkd）o

4、数据准备与数据预处理

（1）聚类数据的预处理

现实世界中的数据库存在大量的噪声数据、空缺数据和不一致数据。

基因表达数据也存在这种情况。

有很多数据预处理技术可以去掉数据中的噪声，纠正不一致。

为了提高涉及距离度量的聚类算法的精度和有效性，可以采用数据规范化的一些方法。

（2）数据清理

在实际数据库中往往存在着一些空缺值和噪音数据。

对于空缺值，可以采用以下方法填写空缺值。

1）人工填写空缺值。

这种方法对操作人员要求较高。

并且，该方法很费时，当数据集很大时，该方法可能行不通。

2）使用该空缺值所在属性的平均值来填充。

比如当进行样本聚类时，如果某个样本在某个指标值上的值空缺，可使用其它样本在该指标上的平均值来填充该空缺值。

对于噪声数据，我们可以采用一些数据平滑技术来平滑数据。

3）数据规范化。

如果数据库中的各属性的量纲和单位不同，在计算机对彖间的距离之前，必须把不同的度量单位统一成相同的度量单位。

由于属于不同概念范畴的属性具有不同的含义，把所有的属性转化成某个特定的度量单位是不可能的。

常用的方法是把属性的值域映射为一个相同的区间（通常是［0,1］区间），这个过程成为属性的标准化或规范化。

准备500学生的成绩包含：

数学、英语、语文、物理、化学、历史、地理等

5、RapidMiner聚类分析

分析流程：

读取数据库＞聚类分析＞存储csv文件＞结束

1、打开RapidMiner工具，进入白板界面

•r

■

W8T&

t

2、读取数据库：

拖曳左侧中的Database＞ReadDatabase标签，读取数据库，然后设置数据库的基本条件，点击白板中的ReadDatabase,查看右侧信息1）数据库连接条件：

点击Connection右边的数据库连接配置按钮，输入相关信息如：

数据库名称、用户名、密码、Host等，然后点击下方的测试一下连接是否成功。

v^oc

Datuoasesellerne

nt

User

（O（X

Pa&

swctd

URL

||dbcumr5qL/1fil2.1Bd-2.?

3:

l3M/sludert

❼Ccnrwdisn«

ULi»

un^noAn

2）读取数据库中表以及相关属性数据配置：

点query右侧的图标，选择数据库下的表击

3、聚类算法：

拖曳左侧中的Modeling>

segmentation>

K~Means标签到白

板中，聚类算法插件，用于数据的聚类分析

OAdsData=▼

►°

Sam昨zs

■■nay

严X

■MOdfti0014）

■二9・gnwnUlion（Q

话k-M^ans

■（Ktm»

l）

■■U^a；

亠（f"

l,

■ds

Pe4dfkrt4ibMbe

OiMerwto

1）配置聚类算法的参数：

簇数、迭代次数

4、存储文件：

拖曳左侧中的DataAccess>

Files>

Write标签到白板中，存

储文件插件，

用于分析结果的存储然后在右侧csvf订e配置存储路径

5、分析流程图---规划，通过连接线连接整个的执行流程，并点击执行按钮

如图所示

PrOCMB

Process»

6、执行结果

1）、分析具体结果数据2）、统计数据：

最大、最小、平均值、聚类3）、聚类分析图

CClHi■農■（XCCMM^w

WQtiamoM

*xdot

V9I0U9

“W-r・

•|C3<

81

21"

001

Z38

9S

*

a

9nidejfro»

e,

••••-

•MM

八

-j

•W

e

im

0声啲

ggS4

2C9H

Hww

9fl

F

99

MM

C叫

AdtJ^ulOctAud4

290U

■•■■■■

96

-•H

InnuMMd4

68

<

*w

・r>

u

••Z*4

008

•ftMAl

rt

••H

8Z

-

o

966^9

66

*<

n

€Svw

Q”H

MW»

6沧

M0

n'

jdisnj

（S

leiMUG*.

SotSI&

S

«

is*xnwAt-•cf6JjMQ

2tN

Data

JAH

7、结果分析:

第一个图可以看出：

1）每科目的最低分、最高分、平均分等信息

2）聚类：

三簇数据，每簇数据的学生个数第二个图可以看出：

1）每科分值的分布情况，看出大部分学生的成绩分布在【70-80］之间，90分以上的偏少第三个图可以看出：

1）聚类按三簇进行聚类，也就是说分为了三类学生

2）cluster_0结合第一个图有378个学生实例，从成绩上分析学习情况：

地理成绩不及格；

语文、化学成绩偏差；

物理、英语较好；

数学最好

cluster_l结合第一个图有136个学生实例，从成绩上分析学习情况：

地理成绩不及格；

历史、化学成绩偏差；

语文较好；

物理、英语、数学最好

cluster_2结合第一个图有26个学生实例，从成绩上分析学习情况：

历史、花学成绩偏差；

语文、数学、物理较好；

英语最好

因此，根据分析的数据来看，这三类的学生，老师可以根据不同的情进行分类着重辅导。

况，

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 学校学生成绩进行聚类分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：学校的学生成绩进行聚类分析Word格式.docx
链接地址：https://www.bdocx.com/doc/19629569.html

学校的学生成绩进行聚类分析Word格式.docx

热门标签