书签分享收藏举报版权申诉 / 33

立即下载加入VIP,免费下载

当前位置：首页 > 党团工作 > 入党转正申请 > 数据挖掘分类实验详细报告.docx

数据挖掘分类实验详细报告.docx

文档编号：20107795
上传时间：2023-04-25
格式：DOCX
页数：33
大小：134.57KB

数据挖掘分类实验详细报告.docx

《数据挖掘分类实验详细报告.docx》由会员分享，可在线阅读，更多相关《数据挖掘分类实验详细报告.docx（33页珍藏版）》请在冰豆网上搜索。

数据挖掘分类实验详细报告.docx

数据挖掘分类实验详细报告

《数据挖掘分类实验报告》

信息安全科学与工程学院1120362066尹雪蓉

【据挖掘分类过程

（1）数据分析介绍

本次实验为典型的分类实验，为了便于说明问题，弄清数据挖掘具体流程，我们小组选择了最经典的决策树算法进行具体挖掘实验。

（2）数据准备与预处理

在进行数据挖掘之前，我们首先要对需要挖掘的样本数据进行预处理，预处理包括以下步骤：

1、数据准备，格式统一。

将样本转化为等维的数据特征（特征提取），让所有的样

本具有相同数量的特征，同时兼顾特征的全面性和独立性

2、选择与类别相关的特征（特征选择）

3、建立数据训练集和测试集

4、对数据集进行数据清理

在本次实验中，我们选择了ILPD（IndianLiverPatientDataset）这个数据集，该数据集已经具有等维的数据特征,主要包括Age、Gender、TB、DB^Alkphos>Sgpt、Sgot^TP、ALB、A/G、classical,一共11个维度的数据特征，其中与分类类别相关的特征为classical,它的类别有1,2两个值。

详见下表:

Age

Gender

TB

DB

Alkphos

Sspt

SgotTF

ALB

A/G

classical

65Female

0.7

0.1

187

16

18

6.8

3.3

0.9

1

62Bale

10.9

5.5

699

64

100

7.5

3.2

0.74

1

62flale

7.3

4.1

490

60

68

7

3.3

0.89

1

58Kale

1

0.4

182

14

20

6.8

3.i

1

72Hale

3・9

2

195

27

59

7.3

2.i

0.4

1

46Kale

1.8

0.7

208

19

1+

7.6

4.4

1.3

1

26Female

0.9

0.2

15+

16

12

7

3.5

1

29Female

0.9

0.3

202

14

11

6.7

3.6

1.1

1

17Hale

0.9

0.3

202

22

19

7.4

4.1

1.2

2

55Hale

0.7

0.2

290

53

58

6.8

3.4

1

57Jlale

0.6

0.1

210

51

59

5.9

2.7

0.8

1

72Rale

2.T

1.3

260

31

56

7.4

3

0.6

1

64Kale

0.9

0.3

310

61

53

7

3.i

0.9

2

74Female

1.1

0.4

214

22

30

S.1

4.1

1

61Hale

0.7

0.2

145

53

41

5.8

2.7

0.87

1

25Male

0.6

0.1

183

91

53

5.5

2.3

0.7

2

38Hale

1.8

0.8

342

158

441

7.6

4.4

1.3

1

33Male

1.6

0.5

165

15

23

7.3

3.5

0.92

2

本实验的主要思路是将该数据集分成训练集和测试集，对训练集进行训练生成模型，然后再根据模型对测试集进行预测。

数据集处理实验详细过程:

•CSV数据源处理

由于下载的原始数据集文件IndianLiverPatientDataset（ILPD）.csv（见下图）中间并不包含属性项，这不利于之后分类的实验操作，所以要对该文件进行处理，使用Notepad文件,手动将属性行添加到文件首行即可。

圈IndianLiverPatientDataset（ILPD）.cgv21-May-201205:

5923K

•平台数据集格式转换

在后面数据挖掘的实验过程中，我们需要借助开源数据挖掘平台工具软件weka,该平台使用的数据集格式为arff,因此为了便于实验，在这里我们要对csv文件进行格式转换，转换工具为weka自带工具。

转换过程为：

1、打开weka平台，点击"SimpleCLI",进入weka命令行界面,如下图所示：

'QSimpkCU■||回

1

KelccxnetctheW£KA.SiiipLeCLI

Enterccxnxnandsin-hecexcfieldatthebottomofchewindow・Usezhtupanddownarrowstomovethrouchpreviouscoronand3・

CcmnandcompletionlorcLassnairfisandrilesisinitiatedvith・InoiliertodistinguishbetweenrilesandcLas3nare3rrilenanesmustbeeitherab3olu*eor3Cartwith'・\‘or•-/1（thelatterisashorccucrorthenoroedirectory]・isusedfordeletingthetestmrneccmmandlinemonunJC3・

>help

CcmBandmustbeoneof:

javc[>file]

break

kill

cis

history

exit

Help

▲

▼

2、输入命令将csv文件导成arff文件，如卞图所示:

>oavaweia.cere.ccnveruers.csvLcaaer••E:

\homework\inaianLiverFallen*Daraset（ilpd）・csv*>•'E:

\noMvork\d2

Finishedredirectingoutputtc'E:

\homework\dataset・a二雪f・

3、得到arff文件如下图所示:

WUkUIIHint

RemoteSystemsTempAIes

Qdatasetarff

一hsqldbj3r

丄idb.jar

IndianIivprPatientDMxat1flIPD）w

2012/6/1414:

51文｛携

20⑵6/1416:

01ARFFDataFile

2012/8/60:

17

2012/11/2520:

20

ExecutableJarFile

MirrnenftFwal

23KB|

1,391K8

126KB

9dXR

A

3^attributeAgenuncric

49attribut«Gend*r（Fea^le.MaleF

58attribut«TBnunoric

»'9a^tx£bu^«CDnunar1c

8avtx£but«AXXpiioac.-ulox1o

t9attribut«Sgptnvmetrio

98attribut«Sgotnumeric

10TPnunarlc

118avtx£but«ALBnuxxexic

：

?

9attribut«36nuneric

138attribut«classicalnun©ric

14

148S3

1565,Fena“，O・7.0・i,lQ7,：

L£・iQ,6・B”・3,O・9,i

1?

62rMal.«#10.9#S.5r€SSr64,100r?

.S«3.2r0.74rl

IB€2r»UL.,7.3#4.1r€90,60r€8,7r3.3,0.89,1

13兀・Mo",：

U0・£,lB2,",20.6・S3.4,1,1

2072.Btok』・9,2,195,27.59』・2.2・4,O・4八

214€rNML.#1.8,0.7r20a,19r14,7.6r4.4r1.3,1

222€rF«nal«r0.9-0.2,154r】G,12r7,3.5rlrl

2329,Fe»aler0.5,0.3,202,1-4,11,6.7,3.6,1.lr1

2417,Male,0.9,0.3,202.22,19.7.4,4.1,1.2.2

25S5.—,0.7,0.2.290,53.S3,08,3.4八八

2£S7r»UL.,0.6,0.1,210,51,59,5.9^2.7,0.8,1

2"72,Male/2.7#1.3,260,31,56,7.4,3,0.6,1

2E“・!

toLsO・9』・2・310,61.5B,7d・4,0・9,2

2974rr«nal«r1.1,0.214r22,30r8.1,4.1r1,1

VisuolizeAll

•建立数据训练集.校验集和测试集

Age

Gender

TB

DB

Alkphos

Sgpt

Sgot

TP

ALB

A/G

classical

65Fenale

0.7

0.1

187

18

6.8

3.3

0.9

1

62Male

10.9

5.5

699

64

100

7.5

3.2

0.74

1

62Male

T.3

4.1

490

60

68

7

3.3

0.89

1

58Male

1

0.4

182

14

20

6.8

3.4

1

72Male

3・9

2

195

27

59

7.3

2.4：

0.4

1

46Male

1.8

0.7

208

19

14

7.6

4.4

1.3

1\

26Fenale

0.9

0.2

154

16

12

7

3.5

1

29Fcnalc

0.9

0.3

202

14

11

6.7

3.6

1.1

1

17Male

0.9

0.3

202

22

19

7.4

4.1

1.2

2

55Male

0.7

0.2

290

53

58

6.8

3.4

1

57Male

0.6

0.1

210

51

59

5.9

2.7

0.8

1

72Male

2.7

1.3

260

31

56

7.4

3

0.6

1

64Male

0.9

0.3

310

61

58

7

3.4

0.9

2

74

Henale

1.1

0.4

214

22

30

8.1

4.1

1

61

Male

0.7

0.2

145

53

41

5.8

2.T

0.B7

1

25Kale

0.6

0.1

183

91

53

5.5

2.3

0.7

2

38Kale

1.8

0.8

342

168

441

7.6

4.4

l.S

1

33Male

1.6

0.5

165

15

23

7.3

3.5

0.92

2

40Fcnalc

0.9

0.3

293

232

245

6.8

3.1

0.8

1

40Fcnalc

0.9

0.3

293

232

245

6.8

3.1

0.8

1

51Male

2.2

1

610

17

28

7.3

2.6

0.55

1

51Male

2.9

1.3

482

22

34

?

2.4

0.5

1

62Male

6.8

3

542

116

66

6.4

3.1

0.9

1

WMaLe

1.9

1

231

16

55

4.3

1.6

0.6

1

63Male

0.9

0.2

194

52

45

6

3.9

1.85

2

Class：

classicolQlwn）

416

167

0

r~

1.5

通过统计数据信息，可知整个数据集带有classical标号的数据一共有583行，为了避免数据的过度拟合，我们要把数据训练集、校验集、测试集分开。

在本次实验中，我们的拆分

策略是训练集500行,校验集和测试集83行，由于数据集中有416行的classical标识为1,167行的classical标识为2,为了能在训练分类模型时有更加全面的信息，我们将167条classical标识为2与333行classical标识为1的数据全部作为模型训练集,而剩下的83条classical为1的数据将全部用于测试集，这是因为在校验的时候，两种类标号的数据作用区别不人，但是在训练数据模型是，需要更加全面的信息，特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。

在做预测测试之前，需要将测试集的分类标号去掉作为预测数据集。

数据训练集、校验集和测试集建立步骤：

1、复制原始数据集arff文件，作为总的训练数据集，文件名称改为build_model.arffo如下图所示：

1—in

Qbuild.model.arff2013/6/1416:

01ARFFDataFile23KB

◎DataSet.original.arff2013/6/1416:

01ARFFDataFile23KB

2、根据拆分策略，从原始数据集DataSet.original.arff文件中的数据里面，选取分类

标号为1的数据83作为校验数据集，该数据集文件名为validate.data.arffo

Obuild^model.arff

2013/6/1416:

01

ARFFDataFile

23KB

QDataSet-original.arff

2013/6/1416:

01

AR阡DataFile

23KB

Otest_data.arff

2013/6/1716:

54

AR阡DataFile

4KB

Qtrain.data.arff

2013/6/1716:

53

ARFFDataFile

20KB

Ovalidatedata.arff

2013/6/1716:

54

ARFFDataFile

4KB

3、将剩卜白勺DataSet_orginal.arff文件改名为train_data.arff

■799

Otest-data.srff2013/6/1716:

54ARFFDataFile4KB

Otrainldata.arff2013/6/1716:

53ARFFDa"File20KB

0validate.data.arff2013/6/1716:

54ARFFDataFile4KB

4、由于原始数据集都是有•类标号的数据集，为了方便进行预测测试，我们将校验数据集复制一份后，将分类标号去掉加入？

，作为预测数据集。

如图所示：

©data

65卩Femalef0.7f0.lr187r16/rl8r6.8f3.3/r0.9r?

62rMale710..9r5.5r699/64尸100卩7・5,3・2,0-74/2

62FMale77.3r4.lr490760r68F7r3.3Z0.89F?

58fMale,1,0.4f182r14z20r6.8r3.4flr?

72FMale73.久2,195,27z59r7.3r2.4/0.4,246fMalez1..8f0.7r208z19f14f7.6,4..4r1.3r?

26*Female,0.9X0.2/154z16F12r7Z3.Sr1F?

29rFemalef0・9r0.3r202f14/rllr6.7f3.6/rl.lr?

55/MalejO.7,-0.2/290/53/-58/6.8/3..4rl/?

57*Male，0»6r0.1,210,51r59F5.9j2.7r0.8/?

72/Malej2.7r1.3/260/31r56/7.4/3,0.6/?

74FFemalezl.l/r0.4r214z22/r30r8.1z4.1Flr?

•数据清理

在进行数据搜集和整理的过程中，我们发现如果属性的类型为数值型的话，在做关联分析时将不能得到结果，因为关联分析无法处理数值型数据。

由于现实世界中数据人体上都是不完整，不一致的脏数据，无法直接进行数据挖掘或挖掘结果差强人意。

为了提高数据挖掘的质量，需要对数据进行预处理，预处理有多种方法：

数据清理、数据集成、数据变换、数据归约等。

常用的数据清理主要分为两类：

空缺值的处理和噪声数据处理。

空缺值处理主要是使用最可能的值填充空缺值，比如可以用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。

这类方法依靠现有的数据信息来推测空缺值，使空缺值有更大的机会保持与其他属性之间的联系。

同时还可以用一个全局常量替换空缺值、使用属性的平均值填充空缺值或将所有元组按某些属性分类，然后用同一类中属性的平均值填充空缺值。

不过这些方法有局限性,当空缺值很多的情况卞，这些方法的使用可能会误导挖掘结呆；除了空缺值处理还有噪声数据处理，噪声是一个测屋变量中的随机错误或偏差，包括错误的值或偏离期望的孤立点值。

常用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。

在本次试验中，我们对数据集进行了数据处理后使得需要分析的数据变为分类型，这样就可以关联分析得以顺利进行，在具体执行的过程中我们利用了weka平台自带的数据预处理库实现数据预处理。

具体实验过程见下文。

（3）实验过程

A、环境搭建

本实验的数据集选择IndianLiverPatientDataset（ILPD）,借助数据挖掘平台Weka3.6.9,编程环境为Eclipse+JDK7

1、数据集获取

选择IndianLiverPatientDataset（ILPD）这个数据集，进入卜•载页面下载数据集（详见下图）

Indexof/ml/machine-learning-databases/00225

N袒叶modifiedSi迟匕Duscridtion

Q^ParuntD"uctory_

简IndianPgdiuctDntusut（JLPD丿.usv21201205:

5923K

A^ache/2.2.15（CentOS）Serveratarchive,ics.uci.eduPort80

2、Weka安装

下载Weka安装包weka-3-6-9-x64.exe,运行安装即可。

（如卜图）

安装界面:

（门Weka3.6.9Setup

ThiswizardwillguideyouthroughtheinstallationofWeka369.

ItisrecommendedthatyoudoseoilotherapplicationsbeforestartingSetup・Thiswillmakeitpossibletoupdaterelevantsystemfileswithouthavingtorebootyourcomputer・

ClickNexttocontinue.

Next>]

Cancel

安装完成:

Applications

Weka工作界面:

QWekaGUIChooser

ProgramVisualizationToolsHelp

獅EKA

TheUniversity

iofWaikato

Version3.■£•9

U）1疥・2013

ThsUnivcxsityq£

Haxiltcoi,NewZealand

Bs实验步骤

1、开发平台搭建

打开eclipse,点击File->New->Project...,新建JavaProject工程,如下图所示:

新建一个java工程dataminingtest,配置buildpath将所需要的weka.jar和其

它一些需要的jar包,

导入该工程，如下图所示:

Resource

Builders

JavaBuildPatht>JavaCodeStylet>JavaCompiler>JavaEditor

JavadocLocation

ProjectFacetsProjectReferences

Run/DebugSettingst>TookRepository

TaskTags

t>Validation

WikiText

&Source®Projects*Libraries沁OrderandExport

JARsandclassfoldersonthebuildpath:

t>*JRESystemLibrary[JavaSE-1.7]

J或weka

罷Accessrules:

Norulesdefined

蟹Nativelibrarylocation:

（None）

t>Sweka.jar-C:

\ProgramFiles\Weka-3-6

>凰hsqld•E;\homcwork

t>匮idb.jar-E:

\homev/ork

0凰mkjdbc.jar-E:

\homevzork

卜區mysql-conrectcr-java-5.1.6-binj3r・E:

\homewct>ARmiJdbc.jar-E:

\homework

AddJARs...

AddExternalJARs...

AddClassFolder...

AddExternaClassFolder...

Edit..

Remove

Migrate

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘分类实验详细报告

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据挖掘分类实验详细报告.docx
链接地址：https://www.bdocx.com/doc/20107795.html

数据挖掘分类实验详细报告.docx

热门标签