数据挖掘分类实验详细报告.docx
- 文档编号:20107795
- 上传时间:2023-04-25
- 格式:DOCX
- 页数:33
- 大小:134.57KB
数据挖掘分类实验详细报告.docx
《数据挖掘分类实验详细报告.docx》由会员分享,可在线阅读,更多相关《数据挖掘分类实验详细报告.docx(33页珍藏版)》请在冰豆网上搜索。
数据挖掘分类实验详细报告
《数据挖掘分类实验报告》
信息安全科学与工程学院1120362066尹雪蓉
【据挖掘分类过程
(1)数据分析介绍
本次实验为典型的分类实验,为了便于说明问题,弄清数据挖掘具体流程,我们小组选择了最经典的决策树算法进行具体挖掘实验。
(2)数据准备与预处理
在进行数据挖掘之前,我们首先要对需要挖掘的样本数据进行预处理,预处理包括以下步骤:
1、数据准备,格式统一。
将样本转化为等维的数据特征(特征提取),让所有的样
本具有相同数量的特征,同时兼顾特征的全面性和独立性
2、选择与类别相关的特征(特征选择)
3、建立数据训练集和测试集
4、对数据集进行数据清理
在本次实验中,我们选择了ILPD(IndianLiverPatientDataset)这个数据集,该数据集已经具有等维的数据特征,主要包括Age、Gender、TB、DB^Alkphos>Sgpt、Sgot^TP、ALB、A/G、classical,一共11个维度的数据特征,其中与分类类别相关的特征为classical,它的类别有1,2两个值。
详见下表:
Age
Gender
TB
DB
Alkphos
Sspt
SgotTF
ALB
A/G
classical
65Female
0.7
0.1
187
16
18
6.8
3.3
0.9
1
62Bale
10.9
5.5
699
64
100
7.5
3.2
0.74
1
62flale
7.3
4.1
490
60
68
7
3.3
0.89
1
58Kale
1
0.4
182
14
20
6.8
3.i
1
1
72Hale
3・9
2
195
27
59
7.3
2.i
0.4
1
46Kale
1.8
0.7
208
19
1+
7.6
4.4
1.3
1
26Female
0.9
0.2
15+
16
12
7
3.5
1
1
29Female
0.9
0.3
202
14
11
6.7
3.6
1.1
1
17Hale
0.9
0.3
202
22
19
7.4
4.1
1.2
2
55Hale
0.7
0.2
290
53
58
6.8
3.4
1
1
57Jlale
0.6
0.1
210
51
59
5.9
2.7
0.8
1
72Rale
2.T
1.3
260
31
56
7.4
3
0.6
1
64Kale
0.9
0.3
310
61
53
7
3.i
0.9
2
74Female
1.1
0.4
214
22
30
S.1
4.1
1
1
61Hale
0.7
0.2
145
53
41
5.8
2.7
0.87
1
25Male
0.6
0.1
183
91
53
5.5
2.3
0.7
2
38Hale
1.8
0.8
342
158
441
7.6
4.4
1.3
1
33Male
1.6
0.5
165
15
23
7.3
3.5
0.92
2
本实验的主要思路是将该数据集分成训练集和测试集,对训练集进行训练生成模型,然后再根据模型对测试集进行预测。
数据集处理实验详细过程:
•CSV数据源处理
由于下载的原始数据集文件IndianLiverPatientDataset(ILPD).csv(见下图)中间并不包含属性项,这不利于之后分类的实验操作,所以要对该文件进行处理,使用Notepad文件,手动将属性行添加到文件首行即可。
圈IndianLiverPatientDataset(ILPD).cgv21-May-201205:
5923K
•平台数据集格式转换
在后面数据挖掘的实验过程中,我们需要借助开源数据挖掘平台工具软件weka,该平台使用的数据集格式为arff,因此为了便于实验,在这里我们要对csv文件进行格式转换,转换工具为weka自带工具。
转换过程为:
1、打开weka平台,点击"SimpleCLI",进入weka命令行界面,如下图所示:
'QSimpkCU■||回
1
KelccxnetctheW£KA.SiiipLeCLI
Enterccxnxnandsin-hecexcfieldatthebottomofchewindow・Usezhtupanddownarrowstomovethrouchpreviouscoronand3・
CcmnandcompletionlorcLassnairfisandrilesisinitiatedvith
>help
CcmBandmustbeoneof:
javc
break
kill
cis
history
exit
Help
▲
▼
2、输入命令将csv文件导成arff文件,如卞图所示:
>oavaweia.cere.ccnveruers.csvLcaaer••E:
\homework\inaianLiverFallen*Daraset(ilpd)・csv*>•'E:
\noMvork\d2
Finishedredirectingoutputtc'E:
\homework\dataset・a二雪f・
3、得到arff文件如下图所示:
WUkUIIHint
RemoteSystemsTempAIes
Qdatasetarff
一hsqldbj3r
丄idb.jar
IndianIivprPatientDMxat1flIPD)w
2012/6/1414:
51文{携
20⑵6/1416:
01ARFFDataFile
2012/8/60:
17
2012/11/2520:
20
ExecutableJarFile
ExecutableJarFile
MirrnenftFwal
23KB|
1,391K8
126KB
9dXR
A
3^attributeAgenuncric
49attribut«Gend*r(Fea^le.MaleF
58attribut«TBnunoric
»'9a^tx£bu^«CDnunar1c
8avtx£but«AXXpiioac.-ulox1o
t9attribut«Sgptnvmetrio
98attribut«Sgotnumeric
10TPnunarlc
118avtx£but«ALBnuxxexic
:
?
9attribut«36nuneric
138attribut«classicalnun©ric
14
148S3
1565,Fena“,O・7.0・i,lQ7,:
L£・iQ,6・B”・3,O・9,i
1?
62rMal.«#10.9#S.5r€SSr64,100r?
.S«3.2r0.74rl
IB€2r»UL.,7.3#4.1r€90,60r€8,7r3.3,0.89,1
13兀・Mo",:
U0・£,lB2,",20.6・S3.4,1,1
2072.Btok』・9,2,195,27.59』・2.2・4,O・4八
214€rNML.#1.8,0.7r20a,19r14,7.6r4.4r1.3,1
222€rF«nal«r0.9-0.2,154r】G,12r7,3.5rlrl
2329,Fe»aler0.5,0.3,202,1-4,11,6.7,3.6,1.lr1
2417,Male,0.9,0.3,202.22,19.7.4,4.1,1.2.2
25S5.—,0.7,0.2.290,53.S3,08,3.4八八
2£S7r»UL.,0.6,0.1,210,51,59,5.9^2.7,0.8,1
2"72,Male/2.7#1.3,260,31,56,7.4,3,0.6,1
2E“・!
toLsO・9』・2・310,61.5B,7d・4,0・9,2
2974rr«nal«r1.1,0.214r22,30r8.1,4.1r1,1
VisuolizeAll
•建立数据训练集.校验集和测试集
Age
Gender
TB
DB
Alkphos
Sgpt
Sgot
TP
ALB
A/G
classical
65Fenale
0.7
0.1
187
18
18
6.8
3.3
0.9
1
62Male
10.9
5.5
699
64
100
7.5
3.2
0.74
1
62Male
T.3
4.1
490
60
68
7
3.3
0.89
1
58Male
1
0.4
182
14
20
6.8
3.4
1
1
72Male
3・9
2
195
27
59
7.3
2.4:
0.4
1
46Male
1.8
0.7
208
19
14
7.6
4.4
1.3
1\
26Fenale
0.9
0.2
154
16
12
7
3.5
1
1
29Fcnalc
0.9
0.3
202
14
11
6.7
3.6
1.1
1
17Male
0.9
0.3
202
22
19
7.4
4.1
1.2
2
55Male
0.7
0.2
290
53
58
6.8
3.4
1
1
57Male
0.6
0.1
210
51
59
5.9
2.7
0.8
1
72Male
2.7
1.3
260
31
56
7.4
3
0.6
1
64Male
0.9
0.3
310
61
58
7
3.4
0.9
2
74
Henale
1.1
0.4
214
22
30
8.1
4.1
1
1
61
Male
0.7
0.2
145
53
41
5.8
2.T
0.B7
1
25Kale
0.6
0.1
183
91
53
5.5
2.3
0.7
2
38Kale
1.8
0.8
342
168
441
7.6
4.4
l.S
1
33Male
1.6
0.5
165
15
23
7.3
3.5
0.92
2
40Fcnalc
0.9
0.3
293
232
245
6.8
3.1
0.8
1
40Fcnalc
0.9
0.3
293
232
245
6.8
3.1
0.8
1
51Male
2.2
1
610
17
28
7.3
2.6
0.55
1
51Male
2.9
1.3
482
22
34
?
2.4
0.5
1
62Male
6.8
3
542
116
66
6.4
3.1
0.9
1
WMaLe
1.9
1
231
16
55
4.3
1.6
0.6
1
63Male
0.9
0.2
194
52
45
6
3.9
1.85
2
Class:
classicolQlwn)
416
167
0
r~
1.5
通过统计数据信息,可知整个数据集带有classical标号的数据一共有583行,为了避免数据的过度拟合,我们要把数据训练集、校验集、测试集分开。
在本次实验中,我们的拆分
策略是训练集500行,校验集和测试集83行,由于数据集中有416行的classical标识为1,167行的classical标识为2,为了能在训练分类模型时有更加全面的信息,我们将167条classical标识为2与333行classical标识为1的数据全部作为模型训练集,而剩下的83条classical为1的数据将全部用于测试集,这是因为在校验的时候,两种类标号的数据作用区别不人,但是在训练数据模型是,需要更加全面的信息,特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。
在做预测测试之前,需要将测试集的分类标号去掉作为预测数据集。
数据训练集、校验集和测试集建立步骤:
1、复制原始数据集arff文件,作为总的训练数据集,文件名称改为build_model.arffo如下图所示:
1—in Qbuild.model.arff2013/6/1416: 01ARFFDataFile23KB ◎DataSet.original.arff2013/6/1416: 01ARFFDataFile23KB 2、根据拆分策略,从原始数据集DataSet.original.arff文件中的数据里面,选取分类 标号为1的数据83作为校验数据集,该数据集文件名为validate.data.arffo Obuild^model.arff 2013/6/1416: 01 ARFFDataFile 23KB QDataSet-original.arff 2013/6/1416: 01 AR阡DataFile 23KB Otest_data.arff 2013/6/1716: 54 AR阡DataFile 4KB Qtrain.data.arff 2013/6/1716: 53 ARFFDataFile 20KB Ovalidatedata.arff 2013/6/1716: 54 ARFFDataFile 4KB 3、将剩卜白勺DataSet_orginal.arff文件改名为train_data.arff ■799 Otest-data.srff2013/6/1716: 54ARFFDataFile4KB Otrainldata.arff2013/6/1716: 53ARFFDa"File20KB 0validate.data.arff2013/6/1716: 54ARFFDataFile4KB 4、由于原始数据集都是有•类标号的数据集,为了方便进行预测测试,我们将校验数据集复制一份后,将分类标号去掉加入? ,作为预测数据集。 如图所示: ©data 65卩Femalef0.7f0.lr187r16/rl8r6.8f3.3/r0.9r? 62rMale710..9r5.5r699/64尸100卩7・5,3・2,0-74/2 62FMale77.3r4.lr490760r68F7r3.3Z0.89F? 58fMale,1,0.4f182r14z20r6.8r3.4flr? 72FMale73.久2,195,27z59r7.3r2.4/0.4,246fMalez1..8f0.7r208z19f14f7.6,4..4r1.3r? 26*Female,0.9X0.2/154z16F12r7Z3.Sr1F? 29rFemalef0・9r0.3r202f14/rllr6.7f3.6/rl.lr? 55/MalejO.7,-0.2/290/53/-58/6.8/3..4rl/? 57*Male,0»6r0.1,210,51r59F5.9j2.7r0.8/? 72/Malej2.7r1.3/260/31r56/7.4/3,0.6/? 74FFemalezl.l/r0.4r214z22/r30r8.1z4.1Flr? •数据清理 在进行数据搜集和整理的过程中,我们发现如果属性的类型为数值型的话,在做关联分析时将不能得到结果,因为关联分析无法处理数值型数据。 由于现实世界中数据人体上都是不完整,不一致的脏数据,无法直接进行数据挖掘或挖掘结果差强人意。 为了提高数据挖掘的质量,需要对数据进行预处理,预处理有多种方法: 数据清理、数据集成、数据变换、数据归约等。 常用的数据清理主要分为两类: 空缺值的处理和噪声数据处理。 空缺值处理主要是使用最可能的值填充空缺值,比如可以用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。 这类方法依靠现有的数据信息来推测空缺值,使空缺值有更大的机会保持与其他属性之间的联系。 同时还可以用一个全局常量替换空缺值、使用属性的平均值填充空缺值或将所有元组按某些属性分类,然后用同一类中属性的平均值填充空缺值。 不过这些方法有局限性,当空缺值很多的情况卞,这些方法的使用可能会误导挖掘结呆;除了空缺值处理还有噪声数据处理,噪声是一个测屋变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。 常用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。 在本次试验中,我们对数据集进行了数据处理后使得需要分析的数据变为分类型,这样就可以关联分析得以顺利进行,在具体执行的过程中我们利用了weka平台自带的数据预处理库实现数据预处理。 具体实验过程见下文。 (3)实验过程 A、环境搭建 本实验的数据集选择IndianLiverPatientDataset(ILPD),借助数据挖掘平台Weka3.6.9,编程环境为Eclipse+JDK7 1、数据集获取 选择IndianLiverPatientDataset(ILPD)这个数据集,进入卜•载页面下载数据集(详见下图) Indexof/ml/machine-learning-databases/00225 N袒叶modifiedSi迟匕Duscridtion Q^ParuntD"uctory_ 简IndianPgdiuctDntusut(JLPD丿.usv21201205: 5923K A^ache/2.2.15(CentOS)Serveratarchive,ics.uci.eduPort80 2、Weka安装 下载Weka安装包weka-3-6-9-x64.exe,运行安装即可。 (如卜图) 安装界面: (门Weka3.6.9Setup WGlcom©toth©Weka369SetupWizard ThiswizardwillguideyouthroughtheinstallationofWeka369. ItisrecommendedthatyoudoseoilotherapplicationsbeforestartingSetup・Thiswillmakeitpossibletoupdaterelevantsystemfileswithouthavingtorebootyourcomputer・ ClickNexttocontinue. Next>] Cancel 安装完成: Applications Weka工作界面: QWekaGUIChooser ProgramVisualizationToolsHelp 獅EKA TheUniversity iofWaikato Taikat©Environxsnt£©rKnovlcif-Analysis Version3.■£•9 U)1疥・2013 ThsUnivcxsityq£ Haxiltcoi,NewZealand Bs实验步骤 1、开发平台搭建 打开eclipse,点击File->New->Project...,新建JavaProject工程,如下图所示: 新建一个java工程dataminingtest,配置buildpath将所需要的weka.jar和其 它一些需要的jar包, 导入该工程,如下图所示: Resource Builders JavaBuildPatht>JavaCodeStylet>JavaCompiler>JavaEditor JavadocLocation ProjectFacetsProjectReferences Run/DebugSettingst>TookRepository TaskTags t>Validation WikiText &Source®Projects*Libraries沁OrderandExport JARsandclassfoldersonthebuildpath: t>*JRESystemLibrary[JavaSE-1.7] J或weka 罷Accessrules: Norulesdefined 蟹Nativelibrarylocation: (None) t>Sweka.jar-C: \ProgramFiles\Weka-3-6 >凰hsqld•E;\homcwork t>匮idb.jar-E: \homev/ork 0凰mkjdbc.jar-E: \homevzork 卜區mysql-conrectcr-java-5.1.6-binj3r・E: \homewct>ARmiJdbc.jar-E: \homework AddJARs... AddExternalJARs... AddClassFolder... AddExternaClassFolder... Edit.. Remove Migrate
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 分类 实验 详细 报告