聚类分析实验报告Word格式文档下载.docx
- 文档编号:20710611
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:16
- 大小:229.37KB
聚类分析实验报告Word格式文档下载.docx
《聚类分析实验报告Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《聚类分析实验报告Word格式文档下载.docx(16页珍藏版)》请在冰豆网上搜索。
2、一组有关12盎司20种啤酒成分和价格的数据,分别用系统聚类法(距离用类平均距离)、动态聚类法,聚为4类,分别给出两种聚类方法的分类结果及各类均值。
啤酒名
热量(卡)
钠含量
酒精含量
价格
Budweiser
144
19
4.7
0.43
Schlitz
181
4.9
Ionenbrau
157
15
0.48
Kronensourc
170
7
5.2
0.73
Heineken
152
11
5
0.77
Old-milnaukee
145
23
4.6
0.26
Aucsberger
175
24
5.5
0.4
Strchs-bohemi
149
27
0.42
Miller-lite
99
10
4.3
Sudeiser-lich
113
6
3.7
0.44
Coors
140
16
Coorslicht
102
4.1
0.46
Michelos-lich
135
4.2
0.5
Secrs
150
0.76
Kkirin
0.79
Pabst-extra-l
68
2.3
0.36
Hamms
136
4.4
Heilemans-old
Olympia-gold-
72
2.9
Schlite-light
97
0.47
实验过程与方法:
第一题:
程序:
dataeducate;
inputarea$illeterasaomangprimaryjuniorseniorzhuandazhuanbenkegraduate;
labelarea='
地区'
illetera='
未上过学'
saomang='
扫盲班'
primary='
小学'
junior='
初中'
senior='
高中'
zhuan='
中专'
dazhuan='
大专'
benke='
本科'
graduate='
研究生'
;
cards;
beijing5816374725523017264665166219728594607110299291082268172653
tianjin5138215264124688913405530126146179284350654835542624040
hebei3746461139********5051260993235317893184********21953983318020
shanxi154336436723910319110126379842659168110342278407531454812452
neimeng21866381660457261714811663223319108812476488912340876851
liaoning211752917157212482572167578633997787151********44584565447251
jilin134********6289976479567968305714599719881329248697921600
heilong1968874147023113282841411320038344721196355119969451784724013
shanghai873696216143310663760385722665497111119693408378469876188
jiangsu45855211638610240179942656247474327622120420185********8458165
zhejiang3212522133********3356153194233848613110501395595548167930227
anhui5937345155********3367193676073084848143069592153942526417108
fujian239082668730412875533114377322442143118645966418333162115927
jiangxi21473847324571566057613455575294620410396647296943063528713
shandong7617518151********98113297345567504463195988204057292105439126
henan5428858150********17403591924769353462271789181********3121656
hubei4321859694959210818002039843551975802327881153********8353623
hunan2982232676936242199372259380451233011949147131********1725229
guangdo3897970764560282242733126142881819192836462204631190739177621
guangxi191608457252918432526142184942787826142676475965027591811566
hainan5818376803225986362455575707116238707167622683984343
chongqi2173652373654132295598993338189********4755597128966414440
sichuan6608326166********98262419376342680632029776137********7536787
guizhou525677872904315352997727482711375698591204648972057914178
yunnan515780014304051897925490180441657168113144257687726369411988
xizang10715341499697964421659574241850430232559962340
shananxi266773060904412178915117077103307017106162491422453922232597
gansu388106867049092808116017876181********744679591954499007
qinghai10313331556771489401103523734258115020010910046396938
ningxia6592701946251747141152********33173640136967644381124
xinjiang12275533026136997824508592714153588325557009962393036162
procprint;
run;
goptionsftext="
宋体"
procclusterdata=educatemethod=wardstdnonormpseudoouttree=educate1;
varilleterasaomangprimaryjuniorseniorzhuandazhuanbenkegraduate;
idarea;
goptionsvsize=12hsize=8;
proctreedata=educate1horizontalgraphicsn=4out=wardeducate1;
copyareailleterasaomangprimaryjuniorseniorzhuandazhuanbenkegraduate;
title'
使用WARD法的谱系聚类图'
使用Ward法'
procsortdata=wardeducate1;
bycluster;
procprintdata=wardeducate1;
varclusterareailleterasaomangprimaryjuniorseniorzhuandazhuanbenkegraduate;
Procstandarddata=educatemean=0std=1out=educate2;
Varilleterasaomangprimaryjuniorseniorzhuandazhuanbenkegraduate;
procfastclusdata=educate2out=educata3maxc=4list;
idarea;
(1)ward法的并类历史过程
(1)由RSQ的变化情况看,当分为4个类之前,并类过程中
减少是逐渐的,改变不大,当分为4个类和三个类时差别较大,所以从
看分为4个类较合适。
(2)由SPRSQ(半偏
)知,某步的半偏
值越大.说明上一步合并的效果好.此例中NCL=1,2和3时较大,故分为二个类、三个类或四个类是较合适的.
(3)伪F统计量(列标题为PSF)越大表示这些观测样品可显著地分为NCL个类。
此例伪F最大和次大分别为NCL=3,4和5(当NcL<7),说明根据伪F准则分为二个类、三个类或四个类是较合适的.
(4)伪
统计量值大表明上一次合并的两个类是很分开的.也就是上一次聚类的效果是好的.此例伪
最大和次大分别为NCL=1和3,说明根据伪
准则分为二个类或四个类是较合适的.
综合以上可知,分为二类或四类较合适。
使用ward法的谱系聚类图
ward法分为四类的结果
结果:
第一类:
青海宁夏海南西藏
第二类:
福建江西内蒙新疆广西山西吉林重庆贵州甘肃黑龙江陕西天津安徽云南浙江
第三类:
河北湖南湖北江苏河南山东四川广东
第四类:
辽宁上海北京
(2)动态聚类法:
动态聚类的初始凝聚点(数据标准化)
动态聚类的分类结果(数据标准化)
北京上海
第二类:
天津山西吉林内蒙海南重庆西藏甘肃青海宁夏新疆
河北、浙江、安徽、福建、江西、黑龙江、辽宁、湖南、广西贵州云南陕西
江苏、山东、河南、湖北四川广东
第二题:
datapijiu;
inputtype$x1-x4;
Budweiser144194.70.43
Schlitz181194.90.43
Ionenbrau157154.90.48
Kronensourc17075.20.73
Heineken1521150.77
Old-milnaukee145234.60.26
Aucsberger175245.50.4
Strchs-bohemi149274.70.42
Miller-lite99104.30.43
Sudeiser-lich11363.70.44
Coors140164.60.44
Coorslicht102154.10.46
Michelos-lich135114.20.5
Secrs150194.70.76
Kkirin149650.79
Pabst-extra-l68152.30.36
Hamms136194.40.43
Heilemans-old144244.90.43
Olympia-gold-7262.90.46
Schlite-light9774.20.47
procclusterdata=pijiumethod=avestdpseudorsqouttree=pijiu1;
varx1-x4;
idtype;
goptionslsize=4hsize=8;
/*控制输出聚类图的大小*/
proctreedata=pijiu1horizontalgraphicsn=4out=avepijiu;
copytypex1-x4;
使用类平均法的谱系聚类图'
使用类平均法'
procsortdata=avepijiu;
/*将聚类结果按类cluster进行排序*/
procprintdata=avepijiu;
procmeansdata=avepijiu;
Procstandarddata=pijiumean=0std=1out=pijiu2;
Varx1-x4;
procfastclusdata=pijiu2out=pijiu3maxc=4list;
idtype;
1:
系统聚类法:
类平均法的并类历史过程
值越大.说明上一步合并的效果好.此例中NCL=1,2和3时,较大,故分为两个类、三个类或四个类是较合适的.
此例伪F最大和次大分别为NCL=4,5和6(当NcL<7),说明根据伪F准则分为四个类、五个类或六个类是较合适的.
最大和次大分别为NCL=2和3,说明根据伪
准则分为三个类或四个类是较合适的.
综合以上可知,分为四类较合适。
类平均法分为四类的结果
BudweiserHammsCoorsStrchs-bohemiHeilemans-oldIonenbrauSchlite-lightOld-milnaukeeAucsberger
Miller-liteSchlite-lightSudeiser-lichMichelos-lichCoorslicht
KkirinKronensourcSecrs
Pabst-extra-lOlympia-gold-
分成4组以后,每组样本的均值
动态聚类法:
Miller-liteSudeiser-lichSchlite-lightMichelos-lichCoorslicht
BudweiserSchlitzIonenbrauOld-milnaukeeAucsbergerStrchs-bohemiCoorsHeilemans-oldHamms
Olympia-gold-Pabst-extra-l
KronensourcHeinekenSecrsKkirin
每组样本的均值:
实验结果分析(可附页):
(在过程结果的下面)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 实验 报告