应用多元统计分析SAS作业第六章.docx
- 文档编号:4940853
- 上传时间:2022-12-11
- 格式:DOCX
- 页数:28
- 大小:4.23MB
应用多元统计分析SAS作业第六章.docx
《应用多元统计分析SAS作业第六章.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析SAS作业第六章.docx(28页珍藏版)》请在冰豆网上搜索。
应用多元统计分析SAS作业第六章
6-10今有6个铅弹头,用“中子活化”方法测得7种微量元素的含量数据(见表1)。
(1)试用多种系统聚类法对6个弹头进行分类;并比较分类结果;
(2)试用多种方法对7种微量元素进行分类。
表1微量元素含量数据
元素
样品号
Ag(银)
(X1)
Al(铝)
Cu(铜)
Ca(钙)
Sb(锑)
Bi(铋)
Sn(锡)
(X2)
(X3)
(X4)
(X5)
(X6)
(X7)
1
0.05798
5.5150
347.10
21.910
8586
1742
61.69
2
0.08441
3.9700
347.20
19.710
7947
2000
2440
3
0.07217
1.1530
54.85
3.052
3860
1445
9497
4
0.15010
1.7020
307.50
15.030
12290
1461
6380
5
5.74400
2.8540
229.60
9.657
8099
1266
12520
6
0.21300
0.7058
240.30
13.910
8980
2820
4135
问题求解
1对6个弹头进行分类
对数据进行标准化变换,样品间距离定义为欧式距离,系统聚类的方法分别使用类平均法(AVE)、中间距离法(MID)、可变类平均法(FLE)和离差平方合法(WARD)。
使用SAS软件CLUSTER过程对数据进行聚类分析(程序见附录1)。
1.1类平均法
图1类平均聚类法相关矩阵特征值图
图2类平均聚类分析法聚类历史图
由图2可知,NCL=1时半偏R2最大且伪F统计量在NCL=2,5时和伪t方统计量在NCL=1,4时较大。
因此,将6个弹头分为两类
。
SAS绘制的谱系聚类图如图3所示。
图3类平均聚类分析法谱系聚类图
1.2中间距离法
图4中间距离聚类法相关矩阵特征值图
图5中间距离聚类法聚类历史图
由图5可知,中间距离法与类平均法结果一致。
因此,也将6个弹头分为两类
。
SAS绘制的谱系聚类图如图6所示。
图6中间距离聚类法谱系聚类图
1.3可变类平均法
图7可变类平均聚类法分析结果图
图8可变类平均聚类法聚类历史图
由图8可知,可变类平均法(
)输出结果与前两种方法稍有不同,NCL=1时半偏R2最大且伪F统计量在NCL=2时次大,NCL=5时最大;而伪t方统计量在NCL=1时最大。
因此,分类结果与之前相同,将6个弹头分为两类
。
SAS绘制的谱系聚类图如图9所示。
图9可变类平均聚类法谱系聚类图
1.4离差平方和法
图10离差平方和聚类法相关矩阵特征值图
图11离差平方和聚类法聚类历史
由图11可知,离差平方和法输出结果与可变类平均法结果一致。
SAS绘制的NCL=2时离差平方和法谱系聚类图和分类结果如下所示。
图12离差平方和聚类法谱系聚类图
图13离差平方和聚类法聚类结果图
1.5综合分析
综上所述,四种分类方法得到的结果一致,都是将6个弹头分为两类
。
四种方法中,类平均法和中间距离法结果相近;可变类平均法和离差平方和法得到结果相近且更加准确(伪t方统计量在NCL=1时最大)。
2对7种元素进行分类
同问题1,系统聚类的方法分别使用类平均法(AVE)、中间距离法(MID)、可变类平均法(FLE)和离差平方合法(WARD)。
使用SAS软件CLUSTER过程对数据进行聚类分析(程序见附录2)。
2.1类平均法
图147种元素类平均法聚类历史图
由图14可知,NCL=1,2时半偏R2较大;伪F统计量在NCL=4,5,6时较大;而伪t方统计量在NCL=3,4时较大。
因此,较合适的分法是将7种元素分为四类和五类。
SAS绘制的谱系聚类图如下所示。
图157种元素类平均法谱系聚类图
2.2中间距离法
图167种元素中间距离法聚类历史图
由图16可知,中间距离法聚类结果中NCL=1,2时半偏R2较大;伪F统计量在NCL=4,5,6时较大;而伪t方统计量在NCL=3,4时较大。
因此,与类平均法相同,较合适的分法是将7种元素分为四类和五类。
SAS绘制的谱系聚类图如下所示。
图177种元素中间距离法谱系聚类图
2.3可变类平均法
图187种元素可变类平均法聚类历史图
由图18可知,可变类平均法聚类结果与前两种方法结果相同,较合适的分法是将7种元素分为四类和五类。
SAS绘制的谱系聚类图如下所示。
图197种元素可变类平均法谱系聚类图
2.4离差平方和法
图207种元素离差平方和法聚类历史图
由图20可知,离差平方和法聚类结果与前三种方法结果也相同,较合适的分法是将7种元素分为四类和五类。
SAS绘制的NCL=4,5时的谱系聚类图和分类结果图如下所示。
图217种元素离差平方和法谱系聚类图
图22分为四类时7种元素聚类结果图
图23分为五类时7种元素聚类结果图
2.4综合分析
综上所述,四种分类方法结果相同,合适的分法是将7种元素分为四类和五类。
分为四类时,分类结果如下
;
分为五类时,分类结果如下
。
6-11设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。
对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据见表2,试用几种系统聚类方法进行聚类分析,给出综合的分析结果,并与实际情况进行比较。
表2岩石化学成分的含量数据
类型
序号
Cu
Ag
Bi
类型
序号
Cu
Ag
Bi
含
矿
1
2.58
0.90
0.95
不
含
矿
8
2.25
1.98
1.06
2
2.90
1.23
1.00
9
2.16
1.80
1.06
3
3.55
1.15
1.00
10
2.33
1.74
1.10
4
2.35
1.15
0.79
11
1.96
1.48
1.04
5
3.54
1.85
0.79
12
1.94
1.40
1.00
6
2.70
2.23
1.30
13
3.00
1.30
1.00
7
2.70
1.70
0.48
14
2.78
1.70
1.48
问题求解
1多种系统聚类方法分析数据
系统聚类的方法分别使用类平均法(AVE)、可变类平均法(FLE)和离差平方合法(WARD)。
使用SAS软件CLUSTER过程对数据进行聚类分析(程序见附录3)。
1.1类平均法
图1类平均法聚类历史
由图1可知,类平均法聚类结果中NCL=1时半偏R2最大,NCL>1时半偏R2明显减小且缓慢递减;伪F统计量在NCL=2时的值大于NCL=3时的值;而伪t方统计量在NCL=1时的值明显大于NCL=2时的值。
因此,将14块岩石标本分为两组较为合适。
SAS绘制的谱系聚类图及聚类结果图如下所示。
图2类平均法谱系聚类图
图3类平均法聚类结果图
1.2可变类平均法
图4可变类平均法聚类历史
由图4可知,可变类平均法聚类结果同类平均法结果基本一致。
因此,将14块岩石标本分为两组较为合适。
SAS绘制的谱系聚类图如下所示,聚类结果与类平均法相同(见图3)。
图5可变类平均法谱系聚类图
1.3离差平方和法
图6离差平方和法聚类历史
由图6可知,离差平方和法聚类结果同前两种方法基本一致。
因此,同样将14块岩石标本分为两组较为合适。
SAS绘制的谱系聚类图如下所示,聚类结果见图8。
图7离差平方和法谱系聚类图
图8离差平方和法聚类结果
2综合分析
综上所述,三种系统聚类法得到的聚类结果完全一致。
分类结果如下
。
因此,可以发现样品6、13分类有误。
样品13应当归为G1含矿类;而样品6应当归为G2不含矿。
6-12某城市的环保监测站于1982年在全市均匀地布置了16个监测点,每日三次定时抽取大气样品,测量大气中二氧化硫,氮氧化物和飘尘的含量。
前后5天,每个取样点(监测点)对每重污染元素实测15次,取15次实测值的平均作为该养点大气污染元素的含量数据见表3。
试用几种系统聚类方法进行聚类分析,并给出综合的分析结果。
表3大气污染数据
污染元素
样品号
二氧化硫
(X1)
氮氧化物
(X2)
飘尘
(X3)
类别
1
0.045
0.043
0.265
2
2
0.066
0.039
0.264
2
3
0.094
0.061
0.194
2
4
0.003
0.003
0.102
3
5
0.048
0.015
0.106
3
6
0.210
0.066
0.263
1
7
0.086
0.072
0.274
2
8
0.196
0.072
0.211
1
9
0.187
0.082
0.301
1
10
0.053
0.060
0.209
2
11
0.020
0.008
0.112
3
12
0.035
0.015
0.170
3
13
0.205
0.068
0.284
1
14
0.088
0.058
0.215
2
15
0.101
0.052
0.181
16
0.045
0.005
0.122
问题求解
1系统聚类分析
系统聚类的方法分别使用类平均法(AVE)和离差平方合法(WARD)。
使用SAS软件CLUSTER过程对数据进行聚类分析(程序见附录4)。
1.1类平均法
图1类平均法聚类历史图
由图1可知,类平均法聚类结果中NCL=1,2时半偏R2分别为最大、次大;伪F统计量在NCL=3,4时分别为最大、次大(NCL<6);而伪t方统计量在NCL=1,2时的值分别为最大、次大。
因此,将16个样品划分为三组较为合适。
SAS绘制的谱系聚类图及聚类结果图如下所示。
图2类平均法谱系聚类图
图3类平均法聚类结果图
1.2离差平方和法
图4离差平方和法聚类历史图
由图4可知,离差平方和法聚类结果与类平均法一致。
NCL=1,2时半偏R2分别为最大、次大;伪F统计量在NCL=3,4时分别为最大、次大(NCL<6);而伪t方统计量在NCL=1,2时的值分别为最大、次大。
因此,将16个样品划分为三组较为合适。
SAS绘制的谱系聚类图及聚类结果图如下所示。
图5离差平方和法谱系聚类图
图6离差平方和法聚类结果图
2综合分析
离差平方和法与平均法分类结果相同
。
原始的样品分组情况如表4所示。
表4样品原始分组情况
样品号
类别
样品号
类别
6
1
7
2
8
1
10
2
9
1
14
2
13
1
4
3
1
2
5
3
2
2
11
3
3
2
12
3
表1中样品的原始分组与离差平方和法和类平均法进行系统聚类分析得到的结果完全一致。
因此,可以认为离差平方和法和类平均法得到的分类能有效应用到样品15、16,它们应分别归为2、3类。
附录
_____________________________________1(6-10问题1SAS程序)
datad610;
inputgroup$x1-x7@@;
cards;
10.057985.515347.121.918586174261.69
20.084413.97347.219.71794720002440
30.072171.15354.853.052386014459497
40.15011.702307.515.031229014616380
55.7442.854229.69.6578099126612520
60.2130.7058240.313.91898028204135
;
procprintdata=d610;
run;
procclusterdata=d610method=avestdpseudoccc
outtree=b610;
varx1-x7;
idgroup;
proctreedata=b610horizontalgraphics;
title'使用类平均法的谱系聚类图';
run;
title;
procclusterdata=d610method=medstdpseudoccc
outtree=b610;
varx1-x7;
idgroup;
proctreedata=b610horizontalgraphics;
title'使用中间距离法的谱系聚类图';
run;
title;
procclusterdata=d610method=flestdpseudoccc
outtree=b610;
varx1-x7;
idgroup;
proctreedata=b610horizontalgraphics;
title'使用可变类平均法的谱系聚类图';
run;
title;
procclusterdata=d610method=wardstdpseudoccc
outtree=b610;
varx1-x7;
idgroup;
proctreedata=b610horizontalgraphicsn=2out=c610;
copygroupx1-x7;
title'使用Ward法的谱系聚类图';
run;
title'使用Ward法';
procsortdata=c610;
bycluster;
run;
procprintdata=c610;
varclustergroupx1-x7;
run;
procmeansdata=c610;
bycluster;
varx1-x7;
run;
quit;
_____________________________________2(6-10问题2SAS程序)
datad6101;
inputgroup$x1-x6@@;
cards;
Ag0.057980.084410.072170.15015.7440.213
Al5.5153.971.1531.7022.8540.7058
Cu347.1347.254.85307.5229.6240.3
Ca21.9119.713.05215.039.65713.91
Sb8586794738601229080998980
Bi174220001445146112662820
Sn61.69244094976380125204135
;
procprintdata=d6101;
run;
procclusterdata=d6101method=avestdpseudoccc
outtree=b6101;
varx1-x6;
idgroup;
proctreedata=b6101horizontalgraphics;
title'使用类平均法的谱系聚类图';
run;
title;
procclusterdata=d6101method=medstdpseudoccc
outtree=b6101;
varx1-x6;
idgroup;
proctreedata=b6101horizontalgraphics;
title'使用中间距离法的谱系聚类图';
run;
title;
procclusterdata=d6101method=flestdpseudoccc
outtree=b6101;
varx1-x6;
idgroup;
proctreedata=b6101horizontalgraphics;
title'使用可变类平均法的谱系聚类图';
run;
title;
procclusterdata=d6101method=wardstdpseudoccc
outtree=b6101;
varx1-x6;
idgroup;
proctreedata=b6101horizontalgraphicsn=?
out=c6101;/*?
=4/5*/
copygroupx1-x6;
title'使用Ward法的谱系聚类图';
run;
title'使用Ward法';
procsortdata=c6101;
bycluster;
run;
procprintdata=c6101;
varclustergroupx1-x6;
run;
procmeansdata=c6101;
bycluster;
varx1-x6;
run;
quit;
_____________________________________3(6-11SAS程序)
datad611;
inputgroup$x1-x3@@;
cards;
12.580.90.95
22.91.231
33.551.151
42.351.150.79
53.541.850.79
62.72.231.3
72.71.70.48
82.251.981.06
92.161.81.06
102.331.741.1
111.961.481.04
121.941.41
1331.31
142.781.71.48
;
procprintdata=d611;
run;
procclusterdata=d611method=avestdpseudoccc
outtree=b611;
varx1-x3;
idgroup;
proctreedata=b611horizontalgraphicsout=c1ncl=2;
run;
procprintdata=c1;
run;
procclusterdata=d611method=flestdpseudoccc
outtree=b611;
varx1-x3;
idgroup;
proctreedata=b611horizontalgraphicsout=c2ncl=2;
run;
procprintdata=c2;
run;
procclusterdata=d611method=wardstdpseudoccc
outtree=b611;
varx1-x3;
idgroup;
proctreedata=b611horizontalgraphicsn=2out=c611;
copygroupx1-x3;
run;
procsortdata=c611;
bycluster;
run;
procprintdata=c611;
varclustergroupx1-x3;
run;
procmeansdata=c611;
bycluster;
varx1-x3;
run;
quit;
_____________________________________4(6-12SAS程序)
datad612;
inputgroup$x1-x3;
cards;
10.0450.0430.265
20.0660.0390.264
30.0940.0610.194
40.0030.0030.102
50.0480.0150.106
60.210.0660.263
70.0860.0720.274
80.1960.0720.211
90.1870.0820.301
100.0530.060.209
110.020.0080.112
120.0350.0150.17
130.2050.0680.284
140.0880.0580.215
150.1010.0520.181
160.0450.0050.122
;
procprintdata=d612;
run;
procclusterdata=d612method=avestdpseudoccc
outtree=b612;
varx1-x3;
idgroup;
proctreedata=b612horizontalgraphicsout=c612ncl=3;
run;
procprintdata=c612;
run;
procclusterdata=d612method=wardstdpseudoccc
outtree=b612;
varx1-x3;
idgroup;
proctreedata=b612horizontalgraphicsn=3out=c612;
copygroupx1-x3;
run;
procsortdata=c612;
bycluster;
run;
procprintdata=c612;
varclustergroupx1-x3;
run;
procmeansdata=c612;
bycluster;
varx1-x3;
run;
quit;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 SAS 作业 第六