应用多元统计分析SAS作业.docx
- 文档编号:25950851
- 上传时间:2023-06-16
- 格式:DOCX
- 页数:26
- 大小:332.55KB
应用多元统计分析SAS作业.docx
《应用多元统计分析SAS作业.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析SAS作业.docx(26页珍藏版)》请在冰豆网上搜索。
应用多元统计分析SAS作业
5-9设在某地区抽取了
14块岩石标本,其中7块含矿,7块不含矿。
对每块岩石
测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表1。
表1
岩石化学成分的含量数据
类型
序号
Cu
Ag
Bi
类型
序号
Cu
Ag
Bi
1
2.58
0.90
0.95
8
2.25
1.98
1.06
2
2.90
1.23
1.00
9
2.16
1.80
1.06
含
3
3.55
1.15
1.00
不
10
2.33
1.74
1.10
4
2.35
1.15
0.79
含
11
1.96
1.48
1.04
矿
矿
5
3.54
1.85
0.79
12
1.94
1.40
1.00
6
2.70
2.23
1.30
13
3.00
1.30
1.00
7
2.70
1.70
0.48
14
2.78
1.70
1.48
(1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等);
(2)今得一块标本,并测得其Cu,Ag,Bi的含量分别为2.95,2.15和1.54,试判断该标本是含矿还是不含矿?
问题求解
1使用广义平方距离判别法对样本进行判别归类用SAS软件中的DISCRIM过程进行判别归类。
SAS程序及结果如下。
data
d59;
input
groupx1-x3@@;
cards
;
12.58
0.9
0.95
12.91.23
1
13.55
1.15
1
12.35
1.15
0.79
13.54
1.85
0.79
12.72.23
1.3
12.71.70.48
22.25
1.98
1.06
22.16
1.8
1.06
22.33
1.74
1.1
21.96
1.48
1.04
21.94
1.4
1
231.31
22.78
1.7
1.48
;
proc
data=d59;
run
;
proc
discrim
data=d59pool=yesdistance
list;
class
group;
var
x1-x3;
run
;
由输出结果可知,两总体间的广义平方距离为D2=3.19774。
还可知两个三
元总体均值相等的检验结果:
D=3.19774,F=3.10891,p=0.0756<0.10,故在显著
性水平
=0.10时量总体的均值向量有显著差异,即认为讨论这两个三元总体的
判别问题是有意义的。
线性判别函数为:
Y1
31.1105
13.7895Cu
8.2120Ag
11.3311Bi,
Y2
28.7375
10.3139Cu
8.9904Ag
16.8578Bi.
判别结果为含矿的6号样本错判为不含矿;不含矿的13号样本错判为含矿。
2对给定样本判别归类
将Cu,Ag,Bi的含量数值2.95、2.15、1.54分别代入线性判别函数得:
Y144.6742,Y246.97888。
贝叶斯判别的解
D*
D1*,
Dk
*
为
Dt*
X|Yt(X)
Yj(X),j
t,j
1,
k(t
1,
k)
,
由于Y
1
44.67422Y2
46.97888,因此待判的样品判为不含矿。
5-10已知某研究对象分为三类,每个样品考察4项指标,各类的观测样品数分
别为7,4,6;类外还有3
个待判样品(所有观测数据见表
2)。
假定样本均来自正
态总体。
X1
表2
判别分类的数据
样品号
X2
X3
X4
类别号
1
6.0
-11.5
19.0
90.0
1
2
-11.0
-18.5
25.0
-36.0
3
3
90.2
-17.0
17.0
3.0
2
4
-4.0
-15.0
13.0
54.0
1
5
0.0
-14.0
20.0
35.0
2
6
0.5
-11.5
19.0
37.0
3
7
-10.0
-19.0
21.0
-42.0
3
8
0.0
-23.0
5.0
-35.0
1
9
20.0
-22.0
8.0
-20.0
3
10
-100.0
-21.4
7.0
-15.0
1
11
-100.0
-21.5
15.0
-40.0
2
12
13.0
-17.2
18.0
2.0
2
13
-5.0
-18.5
15.0
18.0
1
14
10.0
-18.0
14.0
50.0
1
15
-8.0
-14.0
16.0
56.0
1
16
0.6
-13.0
26.0
21.0
3
17
-40.0
-20.0
22.0
-50.0
3
1
-8.0
-14.0
16.0
56.0
2
92.2
-17.0
18.0
3.0
3
-14.0
-18.5
25.0
-36.0
(1)试用马氏距离判别法进行判别分析,并对
3个待判样品进行判别归类。
(2)使用其他的判别法进行判别分析,并对
3个待判样品进行判别归类,然
后比较之。
问题求解
1判别分析及判别归类
使用SAS软件中的
DISCRIM
过程进行判别归类,
SAS程序及结果如下。
data
d510;
input
x1-x4group@@;
cards;
6
-11.5
19
90
1
-11
-18.5
25
-36
3
90.2
-17
17
3
2
-4
-15
13
54
1
0
-14
20
35
2
0.5
-11.5
19
37
3
-10
-19
21
-42
3
0
-23
5
-35
1
20
-22
8
-20
3
-100
-21.4
7
-15
1
-100
-21.5
15
-40
2
13
-17.2
18
2
2
-5
-18.5
15
18
1
10
-18
14
50
1
-8
-14
16
56
1
0.6
-13
26
21
3
-40
-20
22
-50
3
-8
-14
16
56.
92.2
-17
18
3.
-14
-18.5
25
-36.
;
proc
print;
run
;
proc
discrim
data
=d510simple
pcov
wsscp
psscpwcov
distance
list
;
class
group;
var
x1-x4;
run
;
从结果来看,样本2、3类之间的马氏距离为d212=1.34,检验H0:
(2)(3)的
F统计量为0.63177,相应的p=0.651>0.10,故在显著性水平=0.10时量总体2、
3类的均值向量没有显著差异,即认为对讨论样本分为2、3类的判别问题是没
有太大意义的。
此外,判别结果中两个样本被判错归类:
1类中8号样本应属于2类,2类
中9号样本应属于1类;且待判得三个样本分别属于1,2,3类。
2二次判别函数判别
由第一问SAS运行结果可知三个总体的协方差阵不同,因此使用二次判别函数进行判别。
此时贝叶斯判别的解D*D1*,,Dk*为
Dt*X|Zt(X)Zj(X),jt,j1,,k(t1,,k),
其中
Zj(X)lnqjfj(X)d0
12lnqjlnSjd2j(X)
2
将第一问中SAS程序procdiscrimdata=d510后加入pool=no,使其采用二次
判别函数进行再分类,变动部分程序如下:
procdiscrimdata=d510simplepool=no
distancelist;
程序运行结果如下图。
由此可知,17个观测全部判别正确;待判的三个观测依次判归1,1,3类。
5-11某城市的环保监测站与1982年在全市均匀地布置了14个监测点,每日三年
次定时抽取大气样品,测量大气中的二氧化硫、氮氧化物和飘尘的含量。
前后5天,每个取样点(监测点)每种污染元素实测15次,取15次实测值的平均作为该取样点的大气污染元素的含量(数据见表3)。
表中最后一列给出的类号是使用第六章将介绍的聚类分析方法分析得到的结果(第1类为严重污染地区,第2类为一般污染地区,第3类为基本没有污染地区)。
表3
大气污染数据
污染元素
二氧化硫
氮氧化物
飘尘
类别
样品号
(X1)
(X2)
(X3)
1
0.045
0.043
0.265
2
2
0.066
0.039
0.264
2
3
0.094
0.061
0.194
2
4
0.003
0.003
0.102
3
5
0.048
0.015
0.106
3
6
0.210
0.066
0.263
1
7
0.086
0.072
0.274
2
8
0.196
0.072
0.211
1
9
0.187
0.082
0.301
1
10
0.053
0.060
0.209
2
11
0.020
0.008
0.112
3
12
0.035
0.015
0.170
3
13
0.205
0.068
0.284
1
14
0.088
0.058
0.215
2
15
0.101
0.052
0.181
16
0.045
0.005
0.122
(1)试用广义平方距离判别法建立判别准则(假设三个总体为多元正态总体,其协方差阵相等,先验概率取为各类样本的比例),并列出回判结果。
(2)该城市另有两个单位在同一期间测定了所在单位大气中这三种污染元素的含量(见表3中最后两行),试用马氏距离判别方法判断这两个单位的污染情况属于哪一类。
问题求解
用SAS软件中的DISCRIM过程进行判别归类。
datad511;
input
x1-x3group@@;
cards
;
0.045
0.043
0.265
2
0.066
0.039
0.264
2
0.094
0.061
0.194
2
0.003
0.003
0.102
3
0.048
0.015
0.106
3
0.210
0.066
0.263
1
0.086
0.072
0.274
2
0.196
0.072
0.211
1
0.187
0.082
0.301
1
0.053
0.060
0.209
2
0.020
0.008
0.112
3
0.035
0.015
0.170
3
0.205
0.068
0.284
1
0.088
0.058
0.215
2
0.101
0.052
0.181
.
0.045
0.005
0.122
.
;
proc
print;
run
;
proc
discrim
data=d511simple
distance
list;
class
group;
var
x1-x3;
run
;
由输出结果可知三个三元总体均值相等的检验结果中均满足p<0.10,故在显著性水平=0.10时量总体的均值向量有显著差异,即认为讨论这三个三元总
体的判别问题是有意义的。
判别结果:
14个监测点全部判对。
且待判的两个观测点依次判归
2,3类。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 SAS 作业