回归判别分析.docx
- 文档编号:29756245
- 上传时间:2023-07-26
- 格式:DOCX
- 页数:15
- 大小:804.92KB
回归判别分析.docx
《回归判别分析.docx》由会员分享,可在线阅读,更多相关《回归判别分析.docx(15页珍藏版)》请在冰豆网上搜索。
回归判别分析
天津理工大学实验报告
学院(系)名称:
计算机与通信工程学院
姓名
学号
专业
班级
实验项目
回归分析与判别分析
课程名称
数据分析及其应用软件
课程代码
0665106
实验时间
2016年4月6号3、4节,中午
实验地点
7号楼216
批改意见
成绩
教师签字:
实验内容:
回归分析:
1.研究货运总量
(万吨)与工业总值
(亿元)、农业总产值
(亿元)、居民非商品支出
(亿元)的关系。
数据见下表
编号
货运总量Y
工业总产值x1
农业总产值x2
居民非商品支出x3
1
160
70
35
1.0
2
260
75
40
2.4
3
210
65
40
2.0
4
265
74
42
3.0
5
240
72
38
1.2
6
220
68
45
1.5
7
275
78
42
4.0
8
160
66
36
2.0
9
275
70
44
3.2
10
250
65
42
3.0
设变量x1表示工业总产值,变量x2表示农业总产值,变量x3表示居民非商品支出,y表示货运总量。
假设因变量y和自变量x1,x2,x3的线性回归模型为
判别分析:
2.为研究某地区人口死亡状况,已按某种方法将15个已知样品分为3类,指标及原始数据如下表。
利用费歇线性判别函数,判定另外4个待判样品属于哪一类?
某地区人口死亡状况指标及原始数据表
组别
序号
X1=0岁组死亡概率
X2=1岁组死亡概率
X3=10岁组死亡概率
X4=55岁组死亡概率
X5=80岁组死亡概率
X6=平均预期寿命
第一组
1
34.16
7.44
1.12
7.87
95.19
69.3
2
33.06
6.34
1.08
6.77
94.08
69.7
3
36.26
9.24
1.04
8.97
97.3
68.8
4
40.17
13.45
1.43
13.88
101.2
66.2
5
50.06
23.03
2.83
23.74
112.52
63.3
第二组
1
33.24
6.24
1.18
22.9
160.01
65.4
2
32.22
4.22
1.06
20.7
124.7
68.7
3
41.15
10.08
2.32
32.84
172.06
65.85
4
53.04
25.74
4.06
34.87
152.03
63.5
5
38.03
11.2
6.07
27.84
146.32
66.8
第三组
1
34.03
5.41
0.07
5.2
90.1
69.5
2
32.11
3.02
0.09
3.14
85.15
70.8
3
44.12
15.12
1.08
15.15
103.12
64.8
4
54.17
25.03
2.11
25.15
110.14
63.7
5
28.07
2.01
0.07
3.02
81.22
68.3
待判样品
1
50.22
6.66
1.08
22.54
170.6
65.2
2
34.64
7.33
1.11
7.78
95.16
69.3
3
33.42
6.22
1.12
22.95
160.31
68.3
4
44.02
15.36
1.07
16.45
105.3
64.2
实验结果分析:
回归分析:
(1)描述统计量的结果,显示变量y和x1,x2,x3的均数、标准差和例数(N)。
(2)相关分析的结果,货运总量和农业总产值,货运总量和居民非商品住处的相关系数分别为0.731,0.724,单尾单侧检验分别为P=0.008,P=0.009,相关程度高。
(3)模型摘要,相关系数为R=0.898,判定系数为RSquare=0.806,调整判定系数AdjustedRSquare=0.708,估计值的标准误差Std.ErroroftheEstimate=1.391
(4)方差分析结果,回归的均方RegressionMeanSquare=4551.790,残差的均方ResidualMeanSquare=549.522,F=8.283,P=0.015<0.05,所以线性回归方程显著。
(5)偏回归系数结果,常数项(Constant)=-348.280,工业总产值回归系数=3.754,回归系数的标准误差=1.933,回归系数的t检验值=0.385,P=0.100,农业总产值回归系数=7.101,回归系数的标准误差=2.880,回归系数的t检验值为2.465,P=0.049,居民非商品支出回归系数=12.477,回归系数的标准误差=10.569,回归系数的t检验值为1.178,P=0.284。
故求的回归方程为y=-348.280+3.754
+7.101
+12.447
(6)残差直方图,正态曲线被加载到直方图上,判断标准化残差呈正态分布。
(7)save结果,增加新变量到正在使用的数据文件。
判别分析:
(1)将数据导入SPSS,根据要求,采用系统聚类方法,在SPSS中选择分析-分类-判别分析:
(2)进行判别分析,将X1到X6全部选入自变量中,分组变量为组别,如图:
(3)在统计量选项中选择均值,单变量,Box’sM等,如图,分类选项中勾选个案、摘要:
(4)检验各组的描述统计量和对各组均值是否相等:
表1反映的是有效样本量为15,变量的缺失值为4。
表2是对各组均值是否相等的检验,根据P值,我们可以在0.01的显著性水平上拒绝X4与X5在三组的均值相等的假设,即认为变量X4、X5在三组的均值是有显著差异的。
(5)典型判别函数:
由表3可以得出:
第一判别函数解释了98.8%的方差,第二判别函数解释了1.2%的方差,两个判别函数解释了全部的方差。
表4是对两个判别函数的显著性检验,由Wilkins’Lambd检验,在0.05的显著性水平上,根据P值可以得到,第一个判别函数是显著的,第二个判别函数是不显著的。
(6)判别函数、判别载荷和各组的重心:
表5是标准化的判别函数,表示为:
Y1=-17.046X1+14.757X2-1.306X3+6.381X4+1.332X5+4.315X6
Y2=-7.677X1+9.870X2-0.531X3-0.666X4+0.710X5+1.833X6
表6位结构矩阵,即判别载荷,表四是反映判别函数在各组的重心
表7是非标准化的判别函数,表示为:
Y1=-78.896-1.950X1+1.748X2-0.930X3+0.825X4+0.102X5+1.662X6
Y2=-30.330-0.878X1+1.169X2-0.365X3-0.086X4+0.054X5+0.706X6
(7)分类的统计结果:
表8是每组的分类函数,也称费歇线性判别函数,三组的分类函数表示为:
Y1=-5628.382-159.015X1+168.068X2-98.413X3+58.217X4+11.702X5+202.770X6
Y2=-6584.377-181.479X1+187.715X2-109.195X3-68.296X4+12.862X5+221.972X6
Y3=-5266.780-149.370X1+158.749X2-93.908X3+54.948X4+11.185X5+194.625X6
可以根据计算每个观测在各组的分类函数值,将观测分类到较大的分类函数值中。
表9位分类矩阵表,通过判别函数的预测,根据原数据的所属组关系,3组观测全被判对,未分组的变量中有一个待判样品判给第一组,有一个待判样品判给第二组,有两个待判样品判给第三组。
在交叉验证中,第一组5个样品全部被判为对,第二组5个样品观测有4个被判对,第三组5个样品观测中有3个被判对。
根据图6的分类结果可以看出:
第二组样品与第一组样品和第三组样品可以很清晰地区分开,而第一组与第三组样品存在重合区域,即存在误判。
根据上表CasewiseStatistic结果可以得出:
将待判样品1判给第三组,经待判样品2判给第一组,将待判样品3判给第二组,将待判样品4判给第三组。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 判别分析