实验4相关分析与回归分析.docx
- 文档编号:9218147
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:40
- 大小:1.08MB
实验4相关分析与回归分析.docx
《实验4相关分析与回归分析.docx》由会员分享,可在线阅读,更多相关《实验4相关分析与回归分析.docx(40页珍藏版)》请在冰豆网上搜索。
实验4相关分析与回归分析
实验四相关分析与回归分析
【实验项目】419023003-04
【实验目的与要求】
1、掌握利用SPSS软件进行简单相关分析,偏相关分析的基本方法
2、掌握利用SPSS软件进行回归分析的基本方法,包括一元线性回归分析,多元线性回归分析,非线性回归分析(曲线估计)
【实验内容】
1、相关分析
2、偏相关分析
3、一元线性回归分析
4、多元线性回归分析
5、非线性回归分析
【实验步骤】
SPSS中的相关分析功能在【分析】→【相关】中实现(图4.1),可以进行“双变量相关分析”、“偏相关分析”和“距离分析”。
图4.1“相关分析”功能菜单
双变量相关分析用于进行两个/多个变量间的参数/非参数相关分析,主要用于分析两个变量之间是否存在相关关系,如果是多个变量,则给出两两相关的分析结果。
这是相关分析最为常用功能,占到相关分析的95%以上。
下面的讲述也以该过程为主。
双变量相关分析中,Person相关系数用于度量定距连续变量间的相关性,如测度收入和储蓄,身高和体重的关系:
Kendalltau-b相关系数则用非参数检验方法来度量定序变量间的线性相关关系,如计算基于数据的秩:
其中V为利用变量的秩计算得到的非一致对数目。
Spearman等级相关系数用于度量定序变量间的相关性,如军队教员的军衔与职称。
一般情况下选择Person相关系数。
偏相关分析如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。
距离相关分析对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。
该过程在实际应用中用的非常少。
在进行相关分析的过程中还可以计算均数和标准差等基本统计量。
一、相关分析
为了估计山上积雪溶化后对河流下游灌溉的影响,在山上建立观测站,测得连续10年的最大积雪深度和灌溉面积数据(表4.1)。
本实验应用SPSS相关分析方法分析最大积雪深度与灌溉面积之间的关系。
表4.1连续10年的最大积雪深度和灌溉面积
年份
最大积雪深度(米)
灌溉面积(千亩)
1971
15.2
28.6
1972
10.4
19.3
1973
21.2
40.5
1974
18.6
35.6
1975
26.4
48.9
1976
23.4
45.0
1977
13.5
29.2
1978
16.7
34.1
1979
24.0
46.7
1980
19.1
37.4
操作步骤
1、在Excel中录入表4.1数据。
图4.1Excel中录入的数据
2、启动SPSS,打开在Excel中录入的数据(图4.2)。
图4.2SPSS打开Excel中录入的数据
3、【分析】→【相关】→【双变量…】,在弹出的“双变量相关”对话框(图4.3)中,将左边栏三个变量中的“最大积雪深度”与“灌溉面积”两个变量通过图示中的箭头输入到右边栏“变量”列表框中。
相关系数选择“Pearson”,显著性检验选择“双侧检验”,选中标记显著性相关后,在0.05水平显著的相关系数用单个星号“*”标识,在0.01水平显著的相关系数用两个星号“**”标识。
如果不选择此项,则相关系数检验的显著性不用星号“*”标识。
图4.3“双变量相关”对话框中相应选项
4、单击“双变量相关”对话框中右边“选项”按钮,弹出“双变量相关性:
选项”对话框(图4.4),选中统计量中两个选择项,缺失值选择默认。
点击“继续”按钮,回到“双变量相关”对话框(图4.3右),点击“确定”。
图4.4“双变量相关性:
选项”对话框
5、在弹出的输出窗口中,左边栏是输出内容列表(图4.5),右边栏是相关内容的详细信息,其中描述性统计量和相关性以表格的形式给出(表4.2、表4.3)。
双击这两张表格可以对其进行修改。
从表4.3可以看出两个变量的相关系数0.989,在0.01水平(双侧)上显著相关。
图4.5输出内容列表
表4.2描述性统计量
均值
标准差
N
最大积雪深度(米)
18.850
5.0315
10
灌溉面积(千亩)
36.530
9.2193
10
表4.3相关性
最大积雪深度(米)
灌溉面积(千亩)
最大积雪深度(米)
Pearson相关性
1
.989**
显著性(双侧)
.000
平方与叉积的和
227.845
413.065
协方差
25.316
45.896
N
10
10
灌溉面积(千亩)
Pearson相关性
.989**
1
显著性(双侧)
.000
平方与叉积的和
413.065
764.961
协方差
45.896
84.996
N
10
10
**.在.01水平(双侧)上显著相关。
二、偏相关分析
某农场通过试验取得某农作物产量与春季降雨量和平均气温的数据,如表4.4所示。
在研究早稻产量与平均降雨量、平均气温之间的关系时,产量和平均降雨量之间的关系中实际还包含平均气温对产量的影响,同时平均降雨量对平均气温也会产生影响。
因此,单纯计算简单相关系数,显然不能准确地反映事物之间的相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。
偏相关分析正是用来解决这个问题的。
现以表4.4中数据为例求降雨量对产量的偏相关。
表4.4某农场早稻产量与降雨量和气温之间的关系
早稻产量(kg)
降雨量(mm)
气温(℃)
150
25
6
230
33
8
300
45
10
450
105
13
480
111
14
500
115
16
550
120
17
580
120
18
600
125
18
600
130
20
操作步骤
1、在Excel中录入表4.4数据。
启动SPSS,打开在Excel中录入的数据。
2、【分析】→【相关】→【偏相关…】,在弹出的“偏相关”对话框(图4.3)中,将左边栏三个变量中的“早稻产量”与“降雨量”两个变量通过图示中的箭头输入到右边栏“变量”列表框中,将“平均气温”输入到“控制”列表框中。
显著性检验选择“双侧检验”,不选中显示实际显著性水平。
图4.6“偏相关”对话框中相应选项
3、单击右边“选项”按钮,弹出“偏相关:
选项”对话框(图4.7),选中统计量中两个选择项,缺失值选择默认。
点击“继续”按钮,回到“偏相关”对话框(图4.6),点击“确定”。
图4.7“偏相关:
选项”对话框
4、在弹出的输出窗口中,左边栏是输出内容列表(图4.8),右边栏是相关内容的详细信息,其中描述性统计量和相关性以表格的形式给出(表4.5、表4.6)。
双击这两张表格可以对其进行修改。
根据有无控制变量,表4.6分为两部分,当无控制变量时,得到的实际上就是三个变量两两之间的双变量相关系数(即Pearson相关系数),在0.01水平上显著相关;当将“平均气温”作为控制变量时,早稻产量与降雨量之间的偏相关系数为0.780,在0.05水平上显著相关。
图4.8输出内容列表
表4.5描述性统计量
均值
标准差
N
早稻产量
444.00
161.878
10
降雨量
92.90
41.273
10
平均气温
14.00
4.690
10
表4.6相关性
控制变量
早稻产量(kg)
降雨量(mm)
气温(℃)
-无-a
早稻产量(kg)
相关性
1.000
.981**
.986**
降雨量(mm)
相关性
.981**
1.000
.957**
气温(℃)
相关性
.986**
.957**
1.000
气温(℃)
早稻产量(kg)
相关性
1.000
.780*
降雨量(mm)
相关性
.780*
1.000
a.单元格包含零阶(Pearson)相关。
**.在0.01水平上显著相关
*.在0.05水平上显著相关
三、一元线性回归分析
操作步骤
仍以表4.1数据为例说明建立一元线性回归模型的方法。
1、在Excel中录入表4.1数据。
启动SPSS,打开在Excel中录入的数据。
2、作散点图与线性趋势判定
2.1【图形】→【旧对话框】→【散点/点状…】(图4.9)。
图4.9“散点/点状”命令
2.2在弹出的“散点图/点图”对话框中选择“简单分布”(图4.10),点击“定义”。
图4.10“散点图/点图”对话框
2.3在弹出的“简单散点图”对话框(图4.11)中,设置X轴、Y轴对应的变量,点击“标题”,在“标题”对话框中输入标题(图4.12),点击“继续”,返回到“简单散点图”对话框(图4.11),点击“确定”。
图4.11“简单散点图”对话框
图4.12“标题”对话框
2.4在输出窗口中已绘制出“最大积雪面积与灌溉面积的关系”散点图(图4.13)。
图4.13“最大积雪面积与灌溉面积的关系”散点图
2.5散点图编辑双击“最大积雪面积与灌溉面积的关系”散点图,通过“图表编辑器”(图4.14左)可以对散点图进行编辑。
修改坐标轴左键单击Y轴上的刻度值,单击右键弹出快捷方式,选择“属性窗口”,在弹出的“属性”对话框(图4.14右)中对坐标轴进行修改,在“刻度”选项中将最小值改为0。
图4.14“图表编辑器”对话框和坐标轴“属性窗口”
修改坐标轴标题单击左键两次(注意:
非双击)Y轴标题“灌溉面积千亩”,对其进行修改成“灌溉面积(千亩)”。
可以对X轴标题做相应修改。
修改图表在散点图上单击右键,选择“属性窗口”,在弹出的图表属性窗口(图4.15)中可以对图表大小、填充和边框和变量进行修改。
图4.15图表“属性窗口”
修改标记在散点图的标记上单击右键,选择“属性窗口”,在弹出的标记属性窗口(图4.16)中可以对图表大小、标记、花序和变量进行修改。
图4.16对标记进行修改
添加拟合线在散点图上单击右键,在出现的快捷方式中选择“添加总计拟合线”(图4.17),在弹出的拟合线属性窗口(图4.18)中可以对拟合线的宽度、样式、颜色、拟合方法和置信区间进行修改。
图4.17“添加总计拟合线”快捷方式
图4.18对拟合线进行修改
修改图例在散点图右侧图例“R2线性=0.979”上单击右键,在弹出的快捷方式中选择属性窗口(图4.19),在弹出的图例属性窗口(图4.20)中可以对图例的文本布局、文本样式、填充和边框等进行修改。
也可以移动图例的位置。
图4.19图例修改快捷方式
图4.20对图例进行修改
通过一系列修改,最后的散点图如图4.21所示,当然也可以对散点图进行不同于图4.21的修改。
对散点图的其它要素的修改也可以通过图表编辑器(图4.14左)的菜单和图标等进行修改。
图4.21修改后的散点图
3、回归
3.1【分析】→【回归】→【线性…】(图4.22)。
图4.22“线性回归”命令
3.2定义变量在弹出的“线性回归”对话框(图4.23)中定义因变量(灌溉面积)和自变量(最大积雪面积)。
图4.23“线性回归”对话框
3.3设置回归选项点击右侧“统计量”按钮,在“线性回归:
统计量”对话框(图4.24)中选中回归系数项下的“估计”、残差项下的Durbin-Watson(这一项将给出DW值),其余取默认值,如选中模型拟合度,这一项将给出回归参数。
点击“继续”回到“线性回归”对话框(图4.23)。
图4.24“线性回归:
统计量”对话框
点击图4.23右侧的“绘制”按钮,在“线性回归:
图”对话框(图4.25)中选中标准化残差图项下选中直方图和和正态概率图。
这两项将给出标准残差的频率直方图和及其正态分布的累计概率图。
单击“继续”回到“线性回归”对话框(图4.23)。
图4.25“线性回归:
图”对话框
点击图4.23右侧的“保存”按钮,在“线性回归:
保存”对话框(图4.26)中选中预测值项下的“未标准化”和残差项下的“未标准化”。
这两项将在原始表格数据中加上两列,变量名称分别为“PRE_1”和“RES_1”,对应于通过回归模型计算得到的预测值、预测值与原始值的残差。
其它选项可以不管:
有些选项是用于多元线性回归或逐步回归的,在一元线性回归中根本用不到;有些选项是用于特定场合保存文件的;还有一些选项只有做更细致的统计分析是才会用上。
单击“继续”回到“线性回归”对话框(图4.23)。
图4.26“线性回归:
保存”对话框
3.4回归结果根据前述设定获得的回归结果如图4.27所示,主要包括五个表格(输入/移去的变量、模型汇总、Anova(方差分析AnalysisofVariance)、系数和残差统计量)和两张图(直方图和正态概率图)。
图4.27回归结果主要内容
3.4结果解读与模型检验
3.4.1回归系数从表4.7中很容易读出回归系数:
截距a=2.356,斜率b=1.813。
即一元线性回归模型为
表4.7系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
2.356
1.828
1.289
.233
最大积雪深度米
1.813
.094
.989
19.286
.000
a.因变量:
灌溉面积千亩
3.4.2模型检验通过输出结果的表(表4.8、4.9、4.10、4.11)可以获得模型检验需要的统计量,主要包括:
表4.8模型汇总b
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.989a
.979
.976
1.4189
.751
a.预测变量:
(常量),最大积雪深度米。
b.因变量:
灌溉面积千亩
表4.9Anovab
模型
平方和
df
均方
F
Sig.
1
回归
748.854
1
748.854
371.945
.000a
残差
16.107
8
2.013
总计
764.961
9
a.预测变量:
(常量),最大积雪深度米。
b.因变量:
灌溉面积千亩
表4.10残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
21.211
50.218
36.530
9.1217
10
残差
-1.9108
2.3691
.0000
1.3378
10
标准预测值
-1.679
1.501
.000
1.000
10
标准残差
-1.347
1.670
.000
.943
10
a.因变量:
灌溉面积千亩
模型拟合度检验统计量:
从表4.8得到模型相关系数R=0.989,测定系数R2=0.979。
F-检验统计量:
从表4.9中得到,为371.945。
t-检验统计量:
从表4.7得到斜率的t值,为19.286。
DW检验统计量:
从表4.8得到,为0.751。
标准误差检验统计量(变异系数):
从表4.8中得到标准差为1.419,从表表4.10中得到y的均值为36.530,因此可得到变异系数为
得到各种检验统计量后,查阅相应表格,确定回归模型是否通过检验。
3.4.3预测值与残差值在图4.26“线性回归:
保存”对话框进行了保存预测值和残差的设定,原始数据表格自动增加了两列,变量名称分别为“PRE_1”和“RES_1”(图4.28)。
图4.28增加了“预测值”和“残差”的数据表格
3.4.4回归结果可靠程度判断根据残差分布的直方图(图4.29)和残差正态分布的累计概率图(图4.30)可以判断回归结果可靠程度的高低。
图4.29残差分布的直方图
图4.30残差正态分布的累计概率图
一般来讲,残差分布的直方图越是具有正态分布即钟形曲线(bell-likecurve)特征(图4.29),表明残差分布越是随机,回归结果越可靠。
残差分布的累计概率越是接近对角线(图4.30),表明残差分布越是随机,回归结果越可靠。
四、多元线性回归分析
本实验利用某省工业产值、农业产值、固定资产投资和运输业产值的统计数据(表4.11),分析该省工业产值、农业产值与固定资产投资对运输业产值的影响为例予以说明多元线性回归分析方法。
表4.11某省工业产值、农业产值、固定资产投资和运输业产值的统计数据
序号
年份
工业产值x1
农业产值x2
固定资产投资x3
运输业产值y
1
1970
57.82
27.05
14.54
3.09
2
1971
58.05
28.89
16.83
3.40
3
1972
59.15
33.02
12.26
3.88
4
1973
63.83
35.23
12.87
3.90
5
1974
65.36
24.94
11.65
3.22
6
1975
67.26
32.95
12.87
3.76
7
1976
66.92
30.35
10.80
3.59
8
1977
67.79
38.70
10.93
4.03
9
1978
75.65
47.99
14.71
4.34
10
1979
80.57
54.18
17.56
4.65
11
1980
79.02
58.73
20.32
4.78
12
1981
80.52
59.85
18.67
5.04
13
1982
86.88
64.57
25.34
5.59
14
1983
95.48
70.97
25.06
6.01
15
1984
109.71
81.54
29.69
7.03
16
1985
126.50
94.01
43.86
10.03
17
1986
138.89
103.23
48.90
10.83
18
1987
160.56
119.33
60.98
12.90
操作步骤
1、录入或调入数据,此处不再赘述。
2、多元线性回归分析的过程与一元线性回归分析的过程大致相似,差别在于多元线性回归分析需要定义多个自变量。
【分析】→【回归】→【线性…】调出“线性回归”对话框(图4.31),定义“运输业产值”为因变量,定义“工业产值”、“农业产值”和“固定资产投资”为自变量。
单击“统计量”,在“线性回归:
统计量”对话框中的选择如图4.32所示。
同理,单击“绘制”,在“线性回归:
图”对话框的选择如图4.33所示;单击“保存”,在“线性回归:
保存”对话框的选择如图4.34所示,其他的选择默认。
单击“继续”,回到“线性回归”对话框(图4.31),单击“确定”。
图4.31“线性回归”对话框
图4.32“线性回归:
统计量”对话框
图4.33“线性回归:
图”对话框
图4.34“线性回归:
保存”对话框
3、在原始数据的表格中新增了四个变量,名称分别为“PRE_1”、“RES_1”、“ZPR_1”、“ZRE_1”(图4.35),分别对应“运输业产值预测值”、“残差值”、“标准化的运输业产值预测值”和“标准化的残差”,在“变量视图”窗口中作相应的修改(图4.36),在“数据视图”窗口中可以查看修改后的数据表格(图4.37)。
图4.35数据表格中新增的四个变量
图4.36“变量视图”窗口中所做的修改
图4.37在“数据视图”窗口中查看所做的修改
4、在输出窗口相应的表格中查看回归分析所需要的参数:
表4.12模型汇总b
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.994a
.989
.986
.33543
1.853
a.预测变量:
(常量),固定资产投资x3,农业产值x2,工业产值x1。
b.因变量:
运输业产值y
从表4.12中可以看出:
复相关系数R=0.994、测定系数R2=0.989、估计的标准误差s=0.3354以及DW值DW=1.853。
表4.13Anovab
模型
平方和
df
均方
F
Sig.
1
回归
136.896
3
45.632
405.580
.000a
残差
1.575
14
.113
总计
138.471
17
a.预测变量:
(常量),固定资产投资x3,农业产值x2,工业产值x1。
b.因变量:
运输业产值y
从表4.13中可以看出:
回归平方和SSr=136.896,剩余平方和SSe=1.575,总平方和SSt=138.471,显然R=SSr/SSt=0.994。
同时可以读到F=405.580。
顺便说明,df为degreeoffreedom的简称:
3为回归自由度,等于变量个数k;14为剩余自由度;17为总自由度,等于n-1即样本个数减1。
易见回归自由度+剩余自由度=总自由度。
我们在各种检验参数用到的自由度为剩余自由度,即v=n-k-1。
在本例中,v=18-3-1=14。
各种检验都要根据剩余自由度和变量个数判定临界值。
从表4.14中可以得出回归分析模型中的回归系数,a=−1.004,b1=0.05533,b2=-0.00402,b3=0.09069,以及回归系数对应的标准误差(Std.Error)。
据此可以建立回归模型:
从表4.14中还可以得出零阶相关系数,即各个自变量与因变量的简单相关系数:
工业产值与运输业产值的线性相关系数为0.989,农业产值与运输业产值的线性相关系数为0.965,固定资产投资与运输业产值的线性相关系数为0.987。
与之对应的还有偏相关系数和部分相关系数(对于一元线性回归而言,这三个相关系数是相等的)。
表4.15残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
3.2474
12.9299
5.5594
2.83773
18
残差
-.40058
.63261
.00000
.30439
18
标准预测值
-.815
2.597
.000
1.000
18
标准残差
-1.194
1.886
.000
.907
18
a.因变量:
运输业产值y
下面对图形进行说明,回归标准残差的直方图(图4.38)应该呈正态分布(下图不具备正态曲线的钟形图式);累计概率点列应该沿着对角线分布(图4.39),当且仅当观察的累计概率与预期的累计概率相等时才会形成严格意义的对角线,统计结果给出的坐标图越接近对角线
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验4 相关分析与回归分析 实验 相关 分析 回归