相关与回归.docx
- 文档编号:24554001
- 上传时间:2023-05-28
- 格式:DOCX
- 页数:15
- 大小:43.54KB
相关与回归.docx
《相关与回归.docx》由会员分享,可在线阅读,更多相关《相关与回归.docx(15页珍藏版)》请在冰豆网上搜索。
相关与回归
双变量相关与回归分析
(SPSS讲义)
公共卫生学院袁秀琴
在医学科研的过程中,经常会遇到分析两个变量之间关系的研究。
例如,体重与肺活量、年龄与血压、体表面积与身高之间的关系等。
此时经常用相关与回归分析方法来解决。
在进行相关与回归分析之前必须先作散点图,判断两变量之间是否存在线性趋势。
当两变量间存在线性趋势时,才考虑作相关或回归分析。
第一节直线相关
直线相关(LinearCorrelation)又称简单相关,是研究两个变量间线性关系的一种常用统计方法。
分析的是两变量之间是否存在直线相关关系,以及相关的方向和程度。
作直线相关分析要求资料服从双变量正态分布。
直线相关系数又称Pearson相关系数是描述两变量线性相关关系程度和方向的统计量。
对于不符合双变量正态分布资料,不能直接计算Pearson相关系数,可用非参数统计方法,即计算Kendall相关系数或Spearman相关系数。
SPSS相关分析集中在Analyze菜单的correlate子菜单中,该菜单包括三个部分:
Bivariate模块:
主要用于两个或者多个变量间的相关分析。
如果是多个变量,则给出两两变量间相关分析的结果。
该模块是进行相关分析的最常用的模块。
本章要介绍的相关分析就在此模块中进行。
Partial模块;是专门用于偏相关分析,即控制了混杂因素或影响因素后得到的两个变量间相关关系的结果。
Distance模块;一般不单独使用,当数据较复杂时,可以用此模块进行数据的初步处理,这个模块平时应用不多,这里不作详细介绍。
本节主要介绍如何实现直线相关分析。
例13-1某地方病研究所调查了8名正常儿童的尿肌酐含量Y(mmol/24h)如表13-1,试计算尿肌酐含量(Y)对其年龄(X)的相关系数。
(孙振球主编.《医学统计学》/第二版.北京:
人民卫生出版社,2005:
P184)
表13-18名正常儿童的年龄X(岁)与尿肌酐含量Y(mmol/24h)
编号
年龄X
尿肌酐含量Y
1
13
3.54
2
11
3.01
3
9
3.09
4
6
2.48
5
8
2.56
6
10
3.36
7
12
3.18
8
7
2.65
SPSS操作分析步骤:
1.建立数据文件:
建立数据文件时,取两个变量。
X变量:
本例X变量为“年龄”,数值型;Y变量:
本例Y变量为“尿肌酐含量”,数值型。
数据文件如图13-01所示。
2.统计分析:
(1)散点图的制作
graph
scatter
simple
弹出simplescatterplot对话框,如图13-02所示。
对话框说明见表13-02
表13-02simplescatterplot对话框说明
选项
说明
备注
YAxis
指定散点图中Y轴代表的变量
本例中指定为”尿肌苷含量”为Y轴代表的变量
XAxis
指定散点图中X轴代表的变量
本例中指定为”年龄”为X轴代表的变量
输出结果及解释:
Graph
通过散点图可以看出年龄和尿肌苷含量两个变量间是有直线趋势的。
因此可以考虑作两因素的相关分析。
(2)相关分析操作
①菜单操作
Analyze
Correlate
Bivariate…
弹出“BivariateCorrelations”主对话框,如图13-04所示。
在主对话框中【options…】子对话框见图13-05。
对话框说明见表13-03、表13-04。
表13-03BivariateCorrelations对话框说明
选项
说明
备注
Variables
选择要进行相关分析的变量
本例为年龄和尿肌苷含量两个变量
CorrelationCoefficients
用于选择需要计算的相关分析指标
Person:
积距相关系数,系统默认项。
主要用于符合双变量正态分布资料的相关分析。
Kendall’stau-b:
Kendall’s等级相关系数,是反映两个分类变量一致性的指标。
Spearman:
Spearman相关系数,是非参数相关分析,即秩相关。
本例选择Person相关分析
TestofSignificance
确定相关分析是单侧检验(one-tailed)还是双侧检验(Two-tailed),常选双侧检验.
本例选Two-tailed
Flagsignificantcorrelations
结果中有统计意义的相关系数用星号标记,系统默认。
P<0.05时用一个星号标记;p<0.01用两个星号标记。
表13-04options子对话框说明
选项
说明
备注
Statistics
可以选择的描述统计量
Meansandstandarddeviations:
每个变量的均数和标准差;
Cross-productdeviationsandcovariance:
各变量的离均差平方和以及协方差矩阵.
本例选择描述各变量的均数和标准差
Missingvalues
定义对缺失值的处理方法。
②相关分析SPSS程序
CORRELATIONS
/VARIABLES=年龄尿肌苷
/PRINT=TWOTAILNOSIG
/STATISTICSDESCRIPTIVES
/MISSING=PAIRWISE.
③主要输出结果及解释:
图13-06描述了作相关分析的两个变量的均数和标准差。
图13-07显示变量间的相关系数以方阵的形式给出。
结果显示年龄和尿肌苷含量的相关系数为0.882,p=0.004,有统计学意义。
第二节直线回归
在医学研究中常要定量刻画应变量Y对自变量X在数量上的依存关系,常常将易于测量的变量作为X变量,另一个随机变量作Y变量。
例如尿肌酐含量Y(mmol/24h)与年龄X(岁)之间的关系,习惯上将把年龄作为自变量(Independentvariable),把尿肌酐含量作为应变量(Dependentvariable)。
直线回归分析是用直线方程来描述两变量间的回归关系,它与两变量间严格对应的函数关系不同,为了区别于一般函数方程,我们将称它为直线回归方程。
直线回归分析的适用条件:
对于每个X相应的Y要服从正态分布;X可以是正态随机变量也可以是能精确测量或严格控制的非随机变量。
例13-02某地方病研究所调查了8名正常儿童的尿肌酐含量Y(mmol/24h)如表13-05,估计尿肌酐含量(Y)对其年龄(X)的回归方程。
(孙振球主编.《医学统计学》/第二版.北京:
人民卫生出版社,2005:
P141)
表13-058名正常儿童的年龄X(岁)与尿肌酐含量Y(mmol/24h)
编号
年龄X
尿肌酐含量Y
1
13
3.54
2
11
3.01
3
9
3.09
4
6
2.48
5
8
2.56
6
10
3.36
7
12
3.18
8
7
2.65
SPSS操作分析步骤:
1.建立数据文件:
建立数据文件时,取两个变量。
X变量:
本例X变量为“年龄”,数值型;Y变量:
本例Y变量为“尿肌酐含量”,数值型。
数据文件如图13-08所示。
2.统计分析
(1)散点图的制作:
如第一节散点图的制作方法,在进行直线回归分析前首先绘制散点图,看要分析的两个变量是否具有直线趋势。
做法与第一节同,这里不在重复。
(2)直线回归分析操作
①菜单操作
Analyze
Regression
Linearregression
弹出“Linearregression”主对话框,如图13-09所示,对话框说明见表13-06,直线回归分析主要在该子模块完成。
【plots…】子对话框(输出残差图、正态概率图、离群点图、直方图,此处略)、【Statistics…】子对话框、【save…】子对话框、[Options…]子对话框,如图13-10、如图13-11、如图13-12;相应的对话框说明见13-07、13-08、13-09。
在应变量框和自变量框选入相应的应变量和自变量,点击OK即可。
表13-06Linearregression主对话框说明
选项
说明
备注
Dependent
选入应变量Y
本例为“尿肌苷含量”
Independent(s)
选入自变量X
本例为“年龄”
Method
选入方法
本例选“Enter”
表13-07Statistics…子对话框说明
选项
说明
备注
Regressioncoefficients
回归系数
Estimates
一般回归系数和标准回归系数、及其标准误、显著性检验
系统默认
Confidenceinterval
输出一般回归系数的95%可信区间
Covariancematrix
方差及协方差矩阵和相关矩阵
Modelfit
模型检验。
给出复相关系数R,决定系数R2、方差分析结果。
Rsquaredchange
调整R2及相应F值和P值
Descriptive
输出每个变量的均数,标准差,相关系数及单侧检验P值的矩阵
Partandpartialcorrelation
简单相关系数及偏相关系数
Collinearitydiagnostics
共线性诊断
Residuals
残差
Durbin-Watson
对残差的顺序相关的Durbin-Watson检验
Casewisediagnostics
个体诊断,给出残差、预测值、标准化残差、标准化预测值的统计量。
Outliersoutsidestandarddeviation
个体值被视为离群值的界定。
即个体值若超过均数加减n倍标准差被视为离群值。
系统默认n为3
Allcases
给出所有观察单位的残差、标准差和预测值
表13-08save…子对话框
选项
说明
Predictedvalues
预测值
Unstandardized
非标准化预测值
Standardized
标准化预测值
Adjusted
调整预测值
S.E.ofmeanprediction
预测值均数的标准误
Residuals
残差
Unstandardized
非标准化残差
Standardized
标准化残差
Studentized
学生化残差
Deleted
剔除残差
Studentizeddeleted
剔除学生化残差
Distances
距离
Mahalanobis
马氏距离
Cook’s
Cook距离
Leveragevalues
Leverage值
InfluenceStatistics
影响统计量
DfBeta(s)
剔除某一个观察值引起的回归系数的变化
StandardizedDfBeta
标准化的DfBeta
DfFit
剔除某一个观察值引起的预测值的变化
StandardizedDfFit
标准化的DfFit
Covarianceratio
剔除某一个观察值的协方差矩阵与未剔除时的协方差矩阵的比值
PredictionIntervals
预测值的可信区间
Mean
预测值均数的可信区间
Individual
个体预测值的可信区间
Confidence%
可信区间范围,系统默认95%
SavetoNewFile
将选项存为新文件
CoefficientstatisticsFile…
表13-09Options…子对话框
选项
说明
备注
SteppingMethodCriteria
逐步回归剔除变量的原则
UseprobabilityofF
F值对应的P值为剔除标准
系统默认
EntryRemoval
选入变量的显著性水准、系统默认0.05;剔除变量的显著性水准,系统默认0.10
UseFvalue
以F值为剔除标准
Includeconstantinequation
回归方程中包含常数项
MissingValues
缺失值处理
Excludecaseslistwise
剔除所有变量中含有缺失值的观察单位
系统默认
Excludecasespairwise
剔除在参与运算的一对变量中有缺失值的观察单位
Replacewithmean
以变量的均数代替缺失值
REGRESSION
/MISSINGLISTWISE
/STATISTICSCOEFFOUTSRANOVA
/CRITERIA=PIN(.05)POUT(.10)
/NOORIGIN
/DEPENDENT尿肌苷
/METHOD=ENTER年龄.
②SPSS程序
③主要输出结果及解释
图13-13显示拟合过程进入/退出的变量,该模型只引进了一个自变量,没有移出变量。
方法为enter法。
图13-14显示的是模型拟合的情况,该模型的相关系数R为0.882,决定系数R2为0.778,校正决定系数为0.740。
图13-15所示为模型检验的方差分析的结果,对回归模型进行F检验,F值为20.968,P值为0.004,提示该回归方程有统计学意义。
图13-16显示的是包括常数项在内的所有系数的检验结果,用的是t检验的方法,发现常数项和年龄变量均具有统计学意义。
同时给出了未标化和标化的回归系数。
如表所示,常数项和年龄的未标化回归系数为1.662和0.139;年龄标化后的回归系数为0.882。
因此本例回归方程可以表达为:
。
第三节曲线拟合
医学研究中并非所有的两变量间关系都表现为直线形式,如毒理学动物实验中动物死亡率与给药剂量的关系、细菌繁殖与培养时间的关系等就不是直线形式。
当散点图中应变量Y和自变量X间表现出非线性趋势时,可以通过曲线拟合(curvefitting)方法来刻画两变量间数量上的依存关系。
例13-03一位医院管理人员想建立一个回归模型,对重伤病人出院后的长期恢复情况进行预测。
自变量为病人住院天数(X),应变量为病人出院后长期恢复的预后指数(Y),指数取值越大表示预后结局越好。
数据见表13-10。
(孙振球主编.《医学统计学》/第二版.北京:
人民卫生出版社,2005,P211)
表13-1015名重伤病人的住院天数X(天)与预后指数Y
编 号
住院天数X
预后指数Y
1
2
54
2
5
50
3
7
45
4
10
37
5
14
35
6
19
25
7
26
20
8
31
16
9
34
18
10
38
13
11
45
8
12
52
11
13
53
8
14
60
4
15
65
6
SPSS操作分析步骤:
1.建立数据文件:
建立数据文件时,取两个变量。
X变量:
本例X变量为“住院天数”,数值型;Y变量:
本例Y变量为“预后指数”,数值型。
数据文件如图13-17所示。
2.统计分析
(1)作散点图
Graph
Scatter
simple
弹出“simplescatterplot”对话框,如图13-18。
变量Y“预后指数”作Y轴,变量X“住院天数”作X轴。
作散点图,看两变量之间的趋势,结果见图13-19。
对住院天数与预后指数两变量作散点图,发现两者间不具有直线趋势而是有曲线趋势,不能直接用直线回归来分析两变量间的依存关系。
因此,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。
操作如下:
(2)曲线拟合的菜单操作
Analyze
Regression
CurveEstimation…
弹出“CurveEstimation”主对话框,如图13-20所示。
图13-20“CurveEstimation”主对话框
表13-11“CurveEstimation”主对话框说明
选项
说明
Dependent(s)
选入曲线拟合的应变量(可选多个)
Independent
选入曲线拟合的自变量,(只能选一个)
Models
曲线模型的选择
Linear
拟合直线方程
Quadratic
拟合二次方程
Compound
拟合复合曲线模型
Growth
拟合生长曲线模型
Logarithmic
拟合对数方程
Cubic
拟合三次方程
S
拟合S形曲线
Exponential
拟合指数方程
Inverse
数据按
进行变换
Power
拟合幂曲线模型
Logistic
拟合Logistic曲线模型
Includeconstantinequation
确定方程中是否包含常数项
Plotmodels
是否对模型作图(非常重要)
DisplayANOVAtable
是否显示检验的方差分析表
Save对话框
定义想要保存的中间结果,如预测值,残差等等
(3)SPSS程序
*CurveEstimation.
TSETNEWVAR=NONE.
CURVEFIT/VARIABLES=预后指数WITH住院天数
/CONSTANT
/MODEL=LINEARQUADRATICCUBICEXPONENTIAL
/PLOTFIT.
3.主要输出结果及解释
MODEL:
MOD_1.
Independent:
住院天数
DependentMthRsqd.f.FSigfb0b1b2b3
预后指数LIN.88613100.62.00046.4604-.7525
预后指数QUA.98212321.05.00055.8221-1.7103.0148
预后指数CUB.98911317.97.00059.2253-2.3657.0397-.0002
预后指数EXP.95513276.38.00056.6651-.0380
上述结果解释如下表所示:
应变量方法R2自由度F值P值b0b1b2b3
预后指数LIN.88613100.62.00046.4604-.7525
预后指数QUA.98212321.05.00055.8221-1.7103.0148
预后指数CUB.98911317.97.00059.2253-2.3657.0397-.0002
预后指数EXP.95513276.38.00056.6651-.0380
结果中给出了所拟合的四个模型的检验报告,包括模型的检验结果和各个系数值,从结果看四个模型均有统计学意义,但从拟合优度看,三次方曲线的拟合优度最高,但由于三次方曲线多了一个参数,较其他模型复杂,从拟合优度看二次方和三次方曲线相差不多,但比三次方曲线少一个参数,较简化。
故本例选二次方曲线拟合结果
。
在曲线拟合中,模型的简洁性和拟合优度的高低同样重要,因此,在作曲线拟合时要结合专业知识慎重决定。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 回归