书签分享收藏举报版权申诉 / 15

立即下载加入VIP,免费下载

当前位置：首页 > 初中教育 > 中考 > 相关与回归.docx

相关与回归.docx

文档编号：24554001
上传时间：2023-05-28
格式：DOCX
页数：15
大小：43.54KB

相关与回归

双变量相关与回归分析

（SPSS讲义）

公共卫生学院袁秀琴

在医学科研的过程中,经常会遇到分析两个变量之间关系的研究。

例如,体重与肺活量、年龄与血压、体表面积与身高之间的关系等。

此时经常用相关与回归分析方法来解决。

在进行相关与回归分析之前必须先作散点图，判断两变量之间是否存在线性趋势。

当两变量间存在线性趋势时，才考虑作相关或回归分析。

第一节直线相关

直线相关（LinearCorrelation）又称简单相关，是研究两个变量间线性关系的一种常用统计方法。

分析的是两变量之间是否存在直线相关关系，以及相关的方向和程度。

作直线相关分析要求资料服从双变量正态分布。

直线相关系数又称Pearson相关系数是描述两变量线性相关关系程度和方向的统计量。

对于不符合双变量正态分布资料，不能直接计算Pearson相关系数，可用非参数统计方法，即计算Kendall相关系数或Spearman相关系数。

SPSS相关分析集中在Analyze菜单的correlate子菜单中，该菜单包括三个部分：

Bivariate模块：

主要用于两个或者多个变量间的相关分析。

如果是多个变量，则给出两两变量间相关分析的结果。

该模块是进行相关分析的最常用的模块。

本章要介绍的相关分析就在此模块中进行。

Partial模块；是专门用于偏相关分析，即控制了混杂因素或影响因素后得到的两个变量间相关关系的结果。

Distance模块；一般不单独使用，当数据较复杂时，可以用此模块进行数据的初步处理，这个模块平时应用不多，这里不作详细介绍。

本节主要介绍如何实现直线相关分析。

例13-1某地方病研究所调查了8名正常儿童的尿肌酐含量Y（mmol/24h）如表13-1，试计算尿肌酐含量（Y）对其年龄（X）的相关系数。

（孙振球主编.《医学统计学》/第二版.北京：

人民卫生出版社，2005：

P184）

表13-18名正常儿童的年龄X（岁）与尿肌酐含量Y（mmol/24h）

编号

年龄X

尿肌酐含量Y

1

13

3.54

2

11

3.01

3

9

3.09

4

6

2.48

5

8

2.56

6

10

3.36

7

12

3.18

8

7

2.65

SPSS操作分析步骤：

1.建立数据文件：

建立数据文件时，取两个变量。

X变量：

本例X变量为“年龄”，数值型；Y变量：

本例Y变量为“尿肌酐含量”，数值型。

数据文件如图13-01所示。

2.统计分析：

（1）散点图的制作

graph

scatter

simple

弹出simplescatterplot对话框，如图13-02所示。

对话框说明见表13-02

表13-02simplescatterplot对话框说明

选项

说明

备注

YAxis

指定散点图中Y轴代表的变量

本例中指定为”尿肌苷含量”为Y轴代表的变量

XAxis

指定散点图中X轴代表的变量

本例中指定为”年龄”为X轴代表的变量

输出结果及解释：

Graph

通过散点图可以看出年龄和尿肌苷含量两个变量间是有直线趋势的。

因此可以考虑作两因素的相关分析。

（2）相关分析操作

①菜单操作

Analyze

Correlate

Bivariate…

弹出“BivariateCorrelations”主对话框，如图13-04所示。

在主对话框中【options…】子对话框见图13-05。

对话框说明见表13-03、表13-04。

表13-03BivariateCorrelations对话框说明

选项

说明

备注

Variables

选择要进行相关分析的变量

本例为年龄和尿肌苷含量两个变量

CorrelationCoefficients

用于选择需要计算的相关分析指标

Person:

积距相关系数，系统默认项。

主要用于符合双变量正态分布资料的相关分析。

Kendall’stau-b:

Kendall’s等级相关系数，是反映两个分类变量一致性的指标。

Spearman:

Spearman相关系数，是非参数相关分析，即秩相关。

本例选择Person相关分析

TestofSignificance

确定相关分析是单侧检验（one-tailed）还是双侧检验（Two-tailed），常选双侧检验.

本例选Two-tailed

Flagsignificantcorrelations

结果中有统计意义的相关系数用星号标记，系统默认。

P<0.05时用一个星号标记；p<0.01用两个星号标记。

表13-04options子对话框说明

选项

说明

备注

Statistics

可以选择的描述统计量

Meansandstandarddeviations：

每个变量的均数和标准差；

Cross-productdeviationsandcovariance：

各变量的离均差平方和以及协方差矩阵.

本例选择描述各变量的均数和标准差

Missingvalues

定义对缺失值的处理方法。

②相关分析SPSS程序

CORRELATIONS

/VARIABLES=年龄尿肌苷

/PRINT=TWOTAILNOSIG

/STATISTICSDESCRIPTIVES

/MISSING=PAIRWISE.

③主要输出结果及解释：

图13-06描述了作相关分析的两个变量的均数和标准差。

图13-07显示变量间的相关系数以方阵的形式给出。

结果显示年龄和尿肌苷含量的相关系数为0.882，p＝0.004,有统计学意义。

第二节直线回归

在医学研究中常要定量刻画应变量Y对自变量X在数量上的依存关系，常常将易于测量的变量作为X变量，另一个随机变量作Y变量。

例如尿肌酐含量Y（mmol/24h）与年龄X（岁）之间的关系，习惯上将把年龄作为自变量（Independentvariable），把尿肌酐含量作为应变量（Dependentvariable）。

直线回归分析是用直线方程来描述两变量间的回归关系，它与两变量间严格对应的函数关系不同，为了区别于一般函数方程，我们将称它为直线回归方程。

直线回归分析的适用条件：

对于每个X相应的Y要服从正态分布；X可以是正态随机变量也可以是能精确测量或严格控制的非随机变量。

例13-02某地方病研究所调查了8名正常儿童的尿肌酐含量Y（mmol/24h）如表13-05，估计尿肌酐含量（Y）对其年龄（X）的回归方程。

（孙振球主编.《医学统计学》/第二版.北京：

人民卫生出版社，2005:

P141）

表13-058名正常儿童的年龄X（岁）与尿肌酐含量Y（mmol/24h）

编号

年龄X

尿肌酐含量Y

1

13

3.54

2

11

3.01

3

9

3.09

4

6

2.48

5

8

2.56

6

10

3.36

7

12

3.18

8

7

2.65

SPSS操作分析步骤：

1.建立数据文件：

建立数据文件时，取两个变量。

X变量：

本例X变量为“年龄”，数值型；Y变量：

本例Y变量为“尿肌酐含量”，数值型。

数据文件如图13-08所示。

2.统计分析

（1）散点图的制作：

如第一节散点图的制作方法，在进行直线回归分析前首先绘制散点图，看要分析的两个变量是否具有直线趋势。

做法与第一节同，这里不在重复。

（2）直线回归分析操作

①菜单操作

Analyze

Regression

Linearregression

弹出“Linearregression”主对话框，如图13-09所示，对话框说明见表13-06，直线回归分析主要在该子模块完成。

【plots…】子对话框（输出残差图、正态概率图、离群点图、直方图，此处略）、【Statistics…】子对话框、【save…】子对话框、[Options…]子对话框，如图13-10、如图13-11、如图13-12；相应的对话框说明见13-07、13-08、13-09。

在应变量框和自变量框选入相应的应变量和自变量，点击OK即可。

表13-06Linearregression主对话框说明

选项

说明

备注

Dependent

选入应变量Y

本例为“尿肌苷含量”

Independent（s）

选入自变量X

本例为“年龄”

Method

选入方法

本例选“Enter”

表13-07Statistics…子对话框说明

选项

说明

备注

Regressioncoefficients

回归系数

Estimates

一般回归系数和标准回归系数、及其标准误、显著性检验

系统默认

Confidenceinterval

输出一般回归系数的95％可信区间

Covariancematrix

方差及协方差矩阵和相关矩阵

Modelfit

模型检验。

给出复相关系数R，决定系数R2、方差分析结果。

Rsquaredchange

调整R2及相应F值和P值

Descriptive

输出每个变量的均数，标准差，相关系数及单侧检验P值的矩阵

Partandpartialcorrelation

简单相关系数及偏相关系数

Collinearitydiagnostics

共线性诊断

Residuals

残差

Durbin-Watson

对残差的顺序相关的Durbin-Watson检验

Casewisediagnostics

个体诊断，给出残差、预测值、标准化残差、标准化预测值的统计量。

Outliersoutsidestandarddeviation

个体值被视为离群值的界定。

即个体值若超过均数加减n倍标准差被视为离群值。

系统默认n为3

Allcases

给出所有观察单位的残差、标准差和预测值

表13-08save…子对话框

选项

说明

Predictedvalues

预测值

Unstandardized

非标准化预测值

Standardized

标准化预测值

Adjusted

调整预测值

S.E.ofmeanprediction

预测值均数的标准误

Residuals

残差

Unstandardized

非标准化残差

Standardized

标准化残差

Studentized

学生化残差

Deleted

剔除残差

Studentizeddeleted

剔除学生化残差

Distances

距离

Mahalanobis

马氏距离

Cook’s

Cook距离

Leveragevalues

Leverage值

InfluenceStatistics

影响统计量

DfBeta（s）

剔除某一个观察值引起的回归系数的变化

StandardizedDfBeta

标准化的DfBeta

DfFit

剔除某一个观察值引起的预测值的变化

StandardizedDfFit

标准化的DfFit

Covarianceratio

剔除某一个观察值的协方差矩阵与未剔除时的协方差矩阵的比值

PredictionIntervals

预测值的可信区间

Mean

预测值均数的可信区间

Individual

个体预测值的可信区间

Confidence%

可信区间范围，系统默认95％

SavetoNewFile

将选项存为新文件

CoefficientstatisticsFile…

表13-09Options…子对话框

选项

说明

备注

SteppingMethodCriteria

逐步回归剔除变量的原则

UseprobabilityofF

F值对应的P值为剔除标准

系统默认

EntryRemoval

选入变量的显著性水准、系统默认0.05；剔除变量的显著性水准，系统默认0.10

UseFvalue

以F值为剔除标准

Includeconstantinequation

回归方程中包含常数项

MissingValues

缺失值处理

Excludecaseslistwise

剔除所有变量中含有缺失值的观察单位

系统默认

Excludecasespairwise

剔除在参与运算的一对变量中有缺失值的观察单位

Replacewithmean

以变量的均数代替缺失值

REGRESSION

/MISSINGLISTWISE

/STATISTICSCOEFFOUTSRANOVA

/CRITERIA=PIN（.05）POUT（.10）

/NOORIGIN

/DEPENDENT尿肌苷

/METHOD=ENTER年龄.

②SPSS程序

③主要输出结果及解释

图13-13显示拟合过程进入/退出的变量，该模型只引进了一个自变量，没有移出变量。

方法为enter法。

图13-14显示的是模型拟合的情况，该模型的相关系数R为0.882，决定系数R2为0.778，校正决定系数为0.740。

图13-15所示为模型检验的方差分析的结果，对回归模型进行F检验，F值为20.968，P值为0.004，提示该回归方程有统计学意义。

图13-16显示的是包括常数项在内的所有系数的检验结果，用的是t检验的方法，发现常数项和年龄变量均具有统计学意义。

同时给出了未标化和标化的回归系数。

如表所示，常数项和年龄的未标化回归系数为1.662和0.139；年龄标化后的回归系数为0.882。

因此本例回归方程可以表达为：

。

第三节曲线拟合

医学研究中并非所有的两变量间关系都表现为直线形式，如毒理学动物实验中动物死亡率与给药剂量的关系、细菌繁殖与培养时间的关系等就不是直线形式。

当散点图中应变量Y和自变量X间表现出非线性趋势时，可以通过曲线拟合（curvefitting）方法来刻画两变量间数量上的依存关系。

例13-03一位医院管理人员想建立一个回归模型，对重伤病人出院后的长期恢复情况进行预测。

自变量为病人住院天数（X），应变量为病人出院后长期恢复的预后指数（Y），指数取值越大表示预后结局越好。

数据见表13-10。

（孙振球主编.《医学统计学》/第二版.北京：

人民卫生出版社，2005，P211）

表13-1015名重伤病人的住院天数X（天）与预后指数Y

编　号

住院天数X

预后指数Y

1

2

54

2

5

50

3

7

45

4

10

37

5

14

35

6

19

25

7

26

20

8

31

16

9

34

18

10

38

13

11

45

8

12

52

11

13

53

8

14

60

4

15

65

6

SPSS操作分析步骤：

1.建立数据文件：

建立数据文件时，取两个变量。

X变量：

本例X变量为“住院天数”，数值型；Y变量：

本例Y变量为“预后指数”，数值型。

数据文件如图13-17所示。

2.统计分析

（1）作散点图

Graph

Scatter

simple

弹出“simplescatterplot”对话框，如图13-18。

变量Y“预后指数”作Y轴，变量X“住院天数”作X轴。

作散点图，看两变量之间的趋势,结果见图13-19。

对住院天数与预后指数两变量作散点图，发现两者间不具有直线趋势而是有曲线趋势，不能直接用直线回归来分析两变量间的依存关系。

因此，可以通过曲线拟合方法来刻画两变量间数量上的依存关系。

操作如下：

（2）曲线拟合的菜单操作

Analyze

Regression

CurveEstimation…

弹出“CurveEstimation”主对话框，如图13-20所示。

图13-20“CurveEstimation”主对话框

表13-11“CurveEstimation”主对话框说明

选项

说明

Dependent（s）

选入曲线拟合的应变量（可选多个）

Independent

选入曲线拟合的自变量，（只能选一个）

Models

曲线模型的选择

Linear

拟合直线方程

Quadratic

拟合二次方程

Compound

拟合复合曲线模型

Growth

拟合生长曲线模型

Logarithmic

拟合对数方程

Cubic

拟合三次方程

S

拟合S形曲线

Exponential

拟合指数方程

Inverse

数据按

进行变换

Power

拟合幂曲线模型

Logistic

拟合Logistic曲线模型

Includeconstantinequation

确定方程中是否包含常数项

Plotmodels

是否对模型作图（非常重要）

DisplayANOVAtable

是否显示检验的方差分析表

Save对话框

定义想要保存的中间结果，如预测值，残差等等

（3）SPSS程序

*CurveEstimation.

TSETNEWVAR=NONE.

CURVEFIT/VARIABLES=预后指数WITH住院天数

/CONSTANT

/MODEL=LINEARQUADRATICCUBICEXPONENTIAL

/PLOTFIT.

3.主要输出结果及解释

MODEL:

MOD_1.

Independent:

住院天数

DependentMthRsqd.f.FSigfb0b1b2b3

预后指数LIN.88613100.62.00046.4604-.7525

预后指数QUA.98212321.05.00055.8221-1.7103.0148

预后指数CUB.98911317.97.00059.2253-2.3657.0397-.0002

预后指数EXP.95513276.38.00056.6651-.0380

上述结果解释如下表所示：

应变量方法R2自由度F值P值b0b1b2b3

预后指数LIN.88613100.62.00046.4604-.7525

预后指数QUA.98212321.05.00055.8221-1.7103.0148

预后指数CUB.98911317.97.00059.2253-2.3657.0397-.0002

预后指数EXP.95513276.38.00056.6651-.0380

结果中给出了所拟合的四个模型的检验报告，包括模型的检验结果和各个系数值，从结果看四个模型均有统计学意义，但从拟合优度看，三次方曲线的拟合优度最高，但由于三次方曲线多了一个参数，较其他模型复杂，从拟合优度看二次方和三次方曲线相差不多，但比三次方曲线少一个参数，较简化。

故本例选二次方曲线拟合结果

。

在曲线拟合中，模型的简洁性和拟合优度的高低同样重要，因此，在作曲线拟合时要结合专业知识慎重决定。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 相关回归

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：相关与回归.docx
链接地址：https://www.bdocx.com/doc/24554001.html

相关与回归.docx

热门标签