简单线性相关和回归分析课件PPT资料.ppt
- 文档编号:13159167
- 上传时间:2022-10-07
- 格式:PPT
- 页数:101
- 大小:2.29MB
简单线性相关和回归分析课件PPT资料.ppt
《简单线性相关和回归分析课件PPT资料.ppt》由会员分享,可在线阅读,更多相关《简单线性相关和回归分析课件PPT资料.ppt(101页珍藏版)》请在冰豆网上搜索。
2.观察值中存在异常值时要慎重处理。
3.统计学上存在相关并不一定表示两个指标在专业上有内在联系。
12,偏相关分析,概念:
偏相关系数是用来衡量任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。
即控制了其它一个或多个变量的影响下,计算两个变量的相关性。
13,例题:
某地29名13岁男童身高X1(cm)、体重X2(kg)和肺活量Y(ml)的数据(见数据data1),请用该资料计算体重与肺活量的偏相关系数。
14,SPSS操作步骤:
Analyze-Correlation-Partial把分析变量选入Variable框把控制变量选入Controllingfor框ContinueOK,15,体重与肺活量的简单相关系数,16,身高作为控制变量,肺活量与体重的偏相关系数,17,线性回归,18,第一节简单直线回归,19,一、简单直线回归方程,简单直线回归(linearregression)是用来描述一个变量依赖于另一个变量的线性关系。
这里两变量的地位是不同的,其中X为自变量,可随机变动亦可人为取值;
而Y被视为依赖于X而变化的因变量。
20,a称为截距(intercept),表示X取值为0时Y的平均水平。
b称为回归系数(regressioncoefficient)或直线的斜率(slope),表示X每变化一个单位时,Y平均改变b个单位。
b0时,随X的增大而增大;
b0时,随X的增大而减小;
b=0时,直线与X轴平行,Y与X无直线关系,21,二、回归方程的计算,在数理统计中,用最小二乘法的原理可求出a、b的计算公式。
求解a和b实际上就是怎样”找到一条直线使所有数据点与它的平均距离“最近”。
22,表.待产妇尿雌三醇含量与产儿体重,资料来源:
RosnserB:
FundamentalsofBiostatisticsP.364,DuxburyPress,1982,23,=1750-,=41.20,24,25,三、回归系数的假设检验,与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在抽样误差问题。
所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。
总体的回归系数一般用表示。
26,回归系数的检验方法有两种:
(1)方差分析2)t检验两种方法是等价的。
27,28,因变量Y的变异的分解,Y的分解:
移项:
考虑全部样本:
上式用符号表示:
SS总称为Y的总离均差平方和SS回称为回归平方和SS残称为残差平方和或剩余平方和,29,不考虑回归时,Y的总变异SS总全部视为随机误差;
而回归以后,回归的贡献使得随机误差减小为SS剩。
如果两变量间总体回归关系确实存在,回归的贡献就应当大于随机误差;
大到何种程度时可以认为具有统计意义,可计算如下的F统计量:
30,自由度分别是:
回1,残n-2MS回与MS残分别称为回归均方和残差均方。
求得F值后查F界值表得到P值,最后按所取水准作出总体回归关系是否成立的推断结论。
31,
(2)t检验:
H0:
=0H1:
0=0.05统计量t的计算公式为:
自由度=n-2,32,例1:
0=0.05,自由度=31-2=29,查t界值表,t0.05(29)=2.045,P0.05,按=0.05检验水准,拒绝H0,接受H1,认为待产妇24小时尿中雌三醇含量与产儿体重之间存在直线回归关系。
33,对于一元线性回归来说,方差分析与t检验是完全等价的,且有关系式:
34,利用SPSS实现直线回归:
SPSS操作步骤:
Analyze-Regression-Lineardependent:
因变量independent:
自变量method:
可选择enterforwardbackwardstepwise点击statistics:
出现若干统计选项可供选择ContinueOK,35,36,37,38,39,四、直线回归的应用,1.描述两变量之间的依存关系通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。
2.利用回归方程进行预测把自变量代入回归方程,对应变量进行估计,并可求出应变量的波动范围。
40,五、应用直线相关与回归的注意事项,41,
(一)注意事项,1.考虑实际意义进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来做相关回归分析。
42,2.相关关系相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系。
43,3.利用散点图对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。
44,4.变量范围相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和回归关系。
45,
(二)相关与回归的区别,1.意义相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。
回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。
46,2.相关系数r与回归系数br与b的绝对值反映的意义不同。
r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。
b的绝对值越大,回归直线越陡,说明当X变化一个单位时,的平均变化就越大。
反之也是一样。
47,(三)相关与回归的联系,1.关系能进行回归分析的变量之间存在相关关系。
所以,对于两组新数据(两个变量)可先做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,求出回归方程。
48,2.相关系数r与回归系数br与b的符号一致。
r为正时,b也为正,表示两变量是正相关,是同向变化。
r为负时,b也为负,表示两变量是负相关,是反向变化。
49,第二节多重(多元)线性回归,在医学研究中,影响某个结局指标的因素常常有很多个,特别对于慢性非传染性疾病更是如此,例如心血管疾病、肿瘤等。
多重线性回归分析可以用来发现影响某个结局变量的多个因素,并有可能建立有效的预测模型。
50,一、多重线性回归模型,多重线性回归模型可视为简单直线模型的直接推广。
简单的说,只有一个自变量的线性模型为简单直线回归模型,具有两个以上自变量的线性模型即为多重线性回归模型。
这里提及的回归模型中,都只有一个因变量。
51,总体回归模型:
0为常数项,1,m称为总体偏回归系数。
52,样本回归模型:
偏回归系数:
b0为常数项,b1,b2,bm为样本偏回归系数。
偏回归系数表示在其它所有自变量固定不变的情况下,某一个自变量变化一个单位时引起因变量y变化的平均大小。
残差e:
y的变化中不能为自变量所解释的部分。
53,线性回归的适用条件:
1.L:
线性自变量x与应变量y之间存在线性关系;
2.I:
独立性Y值相互独立,在模型中则要求残差相互独立,不存在自相关;
3.N:
正态性随机误差(即残差)e服从均值为零,方差为的正态分布;
4.E:
等方差对于所有的自变量x,残差e的方差齐。
54,数据类型要求:
因变量必须是数值型变量(连续变量)。
自变量既可以是数值型变量,也可以是分类型变量。
但如果是多分类变量,则不能直接进入回归方程,而要先进行哑变量设置(略)。
55,例2.某研究者测量了29名儿童血液中血红蛋白(g)、钙(g)、镁(g)、铁(g)、锰(g)、铜(g)的含量。
试以血红蛋白为因变量,其它的为自变量,建立回归模型。
56,57,做回归分析的第一步通常是做散点图,以发现因变量与自变量之间是否大致存在直线关系。
如有明显的曲线关系,则不能直接做线性回归模型。
另外,散点图还有助于发现异常点。
58,59,60,采用最小二乘法(LS)估计回归系数b即要求残差平方和:
达到最小值。
求解过程需要进行矩阵运算,并要借助计算机完成。
二、回归系数的估计,61,62,SPSS回归分析输出结果,63,1.对整个方程的检验:
H0:
12m0,2.对单个回归系数或常数项的检验:
H0:
i0,三、方程的显著性检验:
64,对整个方程的检验:
回归系数全为零1=2=m=0H1:
回归系数不全为零0.05FMSreg/MSE26.306自由度dfreg5,dfe23,P0.001拒绝H0,接受H1,认为此回归模型有意义。
65,对偏回归系数进行假设检验:
i=0H1:
i00.05t1-1.962df1=23p=0.062t20.023df2=23p=0.982t38.079df3=23pt50.672df5=23p=0.508只有铁的偏回归系数有意义。
66,四、筛选有影响的自变量,选择标准:
对各自变量的偏回归平方和进行检验,F值大于预先设定的F,则将此变量选入或保留在方程内。
偏回归平方和:
将某个变量引入方程后所引起的回归平方和增加的部分;
或者,将某个变量剔除方程后所引起的回归平方和减少的部分。
例如:
将本例中钙剔除后,回归平方和从113.26变为109.94,则钙的偏回归平方和为113.26-109.943.32,67,自变量的选择方法,1.强行进入法(Enter):
为默认选择项,定义的全部自变量均引入方程。
2.后退法(Backward):
先建立一个包含全部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。
68,3.前进法(Forward):
回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无统计学意义的自变量被引入为止。
4.逐步法(Stepwise):
它是前进法和后退法的结合。
5.消去法(Remove):
建立回归方程时,根据设定的条件剔除部分自变量。
69,选用后退法,70,钙保留下来的原因:
后退法的默认剔除标准是0.1,71,最终回归模型:
以血红蛋白含量作为因变量y,钙、镁、铁、锰、铜的含量作为自变量进行多重线性回归分析,变量筛选方法为后退法(backward),剔除标准为p0.1()。
最后结果只有钙和铁保留在方程中。
其中x1代表钙,x3代表铁(方程和偏回归系数的检验略),72,两个自变量与因变量的拟合面示意图,73,注意:
自变量的选择不是一个单独的数学问题,可以放心地交给计算机自动完成,而必须结合专业知识,综合考察。
1.对因变量确实有影响的,应当选入。
2.不同筛选方法结果不一致时要谨慎,重点考虑共线性的问题。
3.所做出的模型不能视为“最佳”模型,而应视为“局部最优”模型,因为所纳入分析的自变量中常常不能包括全部的影响因素,甚至是很重要的因素。
74,五、标准化偏回归系数由于各自变量量纲(测量单位)不同,各偏回归系数之间不能直接比较。
标准化偏回归
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简单 线性 相关 回归 分析 课件