直线回归15Word文件下载.docx
- 文档编号:17150376
- 上传时间:2022-11-28
- 格式:DOCX
- 页数:9
- 大小:96.93KB
直线回归15Word文件下载.docx
《直线回归15Word文件下载.docx》由会员分享,可在线阅读,更多相关《直线回归15Word文件下载.docx(9页珍藏版)》请在冰豆网上搜索。
医学实践中得来的资料有两种:
1.两种现象都是随机变量,如身高和体重的关系,各地方食管癌和胃癌死亡率的关系等。
这里是分不清哪个是自变量,哪个是因变量,我们可以任意指定一个为x,另一个为y;
2.两种现象中一个是由我们选定的数值,而另一个是随机变量。
例如:
剂量与动物反应的关系,剂量和光密度的关系等。
给动物剂量由我们规定有若干不同剂量,每种剂量观察多少个动物,此时剂量的大小由人为指定,不是随机变量。
但是在指定剂值下,动物的反应是随机变量。
这种材料很明显药物剂量是自变量,应当用x代表,而动物的反应是因变量,随剂量不同而改变。
不管自变量是否是随机变量,在直线回归的分析中,我们只考虑在每个x数值下y的分布,而不考虑x数值的分布。
a为截距(intercept)是指x=0时,回归直线与Y轴交点到原点的距离。
a>
0表示回归直线与y轴的交点在X轴的上方;
a<
0表示回归直线与y轴的交点在x轴的下方;
a=0则表示回归直线通过原点。
b为回归系数(coefficientofregression)即直线的斜率(slope)。
b>
0,表示随x增加,y亦增加;
b<
0,表示随x增加,y值减少;
b=0,表示回归直线与x轴平行,意为y与x无关。
回归系数b的统计意义是当x每增(减)一个单位,y平均改变b个单位。
ye称为Xi取值时,一组yi的平均值,也称为y的估计值。
为使该方程能更准确的反映这些点的分布规律,根据数理统计中的最小二乘原理(保证实测点到回归直线的纵向距离平方和最小),求解线性方程组,而得到估计系数b和a的计算公式如下:
例:
10名糖尿病人血糖(mmol/L)与胰岛素(mu/L)的测量值
------------------------------------
病例号血糖胰岛素
------------------------------------
112.2115.2
212.2711.9
37.8819.8
410.4317.0
519.595.9
66.4425.1
710.1622.0
88.4923.2
911.3816.8
1012.4913.7
----------------------------------
例题:
某地一年级12名女大学生的体重与肺活量数据如下,试求肺活量(L)Y对体重(kg)X直线回归方程。
体重与肺活量关系
体重(kg)X
肺活量(L)Y
42
46
50
52
58
2.55
2.20
2.75
2.40
2.80
2.81
3.41
3.10
3.46
2.85
3.50
3.00
(1)由原始数据及散点图的初步分析,估计本资料有直线趋势,故作下列计算。
(2)求X、Y、X2、Y2、XY
X=592Y=34.83X2=29512Y2=1020.9833XY=1736.32
(3)计算以下基本数据:
(4)求回归系数b和截距a.
二、回归系数的假设检验
前面所求得的回归方程是否成立,即X、Y是否有直线关系,是回归分析要考虑的首要问题。
我们知道即使X、Y的总体回归系数为零,由于抽样误差,其样本回归系数b也不一定为零。
因此需作是否为零的假设检验,可用方差分析或t检验。
.P(x,y)
Y
-------------------------------------------------
X
第一段
,表示P点与回归直线的纵向距离,即实际值Y与估计值
值之差,称为剩余和残差。
第二段
,即估计值与均值
之差,它与回归系数的大小有关。
b值越大,
的差值也越大,反之亦然。
第三段
,是应变量的均数。
述三个线段的和为:
这里的P是在散点图中任取的一点,将全部点子都按上发处理,并将等式两端平方后在求和,则有:
上述用符号表示为:
SS总=SS回+SS剩
SS总(totalsumofsquare)说明了未考虑X与Y的回归关系时Y的变异。
SS回为回归平方和(regressionsumofsquare),它反映在Y的总变异中由于X与Y的直线关系而使Y变异减小的部分,也就是在总平方和中可以用X解释的部分。
SS回越大,说明回归效果越好。
SS剩为剩余平方和(residualsumofsquare),它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。
上述三个平方和,各有其相应的自由度df,并有如下的关系:
df总=df回+df剩
1、方差分析法:
具体计算如下:
(1)先计算SS总=1.8892df总=11
(2)求SS回=blxy=(18.04)2/306.6667=1.0612df回=1
(3)SS剩=SS总—SS回=1.8892-1.0612=0.8280df剩=10
方差分析结果表
变异来源
SS
df
MS
F
总变异
1.8892
11
回归
1.0612
1
12.816
剩余
0.8280
10
0.0828
2、t检验
基本思想与样本均数与总体均数比较的t检验类似,而检验统计量t值的计算按下式完成:
本例n=12,SS剩=0.8280,lxx=306.6667,b=0.058826
按df=10,查t界值表,得P=0.005,按=0.05水准,拒绝H0,接受H1,结论同上。
三、直线相关
1、概念:
以上介绍了描述了两变量间依存变化的回归分析方法。
有时并不要求由X估计Y,而关心的是两个变量间是否确有直线相关关系。
直线相关(linearcorrelation)用于双变量正态分布资料。
直线相关的性质可用散点图直观地说明。
散点呈椭圆形分布,两变量同时增大或较小,变化趋势是同向的,称为正相关;
反之X、Y呈反向变化,称为负相关。
正相关和负相关并不一定表示一个变量的改变是引起另一变化的原因,而可能受另一因素的影响。
因此,相关条件并一定是因果关系。
相关分析的任务就是对相关关系给予定量的描述。
2、相关系数的意义:
相关系数(correlationcoefficient)以符号r表示。
它是说明具有直线关系的两个变量间,相关的密切程度与相关方向的指标。
计算公式如下:
相关系数没有单位,其值为-1r1,r值为正表示正相关r值为负表示负相关,r值为零为零相关。
在生物界由于影响因素众多,因此很少完全相关。
3、相关系数的计算
上例试计算一年级女大学生体重与肺活量的相关系数
已知:
lxx=306.6667,lyy=1.8892,lxy=18.04
4、相关系数的假设检验上面所求得的相关系数,它是总体相关系数的估计值。
要判断X、Y间是否有相关关系,就要检验r
是否来自总体相关系数为零的总体。
常用t检验,检验统计量t值的计算公式如下:
式中分母为相关系数的标准误。
求得t值表得P值,按所取检验水准作出推断结论;
亦可按=n-2,直接查r界值表得P值,以节省计算。
例题:
检验女大学生体重与肺活量间是否有直线相关关系。
H0:
=0H1:
0=0.05
本例, n=12,r=0.7495
查表得 P<
0.05, 按=0.05水准拒绝H0,接受H1,故可以认为一年级女大学生体重与肺活量之间呈正的直线相关。
三、直线回归与相关的区别和联系
1、区别
(1)在资料要求上,回归要求因变量Y服从正态分布;
x是可以精确测量和严格控制的变量,一般称为一型回归。
相关要求两个变量x、y服从双变量正态分布。
这种资料若进行回归分析称为II型回归。
(2)在应用上,说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关。
2、联系
(1)对同一组数据同时计算r和b,它们的正负号是一致的。
R为正号说明两变量间的相互关系是同向变化的。
b为正,说明X增(减)一个单位,Y平均增(减)b个单位。
(2)r和b的假设检验是等价的,即对同一样本,两者的t值相等。
由于r的假设检验可直接查表,而b的假设检验计算较繁。
故在实际应用中常以前法代替后法。
(3)用回归解释相关r的平方称为决定系数r2=SS回/SS总
此式说明当SS总不变时,回归平方和的大小取决于r2.。
回归平方和是由于引入了相关变量而使总平方和减小的部分。
回归平方和越接近总平方和,则r2越接近1,说明引入相关的效果越好。
例如r=0.20,n=100时,可按检验水准0.05拒绝H0,接受H1,认为两变量有相关关系。
但r2=(0.20)2=0.04,表示回归平方和在总平和中仅占4%,说明两变量间的相关关系实际意义不大。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 直线 回归 15