元线性回归方程的建立.docx
- 文档编号:26352432
- 上传时间:2023-06-18
- 格式:DOCX
- 页数:23
- 大小:112.89KB
元线性回归方程的建立.docx
《元线性回归方程的建立.docx》由会员分享,可在线阅读,更多相关《元线性回归方程的建立.docx(23页珍藏版)》请在冰豆网上搜索。
元线性回归方程的建立
第二节一元线性回归方程的建立
一元线性回归分析是处理两个变量之间关系的最简单模型,它所研
究的对象是两个变量之间的线性相关关系.通过对这个模型的讨论,我们不仅可以掌握有关一元线性回归的知识,而且可以从中了解回归分析
方法的基本思想、方法和应用•
一、问题的提出
例2-1-1为了研究氮含量对铁合金溶液初生奥氏体析出温度的影响,测定了不同氮含量时铁合金溶液初生奥氏体析出温度,得到表2-1-1给出的5组数据.
表2-1-1氮含量与灰铸铁初生奥氏体析出温度测试数据
序号
氯含壘£(%)
初生奥氏体析出温度y(V)
1
0.0043
1220
2
0.0077
1217
3
0.0037
1215
4
0.0100
1208
5
0.0110
1205
如果把氮含量作为横坐标,把初生奥氏体析出温度作为纵坐标,将这些数据标在平面直角坐标上,则得图2-1-1,这个图称为散点图.
从图2-1-1可以看出,数据点基本落在一条直线附近•这告诉我们,变量X与丫的关系大致可看作是线性关系,即它们之间的相互关系可以
用线性关系来描述•但是由于并非所有的数据点完全落在一条直线上,因
此X与丫的关系并没有确切到可以唯一地由一个X值确定一个丫值的程
度•其它因素,诸如其它微量元素的含量以及测试误差等都会影响丫的测
试结果.如果我们要研究X与丫的关系,可以作线性拟合
-l';一二(2-1-1)
我们称(2-1-1)式为回归方程,a与b是待定常数,称为回归系数.从理论上讲,(2-1-1)式有无穷多组解,回归分析的任务是求出其最佳的线性拟合.
二、最小二乘法原理
如果把用回归方程fp+b计算得到的$i值(i=1,2,…n)称为回归值,那么实际测量值yi与回归值…i之间存在着偏差,我们把这种偏差称为残差,记为ei(i=1,2,3,…,n)•这样,我们就可以用残差平方和来度量测量值与回归直线的接近或偏差程度•残差平方和定义为:
(2-1-2)
所谓最小二乘法,就是选择a和b使Q(a,b)最小,即用最小二乘
法得到的回归直线心上是在所有直线中与测量值残差平方和Q最
小的一条•由(2-1-2)式可知Q是关于a,b的二次函数,所以它的最小值总是存在的.下面讨论的a和b的求法.
三、正规方程组
根据微分中求极值的方法可知,Q(a,b)取得最小值应满足
da
(2-1-3)
由(2-1-2)式,并考虑上述条件,则
3£乔aGai
=工①-◎-站)=0
3-1
七工创-"吨兀=0
2-1
(2-1-4)
(2-1-4)式称为正规方程组.解这一方程组可得
(2-1-5)
其中
(2-1-6)
厶=-无)(”-刃弓£砂■丄(£丙)(文加
z-lJ-JnJ-Ii~l
厶£(—皐*T(£掰
i-L2-1i-1
(2-1-7)
式中,Lxy称为xy的协方差之和,Lxx称为x的平方差之和
如果改写(2-1-1)式,可得
y=(y-bx)^bx
(2-1-8)
-:
:
|(2-1-9)
由此可见,回归直线是通过点,:
「的,即通过由所有实验测量值的平均值组成的点•从力学观点看,二「即是N个散点的重心位置.
现在我们来建立关于例1的回归关系式.将表2-1-1的结果代入(2-1-5)式至(2-1-7)式,得出
a=1231.65
b=-2236.63
因此,在例1中灰铸铁初生奥氏体析出温度(y)与氮含量(x)的回归关系式为
y=1231.65-2236.63x
四、一元线性回归的统计学原理
如果X和丫都是相关的随机变量,在确定x的条件下,对应的y值并不确定,而是形成一个分布.当X取确定的值时,丫的数学期望值也就确定了,因此Y的数学期望是x的函数,即
E(Y|x=x)二f(x)(2-1-10)
这里方程f(x)称为丫对X的回归方程.如果回归方程是线性的,贝V
E(Y|x=x)二a+Bx(2-1-11)
其中
£—随机误差
从样本中我们只能得到关于特征数的估计,并不能精确地求出特征数•因此只能用f(x)的估计式来取代(2-1-11)式,用参数a和b分别作为a和B的估计量.那么,这两个估计量是否能够满足要求呢?
1.无偏性
把(x,y)的n组观测值作为一个样本,由样本只能得到总体参数a和B的估计值.可以证明,当满足下列条件:
(1)(xi,yi)是n个相互独立的观测值
(2)£i是服从匚I分布的随机变量
则由最小二乘法得到的a与b分别是总体参数a和卩的无偏估计,即
E(a)=a
E(b)=B
由此可推知
E(“)=E(y)
即y是回归值「在某点的数学期望值.
2.a和b的方差
可以证明,当n组观测值(Xi,yi)相互独立,并且D(yi)=①2,时,a
和b的方差为
工(巒掰%
i-l
以上两式表明,a和b的方差均与Xi的变动有关,X分布越宽,则a和b的方差越小.另外a的方差还与观测点的数量有关,数据越多,a的方差越小•因此,为提高估计量的准确性,Xi的分布应尽量宽,观测点数量应尽量多.
第三节回归方程的显著性检验
一、相关系数的显著性检验
在上面的分析中,为了求得回归方程,我们曾假定x与y之间存在着线性关系.在求得回归方程后,我们必须对这一假定进行检验,以确定x与y是否的确存在线性关系.
设(X,Y)为二维随机变量,如果E[X-EX][Y-EY]存在,则称它为X与Y之间的协方差,记为Cov(X,Y).即
Cov(X,Y)=E[X-E(x)][Y-E(y)](2-1-15)
如果D(X)>0,D(Y)>0,则称
为X与丫之间的相关系数
对于一个具有n组观测值的样本,其相关系数y定义为
(2-1-17)
其中Lyy称为观测值的离差平方和,记为
(2-1-18)
〜见式(2-1-7).
相关系数y是绝对值小于1,大于0的无量纲统计量.”|接近于1,表明x与y之间线性关系密切.当=1时,表示两个变量间存在确定性的线性函数关系.当=0时,表示两个变量间无线性关系.这时有两种可能情况,一种是二者没有关系(如图2-1-2(c)),另一种可能是二者有非线性关系(如图2-1-2(d)).相关系数的正负号由比决定,即.与b同号.当.>0时,y随x的增加而增加,当「<0时,y随的x增加而减少.相关系数的直观意义参见图2-1-2.
见方开泰《实用回归分析》P32图2.2
相关性检验一般利用相关系数检验表(见附录)进行.该表中给出
的「值为相关系数的起码值.只有当求出的相关系数大于表上相应的数值时,才能考虑用直线来描述x和y之间的相关关系.
查表时要遇到三个参数:
变量总数、自由度和置信水平.对于一元
回归分析,变量只有两个(x,y).自由度等于数据组数与变量个数之差.置信水平(5%和1%)表示线性相关的程度•通常当•.大于表上二-]」相应的值,但小于表上二-…相应的值时,称为x与y有显著的线性关系;如果,大于表上二-…I相应的值时,称x与y有十分显著的线性关系;如果丁|小于表上二八相应的值时,称为x与y没有明显的线性关系,即回归方程没有实际意义•
对于本章例1,变量有2个,共5组数据,故自由度数为5-2=3,表中2-?
.相应的值为0.878,二-丄相应的值为0.959.由式(2-1-17)计算得到的相关系数:
一二W.可见
0.878<7<0.959
因此灰铸铁初生奥氏体析出温度与含氮量之间存在着显著的线性
关系.
二、方差分析与F检验
n个观测值之间存在着差异,我们用观测值yi与其平均值「的
偏差平方和来表示这种差异程度,称其为总离差平方和,记为
(2-1-19)
2-1
由于
':
(2-1-20)
所以
=习(片-対+厲-刃]3
j-1
=工Oi+工®-刃*+2工®-为)(玄-刃
2-1Zi-L
(2-1-21)
式中\J.「称为回归平方和,记为S回IJ称为残差
i-1i_l
平方和,记为:
).不难证明,最后一项vIII.
因此
(2-1-22)
S总=S回+S残
上式表明,y的偏差是由两个因素造成的,一是x变化所引起,二是
各种偶然因素干扰所致•
事实上,S回和S残可用下面更简单的关系式来计算.
询=曲-刃,
2-1
=工(◎+~a~bxf
i-i
L
-:
二:
「(2-1-23)
(2-1-24)
具体检验可在方差分析表上进行
见方开泰《实用回归分析》P34表2.2
这里要注意S回的自由度为1,S残的自由度为n—2,S总的自由
度为n—1.如果x与y有线性关系,则
其中,F(1,n-2)表示第一自由度为1,第二自由度为n-2的分布.在F表中显著性水平用]表示,]一般取0.10,0.05,0.01,1-.:
表示检验的可靠程度.在进行检验时,表2-1-2中的F值应大于F表中的临界值Fa若F<0.05(1,n-2),则称x与y没有明显的线性关系,若F0.05(1,n-2)
下面对例1中x与y的线性关系进行F检验.由式(2-1-6)、式(2-1-7)、式(2-1-18)、式(2-1-23)及式(2-1-24),可得计算结果如表2-1-3.由F表查得F°.05(1,3)=10.1,F0.01(1,3)=34.1,而计算值F=16.37,可见F0.05 中标以“*: 表2-1-3例1方差分析表 方差来源 自由度 F 显著性 回归 133.537 1 133.537 16.368 + 残差 24.473 3 8.158 总和 158 4 第四节残差分析、预报和控制 一、残差分析 前面我们介绍了线性回归方程的建立和检验.在实际问题中,由 于观察人员的粗心或偶然因素的干扰.常会使我们所得到的数据不完全可靠,即出现异常数据.有时即使通过相关系数或F检验证实回归方程可靠,也不能排除数据存在上述问题.残差分析的目的就在于解决这一问题.所谓残差是指实际观察值与回归估计值的差,即 ;「「三…匚(2-1-26) 显然,有多少对数据,就有多少个残差.残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰. 首先介绍如何检查异常数据. 异常数据是指与其它数据产生的条件有明显不同的数据,因此异 常数据的残差会特别的大.一旦发现异常数据应及时剔除,用剩余数据重新建立回归方程,以提高回归方程的质量 发现异常数据主要从技术上找原因,当技术上无法找到原因时,就得借助于数理统计方法. 由数理统计方法可以证明 Y「二-(2-1-27) 或记为 十-|(2-1-28) 这说明残差的方差D(e)是x的函数,且二者呈曲线关系.以回归方程及方程「-;.■! _,・和■---jH作图. 见方开泰《实用回归分析》P45图2.3 考虑到___较小,当n较大时 仄沪/(2-1-29) 此时图中的两条曲线可近似于两条平行直线.从而有 门: .-(2-1-30) 或近似地 -AF.一」(2-1-31) 这表明,当n较大时屮落在图2-1-3的长条形带子中的概率约为95%只要知道",就可以得到残差的置信区域. [一般是未知的,通常用残差标准差.,来估计j._,可用下式求得 (2-1-32) 由此可得残差置信带 Ar%a (2-1-33) y~y=_2cr 4Cdy 对残差在置信带以外的数据都要进行检查,以区别是否是异常数 据,如果是异常数据就要剔除掉• 现在我们对例1做残差检查.由式(2-1-32) 八吕如73吨8 a=2.856 残差置信带为(-5.712,5.712).计算5个实验点的预报值与残差 值(见表2-1-4),并作出残差检查图(见图2-1-4) 表2-1-4例1的残差值 序号 Vi 勺■片一A 1 1220 1222.03 -2.03 2 1217 121143 2.57 3 1215 1212.19 Z81 4 1208 1209.28 -L28 5 1205 1207.04 -2.04 图2-1-4例1的残差图 由图2-1-4可见,例1中全部数据的残差都在置信带内,没有异 常数据. 除此以外,残差图还可以为我们提供许多有用信息. 比如,在研究铁水质量时我们看到1号高炉的残差偏于2.,处, 而2号高炉的残差偏于-2.j处(见图2-1-5)•在图2-1-5所示的这种情况下,建立统一的回归方程是不合适的,应该分别按1号和2号高炉建 立回归方程• 图2-1-5数据有周期性变化的残差图 图2-1-6数据有倾向性变化的残差图 有时我们还会发现数据有倾向性变化•在残差图上表现为前一部 分数据的残差均为正值(或负值),而后一部分数据的残差均为负值(或正值),如图2-1-6所示.遇到这种情况要仔细研究,找出原因.比如前后两部分数据是由两个人观测的,可能两人掌握尺度不同所造成的,也可 能是外界条件产生了变化或系统本身的原因造成的• 当残差出现一段全为正(或负),接着一段全为负(或正),然后又接着一 段全为正或(为负)时(见图2-1-7),说明回归模型选择不当,此时需要 考虑用非线性回归模型去拟合它•图2-1-7残差图表明回归模型选择不当 二、预报和控制 建立回归方程的重要目的是为了用来进行预报和控制•由于我们通过样本所建立的回归方程只是关于特征数的估计式,由此所得到的 预报值也只能是一个估计结果•因此当我们利用回归式进行预报的时 候,除了预报值之外,我们还希望知道预报的精度•换句话说,就是预 报值的取值范围•也就是对于给定的显著性水平找出一个区间 (t1,t2),使对应于某特定点的实际值yo以仁]的概率被区间(t1,t2)所 包含,即 (2-1-34) 可以证明满足式(2-1-34)的区间(tI,t2)是存在的,并且这个区间 是关于的对称区间.这个区间可以由下式求得 A=码(1异一2)夕[1+丄+阿尸拭叶2)减(2-1-35) 1“工(R 其中 呱= 珂+2+^9—^—](2-1-36) j-i 为yo的标准差, 为f分布表上杳得的临界值•因此有 □ (2-1-37) 比如对于例1,若已知含氮量x°=0.0095,要预报初生奥氏体析 出温度yo.由式(2-1-36)得 2.856Ll/0009^00083^ 2669 =3,129 取,.•「查F分布表得F5%(1,3)=10.1,由式(2-1-35)得 A-3129=9.944^100 由前面的回归关系式可知,当Xo=O.OO95时 yb=1231.65-223ti63x0.0035=1210402*1210 因此 ^^A=1210-10=1200 几+4=1210+10=1220 通过上例计算可以体会到,要建立回归方程时样本容量n越大, Fa(1,n-2)和匚都越小,二就越小,即预报精度就越高•此外,xo越接近為,预报精度也就越高. 在实际问题中,当n越大,xo接近.了时,为了方便起见,一般采用•,代替门,取--(7-•时)或.;■•-((: --「时).参见本节残差分析部分. F面简要介绍控制问题 在实际问题中我们常常需要将y控制在一定的范围内,即ti 为此我们要合理控制x的取值.由于 沪[1+1+AX)■] "£(「评 (2-1-38) y-y (2-1-39) 故可取c和c的函数g(c),使对给定的]下式成立 IH (2-1-40) 解不等式组 片<$卜丄十一沁)+予 (2-1-41) <&|1+丄十£一才;+$ *"辛「訝 得X.X和c可以在这个不等式组成立的条件下调整. 在实际问题中,我们可以用残差标准差匕来简单的解决控制问题 中x的取值.由式(2-1-31)和式(2-1-33)可知,在所有可能出现的y值中 满足 y>y-2d^ yLy+2& (2-1-42) 的点大约有95%因此我们只要求解不等式组 (2-1-43) 便可得到x的取值范围(x1,X2). 第五节应用举例及程序框图 为了使读者更好地掌握和运用一元线性回归分析方法,本节再通 过一个实例比较完整地介绍一元线性回归方程的建立过程和分析方法,并在此基础上给出建立一元线性回归方程的程序框图,供读者参考• 例2-1-2表2-1-5是轴承钢经过真空处理前后钢液中锰的含量现在我们来研究真空处理后成品轴承钢中锰含量(y)与真空处理前钢液 中锰含量(x)的相关关系. 表2-1-5轴承钢真空处理前与成品锰含量的比较 炉号 处理前 [On] 成品 [On] 炉号 处理前 [On] 成品 [KMnl 炉号 处理前 皿] 成品 [炯] 1 0.38 0.36 12 0.38 (〕.35 23 0.32 0.31 2 0.36 0.33 13 0.32 0.31 24 0.37 0.35 3 0.30 0/30 14 0/33 ①32 25 635 0.32 4 0.35 0.33 15 0.37 0.35 26 0,36 635 5 0.33 0.33 16 0.37 0.35 27 0.34 0.33 6 0.35 0.32 17 0.33 0.31 28 0.33 0.34 7 0.35 0.34 18 0.35 0.32 29 0.35 0.35 8 0.33 0.32 19 0.32 0.32 30 0.39 0.38 9 0.35 0.31 20 0.34 山32 31 0.36 0.34 10 0.35 0.33 21 0.32 0*33 32 0.37 0.36 11 a39 0.36 22 0.33 0.32 33 0.35 0.32 1.绘制实验数据散点图,初步判断有关线性关系 首先将表2-1-5给出的实验数据标于直角坐标系中作出有关x与 y的散点图(图2-1-8)通过对散点图的观察,可以初步判断x与y之 间存在着线性趋势• 2.计算回归系数a和b,建立初步回归方程 3. y 由(2-1-6)式: =-^=0.3327 由(2-1-7)式和(2-1-8)式: -f)2=0.015489 分立⑶-刃九O011W439 1-1 由(2-1-5)式 g经=0,70869 a=-bx=0.085934 由此得回归方程 y=0.085934+0.70869x 这里要说明的是,虽然在计算a与b时并不需要求出Lyy,但由于 Lyy在以后的相关检验中要用到,因此最好在此时一并求出 4.计算相关系数,判断线性相关的密切程度 由(2-1-17)式,相关系数 在本例中,变量有两个,共33组数据,其自由度为31,由相关系数表可知,「土相对应的数据: : -1 由于因此此回归方程有99%勺把握在一定范围内是可靠的,x与y之间存在着十分显著的线性关系 5.计算F检验值 由(2-1-21)式至(2-1-24)式 5总=Lyy=0.01105439 S回=bLxy=0.0077792 S残=Lyy—bLxy=0.003275 1 由F检验表可知,二二1-可见F>F)m因此x与y有十分显著的线性关系.将上述结果填入方差分析表中(表2-1-6). 表2-1-6例2-1-2的方差分析表 万差来源 平方和 自由度 均方 F 显著性 回归 0.0077792 1 0.0077792 73.635 ** 残差 0.003275 31 0.00010564 总和 0.01105439 32 6.残差分析 由(2-1-32)式 —^-0.00010564 ^22 于是残差标准差 a=0.010276 因此残差置信带为(—0.020552,0.020552).计算全部实验点的 实测值、予报值和残差,列于表2-1-7,并作出残差检查图(见图2-1-9). 表2-1-7例2的残差值 炉号 Vi 4 乃 炉号 Yi A Ji 炉号 yi A 1 0.36 0355 0.005 12 035 0.355 -0005 23 0.31 0.313 -0003 2 0.33 0.341 *O.OH 13 0.31 0.313 *0.003 24 0.35 0348 0.002 3 0.30 0.295 0.001 14 0.32 0.320 0.000 25 0.32 0334 -0.014 4 0.33 0.334 -0004 15 0.35 0348 0.002 26 035 0.341 0.005 5 0.33" 0.320 0010 16 0.35 0348 0.002 27 133 0.327 0003 6 032 0334 -0.012 17 031 0320 -0010 2S 134 0.320 0.020 7 0.34 0334 0.006 厨 032 0.334 -0014 25 0.35 0.334 0016 S 0.32 0.320 0.000 19 032 0313 0007 30 0.38 0.362 0018 9 031 0334 -0024 20 0.32 0327 -0007 31 0”34 0.341 -0,001 10 0.33 0.334 -0.004 21 0.33 0.313 0.017 32 0.36 0348 0.012 11 0.3d 0.362 -0.002 22 0.32 0.320 0.000 33 0.32 0334 -0.014
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 方程 建立