第4篇 试验设计与回归分析.docx
- 文档编号:23679170
- 上传时间:2023-05-19
- 格式:DOCX
- 页数:58
- 大小:141.58KB
第4篇 试验设计与回归分析.docx
《第4篇 试验设计与回归分析.docx》由会员分享,可在线阅读,更多相关《第4篇 试验设计与回归分析.docx(58页珍藏版)》请在冰豆网上搜索。
第4篇试验设计与回归分析
第4篇 试验设计与回归分析
第1章 回归分析的种类与简单回归分析
第1节 回归分析的任务和种类
1.回归分析仅哪些问题
当人们从一组对象上获得2个或多个指标的观测值时,往往需要回答下述几个问题:
①如何实现预测,即如何由1个或多个指标(自变量)的值去推算另1个或多个指标(因变量)的值;②如何实现控制,即事先给锄品质量应达到的标准(因变量的取值范围),根据变量之间的数量关系去控制那些影响产品质量的因素(自变量)的变化区间;③如何实现修匀,由于所研究的指标带有变异性,当用散布图将变量之间的关系呈现出来时,散点所形成的轨迹并非像数学中初等函数那样有规律,需要用合适的数学方法(如用直线或某种光滑曲线)对资料进行修匀,使变量之间本质联系更清楚地呈现出来。
回归分析正是回答上述问题的一种最常用最有效的统计分析方法之一。
2.回归分析的种类
如果因变量是(非时间的)连续变量(即一般定量资料),设自变量的个数为k,当k=1时,回归分析的种类有:
①直线回归分析;②通过直线化实现的简单曲线回归分析(以下简称为曲线拟合);③非线性曲线拟合;④一般多项式曲线拟合;⑤正交多项式曲线拟合。
当k≥2时,称为多元回归分析(注:
前面的④、⑤2种情况实质上是用多元回归分析仅只含1个自变量时较复杂的曲线拟合问题)。
当同时对多个因变量进行回归分析时,称之为多重回归分析。
在多元回归分析中,简单而又实用的则是多元线性回归分析(其中某些自变量可以是原观测指标经过某种初等变换的结果,如对数变换、开平根变换等,因为这里所说的线性是指∶函数f(x)相对于回归参数是线性的,并非相对于自变量而言)。
这是本篇中要论述的问题。
如果因变量是与时间有关的连续变量且未被离散化(如:
生存时间、复发时间、死亡时间等),而自变量可以是定量的,也可以是定性的。
此时需用生存分析中的半参数或参数回归分析方法,将在本书第5篇中论述。
如果因变量是名义或有序变量,无论它取二个离散值(如:
死与活、复发与未复发等)还是多个离散值(自变量可以是定性和定量的)时,都可选用logistic回归分析;如果把列联表中每个格内的理论频数的对数当作因变量,把分组变量(包含影响因素和观测结果变量2类)当作自变量,可用对数线性模性分析。
这部分内容请参见本书第3篇中有关章节。
在自变量代表时间的情况下,通常不假定因变量y的各次观察值独立,而具有某种非独立的结构,例如构成一平稳序列。
这种回归模型的研究被划入统计学的另一个重要分支──时间序列统计分析的范围,本书不作讨论。
第2节 直线回归与相关分析的概念和要点
1.两种分析方法的异同点
研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。
从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。
从资料所具备的条件来说,作相关分析时要求两变量都是随机变量(如:
人的身长与体重、血硒与发硒);作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量(即可以事先指定变量的取值,如:
用药的剂量)。
在统计学教科书中习惯把相关与回归分开论述,其实在应用时,当两变量都是随机变量时,常需同时给出这2种方法分析的结果;另外,若用计算器实现统计分析,可用对相关系数的检验取代对回归系数的检验(理由见下节),胀方便地达到了化繁为简的目的。
故本书把这2个内容放在一起讲解。
2.散布图在这两种分析中的作用
功能齐全的计算器和统计软件,会蒙骗盲目运用统计方法的人,进行直线相关和回归分析时,尤其要注意!
因为统计方法只能帮助人们揭示数据之间内在的统计规律性,但它不能创造规律,也就是说,资料之间是否存在本质联系要靠专业知识来解释;另外,在专业上有一定联系的2项指标之间的关系并非都是直线关系。
实事上,如果2项指标之间呈一条弯曲度不大的“S”型或倒“S”型曲线趋势,错误地用一条直线回归方程来描述,在统计学上往往会得到较高的显著性,即该直线回归方程是成立的,但在生物学上是解释不通的(当因变量是某种率时最易发生这种现象)。
正确的做法是:
将(x,y)的n对数值绘在直角坐标系内,得到x与y变化趋势的散布图,如果n个点形成的散布图呈一条明显的曲线趋势时,宜拟合一条曲线回归方程;如果n个点在一条不太宽的长带内随机地着,且不存在明显的曲线趋势,可考虑进行直线相关和回归分析;如果n个点形成的散布图近似于一个圆盘,则说明x与y之间无确定的变化趋势,几乎是互相独立的,不必硬把它们捏合在一起分析。
第3节 直线回归与相关分析的计算和应用
1.直线相关分析
进行直线相关分析的2个变量之间无自变量和因变量之分,分析的目的是研究在专业上有一定联系的2个变量呈直线关系的密切程度和方向,所用的统计量称为相关系数r,按式(4.1.1)~(4.1.5)计算。
(4.1.1)
(4.1.2)
(4.1.3)
(4.1.4)
,
(4.1.5)
由式(4.1.1)定义的相关系数r满足-1≤r≤1。
当n固定时,若|r|越接近于0,表明x与y之间呈直线关系的密切程度越低;若|r|越接近于1,表明x与y之间呈直线关系的密切程度越高。
相关系数的大小受数据的对子数和抽样误差的影响,当r所代表的总体相关系数ρ=0时,|r|可能明显大于0,为了尽可能排除抽样误差的影响,较客观地反映出2变量之间呈直线关系的密切程度,需进行假设检验,其假设为H0:
ρ=0;H1:
ρ≠0,α=0.05。
按式(4.1.6)、(4.1.7)计算。
, (4.1.6)
(4.1.7)
求出统计量tr的值后,查t临界值表、下结论的方法与均数比较时所用的t检验相同。
统计学家已编制出相关系数的临界值表,按df=n-2查此表作检验就更简便了。
2.直线回归分析
进行直线回归分析的2个变量之间一般有自变量和因变量之分,即使在专业上无法区分时,常把容易测量的变量看作自变量,另一个较难测量的变量看作因变量。
分析的目的是建立2变量之间的直线回归方程,检验该方程是否成立,并结合专业知识说明该方程是否值得应用以及如何应用。
关于直线回归模型,有下列统计假定∶
①对于给定的x,y是1个具有特定概率的随机变量,并且,与各x值对应的y服从具有等方差的正态;
②独立性假定,即各y值在统计学上彼此互相独立(有时此假定与实际情况有矛盾,需根据具体情形采取对策);
③直线假定,若用μy|x表示给定x时,y的均数,则此假定的含义是:
y的均数(μy|x)是x的直线函数。
这等价于说,将(x1,μy|x1)、(x2,μy|x2)、…、(xk,μy|xk)这些点连接起来,它们应在1条直线上。
设总体直线回归方程为y=α+βx+ε,ε为随机误差,样本直线回归方程为y^=a+bx,a、b分别是α、β的估计值,根据最小平方法(或叫最小二乘法)原理,可导出计算a,b的公式,见式(4.1.8)、(4.1.9)。
, (4.1.8)
(4.1.9)
式(4.1.8)中的lxx、lxy由式(4.1.2)、(4.1.4)定义;式(4.1.9)中x、y由式(4.1.5)定义。
如果根据专业知识需求过定点(x0,y0)的直线回归方程,则按式(4.1.10),(4.1.11)计算。
(4.1.10)
(4.1.11)
如果(x0,y0)=(0,0)点,则按式(4.1.12)计算。
(4.1.12)
与需要对相关系数进行检验的理由相同,对斜率和截距也需作检验。
对β(总体斜率)作检验的假设和方法如下。
H0:
β=0;H1:
β≠0;α=0.05。
(4.1.13)
(4.1.14)
(4.1.15)
[说明] 值得注意的是:
同一批资料,按式(4.1.6)与按式(4.1.13)算得的结果和查表的结果完全一致,即tr=tb,df=n-2。
显然,计算tr要比tb容易得多,在实用时,可用前者取代后者。
实现这2种检验的更简便的方法则是直接查“相关系数临界值表”。
与对斜率检验等价的还有一种常用的方法∶即对回归方程是否显著作方差分析(见后面SAS软件REG过程的输出结果)。
其基本思想是:
计算出y的总离均差平和SST、由回归所能解释的离均差平和SSR,它们的差值就是回归所无法解释的量,称为误差,记为SSE,然后,用回归的均方除以误差的均方,构造出F统计量,进而根据F推断出所求的回归方程是否显著。
关于SST、SSR、SSE的计算参见本章第4节,此处仅介绍SSR,以便引入1个与相关系数有关的统计量──决定系数
。
SSR=r2SST,即r2=SSR/SST,这说明决定系数r2就是回归的离均差平和占y的总离均差平和的百分比,它即建立了相关与回归之间的联系,又通过具体的数量大小反映了回归的贡献大小,这是回归分析中1个十分有用的统计量。
对α(总体截距)作检验的假设和方法如下。
H0:
α=0;H1:
α≠0;α(显著性水平)=0.05。
ta=|a-0|/Sa =|a|/Sa,df=n-2 (4.1.16)
(4.1.17)
[说明] 上述各式中Sy.x称为剩余标准差,是排除了x的影响后,单独y方面的变异大小,常用它作为预报精确度的标志。
因为它的单位与y一致,最容易在实际中进行比较和检验,所以,一个回归能否对仅实际问题有所帮助,只要比较Sy.x与允许的偏差就行。
故它是检验一个回归是否有效的极其重要的标志。
3.直线相关与回归分析中区间估计问题──利用回归方程进行预报与控制
ρ、α、β的100(1-α)%置信区间按式(4.1.18)~(4.1.20)计算。
r-tα(n-2)Sr≤ρ≤r+tα(n-2)Sr (4.1.18)
a-tα(n-2)Sa≤α≤a+tα(n-2)Sa (4.1.19)
b-tα(n-2)Sb≤β≤b+tα(n-2)Sb (4.1.20)
若记μy|x=x0为给定x=x0条件下y的总体均数,则它的100(1-α)%置信区间按式
(4.1.21)、(4.1.22)计算。
(4.1.21)
(4.1.22)
在给定x=x0条件下,y的个体值的近似100(1-α)%容许区间按式(4.1.23)、(4.1.24)计算,胀仅了对因变量y进行预报的问题。
(4.1.23)
(4.1.24)
在实际应用时,有时也会遇到与上述情况相反的情形,即给定y=y0,问对应的x0是多少?
胀是所谓的控制(或校准)问题。
在给定y=y0条件下,x0的估计值需按下述2种情形来考虑:
①如果x,y都是随机变量,则预测与控制这2个问题的地位是平等的。
可以反过来把y作为自变量而把x作为因变量,这时当然应求从x推算y的直线回归方程x^=c+dy,它与从x推算y的直线回归方程并不重合,将y=y0代入此方程, 求得x0的估计值,并用式(4.1.23)、(4.1.24)进行区间估计,注意把公式中的x,y的地位互换;
②一般控制问题多用在自变量非随机的场合,因此,不能象①中那样反转过去做。
事实上,在这种场合下,控制问题的性质与预测问题很不一样:
在前者,x虽然未知,但是是1个非随机的变量,取确定的数;在后者,预测对象y却是随机变量。
处理的方法是:
作为x的点估计,仍沿用已求得的直线回归方程y^=a+bx解出x^0=(y0-a)/b,但应重新推导出与上面2式类似的公式,以便直接运用。
于是,x0的近似100(1-α)%容许区间按式(4.1.25)、(4.1.26)计算。
胀仅了对自变量x进行控制(或校准)的问题。
(4.1.25)
(4.1.26)
在上2式中,y0是根据n0次观测得到的y的均数,当y0为理论值时,n0=∞;当y0为1次观测结果时,n0=1。
4.直线相关与回归分析的应用
[例4.1.1A] 给10只中年大鼠注射内毒素(30mg/kg)后,测得每只大鼠的红细胞含量x(×104/mm3)与血红蛋白含量y(g/L)分别如下,试对x,y两变量进行线性相关和回归分析(设x为自变量,y为因变量)。
鼠号 1 2 3 4 5 6 7 8 9 10
x 654 786 667 605 761 642 652 706 602 539
y 130 168 143 130 158 129 151 153 149 109
[分析与解答]
(1)先介绍用统计公式逐一计算的方法
①绘出10对数据的散布图(此处从略,参见后面SAS输出结果部分),发现各散点呈一直线变化趋势,表明值得进行直线相关和回归分析;
②按式(4.1.1)~(4.1.5)和式(4.1.8)、(4.1.9)计算,得
lxx=49676.4, lyy=2730
lxy=9886
r=0.848915,x-=661.4,y-=142.0,b=0.199008,a=10.376109
于是,求得相关系数r=0.848915,y倚x变化的直线回归方程为:
y^=10.376109+0.199008x
③按式(4.1.6)、(4.1.7)对相关系数(同时也等价于对回归方程的斜率)进行显著性检验
H0:
ρ=0;H1:
ρ≠0;α=0.05。
Sr=0.186863
tr=4.543,df=8
按df=8查t临界值表,得t0.01(8)=3.355,因tr=4.543>t0.01(8)=3.355,即P<0.01,在α=0.01水准上拒绝H0,接受H1。
用查表法实现上述检验的方法是:
查相关系数临界值表,找到df=8所对应的那一行,看r=0.848915在某2个相邻的数之间,与此二值对应的表头上的小数就是概率P值所在的范围(注意有单、双侧检验之分)。
因r0.002(8)=0.847 (注∶若事先就有充分的理由认为: x与y之间只可能是正(或负)相关关系,则宜选用单侧检验;若理由并不十分充足,则宜选用双侧检验)。 ④同理,可用式(4.1.16)、(4.1.17)对总体截距作显著性检验,若差别不显著,可认为所求的直线回归方程通过坐标原点(0,0); ⑤如果需要,还可按式(4.1.18)~(4.1.26)进行区间估计(从略)。 [专业结论] 因r=0.848915>0,故可以认为x与y之间呈非常显著的正相关关系,也即所求得的直线回归方程成立。 [说明] 适于进行直线相关和回归分析的资料类型为定量资料;当运用求得的直线回归方程去对因变量的取值进行预报时,自变量的取值最好不要超出原试验数据的变化范围;检查直线回归方程的计算是否有错的简便方法: 所求的直线应通过(x,y)这一点,即将x代入方程,应得y^≈y。 (2)最后介绍用SAS软件实现统计计算和检验的方法 [SAS程序]──[D4P1.PRG] DATAabc; PROCPLOT; INPUTxy; PLOTy*x='s'; CARDS; RUN; 654 130 PROCCORR; 786 168 VARxy; 667 143 RUN; 605 130 PROCREG; 761 158 MODELy=x/RCLICLM; 642 129 PLOT(U95.L95.P.)*x='-' 652 151 y*x='o'/OVERLAY; 706 153 OUTPUTOUT=aaaP=yhatR=yresid; 602 149 RUN; 539 109 PROCPLOTDATA=aaa; ; PLOTyresid*yhat='R'; OPTIONSLS=64PS=20; RUN; (程序的第1部分) (程序的第2部分) [程序修改指导] OPTIONS语句规定输出时每行最多64个字符,每页最多20行,目的是使输出的图形小一些;第1次调用PLOT过程是为了绘原始数据的散布图,以便了解是否适合作直线相关和回归分析,每1对数据用1个“s”表示出来;第2个过程步是调用CORR过程作相关分析;第3个过程步是调用REG过程进行直线回归分析,在MODEL语句中,因变量放在等号左边,右边各选择项的含义是: R(作残差分析,同时给出因变量的预测值)、CLI(给出各自变量所对应的因变量的95%容许区间的下限与上限值)、CLM(给出各自变量所对应的因变量预测值(均数)的95%置信区间的下限与上限值),紧接此语句之后的PLOT语句第1部分要求以x为横轴,纵轴分别为U95(上限值)、L95(下限值)、P(因变量的预测值),均用“-”表示,将绘出回归直线的置信带;同时用“o”表示原始数据点,OVERLAY要求将自变量相同因变量取几组不同值的图绘在同1个坐标系内;OUTPUT语句产生1个输出数据集AAA,内含(x,y)原始数据和y的预测值yhat(即y^)、残差yresid=y-y^;最后调用PLOT过程绘残差图,把残差放在纵轴上、y的预测值放在横轴上。 [输出结果及其解释] PlotofY*X. Symbolusedis's'. 200+ | Y| | s | s 150+ s s s | s | s ss | | s 100+ ---+--------+--------+--------+--------+--------+--------+-- 500 550 600 650 700 750 800 X 这是原始数据的散布图,不存在某种明显的曲线趋势,各点在1条不太宽的带内随机地着,而且,2变量都是随机变量,故可以继续作直线相关和回归分析。 CORRELATIONANALYSIS 2'VAR'Variables: X Y SimpleStatistics Variable N Mean StdDev Sum Minimum Maximum X 10 661.4 74.2940 6614.0 539.0 786.0 Y 10 142.0 17.4165 1420.0 109.0 168.0 PearsonCorrelationCoefficients/Prob>|R|underHo: Rho=0/N=10 X Y X 1.00000 0.84892 0.0 0.0019 Y 0.84892 1.00000 0.0019 0.0 这是相关分析过程给出的关于均数、标准差等的简单统计量,皮尔逊(Pearson)相关系数及其显著性检验的P值。 因r=0.84892,P=0.0019,说明2变量之间呈非常显著的正相关关系。 Model: MODEL1 DependentVariable: Y AnalysisofVariance Sumof Mean Source DF Squares Square FValue Prob>F Model 1 1967.39289 1967.39289 20.639 0.0019 Error 8 762.60711 95.32589 CTotal 9 2730.00000 RootMSE 9.76350 R-square 0.7207 DepMean 142.00000 AdjR-sq 0.6857 C.V. 6.87570 这是回归过程给出的关于所拟合的直线回归方程是否显著的检验结果,这里使用的检验方法是方差分析,它与前面讲的关于ρ和β的检验是等价的。 对应的F=20.639,P=0.0019,说明直线回归方程是非常显著的,此方程的精确度可用剩余标准差来度量,即Sy.x=9.7635。 ParameterEstimates Parameter Standard TforH0: Variable DF Estimate Error Parameter=0 Prob>|T| INTERCEP 1 10.376122 29.13711664 0.356 0.7310 X 1 0.199008 0.04380567 4.543 0.0019 这是关于总体截距和总体斜率的参数估计及其显著性检验结果,α^=a=10.376122,α与0的差别不显著(P=0.7310),应不要截距重新拟合直线回归方程;β^=b=0.199008,β与0的差别非常显著(P=0.0019)。 Model: MODEL2 NOTE: Nointerceptinmodel.R-squareisredefined. DependentVariable: Y AnalysisofVariance Sumof Mean Source DF Squares Square FValue Prob>F Model 12
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第4篇 试验设计与回归分析 试验 设计 回归 分析