书签分享收藏举报版权申诉 / 58

立即下载加入VIP,免费下载

当前位置：首页 > 法律文书 > 调解书 > 第4篇试验设计与回归分析.docx

第4篇试验设计与回归分析.docx

文档编号：23679170
上传时间：2023-05-19
格式：DOCX
页数：58
大小：141.58KB

第4篇试验设计与回归分析.docx

《第4篇试验设计与回归分析.docx》由会员分享，可在线阅读，更多相关《第4篇试验设计与回归分析.docx（58页珍藏版）》请在冰豆网上搜索。

第4篇试验设计与回归分析.docx

第4篇试验设计与回归分析

第４篇　试验设计与回归分析

第１章　回归分析的种类与简单回归分析

　　第１节　回归分析的任务和种类

１．回归分析仅哪些问题

　　当人们从一组对象上获得２个或多个指标的观测值时，往往需要回答下述几个问题：

①如何实现预测，即如何由１个或多个指标（自变量）的值去推算另１个或多个指标（因变量）的值；②如何实现控制，即事先给锄品质量应达到的标准（因变量的取值范围），根据变量之间的数量关系去控制那些影响产品质量的因素（自变量）的变化区间；③如何实现修匀，由于所研究的指标带有变异性，当用散布图将变量之间的关系呈现出来时，散点所形成的轨迹并非像数学中初等函数那样有规律，需要用合适的数学方法（如用直线或某种光滑曲线）对资料进行修匀，使变量之间本质联系更清楚地呈现出来。

回归分析正是回答上述问题的一种最常用最有效的统计分析方法之一。

２．回归分析的种类

　　如果因变量是（非时间的）连续变量（即一般定量资料），设自变量的个数为ｋ，当ｋ＝１时，回归分析的种类有：

①直线回归分析；②通过直线化实现的简单曲线回归分析（以下简称为曲线拟合）；③非线性曲线拟合；④一般多项式曲线拟合；⑤正交多项式曲线拟合。

当ｋ≥２时，称为多元回归分析（注：

前面的④、⑤２种情况实质上是用多元回归分析仅只含１个自变量时较复杂的曲线拟合问题）。

当同时对多个因变量进行回归分析时，称之为多重回归分析。

在多元回归分析中，简单而又实用的则是多元线性回归分析（其中某些自变量可以是原观测指标经过某种初等变换的结果，如对数变换、开平根变换等，因为这里所说的线性是指∶函数f（x）相对于回归参数是线性的，并非相对于自变量而言）。

这是本篇中要论述的问题。

　　如果因变量是与时间有关的连续变量且未被离散化（如：

生存时间、复发时间、死亡时间等），而自变量可以是定量的，也可以是定性的。

此时需用生存分析中的半参数或参数回归分析方法，将在本书第５篇中论述。

　　如果因变量是名义或有序变量，无论它取二个离散值（如：

死与活、复发与未复发等）还是多个离散值（自变量可以是定性和定量的）时，都可选用logistic回归分析；如果把列联表中每个格内的理论频数的对数当作因变量，把分组变量（包含影响因素和观测结果变量２类）当作自变量，可用对数线性模性分析。

这部分内容请参见本书第３篇中有关章节。

　　在自变量代表时间的情况下，通常不假定因变量y的各次观察值独立，而具有某种非独立的结构，例如构成一平稳序列。

这种回归模型的研究被划入统计学的另一个重要分支──时间序列统计分析的范围，本书不作讨论。

　　第２节　直线回归与相关分析的概念和要点

１．两种分析方法的异同点

　　研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题，需进行直线相关和回归分析。

从研究的目的来说，若仅仅为了了解两变量之间呈直线关系的密切程度和方向，宜选用线性相关分析；若仅仅为了建立由自变量推算因变量的直线回归方程，宜选用直线回归分析。

从资料所具备的条件来说，作相关分析时要求两变量都是随机变量（如：

人的身长与体重、血硒与发硒）；作回归分析时要求因变量是随机变量，自变量可以是随机的，也可以是一般变量（即可以事先指定变量的取值，如：

用药的剂量）。

　　在统计学教科书中习惯把相关与回归分开论述，其实在应用时，当两变量都是随机变量时，常需同时给出这２种方法分析的结果；另外，若用计算器实现统计分析，可用对相关系数的检验取代对回归系数的检验（理由见下节），胀方便地达到了化繁为简的目的。

故本书把这２个内容放在一起讲解。

２．散布图在这两种分析中的作用

　　功能齐全的计算器和统计软件，会蒙骗盲目运用统计方法的人，进行直线相关和回归分析时，尤其要注意！

因为统计方法只能帮助人们揭示数据之间内在的统计规律性，但它不能创造规律，也就是说，资料之间是否存在本质联系要靠专业知识来解释；另外，在专业上有一定联系的２项指标之间的关系并非都是直线关系。

实事上，如果２项指标之间呈一条弯曲度不大的“Ｓ”型或倒“Ｓ”型曲线趋势，错误地用一条直线回归方程来描述，在统计学上往往会得到较高的显著性，即该直线回归方程是成立的，但在生物学上是解释不通的（当因变量是某种率时最易发生这种现象）。

正确的做法是：

将（ｘ，ｙ）的ｎ对数值绘在直角坐标系内，得到ｘ与ｙ变化趋势的散布图，如果ｎ个点形成的散布图呈一条明显的曲线趋势时，宜拟合一条曲线回归方程；如果ｎ个点在一条不太宽的长带内随机地着，且不存在明显的曲线趋势，可考虑进行直线相关和回归分析；如果ｎ个点形成的散布图近似于一个圆盘，则说明ｘ与ｙ之间无确定的变化趋势，几乎是互相独立的，不必硬把它们捏合在一起分析。

　　第３节　直线回归与相关分析的计算和应用

１．直线相关分析

　　进行直线相关分析的２个变量之间无自变量和因变量之分，分析的目的是研究在专业上有一定联系的２个变量呈直线关系的密切程度和方向，所用的统计量称为相关系数ｒ，按式（4.1.1）～（4.1.5）计算。

　　　　　　　　　　　　　　　　　　　　　　（4.1.1）

　　　　　　　　　　　　　　（4.1.2）　　

　　　　　　　　　　　　　　（4.1.3）　　

　　　　　　　　（4.1.4）

，　　　

　　　　　　　　　　　　　　　　（4.1.5）

由式（4.1.1）定义的相关系数ｒ满足-１≤ｒ≤１。

　　当ｎ固定时，若｜ｒ｜越接近于０，表明ｘ与ｙ之间呈直线关系的密切程度越低；若｜ｒ｜越接近于１，表明ｘ与ｙ之间呈直线关系的密切程度越高。

　　相关系数的大小受数据的对子数和抽样误差的影响，当ｒ所代表的总体相关系数ρ=０时，｜ｒ｜可能明显大于０，为了尽可能排除抽样误差的影响，较客观地反映出２变量之间呈直线关系的密切程度，需进行假设检验，其假设为H0：

ρ=０；H1：

ρ≠０，α=0.05。

按式（4.1.6）、（4.1.7）计算。

　，　（4.1.6）　　　

　　　　（4.1.7）

　　求出统计量tr的值后，查t临界值表、下结论的方法与均数比较时所用的t检验相同。

统计学家已编制出相关系数的临界值表，按df=n-2查此表作检验就更简便了。

２．直线回归分析

　　进行直线回归分析的２个变量之间一般有自变量和因变量之分，即使在专业上无法区分时，常把容易测量的变量看作自变量，另一个较难测量的变量看作因变量。

分析的目的是建立２变量之间的直线回归方程，检验该方程是否成立，并结合专业知识说明该方程是否值得应用以及如何应用。

关于直线回归模型，有下列统计假定∶

　　①对于给定的x，y是１个具有特定概率的随机变量，并且，与各x值对应的y服从具有等方差的正态;

　　②独立性假定，即各y值在统计学上彼此互相独立（有时此假定与实际情况有矛盾，需根据具体情形采取对策）;

　　③直线假定，若用μy｜x表示给定x时，y的均数，则此假定的含义是:

y的均数（μy｜x）是x的直线函数。

这等价于说，将（x1，μy｜x1）、（x2，μy｜x2）、…、（xk，μy｜xk）这些点连接起来，它们应在１条直线上。

　　设总体直线回归方程为y=α+βx+ε，ε为随机误差，样本直线回归方程为y^=a+bx，a、b分别是α、β的估计值，根据最小平方法（或叫最小二乘法）原理，可导出计算a，b的公式，见式（4.1.8）、（4.1.9）。

，　　　　（4.1.8）　　　　　　　　　

　　　　　　　　（4.1.9）

式（4.1.8）中的lxx、lxy由式（4.1.2）、（4.1.4）定义；式（4.1.9）中x、y由式（4.1.5）定义。

　　如果根据专业知识需求过定点（x0，y0）的直线回归方程，则按式（4.1.10），（4.1.11）计算。

　　　　　　　（4.1.10）　　

　　　　　　　　　　　　　　　　　（4.1.11）

　　如果（x0，y0）=（0，0）点，则按式（4.1.12）计算。

　　　　　　　　　　　　　　　　　（4.1.12）

　　与需要对相关系数进行检验的理由相同，对斜率和截距也需作检验。

　　对β（总体斜率）作检验的假设和方法如下。

　　H0：

β=0；H1:

β≠0；α=0.05。

　　　　　　　　　　　　　　　　（4.1.13）　　

　　　　　　　　　　　　（4.1.14）　　

　　　　　　　　　　（4.1.15）

　　[说明]　值得注意的是：

同一批资料，按式（4.1.6）与按式（4.1.13）算得的结果和查表的结果完全一致，即tr=tb，df=n-2。

显然，计算tr要比tb容易得多，在实用时，可用前者取代后者。

实现这２种检验的更简便的方法则是直接查“相关系数临界值表”。

　　与对斜率检验等价的还有一种常用的方法∶即对回归方程是否显著作方差分析（见后面SAS软件REG过程的输出结果）。

其基本思想是:

计算出y的总离均差平和SST、由回归所能解释的离均差平和SSR，它们的差值就是回归所无法解释的量，称为误差，记为SSE，然后，用回归的均方除以误差的均方，构造出F统计量，进而根据F推断出所求的回归方程是否显著。

　　关于SST、SSR、SSE的计算参见本章第４节，此处仅介绍SSR，以便引入１个与相关系数有关的统计量──决定系数

。

　　SSR=r2SST，即r2=SSR/SST，这说明决定系数r2就是回归的离均差平和占y的总离均差平和的百分比，它即建立了相关与回归之间的联系，又通过具体的数量大小反映了回归的贡献大小，这是回归分析中１个十分有用的统计量。

　　对α（总体截距）作检验的假设和方法如下。

　　H0:

α=0;H1:

α≠0;α（显著性水平）=0.05。

　　ta=｜a-0｜/Sa　=｜a｜/Sa，df=n-2　　　　　　　　　　　　　　（4.1.16）　　

　　　　　　　　　　　　　　　　　（4.1.17）

　　[说明]　上述各式中Sy.x称为剩余标准差，是排除了ｘ的影响后，单独ｙ方面的变异大小，常用它作为预报精确度的标志。

因为它的单位与ｙ一致，最容易在实际中进行比较和检验，所以，一个回归能否对仅实际问题有所帮助，只要比较Sy.x与允许的偏差就行。

故它是检验一个回归是否有效的极其重要的标志。

３．直线相关与回归分析中区间估计问题──利用回归方程进行预报与控制

　　ρ、α、β的100（1-α）％置信区间按式（4.1.18）～（4.1.20）计算。

　　　　　　　　r-tα（n-2）Sr≤ρ≤r+tα（n-2）Sr　　　　　　　　　（4.1.18）

　　　　　　　　a-tα（n-2）Sa≤α≤a+tα（n-2）Sa　　　　　　　　　（4.1.19）

　　　　　　　　b-tα（n-2）Sb≤β≤b+tα（n-2）Sb　　　　　　　　　（4.1.20）

　　若记μy｜x=x0为给定x＝x0条件下ｙ的总体均数，则它的100（1-α）％置信区间按式

（4.1.21）、（4.1.22）计算。

　　　　　（4.1.21）

　　　　　　　　　　　（4.1.22）

　　在给定x=x0条件下，y的个体值的近似100（1-α）％容许区间按式（4.1.23）、（4.1.24）计算，胀仅了对因变量y进行预报的问题。

　　　　　　　　　（4.1.23）　　　　　　　　

　　　　　　　　　（4.1.24）

　　在实际应用时，有时也会遇到与上述情况相反的情形，即给定y=y0，问对应的x0是多少？

胀是所谓的控制（或校准）问题。

在给定y=y0条件下，x0的估计值需按下述２种情形来考虑:

　　①如果x，y都是随机变量，则预测与控制这２个问题的地位是平等的。

可以反过来把y作为自变量而把x作为因变量，这时当然应求从x推算y的直线回归方程x^=c+dy，它与从x推算y的直线回归方程并不重合，将y＝y0代入此方程，　求得x0的估计值，并用式（4.1.23）、（4.1.24）进行区间估计，注意把公式中的x，y的地位互换;

　　②一般控制问题多用在自变量非随机的场合，因此，不能象①中那样反转过去做。

事实上，在这种场合下，控制问题的性质与预测问题很不一样:

在前者，ｘ虽然未知，但是是１个非随机的变量，取确定的数；在后者，预测对象ｙ却是随机变量。

　　处理的方法是:

作为ｘ的点估计,仍沿用已求得的直线回归方程y^=a+bx解出x^0=（y0-a）/b，但应重新推导出与上面２式类似的公式，以便直接运用。

于是，x0的近似100（1-α）％容许区间按式（4.1.25）、（4.1.26）计算。

胀仅了对自变量ｘ进行控制（或校准）的问题。

　　　　　　　（4.1.25）　　　　　　　　

　　　　　（4.1.26）

　　在上２式中，y0是根据n0次观测得到的y的均数，当y0为理论值时，n0=∞；当y0为１次观测结果时，n0＝１。

４．直线相关与回归分析的应用

　　[例4.1.1A]　给10只中年大鼠注射内毒素（30mg／kg）后，测得每只大鼠的红细胞含量x（×104/mm3）与血红蛋白含量y（g/L）分别如下，试对x，y两变量进行线性相关和回归分析（设x为自变量，y为因变量）。

　　鼠号　　1　　2　　3　　4　　5　　6　　7　　8　　9　　10

　　x　　654　786　667　605　761　642　652　706　602　539

　　y　　130　168　143　130　158　129　151　153　149　109

　　[分析与解答]　

（1）先介绍用统计公式逐一计算的方法

①绘出10对数据的散布图（此处从略,参见后面SAS输出结果部分），发现各散点呈一直线变化趋势，表明值得进行直线相关和回归分析;

②按式（4.1.1）～（4.1.5）和式（4.1.8）、（4.1.9）计算，得

　　lxx=49676.4，　lyy=2730

　　lxy=9886

　　r=0.848915，x-=661.4，y-=142.0，b=0.199008，a=10.376109

　　于是，求得相关系数r=0.848915，y倚x变化的直线回归方程为：

　　y^=10.376109+0.199008x

③按式（4.1.6）、（4.1.7）对相关系数（同时也等价于对回归方程的斜率）进行显著性检验

　　H0:

ρ=0;H1:

ρ≠0;α=0.05。

　　Sr=0.186863

　　tr=4.543，df=8

　　按df=8查t临界值表，得t0.01（8）=3.355，因tr=4.543>t0.01（8）=3.355，即P<0.01，在α=0.01水准上拒绝H0，接受H1。

　　用查表法实现上述检验的方法是：

　　查相关系数临界值表，找到df=8所对应的那一行，看r=0.848915在某２个相邻的数之间，与此二值对应的表头上的小数就是概率P值所在的范围（注意有单、双侧检验之分）。

　　因r0.002（8）=0.847

（注∶若事先就有充分的理由认为：

ｘ与ｙ之间只可能是正（或负）相关关系，则宜选用单侧检验;若理由并不十分充足，则宜选用双侧检验）。

④同理，可用式（4.1.16）、（4.1.17）对总体截距作显著性检验，若差别不显著，可认为所求的直线回归方程通过坐标原点（0，0）；

⑤如果需要，还可按式（4.1.18）～（4.1.26）进行区间估计（从略）。

　　[专业结论]　因r=0.848915>0，故可以认为ｘ与ｙ之间呈非常显著的正相关关系，也即所求得的直线回归方程成立。

　　[说明]　适于进行直线相关和回归分析的资料类型为定量资料;当运用求得的直线回归方程去对因变量的取值进行预报时，自变量的取值最好不要超出原试验数据的变化范围;检查直线回归方程的计算是否有错的简便方法:

所求的直线应通过（x，y）这一点，即将x代入方程，应得y^≈y。

（2）最后介绍用SAS软件实现统计计算和检验的方法

　　　　[SAS程序]──[D4P1.PRG]

　　DATAabc;　　　　　　　　　　PROCPLOT;

　　INPUTxy;　　　　　　　　　　PLOTy*x='s';

　　CARDS;　　　　　　　　　　　　RUN;

　　654　130　　　　　　　　　　　PROCCORR;

　　786　168　　　　　　　　　　　VARxy;

　　667　143　　　　　　　　　　　RUN;

　　605　130　　　　　　　　　　　PROCREG;

　　761　158　　　　　　　　　　　MODELy=x/RCLICLM;

　　642　129　　　　　　　　　　　PLOT（U95.L95.P.）*x='-'

　　652　151　　　　　　　　　　　　　　　y*x='o'/OVERLAY;

　　706　153　　　　　　　　　　　OUTPUTOUT=aaaP=yhatR=yresid;

　　602　149　　　　　　　　　　　RUN;

　　539　109　　　　　　　　　　　PROCPLOTDATA=aaa;

　　;　　　　　　　　　　　　　　　PLOTyresid*yhat='R';

　　OPTIONSLS=64PS=20;　　　　　RUN;

　　（程序的第１部分）　　　　　　　（程序的第２部分）

　　[程序修改指导]　OPTIONS语句规定输出时每行最多64个字符，每页最多20行，目的是使输出的图形小一些；第１次调用PLOT过程是为了绘原始数据的散布图，以便了解是否适合作直线相关和回归分析，每１对数据用１个“ｓ”表示出来；第２个过程步是调用CORR过程作相关分析；第３个过程步是调用REG过程进行直线回归分析，在MODEL语句中，因变量放在等号左边，右边各选择项的含义是:

R（作残差分析，同时给出因变量的预测值）、CLI（给出各自变量所对应的因变量的95％容许区间的下限与上限值）、CLM（给出各自变量所对应的因变量预测值（均数）的95％置信区间的下限与上限值），紧接此语句之后的PLOT语句第１部分要求以ｘ为横轴，纵轴分别为U95（上限值）、L95（下限值）、P（因变量的预测值），均用“-”表示，将绘出回归直线的置信带；同时用“o”表示原始数据点，OVERLAY要求将自变量相同因变量取几组不同值的图绘在同１个坐标系内；OUTPUT语句产生１个输出数据集AAA，内含（ｘ,ｙ）原始数据和ｙ的预测值yhat（即y^）、残差yresid=y-y^；最后调用PLOT过程绘残差图，把残差放在纵轴上、ｙ的预测值放在横轴上。

　　[输出结果及其解释]　PlotofY*X.　Symbolusedis's'.

200+

　　|

　Y|

　　|　　　　　　　　　　　　　　　　　　　　　　　　　　s

　　|　　　　　　　　　　　　　　　　　　　　　　　　s

150+　　　　　　　　　　s　　　　s　　　　s

　　|　　　　　　　　　　　　　　　　s

　　|　　　　　　　　　　s　　　ss

　　|

　　|　　　　s

100+

　　---+--------+--------+--------+--------+--------+--------+--

　　　500　　　550　　　600　　　650　　　700　　　750　　　800

　　　　　　　　　　　　　　　　　X

　　这是原始数据的散布图，不存在某种明显的曲线趋势，各点在１条不太宽的带内随机地着，而且，２变量都是随机变量，故可以继续作直线相关和回归分析。

　　　　　　　　　　　CORRELATIONANALYSIS

　　　　　　　2'VAR'Variables:

　X　　　　Y

　　　　　　　　　　　SimpleStatistics

　Variable　N　　Mean　StdDev　　　Sum　Minimum　Maximum

　X　　　　10　661.4　74.2940　6614.0　　539.0　　786.0

　Y　　　　10　142.0　17.4165　1420.0　　109.0　　168.0

PearsonCorrelationCoefficients/Prob>|R|underHo:

Rho=0/N=10

　　　　　　　　　　　　　　　X　　　　　　　　Y

　　　　　　X　　　　　1.00000　　　　　0.84892

　　　　　　　　　　　　　0.0　　　　　　　0.0019

　　　　　　Y　　　　　0.84892　　　　　1.00000

　　　　　　　　　　　　　0.0019　　　　　　0.0

　　这是相关分析过程给出的关于均数、标准差等的简单统计量，皮尔逊（Pearson）相关系数及其显著性检验的P值。

因r=0.84892，P=0.0019，说明２变量之间呈非常显著的正相关关系。

Model:

MODEL1　DependentVariable:

Y　　AnalysisofVariance

　　　　　　　　　　Sumof　　　　Mean

Source　　DF　　　Squares　　　Square　　　FValue　Prob>F

Model　　　1　1967.39289　1967.39289　　　20.639　0.0019

Error　　　8　　762.60711　　95.32589

CTotal　　9　2730.00000

　　RootMSE　　　9.76350　　R-square　　　0.7207

　　DepMean　　142.00000　　AdjR-sq　　　0.6857

　　C.V.　　　　　6.87570

　　这是回归过程给出的关于所拟合的直线回归方程是否显著的检验结果，这里使用的检验方法是方差分析，它与前面讲的关于ρ和β的检验是等价的。

对应的F=20.639，P=0.0019，说明直线回归方程是非常显著的,此方程的精确度可用剩余标准差来度量，即Sy.x=9.7635。

　　　　　　　　ParameterEstimates

　　　　　　　　Parameter　　　Standard　　TforH0:

Variable　DF　　　Estimate　　　　Error　Parameter=0　Prob>|T|

INTERCEP　1　　10.376122　29.13711664　　　　0.356　　　0.7310

X　　　　　1　　　0.199008　　0.04380567　　　　4.543　　　0.0019

　　这是关于总体截距和总体斜率的参数估计及其显著性检验结果，α＾=a=10.376122，α与０的差别不显著（P=0.7310），应不要截距重新拟合直线回归方程;β＾=b=0.199008，β与０的差别非常显著（P=0.0019）。

Model:

MODEL2

NOTE:

Nointerceptinmodel.R-squareisredefined.

DependentVariable:

Y　　　AnalysisofVariance

　　　　　　　　　　　　Sumof　　　　Mean

Source　　　　　DF　　　Squares　　　Square　　　FValue　Prob>F

Model　　　　　　12

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第4篇试验设计与回归分析试验设计回归分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第4篇试验设计与回归分析.docx
链接地址：https://www.bdocx.com/doc/23679170.html

第4篇 试验设计与回归分析.docx

热门标签

第4篇试验设计与回归分析.docx