线性回归方程中的相关系数r.docx
- 文档编号:3148107
- 上传时间:2022-11-18
- 格式:DOCX
- 页数:18
- 大小:57.37KB
线性回归方程中的相关系数r.docx
《线性回归方程中的相关系数r.docx》由会员分享,可在线阅读,更多相关《线性回归方程中的相关系数r.docx(18页珍藏版)》请在冰豆网上搜索。
线性回归方程中的相关系数r
10.1线性【叫归
10.1.1线性回归的基本概念
线性I叫归分析是描述一个因变虽(或称为响应变tn.dependentvariable)Y与一个或多个口变Jil(iiKlependentvariable)X间的线性依存关系。
根据口变域数目的不同可分为一尤线性回归(只有一个口变虽)和多元线性回归(有两个或两个以上的自变虽)。
一元线性回归:
1.一元线性回归的基本概念
直线回归分析的任务就是根据若干个观测区,yi)i=1.2...n找出描述两个变債x、y之间关系的直线回归方程y*=a+bx.其中y*足变星y的估计值。
求直线回归方程y*=a+bx,实际匕足用回归宣线拟合散点图中的各观测点。
常用的方法是最小二乘法。
也就是使该直线与各点的纵向垂直距离最小,即使实测值y与回归直线之差的平方和达到最小。
也称为剩余(残茏)平方和。
因此求回归方程的问题,归根到底就是求对取得最小值时,a和b的问题。
a称为截距,b为回归直线的斜率,也称回归系数。
2.一元线性回归方程的假设理论
徳国数学家高斯提出了5个假设理论,满足这些假设的线性冋归模型称为古典线性模型:
⑴正态性假设。
假设随机误差项€io;服从均值为零、方差为&2的正态分布。
(2)等方差件假设。
它假设对于所有的&、"的条件方差同为6?
且&为常数。
即Var(e,/xi)=。
20
(3)独立性假设。
即零均值假设。
它假设在给定x,的条件下,5的条件期望值为零,即E(€l)=Oo
(4)无口相关性。
假设随机误差项-的逐次观察值互不相关。
即Cogi,ep=0(i^j)o
(5)£与x的不相关性。
假设随机误差项J与相应的口变录凡对因变域y的影响相互
独立。
换言之,两者对因变量y的影响是可以区分的。
即Cov(e,,x.)=Oo
3.一元线性回归方程的检验
根拥原始数据,求出冋归方程后就需妥对冋归方程进彳J•检验。
检验的假设是总体冋归系数为0。
另外要检验回归方程对因变虽的预测效果如何。
(1)回归系数的显着性检验
•对叙率的检验,假设是:
总体回归系数为0。
•对截距的检验,假设是:
总体冋归方程截距沪0。
(2)F判定系数
在判定一个线性回归直线的拟合优度的好坏时,/系数是一个巫要的判定指标。
从公式可以得到判定系数等于回归平方和在总平方和中所占的比率,即应体现了回归模型所能解释的因变址变异性的百分比。
如果R-0.775,则说明变址y的变异中有77.5%是田变屋x引起的。
当R2=l时,表示所有的观测点全部落在回归直线上。
当R2=0时,表示fi变虽与因变虽无线性关系。
为了尽可能准确的反应模吃的拟合度,SPSS输出中的AdjustedRSquare是消除了口
变戢个数影响的酹的修正值"
(3)方差分析
体现闵变敢观测值与均值之间的基异的偏蔓半方和SSr^由两个部分绢成的*即回归平方和$霁它们反应了自的重要程度;残差平方和5亠,它反应了实验误差以及其他意外冈索对实验站果的感响n表亦为:
S^SS^SS^这两部分除以齐口的口由度,得到它们的均方,统计量F-冋归均方/残差均方。
当F值太大时,拒绝接受b=0的假设*
(4)DTirbui-^'atsoii检验
在对回归模型的诊断中,有一个非常重要的回归模型假设需要诊断,那就是回归模型中的误差项的独立性.如杲误基项不独立,那么对回归摸吃的任何估计与假设所作出的第论都是不可靠的。
其参数称为Dw或D*D的取值范围是0 •当残差与自变量互为独立时’D那其 •当相邻两点的残差为正相关时,D<2, •当相邻两点的残差为负相关时’D>2. (»残差图示法,在直角坐标系中*以预測值为冈横轴,以y与之间冈的误差©为纵轴(或学生化残基与拟和值或一个口变最为纵轴h绘制铁莖的敬点图。 如果散点呈现岀明显的规律性,则认为仆在口和关性或者-非线性或者非常数方站的问题。 这样需要对数据、因变虽或自变。 进行变换“如果散点呈规随机分布,斜率为零,则认为自相关〃在的可能性不大,独立性假设成立。 多元线牲回归 L多元线性回归的基本概念 根据多个口变址的瑕优组合建立冋归方程来预测園变暈的回归分析称为多冗冋归分析*多兀冋归分析的模型为: y*=b&+bLxl+b2x2-.-bnXih 其中尸多为棍抓所有口变量X计算出的估计值,切为常数项,山.b斗称为y对应-f-xp出…氐的偏回归系数"偏回归系数吉示假设在具他所有口变量不变的洁况下’某一个白变呈变化引起因变量变化的比率。 笋九线性回归模型也必须祸足一兀线性回闩中质述的假设理论。 2.多元线性回归分析中的参数 (1)宜相关系数R•亘和关系数卷示口变域x与其他的因变办i之间线性相关密切程度的指标,圮相关系数使用字母尺表示* 复相关系数的取值范m^o-LZ间。 其值越接近I,表示具线性关系越强,rfuJttfi越接近0,表示线性关系越差。 (2)R: 判定系数与经调鑒的判定系数 与一元回归方程相同'在多尤回归中也使用判定系数商来解释回归模型中白变虽的变异在因变虽变异中所占比率, 但是,判定系数的值馳若进入回归方程的自变虽的个数(或样專容屋的大小小的增加而增大。 因此.为了消除口变蚩的个数以及样本量的天小对判定系数的影响,引进了经调到的判定系数(AdjustedRSquare), 线性回归方程中的相关系数r r=刀(Xi-X的平均数)(Yi-Y平均数”根号下[刀(Xi-X平均数)A2*刀(Yi-Y平均数)A2] R2就是相关系数的平方, R在一元线性方程就直接是因变量自变量的相关系数,多元则是复相关系数 判定系数RA2 也叫拟合优度、可决系数。 表达式是: RA2=ESS/TSS=1-RSS/TSS 该统计量越接近于1,模型的拟合优度越高。 问题: 在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大 这就给人一个错觉: 要使得模型拟合得好,只要增加解释变量即可。 ――但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需 调整。 这就有了调整的拟合优度: R1A2=1-(RSS/(n-k-1))/(TSS/(n-1)) 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是: 将残差 平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响: 其中: n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。 总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。 R=R接近于1表明Y与X1,X2,…,Xk之间的线性关系程度密切; R接近于0表明Y与X1,X2,…,Xk之间的线性关系程度不密切 相关系数就是线性相关度的大小,1为(100%)绝对正相关,0为0%,-1为(100%)绝 对负相关 相关系数绝对值越靠近1,线性相关性质越好,根据数据描点画出来的函数-自变量图线越 趋近于一条平直线,拟合的直线与描点所得图线也更相近。 如果其绝对值越靠近0,那么就说明线性相关性越差,根据数据点描出的图线和拟合曲线相 差越远(当相关系数太小时,本来拟合就已经没有意义,如果强行拟合一条直线,再把数据 点在同一坐标纸上画出来,可以发现大部分的点偏离这条直线很远,所以用这个直线来拟合 是会出现很大误差的或者说是根本错误的)。 分为一元线性回归和多元线性回归 线性回归方程中,回归系数的含义 一元: YA=bX+ab表示X每变动(增加或减少)1个单位,Y平均变动(增加或减少)b各单位 多元: YA=b1X1+b2X2+b3X3+a在其他变量不变的情况下,某变量变动1单位,引起y平均变动 量 以b2为例: b2表示在X1、X3(在其他变量不变的情况下)不变得情况下,X2每变动1 单位,y平均变动b2单位 就一个reg来说y=a+bx+e a+bx的误差称为explainedsumofsquare e的误差是不能解释的是residualsumofsquare 总误差就是TSS 所以TSS=RSS+ESS 判定系数也叫拟合优度、可决系数。 表达式是 该统计量越接近于1,模型的拟合优度越高。 问题: 在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大 这就给人一个错觉: 要使得模型拟合得好,只要增加解释变量即可。 ――但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2 需调整。 这就有了调整的拟合优度 RSS/(n-k-l) TSSl®-0 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是: 将 残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响: 其 中: n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。 总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。 顺便补充一下: 记rss=^-ry总离差平方和 ESE工应-好回归平方和 RSS=丫(1;-1: 严剩余平方利I 一般做回归的时候要求拟合优度(实际值与拟合值相关系数的平方)越高越好,可以通过增加解释变量来实现,可是解释变量多了后很多解释变量的系数T检验不显著了,而且增加很多变量后模型的自由度就减少了,这些情况狂的存在往往使得模型预测不精确;修正拟合优度就是将残差平方和跟总离差平方和分别除以各自的自由度,这样就剔除了变量个数对其影 响了。 首先有一个恒等式: TSS=ESS+RSS 即总偏差平方和=回归平方和+残差平方和 通常情况,我们都是讨论解释变量对总效应的贡献,使用一个叫拟合优度”(或者叫判定系 数”)的指标 其定义为: 回归平方和/总偏差平方和=ESS/TSS=(TSS-RSS)/TSS=(923-325)/923 如果说随机误差对总效应的贡献,那可以直接RSS/TSS 因为1-(TSS-RSS)/TSS就可以化为RSS/TSS ⑶零阶相关系数、部分和关与偏栢关系数 ・这里的零阶相关系数(ZemQKkr)计算所有自变罐与凶变虽之间的简单相关关系』 •部分相关(PaiTConelation)表赤任排除了其他口变/对曲的影响庙当一牛自变暈进入回归方程模型后,复相关系数的平方增加*。 •偏相关系数(PartialConelaTion)>fe示: 住排除了真他变啟的影响后,白变啟£与因变量y之间的相关程度。 部分相关系数小于偏相关系数偏相关系数也町以用来作为筛选自变虽的指标,即通过比较偏相关系数的大小来刿别哪些变址对冈变蛀具有较大的影响力。 3.多沱线性回归分析的检验 建立了多元回归方程后.需要进行显著性检验,以确认建立的数学模型足否很好的拟合了原始数据•即该何归方程足否有效。 利川残普分析,确宦冋归方程足否违反了假设理论*对各口变/进行检验,其假设是总体的刚归方崔口变址系数或常数项为0,以使在冋归方程屮保留对因变Wy值预測更有效的白变就、咲便确定数学模世足否有效“ ⑴方差分析 与一元回归方程的拎验相同,多元回归方程也采用方差分析方法对回归方程进行检验,检验的假设是总休的回归系数均为0或不都为非讥它是对整个回归方程的昭著性检验。 使用统计/F进行检验。 原理与一元回归的方程分折原理招同° (2)偏回归系数与常数项的检验 检验的假设垦: 各自变蛀回归系数为乩常数项为零。 它使用的统计吐是5尸偏回归系数f偏回归系数的标准误。 (3)方差齐性檢验 SPSS中pearson(皮尔逊相关系数)看r值还是P值,确定相关性 p值是检验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 方程 中的 相关系数