决定系数r2计算.docx
- 文档编号:25422258
- 上传时间:2023-06-08
- 格式:DOCX
- 页数:8
- 大小:17.96KB
决定系数r2计算.docx
《决定系数r2计算.docx》由会员分享,可在线阅读,更多相关《决定系数r2计算.docx(8页珍藏版)》请在冰豆网上搜索。
决定系数r2计算
决定系数r2计算
决定系数r2计算
【篇一:
决定系数】
【篇二:
判定系数与相关系数的深入研究】
判定系数与相关系数的深入研究
什么叫相关性?
比如某个地区人的身高与体重的关系,某个学校学生学习时间与学习成绩的关系,我们的收入与教育水平的关系等等,除此之外,在我们工作中也有大量相关性的应用实例,例如我们在定位质差原因中运用常规mrr与质差mrr的电平分布间的相关性,在定位互调干扰小区时运用干扰系数与话务量的相关性,在分析质差成因时运用全网质差话务比例与弱信号的相关性等等,既然我们的工作离不开相关性的运用,那我们有必要深入的去了解相关性的计算及其原理。
一、概念介绍
说到相关性分析会使我们联想到线性回归和散点图的概念,它们同属于回归分析中的概线性回归:
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互念,都是被广泛应用的相关性分析方法:
依赖的定量关系的一种统计分析方法之一,通俗点来说回归分析是寻找相关关系中非确定性关系的某种确定性,相关性可以从涉及到的变量数量、表现形式及变化方向进行分类,如下图所示:
散点图:
散点图是用于表示因变量随自变量而变化的大致趋势,是将变量相关性图形化的工具,用于判断的分析两组变量之间是否存在某种关联或总结坐标点的分布模式,散点图主要体现变量间的关系主要有:
正线性相关、负线性相关、非线性(曲线)相关和不相关四种相关关系,其中线性相关又分强线性相关和一般线性相关,具体形态如以下图例所示:
1)强正(负)线性相关
2)正(负)线性相关
3)非线性(曲线)相关不相关
二、线性回归主要参数解释:
通过excel的“数据分析”功能可以计算出线性回归分析数据,如下图所示:
我们主要关注【回归统计】中可以反映变量间相关性的“相关系数multipler”和“判定系数rsquare”两个指标:
1.multipler(相关系数r):
相关系数是建立在相关分析基础上,用来分析衡量变量
x和变量y之间相关程度的大小。
通常用r表示,该值的范围为:
-1≤r≤1,与值
对应的相关性的强弱关系如下图所示:
相关系数计算公式及案例:
r?
n?
xy?
n?
x?
(?
x)
2
2?
x?
y
n?
y?
(?
2
y)
2
现假设在判断10bszcw小区是否存互调干扰嫌疑时,通过话务量与干扰系
数的相关性进行定位,该小区24小时的综合话务量及干扰系数如下表所示(灰
表中的时间段数量(24个)则为公式中的n,综合话务量为x、干扰系数为y,
根据公式要求,先对数据进行求和与汇总,汇总后的数据如下表所示:
套入公式后计算结果如下:
?
?
==98.30%
2
2.rsquare(判定系数r):
判定系数(又称拟合优度或决定系数)是建立在回归分
析基础之上的,用于研究一个随机变量对别一个随机变量的解释程度,该值的取值范围为0≤r≤1,值越接近1,说明自变量对因变量的解释程度越高,自变量引起的因变量变动占总变动的百分比越高。
2
判定系数算法及案例:
2
r?
n?
x
(n?
xy?
2
?
(?
x)
2
n?
y
?
x?
y)
2
2
2
?
(?
y)
以相关系数中案例的数据为基础计算10bszcw的判定系数,如下:
2
(24?
1047.01?
287.95?
71.47)?
?
?
?
==96.64%
?
?
?
案例说明:
10bszcw小区的相关性系数为:
98.30%,可以判断该小区的话务量与干扰系数为正相关关系且接近绝对相关值1,说明小区话务量与干扰系数之间的关系密切;小区的判定系数为:
96.64%,非常接近1,说明该小区的话务量变化导致干扰变化占总变化的96.64%,由此可以判断出该小区存在互调干扰的机率非常大;
如下图10bszcw小区话务量与干扰系数趋势图及散点图所示,小区话务量的曲线与干扰系数的典型形态几乎是一模一样的,从散点图的分布来看,两组变量形成的点在同一直线上,说明两组变量是存在较强的线性相关;
三、相关系数与判定系数函数的运用方法:
在进行质差原因定位及规律性质差分析等工作时,我们都需要对全网的小区进行分析,
所以在数据分析上必须要满足批量计算的功能,才能更好的为我们提高工作效率,而在我们常软件excel中也已经包含了相关系数及判定系数的计算函数,只要掌握使用方法,便可以迅速完成全网小区的相关系数计算工作:
相关系数计算函数:
correl(array1,array2)array1第一组数值单元格区域
array2第二组数值单元格区域函数说明:
?
如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内;
?
如果array1和array2的数据点的个数不同,函数correl返回错误值#n/a;?
如果array1或array2为空,或者其数值的s(标准偏差)等于零,函数
correl返回错误值#div/0!
;应用案例:
known_xs为数组或数据点区域
函数说明:
?
参数可以是数字或者是包含数字的名称、数组或引用;
?
逻辑值和直接键入到参数列表中代表数字的文本被计算在内;
?
如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内;
?
如果参数为错误值或为不能转换成数字的文本,将会导致错误;
?
如果known_ys和known_xs为空或其数据点个数不同,函数rsq返回错
【篇三:
线性回归方程中的相关系数r】
线性回归方程中的相关系数r
r=∑(xi-x的平均数)(yi-y平均数)/根号下[∑(xi-x平均数)^2*∑(yi-y平均数
)^2]
r2就是相关系数的平方,
r在一元线性方程就直接是因变量自变量的相关系数,多元则是复相关系数
判定系数r^2
也叫拟合优度、可决系数。
表达式是:
r^2=ess/tss=1-rss/tss
该统计量越接近于1,模型的拟合优度越高。
问题:
在应用过程中发现,如果在模型中增加一个解释变量,r2往往增大
这就给人一个错觉:
要使得模型拟合得好,只要增加解释变量即可。
——但是,现实情况往往是,由增加解释变量个数引起的r2的增大与拟合好坏无关,r2需调整。
这就有了调整的拟合优度:
r1^2=1-(rss/(n-k-1))/(tss/(n-1))
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:
将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:
其中:
n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。
总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。
r=r接近于1表明y与x1,x2,…,xk之间的线性关系程度密切;
r接近于0表明y与x1,x2,…,xk之间的线性关系程度不密切
相关系数就是线性相关度的大小,1为(100%)绝对正相关,0为0%,-1为(100%)绝对负相关
相关系数绝对值越靠近1,线性相关性质越好,根据数据描点画出来的函数-自变量图线越趋近于一条平直线,拟合的直线与描点所得图线也更相近。
如果其绝对值越靠近0,那么就说明线性相关性越差,根据数据点描出的图线和拟合曲线相差越远(当相关系数太小时,本来拟合就已经没有意义,如果强行拟合一条直线,再把数据点在同一坐标纸上画出来,可以发现大部分的点偏离这条直线很远,所以用这个直线来拟合是会出现很大误差的或者说是根本错误的)。
分为一元线性回归和多元线性回归
线性回归方程中,回归系数的含义一元:
y^=bx+ab表示x每变动(增加或减少)1个单位,y平均变动(增加或减少)b各单位多元:
y^=b1x1+b2x2+b3x3+a在其他变量不变的情况下,某变量变动1单位,引起y平均变动量
以b2为例:
b2表示在x1、x3(在其他变量不变的情况下)不变得情况下,x2每变动1单位,y平均变动b2单位
就一个reg来说y=a+bx+e
a+bx的误差称为explainedsumofsquare
e的误差是不能解释的是residualsumofsquare
总误差就是tss
所以tss=rss+ess
判定系数也叫拟合优度、可决系数。
表达式是
该统计量越接近于1,模型的拟合优度越高。
问题:
在应用过程中发现,如果在模型中增加一个解释变量,r2往往增大
这就给人一个错觉:
要使得模型拟合得好,只要增加解释变量即可。
——但是,现实情况往往是,由增加解释变量个数引起的r2的增大与拟合好坏无关,r2需调整。
这就有了调整的拟合优度
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是
:
将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:
其中:
n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。
总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。
顺便补充一下:
一般做回归的时候要求拟合优度(实际值与拟合值相关系数的平方)越高越好,可以通过增加解释变量来实现,可是解释变量多了后很多解释变量的系数t检验不显著了,而且增加很多变量后模型的自由度就减少了,这些情况狂的存在往往使得模型预测不精确;修正拟合优度就是将残差平方和跟总离差平方和分别除以各自的自由度,这样就剔除了变量个数对其影响了。
首先有一个恒等式:
tss=ess+rss
即总偏差平方和=回归平方和+残差平方和
通常情况,我们都是讨论解释变量对总效应的贡献,使用一个叫“拟合优度”(或者叫“判定系数”)的指标
其定义为:
回归平方和/总偏差平方和=ess/tss=(tss-rss)/tss=(923-325)/923
如果说随机误差对总效应的贡献,那可以直接rss/tss
因为1-(tss-rss)/tss就可以化为rss/tss
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决定 系数 r2 计算