版 第3章 31 回归分析的基本思想及其初步应用.docx
- 文档编号:17979709
- 上传时间:2023-04-24
- 格式:DOCX
- 页数:16
- 大小:90.28KB
版 第3章 31 回归分析的基本思想及其初步应用.docx
《版 第3章 31 回归分析的基本思想及其初步应用.docx》由会员分享,可在线阅读,更多相关《版 第3章 31 回归分析的基本思想及其初步应用.docx(16页珍藏版)》请在冰豆网上搜索。
版第3章31回归分析的基本思想及其初步应用
3.1 回归分析的基本思想及其初步应用
1.通过对典型案例的探究,了解回归分析的基本思想、方法及其初步应用.
2.会求回归直线方程,并用回归直线方程进行预报.(重点)
3.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.了解判断模型拟合效果的方法(相关指数和残差分析).(难点)
[基础·初探]
教材整理1 回归直线方程
阅读教材P80~P82探究上面倒数第一行,完成下列问题.
1.回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
2.回归直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:
其中=i,=i,(,)称为样本点的中心.
1.在对两个变量x,y进行线性回归分析时,有下列步骤:
①对所求出的回归直线方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图.
如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是( )
A.①②⑤③④ B.③②④⑤①
C.②④③①⑤D.②⑤④③①
【解析】 对两个变量进行回归分析时,首先收集数据(xi,yi),i=1,2,…,n;根据所搜集的数据绘制散点图.观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后依据所求出的回归直线方程作出解释.故正确顺序是②⑤④③①.
【答案】 D
2.如图311四个散点图中,适合用线性回归模型拟合的两个变量的是________(填序号).
图311
【解析】 由题图易知,①③两个图中的样本点在一条直线附近,因此适合用线性回归模型拟合.
【答案】 ①③
3.若y与x之间的一组数据为
x
0
1
2
3
4
y
1
3
5
5
6
则y对x的回归直线一定经过的点是________.
【解析】 由表中数据得==2,==4.
因回归直线必过样本中心点(,),所以y与x的回归直线一定经过的点是(2,4).
【答案】 (2,4)
教材整理2 线性回归分析
阅读教材P82探究~P89,完成下列问题.
1.线性回归模型
(1)表达式y=bx+a+e.
(2)基本概念:
①a和b为模型的未知参数.
②e是y与bx+a之间的误差.通常e为随机变量,称为随机误差.
③x称为解释变量,y称为预报变量.
2.衡量回归方程的预报精度的方法
(1)残差平方和法:
①称为相应于点(xi,yi)的残差.
②残差平方和(yi-)2越小,模型的拟合效果越好.
(2)残差图法:
残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型的拟合精度越高.
(3)利用相关指数R2刻画回归效果:
其计算公式为:
R2=1-;
其几何意义:
R2越接近于1,表示回归的效果越好.
1.判断(正确的打“√”,错误的打“×”)
(1)求线性回归方程前可以不进行相关性检验.( )
(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )
(3)利用线性回归方程求出的值是准确值.( )
(4)变量x与y之间的回归直线方程表示x与y之间的真实关系形式.( )
(5)随机误差也就是残差.( )
【解析】
(1)× 因为如果两个变量之间不具有线性相关关系,就不用求线性回归方程了,求出的回归直线方程当然也不能很好的反映两变量间的关系.
(2)√ 因为由残差图的方法步骤可知,该说法正确.
(3)× 因为利用线性回归方程求出的值为估计值,而不是真实值.
(4)× 因为变量x与y之间的线性回归直线方程仅表示x与y之间近似的线性关系,x与y之间满足y=bx+a+e,其中e为随机误差.
(5)× 因为随机误差e是真实值y与bx之间的误差,而残差=y-是随机误差e的估计量.
【答案】
(1)×
(2)√ (3)× (4)× (5)×
2.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的R2分别为:
模型1的R2为0.98,模型2的R2为0.80,模型3的R2为0.50,模型4的R2为0.25.其中拟合效果最好的模型是( )
【导学号:
29472081】
A.模型1B.模型2
C.模型3D.模型4
【解析】 R2能够刻画用回归模型拟合数据的效果,R2的值越接近于1,说明回归模型拟合数据的效果越好.
【答案】 A
[小组合作型]
求线性回归方程
下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据
(2)求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:
3×2.5+4×3+5×4+6×4.5=66.5)
【精彩点拨】
(1)按表中的数据在平面直角坐标系中描点即得散点图;
(2)由公式求出,,写出回归直线方程;
(3)利用回归方程分析.
【自主解答】
(1)由题设所给数据,可得散点图如图.
(2)由数据,计算得:
=86,
==4.5,
==3.5,
又已知iyi=66.5.所以,由最小二乘法确定的回归方程的系数为:
===0.7,
=-=3.5-0.7×4.5=0.35,
因此,所求的回归直线方程为=0.7x+0.35.
(3)由
(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65吨标准煤.
求回归直线方程的三个步骤
1.画散点图:
由样本点是否呈条状分布来判断两个量是否具有线性相关关系.
2.求回归系数:
若存在线性相关关系,则求回归系数.
3.写方程:
写出回归直线方程,并利用回归直线方程进行预测说明.
[再练一题]
1.已知x,y的取值如表所示:
x
0
1
3
4
y
2.2
4.3
4.8
6.7
若从散点图分析,y与x线性相关,且=0.95x+,则的值等于( )
【导学号:
29472082】
A.2.6 B.6.3
C.2 D.4.5
【解析】 =(0+1+3+4)=2,==4.5,而回归直线方程过样本点的中心(2,4.5),
所以=-0.95=4.5-0.95×2=2.6.
【答案】 A
线性回归分析
已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x(元)
14
16
18
20
22
y(件)
12
10
7
5
3
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
【精彩点拨】 先利用求线性回归直线方程的方法步骤求出回归直线方程,再利用相关指数R2说明拟合效果.
【自主解答】 =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
x=142+162+182+202+222=1660,
y=122+102+72+52+32=327,
xiyi=14×12+16×10+18×7+20×5+22×3=620,
∴===-1.15.
=-=7.4+1.15×18=28.1,
∴所求回归直线方程为=-1.15x+28.1.
列出残差表:
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
∴(yi-i)2=0.3,(yi-)2=53.2,
R2=1-≈0.994,
故回归模型的拟合效果很好.
1.该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
2.刻画回归效果的三个方式
(1)残差图法:
残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:
残差平方和(yi-i)2越小,模型的拟合效果越好.
(3)相关指数法:
R2=1-越接近1,表明回归的效果越好.
[再练一题]
2.假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下表的统计资料:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
若由资料知,y与x呈线性相关关系.
(1)求线性回归方程=x+;
(2)求残差平方和;
(3)求相关指数R2.
【解】
(1)由已知条件可得:
=4,=5,=90,iyi=112.3.
于是有===1.23,
=-=5-1.23×4=0.08.
所以=1.23x+0.08.
(2)由公式i=1.23xi+0.08和i=yi-i,得下表
1
2
3
4
5
i
2.54
3.77
5
6.23
7.46
i
-0.34
0.03
0.5
0.27
-0.46
所以残差平方和为(-0.34)2+0.032+0.52+0.272+(-0.46)2=0.651.
(3)R2=1-≈0.9587.
[探究共研型]
非线性回归分析
探究1 如果两个相关变量x,y满足回归方程y=c1x2+c2,那么x,y具有线性相关关系吗?
如何把它化归为线性回归方程问题?
【提示】 x,y不具有线性相关关系,但是若令z=x2,则y=c1x2+c2可变换为y=c1z+c2,即化归为线性回归方程问题.
探究2 如果两个相关变量x,y满足非线性回归方程y=c1ec2x,如何转化为线性回归方程问题?
如果两个变量呈非线性相关关系,怎样求回归方程?
【提示】 令z=lny,则原回归方程可变换为z=bx+a(a=lnc1,b=c2).若两个变量呈非线性相关关系可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.
探究3 若对同一个问题建立的两种不同回归模型,怎样比较它们的拟合效果?
【提示】 有两种比较方法:
(1)计算残差平方和,残差平方和小的模型拟合效果好;
(2)计算相关指数R2,R2越接近于1的模型拟合效果越好.
下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预报x=40时y的值.
【精彩点拨】 画出散点图→确定是否线性相关→确定函数模型→转化为线性模型→求回归方程→进行拟合→进行预报
【自主解答】
(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=c1ec2x的周围,其中c1,c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=lny,则变换后的样本点应分布在直线z=bx+a,a=lnc1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得回归直线方程为=0.272x-3.849,
∴=e0.272x-3.849.
残差列表如下:
yi
7
11
21
24
66
115
325
i
6.443
11.101
19.125
32.950
56.770
128.381
290.325
i
0.557
-0.101
1.875
-8.950
9.23
-13.381
34.675
(3)当x=40时,y=e0.272×40-3.849≈1131.
非线性回归问题的处理方法
1.指数函数型y=ebx+a
(1)函数y=ebx+a的图象:
(2)处理方法:
两边取对数得lny=lnebx+a,即lny=bx+a.令z=lny,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
2.对数函数型y=blnx+a
(1)函数y=blnx+a的图象:
(2)处理方法:
设x′=lnx,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
3.y=bx2+a型
处理方法:
设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
[再练一题]
3.在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的回归方程.
【解】 画出散点图如图所示.
根据散点图可知y与x近似地呈反比例函数关系,
设y=,令t=,
则y=kt,原数据变为:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系.列表如下:
序号
ti
yi
tiyi
t
y
1
4
16
64
16
256
2
2
12
24
4
144
3
1
5
5
1
25
4
0.5
2
1
0.25
4
5
0.25
1
0.25
0.0625
1
∑
7.75
36
94.25
21.3125
430
所以=1.55,=7.2.
所以=≈4.1344,=-≈0.8.
所以=4.1344t+0.8.
所以y与x的回归方程是=+0.8.
1.关于回归分析,下列说法错误的是( )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,预报变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
【解析】 用散点图反映两个变量间的关系时,存在误差.
【答案】 D
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
哪位同学建立的回归模型拟合效果最好?
( )
A.甲 B.乙
C.丙 D.丁
【解析】 相关指数R2越大,表示回归模型的拟合效果越好.
【答案】 A
3.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
【解析】 由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.
【答案】 85% 15%
4.已知某车间加工零件的个数x与花费时间y(h)之间的线性回归直线方程为=0.01x+0.5,则加工600个零件大约需要________h.
【解析】 =0.01×600+0.5=6.5,所以加工600个零件大约需要6.5h.
【答案】 6.5
5.在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据为:
1
2
3
4
5
价格x
1.4
1.6
1.8
2
2.2
需求量y
12
10
7
5
3
已知iyi=62,=16.6,且y与x呈线性相关.
(1)求出y对x的回归方程;
(2)如价格定为1.9万元,预测需求量大约是多少?
(精确到0.01t).
【导学号:
29472083】
【解】
(1)因为=×9=1.8,=×37=7.4,
iyi=62,=16.6,
所以===-11.5,
=-=7.4+11.5×1.8=28.1,
故y对x的回归方程为=28.1-11.5x.
(2)=28.1-11.5×1.9=6.25(t).
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第3章 31 回归分析的基本思想及其初步应用 回归 分析 基本 思想 及其 初步 应用