第3节 相关性最小二乘估计与统计案例.docx
- 文档编号:2022652
- 上传时间:2022-10-26
- 格式:DOCX
- 页数:24
- 大小:251.22KB
第3节 相关性最小二乘估计与统计案例.docx
《第3节 相关性最小二乘估计与统计案例.docx》由会员分享,可在线阅读,更多相关《第3节 相关性最小二乘估计与统计案例.docx(24页珍藏版)》请在冰豆网上搜索。
第3节相关性最小二乘估计与统计案例
第3节 相关性、最小二乘估计与统计案例
考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.
知识梳理
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:
一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归分析
对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:
(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.
(1)回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.
(2)回归直线方程的求法——最小二乘法.
设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程y=a+bx的系数为:
其中=i,y=i,(x,y)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)设A,B为两个变量,每一个变量都可以取两个值,变量A:
A1,A2=;变量B:
B1,B2=.
2×2列联表
B
A
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量χ2=,其中n=a+b+c+d为样本容量.
(2)独立性检验
利用随机变量来判断“两个变量有关联”的方法称为独立性检验.
(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断
①当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
②当χ2>2.706时,有90%的把握判定变量A,B有关联;
③当χ2>3.841时,有95%的把握判定变量A,B有关联;
④当χ2>6.635时,有99%的把握判定变量A,B有关联.
[常用结论与微点提醒]
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本点的中心(,).
2.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
3.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
诊断自测
1.判断下列结论正误(在括号内打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程=x+可以估计预报变量的取值和变化趋势.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的χ2值越大.( )
答案
(1)√
(2)√ (3)√ (4)√
2.(老教材选修1-2P21问题提出改编)为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析B.均值与方差
C.独立性检验D.概率
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
答案 C
3.(老教材选修1-2P7讲解改编)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关系数r如下,其中拟合效果最好的模型是( )
A.模型1的相关系数r为0.98
B.模型2的相关系数r为0.80
C.模型3的相关系数r为0.50
D.模型4的相关系数r为0.25
解析 在两个变量y与x的回归模型中,它们的相关系数r越近于1,模拟效果越好,在四个选项中A的相关系数最大,所以拟合效果最好的是模型1.
答案 A
4.(2019·濮阳一模)根据下表中的数据,得到的回归方程为=x+9,则=( )
x
4
5
6
7
8
y
5
4
3
2
1
A.2B.1C.0D.-1
解析 由题意可得=×(4+5+6+7+8)=6,=×(5+4+3+2+1)=3,∵回归方程为=x+9且回归直线过点(6,3),∴3=6+9,解得=-1.
答案 D
5.(2020·陕西联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
由χ2=,
得χ2=≈9.616.
则正确的结论是( )
A.有95%的把握认为“生育意愿与城市级别有关”
B.有95%的把握认为“生育意愿与城市级别无关”
C.有99%的把握认为“生育意愿与城市级别有关”
D.有99%的把握认为“生育意愿与城市级别无关”
解析 ∵χ2≈9.616>6.635.∴有99%的把握认为“生育意愿与城市级别有关”.
答案 C
6.(2020·昆明一中联考)x和y的散点图如图所示,在相关关系中,若用y=c1ec2x拟合时的相关指数为R,用=x+拟合时的相关指数为R,则R,R中较大的是______.
解析 由散点图知,用y=c1ec2x拟合的效果比=x+拟合的效果要好,所以R>R,故较大者为R.
答案 R
考点一 相关关系的判断
【例1】
(1)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
(2)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1B.0C.-D.1
解析
(1)观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.故选D.
(2)完全的线性关系,且为负相关,故其相关系数为-1,故选A.
答案
(1)D
(2)A
规律方法 判断相关关系的两种方法:
(1)散点图法:
如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:
利用相关系数判定,|r|越趋近于1,相关性越强.
【训练1】在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).
①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%;
②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;
③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%;
④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%.
解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.
答案 ②
考点二 回归分析 多维探究
角度1 线性回归方程及应用
【例2-1】(2020·南昌统考)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:
万元)和收益y(单位:
万元)的数据如下表:
月份
1
2
3
4
5
6
广告投入量/万元
2
4
6
8
10
12
收益/万元
14.21
20.31
31.8
31.18
37.83
44.67
他们用两种模型①=x+,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:
xiyi
x
7
30
1464.24
364
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?
并说明理由.
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:
(ⅰ)剔除异常数据后,求出
(1)中所选模型的回归方程;
(ⅱ)广告投入量x=18时,
(1)中所选模型收益的预报值是多少?
附:
对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为:
==,=-.
解
(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.
(2)(ⅰ)剔除异常数据,即3月份的数据后,得
=×(7×6-6)=7.2,
=×(30×6-31.8)=29.64.
xiyi=1464.24-6×31.8=1273.44,
x=364-62=328.
====3,
=-=29.64-3×7.2=8.04.
所以y关于x的回归方程为=3x+8.04.
(ⅱ)把x=18代入(ⅰ)中所求回归方程得=3×18+8.04=62.04,
故预报值为62.04万元.
角度2 非线性回归方程及应用
【例2-2】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:
千元)对年销售量y(单位:
t)和年利润z(单位:
千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)·(yi-)
(wi-)·(yi-)
46.6
563
6.8
289.8
1.6
1469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据
(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据
(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:
对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:
=,=- .
解
(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由
(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据
(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第3节 相关性最小二乘估计与统计案例 相关性 最小 估计 统计 案例