相关与回归分析.docx
- 文档编号:3297678
- 上传时间:2022-11-21
- 格式:DOCX
- 页数:12
- 大小:74.66KB
相关与回归分析.docx
《相关与回归分析.docx》由会员分享,可在线阅读,更多相关《相关与回归分析.docx(12页珍藏版)》请在冰豆网上搜索。
相关与回归分析
第七单元相关与回归分析
教学目的
1、理解相关与回归分析的概念与种类;
2、熟练掌握相关系数的计算方法;
3、熟练掌握回归分析和一元线性回归的分析方法。
教学重点与难点
1、相关关系的判断与计算;
2、一元线性回归分析方法
第一节意义和任务
客观存在的事物或现象之间是相互联系、相互影响、互制约的。
相关分析和回归分析就是从数量上研究现象之间有无关系存在,以及相互关系的密切程度,从而探求由于一个因素的变动引起另一因素平均变动的估计值。
一、相关关系的概念
现象之间的依存关系,一般可归结为两大类,即:
函数关系
相关关系
(一)函数关系
函数关系是指现象之间存在着确定性的严格的依存关系。
在这种关系下,当一个或一组变量取一定的数值时,另一个变量就有一个确定的数值与之相对应,这种关系可以用一个数学表达式反映出来。
例如:
某种商品的销售收入Y与该商品的销售量Q以及该商品价格P之间的关系可以用下列公式表示:
Y=PQ
在商品价格一定的情况下,商品销售收入Y随着销售量Q的变动而变动,对Q的某一个具体数值,Y就有唯一确定的值与之相对应;在商品的销售数量一定的情况下,销售收入Y又随着商品价格P的变化而变化。
又如:
圆的面积与半径之间、球的体积与直径之间都存在着函数关系。
社会现象中广泛存在着这种函数关系。
(二)相关关系
相关关系是指现象之间确实存在着的,但其数量表现又是不确定、不规则的一种相互依存关系。
在这种关系下,当一个或一组变量取一定的数值时,与之相对应的另一个变量的数值是不能确定的,只是按照某种规律在一定范围内变化。
这种关系不能用严格的函数式来表示。
例如:
农作物的亩产量与施肥量这两个现象中,在一定范围内,亩产量随着施肥量的变化而变化,但其数量表现不是确定性的关系。
又如:
企业的固定资产投资额与产值之间、居民收入水平与消费水平之间的关系等都属于相关关系。
二、相关关系的种类
(一)按相关的程度不同,可分为:
完全相关
不完全相关
不相关
完全相关是指一种现象的数量变化完全由另一个现象的数量变化所确定。
在这种情况下,相关关系便成为函数关系。
因此也可以说函数关系是相关关系的一个特例。
不相关是指两个现象彼此互不影响,其数量变化各自独立。
例如,人的年龄与性别是不相关的。
不完全相关是指两个现象之间的关系介于完全相关与不相关之间。
通常说的相关现象都是指这种不完全相关。
(二)按相关的方向不同,可分为:
正相关
负相关
正相关是指自变量和因变量之间的变化方向是相同的,即当自变量x增大或减小时,因变量y也随之相应增大或减小。
例如,职工的消费水平会随着收入水平的提高而增加。
负相关是指自变量和因变量之间的变化方向是相反的,即当自变量x增大或减小时,因变量y则相应减小或增大。
例如,随着劳动生产率的提高,产品的单位成本会随之下降。
(三)按相关的形式不同,可分为:
线性相关
非线性相关
线性相关又称直线相关,当两种现象之间的相关关系大致呈现为直线状态时,称之为线性相关。
即当一个变量的数值发生变动时,另一个变量的数值发生大致相等的变动,若反映在坐标图上,其散点的分布近似为一条直线。
例如,人均消费水平与人均收入水平之间通常呈线性相关。
非线性相关又称曲线相关,指两种现象之间的相关关系近似于某种曲线的状态。
即当一个变量的数值发生变动时,另一个变量的数值发生不均等的变动,若表现在坐标图上,其散点的分布近似于某种曲线。
例如,农作物的亩产量与施肥量之间呈非线性相关。
(四)按涉及变量的多少可分为:
单相关
复相关
单相关是指两个现象之间的相关关系。
即因变量与一个自变量之间的相关关系。
例如,居民的消费水平与收入水平之间呈现单相关关系。
复相关是指因变量与多个自变量之间的相关关系。
例如,某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
三、相关分析的主要内容
(一)确定现象之间有无相关关系,以及相关关系的表现形式。
(二)确定相关关系的密切程度。
(三)选择合适的数学模型)
(四)测定变量估计值的可靠程度
第二节简单线性相关分析
测定相关关系主要是利用相关表、相关图和相关系数。
一、相关表与相关图
(一)相关表的类型:
1、简单相关表,按一个变量排列的。
2、分组相关表,将其中一个变量先进行分组,然后再排队。
相关表是一种反映变量之间相关关系的统计表。
将某一变量的若干数值,按从小到大顺序依次排列,然后再列出与其相关的另一个变量的对应数值,这样排列的表格就称为相关表。
例如:
对某10户居民家庭的年可支配收入和消费支出进行调查,得到的原始资料见下表。
居民年收入和消费水平调查资料
单位:
千元
居民家庭编号
1
2
3
4
5
6
7
8
9
10
可支配收入
25
18
60
45
62
88
92
99
75
98
消费支出
20
15
40
30
42
60
65
70
53
78
根据调查原始资料,将可支配收入按从小到大顺序排列,可编制出相关表。
居民年收入和消费水平相关表
单位:
千元
可支配收入
18
25
45
60
62
75
88
92
98
99
消费支出
15
20
30
40
42
53
60
65
78
70
从相关表中可以看出,随着居民收入水平的提高,消费水平也相应提高,两者之间存在明显的正相关关系。
(二)、相关图及类型:
1、简单相关图;
2、分组相关图。
相关图又称散点图。
它是以直角坐标系的横轴代表自变量X,纵轴代表因变量Y,将两个变量相对应的数值用坐标点描绘出来。
通过相关图,可以大致看出两个变量之间有无相关关系,及相关的形态、方向及紧密程度。
一般有以下几种情况:
相关表和相关图只能粗略地反映现象之间的相关方向和相关程度,要确切地反映现象之间相关的密切程度,必须通过相关系数来判定。
二、相关系数的测定与应用:
(r)
相关系数是表明现象之间客观存在的密切关系和程度的指标。
1、此处的“相关”指的是直线相关(或线性相关);
2、描述现象之间相关程度的指标有很多,这只是其中一种。
(其它还有如关联系数、距离系数等)
(一)相关系数的意义
相关系数是指在直线相关条件下,说明两个现象之间相关关系紧密程度的统计分析指标,通常用r表示。
相关系数的取值范围在-1~+1之间。
该指标的意义是:
若相关系数为正值,表示两个变量是正相关;
若相关系数是负值,表示两个变量是负相关;
∣r∣越接近1,说明相关程度越强;越接近于0,说明相关程度越弱;
∣r∣<0.3,为微相关;
0.3≤∣r∣<0.5,为低度相关;
0.5≤∣r∣<0.8,为显著相关;
∣r∣≥0.8,为高度相关;
r=1或r=-1,说明两个变量完全正相关或完全负相关。
这时,两个变量即为函数关系。
(二)相关系数的计算
式中:
x为自变量
y为因变量
为自变量数列的平均值
为因变量数列的平均值。
例如根据上表资料,计算居民年可支配收入(x)与消费支出(y)之间的相关系数。
相关系数计算表
可支配收入(千元)
x
消费支出(千元)
y
18
25
45
60
62
75
88
92
98
99
15
20
30
40
42
53
60
65
78
70
-48.2
-41.2
-21.2
-6.2
-4.2
8.8
21.8
25.8
32.8
31.8
-32.3
-27.3
-17.3
-7.3
-5.3
5.7
12.7
17.7
22.7
30.7
2323.24
1697.44
449.44
38.44
17.64
77.44
475.24
665.64
1075.84
1011.24
1043.29
745.29
299.29
53.29
28.09
32.49
161.29
313.29
515.29
942.49
1556.86
1124.76
366.76
45.26
22.26
50.16
276.86
456.66
744.56
976.26
662
473
-
-
7831.60
4134.10
5620.40
自变量数列的平均值
因变量数列的平均值
将表中计算结果代入公式可得:
计算结果说明居民的消费支出与可支配收入之间存在着高度的相关关系。
第三节一元线性回归分析
概念:
是指两个变量之间是直线关系的模型拟合。
(一)一元线性回归分析的特点
1、两个变量不是对等关系,必须明确自变量和因变量。
2、如果x和y两个变量无明显因果关系,则存在着两个回归方程:
一个是以x为自变量、y为因变量建立的回归方程,称:
y倚x回归方程。
另一个是以y为自变量、x为因变量建立的回归方程,称:
x倚y回归方程。
3、直线回归方程中,回归系数b可以是正值,也可以是负值。
若b>0,表示直线上升,说明两个变量同方向变动。
若b<0,表示直线下降,说明两个变量是反方向变动。
(二)配合一元线性回归方程的条件
1、两个变量之间必须存在高度相关的相关。
2、两个变量之间确实呈现直线相关关系。
(三)配合一元线性回归方程的方法
一元线性回归方程是用于分析两个变量(一个因变量与一个自变量)线性关系的数学表达式,一般形式为:
式中:
x代表自变量
yc代表因变量y的估计值(又称理论值)
a、b为回归方程参数。
a、b意义:
a——指直线的截距,表明回归直线的起始值或现象的起点。
b——指回归直线的斜率或回归系数。
其经济意义为自变量X每增加一个单位,
因变量y平均变化的数量,b为正表明现象之间为正查关,b为负表明现
象之间为负相关。
一元线性回归方程应根据最小二乘法原理配合,因为只有用最小二乘法原理配合的回归方程才可以同时满足两个条件,即:
因变量的实际值与回归估计值的离差之和为零
因变量的实际值与回归估计值的离差平方和为最小值
只有满足这两个条件,配合的直线方程的误差才能最小,其代表性才能最强。
令所配合的一元线性回归方程标准式为:
为使Q=
根据微积分中求极值的原理,需分别对a、b求偏导数,并令其为0,经过整理,可得到如下方程组:
解此方程组,可求得a、b两个参数
例如根据上例资料,建立回归方程,并预测当居民年可支配收入达120千元时,消费支出为多少元?
将上表中有关数据代入公式可求出:
则直线回归方程为:
yc=-0.36+0.72x
将x=120千元代入直线回归方程得:
yc=-0.36+0.72×120=86.04千元
即当居民可支配收入达到120千元时,消费支出为86.04千元。
相关分析与回归分析
(一)相关分析:
用一个指标来表明现象间依存关系的密切程度。
(二)回归分析:
根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
(回归:
是英国统计学家道尔顿提出,是由研究人的身高开始的,他发现父母的身高与子女的身高有一定关系,父母高的子女反而矮一些,父母矮的子女反而高一些,他称这种现象为回归,此后用他的思想来研究问题。
)
(三)两者的联系与区别:
1、联系:
(1)、相关分析要依靠回归分析来表现现象数量相关的具体形式;
(2)、回归分析必须依靠相关关系来表明变量之间的密切程度。
从广义上讲,回归分析就是相关分析,从狭义上讲,相关关系只需确定变量间的关系,而回归分析还要在此基础上找了数学模型。
2、区别:
(1)相关分析不说明谁是自变量,谁是因变量,而回归分析必须首先要确定谁是自变量,谁是因变量,不能颠倒。
(2)相关分析中的每一个变量都是随机的;回归分析中自变量是一般变量,因变量是随机变量。
3、局限性:
现象之间是否存在真实相关,必须由相关学科来确定,因此,相关与回归必须要在定性分析前提下进行,不能进行纯数量的计算。
(四)估计标准误差
回归方程只反映变量x和y之间大致的、平均的变化关系。
因此,对每一个给定的x值,回归方程的估计值yc与因变量的实际观察值y之间总会有一定的离差,即估计标准误差。
估计标准误差是因变量实际观察值y与估计值yc离差平方和的平均数的平方根,它反映因变量实际值y与回归直线上各相应理论值yc之间离散程度的统计分析指标。
估计标准误差
式中:
Sy—估计标准误差
y─因变量实际观察值
yc—因变量估计值
n-2—为自由度
例如根据上例建立的直线回归方程,计算估计标准误差。
估计标准误差计算表
x
y
yc
(y-yc)2
18
15
12.60
5.7600
25
20
17.64
5.5696
45
30
32.04
4.1616
60
40
42.84
8.0656
62
42
44.28
5.1984
75
53
53.64
0.4096
88
60
63.00
9.0000
92
65
65.88
0.7744
98
78
70.20
60.8400
99
70
70.92
0.8464
合计
100.6256
估计标准误差
计算结果说明,居民消费支出的实际值与估计值之间平均相差3.546千元。
估计标准误差用来说明各实际观察值对回归直线的接近情况,Sy值越小,说明各观察值离回归直线越近,则回归直线的代表性越强。
反之,Sy值越大,说明各观察值离回归直线越远,则回归直线代表性越弱。
相关系数与回归估计标准差和回归系数之间的关系。
通常情况下R不带“±”号,此时称R为相关指数,或可决系数。
其“±”号由b确定:
b为“+”时,R为正;b为“—”时,R为负。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 回归 分析