《统计学》教案第九章相关分析与回归分析doc.docx
- 文档编号:9097373
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:16
- 大小:54.63KB
《统计学》教案第九章相关分析与回归分析doc.docx
《《统计学》教案第九章相关分析与回归分析doc.docx》由会员分享,可在线阅读,更多相关《《统计学》教案第九章相关分析与回归分析doc.docx(16页珍藏版)》请在冰豆网上搜索。
《统计学》教案第九章相关分析与回归分析doc
第九章相关分析与回归分析
第一节相关与回归分析的基本概念
—、相关关系的概念
一切客观事物都是互相联系的。
而且每一事物的运动都和它周围的其他事物互相联系、互相影响。
如年龄与人的生命力之间,消费品需求结构与屈民收入水平Z间,劳动生产率与产品成木Z间,投入与产出z间等等,都存在着一定的依存关系。
客观现象之间存在的互相依存关系叫相关关系。
对现象之间相关关系密切程度的研究,叫相关分析。
相关关系具有如下两个特点:
1•现象Z间确实存在着数量上的依存关系。
如果一个现象发生数量上的变化,则另一个现象也会相应地发生数量上的变化。
例如商品流通费用増加,一般地讲,商品销售额也会随之而增加,反过來,如果商品销售额增加,一般情况下商品流通费用也会相应地增加;
在互相依存的两个变量中,可以根据研究的目的,把其屮一个变量确定为自变量(原因变量),把另一个对应变化的变量确定为因变量(结果变量)。
例如可以把身高作为自变量,则体重就是因变量,也可以把体重作为自变量,此吋身高就是因变量。
2.现彖Z间数量上的关系是不确定、不严格的依存关系。
相关关系的全称为统计相关关系,它属于变量之间的一种不完全确定的关系。
这意味着一个变量虽然受另外一个(或一组)变量的影响,却并不由这一个(或一组)变量完全确定。
例如,身高为1.7米的人其体重有许多个值;体重为60公斤的人,其身高也有许多个值;再如,产品单位成本和劳动生产率的水平变动Z间存在着一定的依存关系,但是除了劳动生产率的水平变动以外,述会受到原材料消耗、I占I定资产折旧、能源耗用以及管理费用等诸因索变动的影响,等等。
故身高与体重Z间、产品单位成木和劳动生产率的水平变动Z间,均没有完全严格确定的数量关系存在。
由此可见,相关关系是现象间客观确实存在的,但其数值是不严格、不完全确定的相互依存关系。
相关关系与函数关系的区别:
函数关系是变量Z间的一种严格、完全确定性的关系,即一个变量的数值完全由另一个(或一组)变量的数值所确定、控制。
函数关系通常可以用数学公式确切地表示出來。
例如:
圆周长度L与圆半径间存在函数关系,关系式为L=2n「但相关关系一般不是完全确定的,对自变量的一个值,与之对应因变量的值不是唯一的。
相关关系一般不能用数学公式准确地表示出來。
函数关系与相关关系虽然是两种不同类型的变量关系,但是它们之间并无严格的界限,由于有测量误差等原I大I,确定性关系在实际应用中往往通过相关关系表现出来;反Z,当人们对事物的内部规律了解得更深刻的时候,相关关系又可能转化为确定性关系,即函数关系。
必须注意到,作为研究对象的现象或事物Z间的关系,在任何情况下,都应该是客观真实,具有内在联系的关系,决不能是臆造,或只不过是形式上偶然的巧合。
统计在研究相关关系时,应根据有关科学理论,通过大量的观察和试验,在对现彖进行深入分析的基础上,建立这种联系,并且述要经过理论和实践的进一步检验。
只有这样,才会得到科学的结论。
二、相关关系的种类
(一)、根据依存关系的情况划分
1.因果关系。
因果关系乂具体分为两类:
①、单向依存关系。
口变量、因变量区分明确,不能互和转化。
例如合理的施肥量影响粮食产量,不是粮食产量影响施肥量,即施肥量是原因变量(自变量),粮食产量是结果变量(因变量)。
②、互为因果关系。
自变量、因变量区分不明确,可以互相转化。
例如纤维的拉伸倍数与强度就是互为因果关系,在研究分析时,若以强度为口标,则强度就是因变量;若以拉伸倍数为目标,则强度就成为口变量了。
2.分不清因果的依存关系。
有些现象之间难以区分原因变量和结果变量。
如工业增加值与耗屯量之间是有依存关系的,但是谁是因谁是果却不能明显分清。
这种情况下,根据研究的需要,可以把某一个定为因变量,也可以把另一个定为因变量。
(二)、根据相关关系的方向划分
1.止相关。
正相关是指变量之间的变化方向一致,即都是呈增长或下降的趋势,如图9—1O
2.负相关。
负相关是变量之间变化趋势相反,即一个下降而另一个上升,或一个上升而另一个下降,如下图:
图8-1正相关…图8-2负相关
(三)、根据相关的形式不同划分
1.线性相关(直线相关)。
当和关关系的一个变量变动时,另一个变量也和应地发生一致基木均等的变动,这种相关关系称为线性相关。
2.非线性相关(曲线相关)。
当相关关系的一个变量变动时,另一个变量也相应地发生变动,但这种变动是不均等的,这种相关关系就称为非线性相关。
(四)根据和关的变量多少划分
1•单相关。
只有一个自变量。
2.复相关。
有两个及两个以上的自变量。
(五)、按相关的性质划分
可以分为:
“真实相关”和“虚假相关”。
三、相关分析的任务
统计在研究相关关系时,相关分析的主耍任务,大致可以归纳为以下几点:
1.确定现象之间有无关系。
2.确定相关关系的表现形式。
3.判定相关关系的密切程度和方向。
现象之间的相关关系是一种不严格、不确定的数量关系,相关分析就是从这种松散的数量关系中,判定其相关关系的密切程度和方向。
第二节简单相关分析
相关关系的具体数量表现,首先要根据对客观事物的定性认识来判断。
任何事物都有质的规定性,它表明了事物自身和其他事物的联系。
对事物的这种质的规定性的认识和分析,就是定性分析。
按照人们认识的一般顺序,先有对事物和现象的定性判断,才能据此进行量的分析和判断。
一、相关表的编制
将现象之间的相关关系,用表格形式来反映,这种表称为相关表。
相关表的编制,-•般以x为自变量,y为因变量,把每个tl变量与其相应的因变量在表格中一一对应地排列。
通过相关表可以初步看出相关关系的形式、密切程度和和关方向。
例如,表9—1所示。
从表9—1可以粗略看出,随着生产性固定资产的增长,则其工业增加值呈增长的趋势。
表9-1单位:
百万元
企业编号
生产性固定资产价值X
工业增加值y
1
3
15
2
4
20
3
6
25
4
8
25
5
8
30
6
9
30
7
9
29
8
9
34
9
10
37
10
11
41
和关图如卜:
工业增加值y
♦工业增加值y
相关图形
二、相关图的绘制
将现象之间的关系,通过图象来表示,这种图象称为相关图。
在坐标图上,以横轴表示口变量,纵轴表示因变量,标出每对变量值的坐标点(散布点),表示其分布状况的图形即为相关图。
相关图又称为散点图、散布图。
通过相关图,可以大致看出两个变量之间有无相关关系及相关的形态、方向和密切程度。
其判断方法如下:
1•强正相关。
若变量x的数值增大时,变量y的数值也明显地增大,相关点的分布集中呈直线形状,则说明这两个变量间是强止相关,如图8-30
2.弱正相关。
若变量x的数值增大时,变量y的数值也增大,但其相关点的分布比较分散,则表明这两个变量间是弱正相关,如图8—4。
图8-3强正相关
3•强负相关。
若变量x的数值增大时,变量y的数值显著地减小,和关点的分布集中呈直线状,则反映了这两个变量间的强负相关,如图8-5o
4.弱负相关。
若变量x的数值増大时,变量y的数值趋于下降,但相关点的分布较松散,则说明这两个变量间的弱负相关,如图8—6o
5•非线性相关(曲线相关)。
若变量X的数值增大时,各相关点的分布呈曲线状,则表明这是非线性相关,如图8-7o
6.不相关。
若图像上各相关点很分散,则说明变量x和变量y之间没有相关关系,如图8-8o
图8-7曲线相关
三、相关系数的计算
(一)、相关系数的概念
1、.相关系数的含义。
相关系数是在线性相关条件下,说明两个现彖Z间相关关系的方向和密切程度的统计分析指标。
通常用「来表示。
相关系数比相关图更能概括表现相关的形式和程度。
根据相关系数的大小,或把若干相关系数加以对比,可以发现现象发展中具有决定意义的因素,因而相关系数对于判断变量之间相关关系的密切程度,有其重要作用。
2.相关系数的取值范围。
相关系数的数值范围,是在一1和+1之间,即一lWrW+1。
计算结果r>0为止和关,rvO为负相关。
相关系数r的数值越接近T1(-1或+1),则表示相关关系越强;越接近于0,则表示相关关系越弱。
如果「=1或!
*=—1,则表示两个现象完全直线相关。
如果r=0,则表示两个现象完全不相关(不是直线相关)。
但需要注意的是,r只表示x与y的直线和关密切程度。
当Irl很小甚至等于0时,并不一定表示x与y之间就不存在其他非直线类型的关系。
(二)、相关系数的计算相关系数的定义公式为:
式中:
M表示资料项数;
X表示兀变量数列的算术平均数;
7表示y变量数列的算术平均数;
表示兀变量数列的标准差;表示y变量数列的标准并;
b;表示x,y两个变量数列的协方差。
定义公式整理可写成:
_工(兀一x)(y-y)
J工(x_兀尸・_y)?
由于它是通过将各个离差相乘的方法來说明相关程度的,所以通常把这种相关系数的公式叫做“积差法”相关系数公式。
上式数值计算时使用了匚和亍,计算既麻烦又影响准确性。
在实际应用屮,
可根据原始变量的数值计算,运用相关系数简捷法。
W:
J几工/_(工兀)2.J〃工y2_(》)y
此式可以不用计算两个变量数列的平均值与标准并,不仅节约了工作量,而口可以减少计算平均值除不尽时所带来的误差。
如果设:
S二工(兀-切2
Lv>=ZCy-?
)2
S二工(兀-恥-刃则相关系数公式可写成:
从此式中可以看出丁取正值或负值决定于分子厶秽,当厶弓为正时,得出r为正相关,当厶V),为负值,得出厂为负相关。
要理解相关系数r中协方并的作用和变量标准并的作用。
1.协方差(厶小)的作用。
1显示兀与y是正相关还是负相关相关系数的正负号完全决定协方差的正负号,因此当相关系数为正数时为正相关,当相关系数为负数时为负相关。
2显示兀与〉,相关程度的大小协方差的绝对值小,表示相关程度低,协方并的绝对值大,表示兀与y的和关程度高。
2•标准差乙和勺的作用。
在相关系数定义公式中将协方差除以乙,,它的实际作用在于对兀、y与各自平均数的离差,分别用齐自的标准差为尺度加以标准化,然后再求标准差的协方差。
即
/—\
x-X
y-y
<6丿
15丿
n
经过离并标准化后再求其协方并,有两点优点:
1无,y协方差是名数,不同现象的变异情况不同,相关程度不能直接以协方差大小加以比较。
标准化结果使协方差化为无名数,相关系数可以比较不同现彖相关程度的高低。
2x,y协方差和数值可以无限增多或减少,不便于说明问题。
将变量离差标准化,使相关系数的绝对值不超过1,即
"IW1
一般可对相关系数作如下判断:
相关系数的绝对值Irl在0.3以下是无直线相关;
0.3〜0.5是低度直线和关;
0.5〜0.8是显著相关(中等程度相关);
0.8以上是咼度相关。
例题计算相关系数。
参考教材184页
第三节一元线性回归分析
—、回归分析的概念
相关关系说明现象间有无关系,但它不能说明一个现象发生一定量的变化时,另一个变量将会发生多大量的变化。
也就是说,它不能说明两个变量Z间的一般数量关系值。
冋归分析是对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型(称为回归方程式),用来近似地表示变量间的平均变化关系的一种统计分析方法。
它实际上是相关现象间不确定、不规则的数量关系一般化、规则化。
采用的方法是配合直线或曲线,用这直线或曲线來代表现象Z间的一般数量关系。
这条直线或曲线叫回归直线或回归曲线,它们的方程式叫宜线回归方程或曲线回归方程。
回归分析与相关分析的区别与联系:
1、.回归分析与相关分析的区别。
①和关分析所研究的两个变量是对等关系,冋归分析所研究的两个变量不是对等关系,必须根据研究目的,先确定其中一个是自变量,另一个是因变量。
2对两个变量兀和y來说,相关分析只能计算出一个反映两个变量间相关密切程度的相关系数,计算中改变兀和y的地位不影响相关关系的数值;回归分析有时可以根据研究目的不同分别建立两个不同的回归方程。
以兀为自变量,y为因变量,可以得出y倚兀的冋归方程。
以y为口变量,兀为因变量,可得出兀倚y的回归方程。
3相关分析对资料的要求是,两个变量都必须是随机变量,而冋归分析对资料的耍求是,自变量是可以控制的变量(给定的变量),因变量是随机变量。
2、.回归分析与相关分析的联系。
1和关分析是冋归分析的基础和前提。
如果缺少和关关系,没有从定性上说明现象间是否具有相关关系,没有对相关关系的密切程度作出判断,就不能进行冋归分析,即便勉强进行了冋归分析,也是没有实际意义的。
2回归分析是相关分析的深入和继续。
仅仅说明现象间具有密切的相关关系是不够的,只有进行了回归分析,拟合了回归方程,才可能进行有关分析的回归预测,和关分析才有实际的意义。
因此,如果仅有回归分析而缺少相关分析,将会因为缺乏必耍的基础和前提而影响回归分析的可靠性;如果仅有相关分析而缺少冋归分析,就会降低相关分析的意义。
只有把两者结合起來,才能达到统计分析的目的。
二、一元线性回归模型的建立
(一)、一元线性回归模型的概念
通过相关系数,只能了解因变量和自变量相关关系的密切程度和方向,但是不能用来根据自变量的变动估计因变量的变动。
为了根据某一因素的数值来估计另一因素的数值,根据已知推求未知,就需要进行回归分析。
一元线性回归模型乂称简单直线回归模型,它是根据成对的两种变量的数据,配合直线方程式,根据口变量的变动,來推算因变量发展趋势和水平的方法。
它是研究相互关联的两种经济现象数量变动依存关系的一种方法。
当两种变量互为I大I果关系时,可以用两条宜线方程表示,一条是y倚x的冋归直线方程式以),兀为自变量,y为因变量。
$为y的理论值,用来由兀推算另一条是兀倚y的回归直线方程式(f=c+dy),y为自变量,兀为因变量。
为兀的理论值,用来由y推算庆
在两种回归方程中,只是兀和y的位置互换罢了,实际上其计算方法是一致的。
在两种变量只有单方面的因果关系时,只能用一个回归方程式表示,一般是y对兀的冋归直线方程式。
其模型为:
y=a+bx
式中,d表示直线在y轴上的截距,代表经济现彖经过修匀的基础水平;b表示直线的斜率,称为y对x的回归系数,表明兀每变动一个单位时,影响y平均变动的数量;d和b表示确定冋归直线模型的两个待定参数。
(二)、最小平方法原理配合回归直线模型。
应用最小平方法(最小二乘法)原理确定两个待定参数。
和b的数值,配合直线模型,可以使实际值与理论离并的代数和等于零,即工(y-$)=0;使离并的平方和为最小,即X(>f-y)2=min0因而最有代表性,是最佳的冋归直线模型。
y=a+bx
式中,X表示生产性固定资产价值;y表示工业增加值;$表示其理论值。
根据最小平方法原理,可以应用下列标准方程组,来求解q和b的数值:
解联立方程式得岀:
VyVx一-a=b-=y~bx
nn
心-(D)2
例题计算如下:
现根据表9—1资料,生产性固定资产价值与工业增加值资料,说明其求解过程。
计算过程如门
表9—2回归直线模型计算表
企业编
号
固定资产
x(百万元)
T业增加值
y(百万元)
9兀-
与
八y
1
3
15
9
45
17.7982
2
3
20
9
60
17.982
3
5
25
25
125
23.8570
4
6
25
36
150
26.8864
5
6
30
36
180
26.8864
6
7
30
49
210
29.9158
7
8
29
64
232
32.9452
8
9
36
81
324
35.9746
9
9
37
81
333
35.9746
10
10
40
100
400
39.0040
合计
66
287
490
2059
287.0404
首先,根据表中合计栏的资料求出标准方程组中所需数据。
其次,将求出的数据代入方程中,求出b的值:
b=3.0294
1=8.71
再次,将d、b的值代入冋归方程得:
$=8.71+3.()294x
最后,由回归方程可得相应的回归估计值,如表$所示。
简捷计算可以参考教材190页例题9—2。
三、直线回归模型的预测
如果其他条件相对稳定,则可以根据建立的宜线回归方程进行推算和预
参考教材192页例题9—3的计算。
四、估计标准误差
(一)、估计标准误差的概念
估计标准误差是用来说明回归方程代表性大小的统计指标。
可简称为估计标准差或估计标准误,其计算原理与标准差基本相同。
估计标准误差说明理论值(回归线)的代表性。
若估计标准误差小,表明回归方程准确性高,代表性大;反之,估计不够准确,代表性小。
(二)、估计标准误差的计算及作用
1、估计标准误差的计算.
根据定义公式计算:
估计标准误差,指因变量实际值与理论值离差的平均数。
其定义公式为:
式中,S、,表示估计标准误差;斤表示数据的项数。
.根据回归直线方程屮的参数心b计算。
①、资料未分组的计算公式为:
②、资料已分组的计算公式为:
3、利用估计标准误差与相关系数的关系推算。
这两个指标在数量上具有如下关系:
式中,厂表示相关系数;
表示因变量数列的标准并;Sy表示估计标准误差。
在实际应用中,一般不常用这种方法计算相关系数,因为这种计算方法存在两个问题:
①需要先求出回归直线方程,计算出估计标准谋差,才能求得相关系数。
而从一般的认识程序来看,只有相关关系密切的情况下,计算回归方程才有意义;如果关系不密切,下一步计算就不必要了,因而要求先计算相关系数以判断相关关系的密切程度。
②这种计算方法得出的厂,难以判断是正相关还是负相关。
从Sy与厂相联系的两个公式小可以看出,厂和Sy的变化方向是相反的。
当广越大时,Sy越小,这时相关密切程度较高,回归直线的代表性较大;当厂越小时,Sy越大,这时相关密切程度较低,冋归直线的代表性较小。
2、估计标准误差的作用
(1)、可以说明回归方程估计值的准确程度的高低。
Sy越小,说明估计的准确程度越高;反之,则估计的准确程度越低。
(2)、说明冋归方程代表性的大小。
(3)、可以说明X与y相关密切程度的大小。
(3)、相关与回归分析中应注意的问题
1、在定性分析的基础上进行定量分析
在定性分析的基础上进行定量分析,是保证止确运用和关分析和冋归分析的必耍条件。
也就是在确定哪些变量作自变量,哪些变量作因变量之前,必须对所研究的问题有充分正确的认识。
相关分析的方法解释不了相关关系产生的原I大I,它本身不能判断现象Z间是否存在相关关系。
欲确定这些问题,必须依靠对现象的定性分析。
若把本来没有内在关系的现象硬要进行相关分析,将导致“虚假相关”的错误。
若据以进行推算预测,并用以指导实际工作,则会造成损失。
2、要注意现象质的界限及相关关系作用的范围
在进行相关分析和冋归分析时要注意现象质的界限及相关关系作用的范围。
超出了这个范围,分析结果这会歪曲事实。
我们用数学模型得到的回归方程,一般都是根据一定范围内的有限资料来计算的,其有效性,一般只适用于该范围内,不适宜用于该范围外。
也就是说利用冋归方程,一般只适宜用于内插预测,不宜用于外推预测。
这是因为最小平方法指的是以现有资料范围配合一条“最佳”线,如果外推到范围以外,就不一定是“最佳”线了。
根据样本数据所建立的冋归方程代表了经济变量Z间的数量关系,这种关系是在一定的条件下建立的,因此也只能在一定的条件下才能够成立,忽视了相关关系建立的条件,把这种关系无限制地向外推广是不止确的,由此得到的结论是值得怀疑的。
例如施肥量和农作物生产量只在一定的范围内才具有正相关关系,施肥量超过一定的限度,产量不但不会增加,反会减少。
密植也是如此,密植过了头也会减少产量。
其他许多现象也是如此。
因此用相关分析回归分析方法进行推算和预测时耍注意它的作用范围。
3、要具体问题具体分析
回归方程是根据实际统计资料计算的,一般是一种经验公式。
因此在分析吋一定要注意具体问题具体分析。
若条件发生了变化,不能机械地照搬,以免造成失谋。
利用回归方程对经济现象进行分析,最后得到的经济变量Z间的数量关系是一种统计关系,要使我们所得到的这种关系具有真实性、可靠性,排除偶然性,一定要注意对具体问题具体分析,并注意对经济现彖进行大量、充分的观察。
4、要考虑社会经济现象的复杂性
社会经济现象之间的关系比自然技术现象之间的关系复杂得多。
影响社会经济现彖Z间关系的不仅有自然技术因素,而且有政治的、经济的、道德的甚至心理的因索等等。
而且社会条件的变化也比较多、比较快,因此,在推广应用时要注意社会经济现彖的复杂性。
例如,价格上涨,销售量减少;价格下降,销售量增加,这是一般的规律,但人的心理因素以及一些偶然因素仅用相关分析的方法是估计不出來的。
因此,在应用相关分析研究现象的关系时,必须注意社会经济现彖的复朵性。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 教案 第九 相关 分析 回归 doc
![提示](https://static.bdocx.com/images/bang_tan.gif)