线性相关和回归.docx
- 文档编号:1657968
- 上传时间:2022-10-23
- 格式:DOCX
- 页数:11
- 大小:75.57KB
线性相关和回归.docx
《线性相关和回归.docx》由会员分享,可在线阅读,更多相关《线性相关和回归.docx(11页珍藏版)》请在冰豆网上搜索。
线性相关和回归
线性相关和回归
赵耐青
在实际研究中,经常要考察两个指标之间的关系,即:
相关性。
现以体重与身高的关系为例,分析两个变量之间的相关性。
要求身高和体重呈双正态分布,既:
在身高和体重平均数的附近的频数较多,远离身高和体重平均数的频数较少。
样本相关系数计算公式(称为Pearson相关系数):
(1)
1.考察随机模拟相关的情况。
显示两个变量相关的散点图程序simur.ado(本教材配套程序,使用见前言)。
命令为simur样本量总体相关系数
如显示样本量为100,=0的散点图
本例命令为simur1000
如显示样本量为200,=0.8的散点图
本例命令为simur2000.8
如显示样本量为200,=0.99的散点图
本例命令为simur2000.99
如显示样本量为200,=-0.99的散点图
本例命令为simur200-0.99
例1.测得某地15名正常成年男子的身高x(cm)、体重y(kg)如试计算x和y之间的相关系数r并检验H0:
=0vsH1:
0。
=0.05
数据格式为
X
Y
171.0
58.0
176.0
69.0
175.0
74.0
172.0
68.0
170.0
64.0
173.0
68.5
168.0
56.0
172.0
54.0
170.0
62.0
172.0
63.0
173.0
67.0
168.0
60.0
171.0
68.0
172.0
76.0
173.0
65.0
Stata命令pwcorr变量1变量2…变量m,sig
本例命令pwcorrxy,sig
pwcorrxy,sig
|xy
-------------+------------------
x|1.0000
|
|
y|0.59941.0000
|0.0182
|
Pearson相关系数=0.5994,P值=0.0182<0.05,因此可以认为身高与体重呈正线性相关。
注意:
Pearson相关系数又称为线性相关系数并且要求X和Y双正态分布,通常在检查中要求X服从正态分布并且Y服从正态分布。
如果不满足双正态分布时,可以计算Spearman相关系数又称为非参数相关系数。
Spearman相关系数的计算基本思想为:
用X和Y的秩代替它们的原始数据,然后代入Pearson相关系数的计算公式并且检验与Pearson相关系数类同。
Stata实现
spearmanxy
Numberofobs=15
Spearman'srho=0.6552
TestofHo:
xandyareindependent
Prob>|t|=0.0080
stata计算结果与手算的结果一致。
结论为身高与体重呈正相关,并且有统计学意义。
直线回归
例2为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:
3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。
资料如下:
60个男孩的身高资料如下
年龄
3岁
4岁
5岁
6岁
7岁
8岁
身
高
92.5
96.5
106.0
115.5
125.5
121.5
97.0
101.0
104.0
115.5
117.5
128.5
96.0
105.5
107.0
111.5
118.0
124.0
96.5
102.0
109.5
110.0
117.0
125.5
97.0
105.0
111.0
114.5
122.0
122.5
92.0
99.5
107.5
112.5
119.0
123.5
96.5
102.0
107.0
116.5
119.0
120.5
91.0
100.0
111.5
110.0
125.5
123.0
96.0
106.5
103.0
114.5
120.5
124.0
99.0
100.0
109.0
110.0
122.0
126.5
平均身高
95.4
101.8
107.6
113.1
120.6
124.0
由于男孩的身高与年龄有关系,不同的年龄组的平均身高是不同的,由平均身高与年龄作图可以发现:
年龄与平均身高的点在一条直线附近。
考虑到样本均数存在抽样误差,故有理由认为身高的总体均数与年龄的关系可能是一条直线关系,其中y表示身高,x表示年龄。
由于身高的总体均数与年龄有关,所以更正确地标记应为
表示在固定年龄情况下的身高总体均数。
上述公式称为直线回归方程。
其中为回归系数(regressioncoefficient),或称为斜率(slope);称为常数项(constant),或称为截距(intercept)。
回归系数表示x变化一个单位y平均变化个单位。
当x和y都是随机的,x、y间呈正相关时>0,x、y间呈负相关时<0,x、y间独立时=0。
一般情况而言,参数和是未知的。
对于本例而言,不同民族和不同地区,和往往是不同的,因此需要进行估计的。
由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:
实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数和进行估计。
得到样本估计的回归方程
二、直线回归方程的建立
直线回归分析的Stata实现:
数据结构:
x
y
3
92.5
3
97
3
96
3
96.5
3
97
3
92
3
96.5
3
91
3
96
3
99
4
96.5
4
101
4
105.5
4
102
4
105
4
99.5
4
102
4
100
4
106.5
4
100
5
106
5
104
5
107
5
109.5
5
111
5
107.5
5
107
5
111.5
5
103
5
109
6
115.5
6
115.5
6
111.5
6
110
6
114.5
6
112.5
6
116.5
6
110
6
114.5
6
110
7
125.5
7
117.5
7
118
7
117
7
122
7
119
7
119
7
125.5
7
120.5
7
122
8
121.5
8
128.5
8
124
8
125.5
8
122.5
8
123.5
8
120.5
8
123
8
124
8
126.5
多重线性回归命令为
regress因变量自变量1自变量2……自变量m
直线回归命令regress因变量自变量
本例为regressyx,得到下列结果:
Source|SSdfMSNumberofobs=60
-------------+------------------------------F(1,58)=777.41
Model|5997.7157115997.71571Prob>F=0.0000
Residual|447.467619587.71495895R-squared=0.9306
-------------+------------------------------AdjR-squared=0.9294
Total|6445.1833359109.240395RootMSE=2.7776
------------------------------------------------------------------------------
y|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
x|5.854286.209965427.880.0005.4339946.274577
_cons|78.184761.20920264.660.00075.7642880.60524
------------------------------------------------------------------------------
得到回归系数b=5.854286,常数项a=78.18746,回归系数的检验统计量tb=27.88,P值<0.0001,可以认为Y与X呈直线回归关系。
来源
平方和SS
自由度df
均方MS
F
P值
回归
5997.71571
1
5997.71571
777.41
<0.0001
残差
447.467619
58
7.71495895
合计
6445.18333
59
称为决定系数(本例Stata计算结果R-squared=0.9306),因此0R21,因此残差平方和SSE越小,决定系数R2就越接近1。
特别当所有的残差为0时,SSE=0,相应的决定系数R2=1。
决定系数R2表示y被x所解释的部分所占的百分比,R2越接近于1说明x对y的解释越充分。
残差=应变量观察值(y)-预测值()
Stata的残差计算命令
在输入回归命令regressyx后,再
输入predicte,residual计算残差并用变量e表示残差
输入skteste残差的正态性检验
输入predictyy计算预测值。
残差正态性检验(H0:
残差正态分布,=0.05)
skteste
Skewness/KurtosistestsforNormality
-------joint------
Variable|Pr(Skewness)Pr(Kurtosis)adjchi2
(2)Prob>chi2
-------------+-------------------------------------------------------
e|0.4590.4411.180.5534
P值=0.5534>>0.05,可以认为残差呈正态分布。
所建立的回归方程是否有意义,仅凭借假设检验的结论或R2的大小还不能充分说明问题。
残差的大小直接反应回归方程的优劣,经常采用图示的方法,以e做纵轴,为横轴作图来考察残差的变化,如果残差比较均匀地散布在e=0的周围,没有明显的散布趋势和明显的离群点,则说明所建回归方程比较理想,否则要借助统计软件做进一步诊断。
graph残差预测值
本例grapheyy
说明残差比较均匀地散布在e=0的周围,没有明显的散布趋势和明显的离群点,故说明所建回归方程比较理想。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 相关 回归