整理多元线性回归分析.docx
- 文档编号:1642021
- 上传时间:2022-10-23
- 格式:DOCX
- 页数:62
- 大小:262.73KB
整理多元线性回归分析.docx
《整理多元线性回归分析.docx》由会员分享,可在线阅读,更多相关《整理多元线性回归分析.docx(62页珍藏版)》请在冰豆网上搜索。
整理多元线性回归分析
多元线性回归分析
直线回归概念复习
例:
为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:
3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。
资料如下:
60个男孩的身高资料如下
年龄
3岁
4岁
5岁
6岁
7岁
8岁
身
高
92.5
96.5
106.0
115.5
125.5
121.5
97.0
101.0
104.0
115.5
117.5
128.5
96.0
105.5
107.0
111.5
118.0
124.0
96.5
102.0
109.5
110.0
117.0
125.5
97.0
105.0
111.0
114.5
122.0
122.5
92.0
99.5
107.5
112.5
119.0
123.5
96.5
102.0
107.0
116.5
119.0
120.5
91.0
100.0
111.5
110.0
125.5
123.0
96.0
106.5
103.0
114.5
120.5
124.0
99.0
100.0
109.0
110.0
122.0
126.5
平均身高
95.4
101.8
107.6
113.1
120.6
124.0
从散点图上,我们可以发现样本点(X,Y)随机地出现在一条直线附近,并且从资料背景上考察,同一年龄的儿童身高应近似服从一个正态分布,而儿童身高的总体均数应随着年龄增长而增大,并由每个年龄的身高样本均数与儿童年龄的散点图可以发现:
这些点非常接近一条直线以及样本均数存在抽样误差,因此推测儿童身高的总体均数与年龄可能呈直线关系。
故假定身高Y在年龄X点上的总体均数与X呈直线关系。
其中y表示身高,x表示年龄。
由于身高的总体均数与年龄有关,所以更准确地标记应为
表示在固定年龄情况下的身高总体均数。
身高的样本均数与年龄的散点图
故有理由认为身高的总体均数与年龄的关系可能是一条直线关系
上述公式称为直线回归方程。
其中β为回归系数(regressioncoefficient),或称为斜率(slope);α称为常数项(constant),或称为截距(intercept)。
回归系数β表示x变化一个单位y平均变化β个单位。
当x和y都是随机的,x、y间呈正相关时β>0,x、y间呈负相关时β<0,x、y间独立时β=0。
一般情况而言,参数α和β是未知的。
对于本例而言,不同民族和不同地区,α和β往往是不同的,因此需要进行估计的。
由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:
实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数α和β进行估计,一般采用最小二乘法进行参数估计。
我们将借助Stata软件对本例资料进行直线回归。
数据格式
x
y
3
92.5
3
97.0
3
96.0
3
96.5
3
97.0
3
92.0
3
96.5
3
91.0
3
96.0
3
99.0
4
96.5
4
101.0
4
105.5
4
102.0
4
105.0
4
99.5
4
102.0
4
100.0
4
106.5
4
100.0
5
106.0
5
104.0
5
107.0
5
109.5
5
111.0
5
107.5
5
107.0
5
111.5
5
103.0
5
109.0
6
115.5
6
115.5
6
111.5
6
110.0
6
114.5
6
112.5
6
116.5
6
110.0
6
114.5
6
110.0
7
125.5
7
117.5
7
118.0
7
117.0
7
122.0
7
119.0
7
119.0
7
125.5
7
120.5
7
122.0
8
121.5
8
128.5
8
124.0
8
125.5
8
122.5
8
123.5
8
120.5
8
123.0
8
124.0
8
126.5
回归命令
regressyx
Source|SSdfMSNumberofobs=60
-------------+------------------------------F(1,58)=777.41
Model|5997.7157115997.71571Prob>F=0.0000
Residual|447.467619587.71495895R-squared=0.9306
-------------+------------------------------AdjR-squared=0.9294
Total|6445.1833359109.240395RootMSE=2.7776
------------------------------------------------------------------------------
y|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
x|5.854286.209965427.880.0005.4339946.274577
_cons|78.184761.20920264.660.00075.7642880.60524
------------------------------------------------------------------------------
回归方程
b=5.854286,a=78.18476
se(b)=0.2099654
回归系数检验:
H0:
β=0vsH1:
β≠0
回归系数统计量t=b/se(b)=5.854286/.2099654=27.88,P值<0.001,
95%CIofβ为(5.433994,6.274577)
1)简述单因素线性回归方程y=α+βx在实际分析中要注意的问题
(a)残差εi=yi-a-bxi,引入回归模型yi=α+βxi+εi
(b)εi~N(0,σ)且{εi}相互独立:
说明有三个条件:
i)εi服从正态分布
ii){εi}相同的方差σ2。
iii){εi}相互独立。
(c)不满足上述3个条件时,反映在实际回归分析时,有如下情况:
i)散点在直线一侧较多而且靠直线很近,当在直线的另一侧,散点较少,而且离直线较远,反映在误差项ε偏态分布。
ii)散点随着自变量x增大而离散程度增大或减小(喇叭口状),反映了误差项ε方差随着x变而变,即不满足相同方差(方差齐性)。
iii)随着xi变化而εi呈某种规律性的变化。
反映ε还含有x的信息未利用到,还可以继续改进回归模型。
问题1:
在同一总体中随机抽取2个相同样本量的样本,每个样本中都含有变量x和y,并以y为因变量和x为自变量,作线性回归,请问:
两个样本作出的回归方程一样吗?
它们之间什么关系?
问题2:
回归方程所示的直线与原始数据的关系是什么?
1)不同,它们之间存在抽样误差
2)回归分析统计背景:
对于固定自变量x,对y所在的总体进行抽样,得到在固定x情况下,y的样本值,因此对于每个xi,得到对应的抽样值yi。
即:
资料为:
(x1,y1),(x2,y2),…,(xn,yn)。
因此对于同一个x值,y所对应的总体均数相同,不同的x值,y所对应的总体均数可能不同。
如果y的总体均数值与x的关系呈直线关系,则样本资料(x1,y1),(x2,y2),…,(xn,yn)呈带状直线散点图。
由于抽样资料y=总体均数+抽样误差
因此如果y的总体均数值与x呈直线关系,则抽样资料
当,则对于固定x,,而用样本资料(x1,y1),(x2,y2),…,(xn,yn)所估计得到的回归方程是固定x情况下,y的总体均数与x的线性方程的表达式。
即:
b是β的样本估计值(无偏估计),a是α的样本估计值(无偏估计),是的样本估计值。
抽样误差(估计值)=样本资料-(a+bx)(即:
的估计值:
残差)
所以要求回归分析的资料,其残差服从正态分布,且与x无关、方差齐性。
2)引入多元线性回归模型定义
(a)例3-1,研究女中学生的肺活量与体重和胸围的关系,随机抽样了10名女中学生的体重x1(kg),胸围x2(cm)和肺活量y(ml),资料如表3-1,试建立一个因变量为y对自变量x1,x2的线性回归方程。
(b)对于相同的体重x1和胸围x2,考查女中学生的肺活量y总是有一定的变异的,但总对应有一个总体均数μy|X,而且总体均数μy|X可能与体重x1和胸围x2有关。
x1和x2与总体均数μy|X最简单的关系为线性关系:
i)同样的x1和x2,观察值y与总体均数μy总有一定的随机误差ε,即y-μy|X=ε,因此
ii)若ε~N(0,σ2)分布且独立,而观察值,则称肺活量y、体重x1和胸围x2符合线性回归模型
(c)对于一般的线性回归模型定义为:
i)设有p个观察自变量x1,x2,…,xp,并用向量
X=(x1,x2,…,xp)’,因变量为y,且记y的总体均数为,随机误差ε~N(0,σ2)且独立,则线性回归模型可以表示为
对于观察值(y1,X1),(y2,X2),…,(yn,Xn),其中Xi=(xi1,xi2,…,xip),i=1,2,…,n。
对应的线性回归模型为
且独立。
在本例中,作线性回归如下:
(介绍一下数据结构)
.regressyx1x2
Source
SS
df
MS
Numberofobs=10
F(2,7)=6.75
回归平方和
回归均方和
Model
1895106.55
2
947553.275
Prob>F=0.0232
残差平方和
残差均方和
决定系数
Residual
982143.45
7
140306.207
R-squared=0.6587
校正和决定系数
AdjR-squared=0.5611
Total
2877250.00
9
319694.444
RootMSE=374.57
总平方和SS总描述样本量为n=10的因变量y总的变异。
回归平方和SSR描述了样本量为n时,由自变量x1,x2变化而引起的因变量y的这部分变异,SSe描述了样本量为n时,由随机误差项ε所引起的因变量y的一部分变异,因此:
总变异=自变量引起y的变异+随机误差ε引起变异
对应:
SS总=SS回归+SS误差
由于SS总,SS回归和SS误差均与样本量n有关,样本量n越大,对应变异就越大。
所以取平均变异指标:
均方差MS
,
回归系数
回归系数标准误
t值
P值
95%可信区间
y
Coef.
Std.Err.
t
P>|t|
[95%Conf.Interval]
x1
113.9987
38.31109
2.976
0.021
23.40741
20
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 整理 多元 线性 回归 分析