第五讲 线性回归.docx
- 文档编号:25664654
- 上传时间:2023-06-11
- 格式:DOCX
- 页数:18
- 大小:140.38KB
第五讲 线性回归.docx
《第五讲 线性回归.docx》由会员分享,可在线阅读,更多相关《第五讲 线性回归.docx(18页珍藏版)》请在冰豆网上搜索。
第五讲线性回归
第五讲线性回归
第五讲线性回归
沈建荣
问题
例1、某企业多年为自己的产品在电视、报纸与Internet等不同的媒体投放广告,其广告支出每年皆有变化。
在新的一年来临之际,公司需要作出决定,在各个媒体应投放增减多少广告费?
例2、对于国家的某个经济发展时期,应保持多大的经济发展增速,才能保证全社会的就业与通胀保持在可接受的水平?
例3、一个地区的石油需求取决于该地区生产与消费水平,尤其是制造业产值、产业结构以及汽车保有量等。
如何预测2020年中国的石油需求以及对外石油依存度?
例<>4、一个人的幸福程度是取决于其本人收入水平的增长还是取决于其与周围人群的比较?
模型
例1、以企业销量或利润为随机因变量(响应变量),不同媒体的广告投放为自变量(可控制因素)建立函数关系:
例2、以就业率与通胀率作为随机响应变量,以经济增长的指标变量(可包含总量与结构)作为自变量(可控制因素)建立函数关系:
例3、以石油需求量作为随机因变量,以制造业产值、产业结构以及汽车保有量等作为可控自变量,建立函数关系:
例<>4、以个人幸福程度作为随机因变量,以本人收入水平和比较差距作为自变量,建立函数关系:
线性回归模型
若f(x)的系数关系为线性的,且问题聚焦于随机变量的均值变化规律,即称为线性回归模型,我们以n个样本决定模型系数。
一般样本回归模型如下,称为多重线性回归模型:
当Y为一元随机变量时,称为一元线性回归模型。
否则称为多元线性回归模型。
本课程仅讨论Y为一元随机变量的情形,参照多数资料的叫法,以自变量的维度来称呼一元(或多元)线性回归
多重线性回归模型的一般表达
其中:
k为解释变量的数目,?
?
j称为回归参数(regressioncoefficient),也被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化;
或者说?
?
j给出了Xj的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。
续
或
或
其中:
(模型假设条件)
模型参数估计
普通最小二乘法(Theordinaryleastsquaresapproach,OLS)
最大似然估计(ML)
矩估计(MM)
OLS方法
使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。
即
用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小
参数估计结果
OLS系数的不确定性
随机变量y的误差e取决于其方差s2,而方差s2可以根据残差来估计,估计量为:
根据模型假设,显然有:
Y的置信区间
自变量为x时y的平均响应值为:
统计量服从自由度为n-2的t分布,其置信区间可得。
可导出:
Y的预测区间
当自变量为xi时y的真实值为:
其预测区间的计算方法同置信区间。
可导出:
线性回归模型的统计检验
回归模型检验包括整体模型显著性检验与自变量显著性检验两种。
1、模型检验
目的在于检验模型中所有自变量系数是否全部为0,当自变量系数不全为0时,Y与(X1,X2,…,XK)才具有某种程度的函数关系。
零假设及对立假设:
H0:
?
?
j=0,对所有j
H1:
?
?
j?
?
0,对某些j(j=1,2,…,K)
检验统计量:
显然检验可以使用方差分析表:
总和
随机误差
回归
变化来源
k为预测变量个数(不含β0)
续
若模型检验显著,即应进行自变量显著性检验(也称边际检验MarginalTests),即检验个别回归系数(?
?
j,j=1,2,…,K)是否显著异于某一特定数值,共包括K个检验。
备则假设H1:
?
?
j?
?
?
?
j0(双尾检验),?
?
j>?
?
j0或H1:
?
?
j<?
?
j0(单尾检验)
通常,我们只关心H0:
?
?
j=0
检验统计量:
2、自变量显著性检验:
3、数据集合优度——样本决定系数:
校正决定系数(Adjusteddeterminationcoefficient)
式中:
n为样本数,k为自变量的个数。
可证,Y与X的多重相关系数
线性回归模型的意义
考虑一元的情形,随机变量y与可控变量之间存在这样一种关系,其均值随自变量变化而变化。
例1:
一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。
为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。
(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;
(2)由统计知,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布是已知的,如:
P(Y=561|X=800)=1/<>4。
因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditionalmean)或条件期望(conditionalexpectation):
E(Y|X=Xi)
该例中:
E(Y|X=800)=605
分析:
描出散点图发现:
随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。
这条直线称为回归线。
0
500
1000
1500
2000
2500
3000
3500
500
1000
1500
2000
2500
3000
3500
<>4000
每月可支配收入X(元)
每
月
消
费
支
出
Y
(元)
条件分布示意图
线性回归模式参数的含义
一元线性模型中:
y=dependentvariable
x=independentvariable
b0=y-intercept
b1=slopeoftheline
=errorvariable
x
y
b0
Run
Rise
b1=Rise/Run
b0andb1areunknown,
therefore,areestimated
fromthedata.
模型参数最小二乘估计的含义
方程系数的估计取决于:
从总体中抽出的样本以及,
所计算的样本统计量。
然后,生成一条从数据中无偏地穿过的直线.
w
w
w
w
wwww
w
ww
w
ww
w
Thequestionis:
Whichstraightlinefitsbest?
x
y
Errors
直线不同,产生不等的误差,
同时亦造成了不等的误差平方和。
X
Y
不同直线产生的误差不一样:
3
3
离差平方和最小的那一条直线为最佳拟合直线。
w
w
w
w
<>4
1
1
<>4
(1,2)
2
2
(2,<>4)
(3,1.5)
Sumofsquareddifferences=
(2-1)2+
(<>4-2)2+
(1.5-3)2+
(<>4,3.2)
(3.2-<>4)2=6.89
Sumofsquareddifferences=
(2-2.5)2+
(<>4-2.5)2+
(1.5-2.5)2+
(3.2-2.5)2=3.99
2.5
Letuscomparetwolines
Thesecondlineishorizontal
Thesmallerthesumof
squareddifferences
thebetterthefitofthe
linetothedata.
例:
广告支出与销售额(单位:
千元)
营业单位广告支出年销售额
北京1<>40016800
上海11001<>4<>400
广州56012300
深圳65013200
南京56012800
昆明8801<>4<>400
成都110015900
重庆35010000
分析:
作散点图
参数估计:
结果:
推论:
1、广告投入有力促进了销售额的增长;
2、在当前的投放水平下,大约每增加1千元的广告将增加5.75千元的销售收入。
SPSS软件操作:
Analyze——〉Regression——〉Linear…
EXCEL软件操作:
工具——〉数据分析——〉回归
房价、面积与卫浴.xls
回归系数再解释
例:
某汽车代理商想要了解二手汽车行驶里程数与售价间之关系。
随机选取100辆二手交易汽车,记录其里程数与售价数据。
见右表:
Independentvariablex
Dependentvariabley
利用SPSS求解:
Tools>Dataanalysis>Regression>[Shadetheyrangeandthexrange]>OK
Thisistheslopeoftheline.
Foreachadditionalmileontheodometer,
thepricedecreasesbyanaverageof$0.0312
Theinterceptisb0=6533.
6533
0
Nodata
Donotinterprettheinterceptasthe
“Priceofcarsthathavenotbeendriven”
假设1、解释变量X是确定性变量,不是随机变量;
假设2、随机误差项?
?
具有零均值、同方差:
E(?
?
i)=0i=1,2,…,n
Var(?
?
i)=?
?
?
?
2i=1,2,…,n
假设3、随机误差项?
?
与解释变量X之间不相关:
Cov(Xi,?
?
i)=0i=1,2,…,n
假设<>4(不是必须的)、?
?
服从零均值、同方差、零协方差的正态分布
?
?
i~N(0,?
?
?
?
2)i=1,2,…,n
模型假设的意义
从这些假设我们有:
:
y是具有均值E(y)=b0+b1x,和方差se的正态分布。
如图示。
m3
b0+b1x1
b0+b1x2
b0+b1x3
E(y|x2)
E(y|x3)
x1
x2
x3
m1
E(y|x1)
m2
Thestandarddeviationremainsconstant,
butthemeanvaluechangeswithx
样本决定系数的意义:
y的总体变化
Theregressionmodel
Remains,inpart,unexplained
Theerror
Explainedinpartby
y的方差=ESS+RSS
R2测度由x变化所引起的y的变化占y全部变化的比重.
R2取值在0与1之间
R2=1:
Perfectmatchbetweenthelineandthedatapoints.
R2=0:
Therearenolinearrelationshipbetweenxandy.
R2越接近1,说明模型与实际观测值越接近,拟合优度越高。
x1
x2
y1
y2
y
Twodatapoints(x1,y1)and(x2,y2)ofacertainsampleareshown.
Totalvariationiny
Variationexplainedbythe
regressionline)
Unexplainedvariation(error)
TotalSumofSquaresTSS
ExplainedSumofSquaresESS
ResidualSumofSquaresRSS
+
=
+
=
斜率检验的直观含义
如果两个变量之间不存在线性关系,那么回归直线一定是水平的,即斜率为0.
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
Linearrelationship.
Differentinputs(x)yield
differentoutputs(y).
Nolinearrelationship.
Differentinputs(x)yield
thesameoutput(y).
Theslopeisnotequaltozero
Theslopeisequaltozero
请注意:
自变量的取值对区间存在影响
随着xg个取值远离均值,y的置信区间会愈来愈大。
Theconfidenceinterval
whenxg=
Theconfidenceinterval
whenxg=
Theconfidenceinterval
whenxg=
SPSS计算结果说明
样本决定系数
模型F检验
系数t检验
EXCEL中的线性回归
指数函数:
幂函数
双曲函数
对数函数
可转换为一元线性回归的曲线回归
——固有线性的非线性函数
S形曲线
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五讲 线性回归 第五 线性 回归