计量经济学复习笔记要点达莫达尔版.docx
- 文档编号:25181973
- 上传时间:2023-06-05
- 格式:DOCX
- 页数:40
- 大小:1.14MB
计量经济学复习笔记要点达莫达尔版.docx
《计量经济学复习笔记要点达莫达尔版.docx》由会员分享,可在线阅读,更多相关《计量经济学复习笔记要点达莫达尔版.docx(40页珍藏版)》请在冰豆网上搜索。
计量经济学复习笔记要点达莫达尔版
v1、什么是计量经济学?
v计量经济学(Econometrics)
意为“经济测量”,它是利用经济理论、数学、统计推断等工具,对经济现象进行分析的一门社会科学。
v区别与联系经济理论
计量经济学vs{数理经济学
统计学
2、计量经济学的传统方法论
Step1理论或假说的陈述经典步骤
Step2建立数学模型
Step3建立相应的计量经济学模型→分析经济问题的八个经典步骤
Step4获取数据
Step5计量模型的参数估计
Step6检验模型设定是否正确
Step7假设检验(检验来自模型的假说)
Step8预测或控制
◆关于数据
1、数据分类
(1)时间序列数据(TimeSeriesData):
对一个变量在不同时间取值的一组观测结果。
如每年、每月、每季度等
(2)横截面数据(CrossSectionData):
对一个变量在同一个时间点上搜集的数据。
如同一年的分国别、分省、分厂家数据
(3)混合数据(PooledData):
时序和横截面的混合数据,既有分时,每一时点的观察对象又有不同(多个横截面单元)
广泛运用的一类特殊的混合数据——面板数据/综列数据/合成数据(PanelData):
在时间轴上对相同的横截面单元跟踪调查得到的数据。
如每年对各省GDP的报告。
2、研究结果永远不可能比数据的质量更好
观测误差、近似进位计量、高度加总、选择性偏误
3、数据来源:
网站、统计年鉴、商业数据库等
(1)统计局、央行、证券交易所、世行、IMF等官方网站
(2)图书馆(纸质、电子版年鉴)
(3)商业数据库
◆两个例子
例1:
凯恩斯消费理论
1人们倾向于随他们收入的增加而增加消费,但消费的增加不如收入的增加那么多。
2C=a+bI→确定性关系
3Y=β1+β2X+μ→μ为扰动项,非确定性关系
4搜集80~91年美国消费及收入数据
5估计参数:
解释:
平均而言,收入↑1美元,消费↑72美分
6检验模型设定的正确性:
是否应当加入别的可能影响消费额的变量,如就业等。
7假设检验:
H0:
β2<1(边际消费倾向<1)
8预测:
给定X,算Y
控制:
给定Y,算X
例2:
受挫工人假说(P2~8)
◆基本的统计学术语和概念
1、随机变量(r.v)
以一定的概率取到各种可能值的变量,取值由抽样或试验结果决定。
若取这些数值的概率为p,则p属于[0,1]。
r.v.通常用大写字母X,Z…表示。
如:
人的年龄、身高、体重、肺活量;猪肉价格;
抛两枚硬币,正面朝上的个数
按其取值情况随机变量可分为两类:
离散型r.v:
只可能取到有限或可列个结果
连续型r.v:
可以取某一区间范围内的任意值
2、总体、个体、样本
•总体(样本空间),它是所有可能结果的集合.通常情况下,它=研究对象。
例:
广西男青年的身高、南宁市猪肉价格、
东盟国家的出口额
•个体,它是组成总体的基本单位,代表了样本空间中的某一种结果。
例:
男青年甲的身高、某摊贩的猪肉价格、越南出口额
•总体具有同质性:
同一总体中的每个个体具有
某些共同的特征,因而与其它总体相区别
•抽样:
通常情况下总体难以被穷举,因此难以直接观测其性质。
需要通过抽取样本的方法来研究其性质。
样本性质总体性质
•样本,是总体中抽出若干个个体(样本点)组成的集合。
样本中包含的个体个数称为样本的容量,又称为样本的大小。
•注意:
抽样是按随机原则选取的,即总体中每个个体有同样的机会被选入样本。
3、描述性统计量
期望值/均值:
度量r.v.取值的集中趋势(Expectedvalue/Mean)
•方差、标准差:
度量对均值的偏离程度(Variance、StandardDeviation/S.d.)
第二部分线性回归模型
Ch6、7双变量模型
——线性回归的基本思想、实现步骤
Ch8多变量模型
Ch9其它函数形式的回归模型实际运用得最多
Ch10包含虚拟变量的回归模型
§1.回归分析概述
◆回归分析:
一种统计技术在计量经济学中被大量使用
◆主要用意:
分析一个叫做被解释变量的变量对另外一个(或多个)叫做解释变量
的变量的统计依赖性
术语和符号
1、被解释变量与解释变量的多种叫法
被解释变量Explainedvariable解释变量Explanatoryvariable
应变量Dependentvariable自变量Independentvariable
预测子Predictand预测元Predictor
回归子Regressand回归元Regressor
响应Response控制变量Controlvariable
内生变量Endogenous外生变量Exogenousvariable
2、回归模型的分类和叫法
双变量回归、一元回归、简单回归
多变量回归、多元回归、复变量回归
3、符号约定
被解释变量——Y
解释变量——X
横截面数据——下标i
时间序列数据——下标t
§2.双变量回归的基本概念
总体回归线
(PopulationRegressionLine)
在几何意义上,总体回归线就是解释变量取给定值时,被解释变量的条件均值或期望值的轨迹。
(X取遍所有可能值,然后把的点连起来)
2、总体回归函数(PRF)→它是总体回归线的数学表达式(PopulationRegressionFunction)
——截距系数interceptParameters
——斜率系数,两者都是回归系数/参数
SlopeRegressioncoefficients
总体回归函数的随机设定
离差(Deviation),表述如下:
总体回归函数的随机表达
其中,ui是一个可正可负的的随机变量,称为随机干扰项/扰动项/误差项(Stochasticdisturbance/Stochasticerror)
随机干扰项的性质和意义
它是从模型中省略下来,但又集体地影响着Y的全部变量的替代物。
3、样本回归线/样本回归函数(仍以博彩为例)
由于总体往往不能直接观测,因而要在样本信息的基础上,用SRF来估计PRF
样本回归函数(SRF)也有两种表述形式。
SRF的均值形式
注:
估计量,也称统计量,它是一种运算规则或方法,告诉人们怎样运用手中样本所提供的信息去估计总体参数。
SRF的随机形式:
样本残差/回归残差/剩余项
(residual)ui的估计量。
它表示样本点与SRF之间
的差距:
回归分析的目的是通过SRF来估计PRF
思考:
既然SRF只不过是PRF的一个近似,能不能设计一种规则或方法,使得这种近似尽可能地做得好一些?
或者说,尽管真实的B值永远不得而知,怎样构造SRF才能使B的估计值尽可能地“接近”真实的B?
回归分析的第一阶段:
参数估计
补充:
“线性”一词的含义(课本104页)
对变量线性:
变量只以一次方的形式出现。
几何上,回归函数线是一条直线。
对参数线性:
参数只以一次方的形式出现。
约定:
今后讨论的线性就是指对参数线性
§3.参数估计:
普通最小二乘法
由于样本是从总体中抽出来的,一定程度上代表了总体的形状,因此找好的SRF使之与
PRF最接近,首先要画出与样本拟合得好的样本回归线
怎么画?
=》普通最小二乘法
1、普通最小二乘法(OLS)
普通最小二乘法(MethodofOrdinaryLeastSquares),
由高斯提出。
(1)最小二乘原理
要使SRF与样本的拟合效果最好,必须使实际的Y值与估计的Y的均值之间的差距最小:
由于残差值有正有负,这里可能会出现抵消的问题(实际的Yi离开SRF很远,但残差的和却很小)。
如果采取最小二乘准则,使残差平方和最小,就能解决抵消的问题。
(2)B1、B2的估计
对于上式,给定一组X、Y的数据,b1、b2选得不同,残差平方和的值就不同。
因此,
我们用微分法来解该问题。
对博彩支出回归结果的解释
斜率系数0.0814表示:
周可支配收入每增加一个单位(1美元),平均而言,周博彩支出增加0.0814个单位(8美分)
截距系数7.6182的含义:
当样本取值包含0时,它表示X=0时Y的均值当样本取值不包含0时,它代表了回归模型中所有省略变量对Y的平均影响
其它一些例子课本108~112页
例6-1受教育年限与平均小时工资
例6-2奥肯定律(产出增长律与失业率)
例6-3股价与利率
例6-4美国中等房价与利率
例6-5古董钟与拍卖价格
通过例子进一步体会采用OLS法得到SRF的过程
回顾
总体回归线/函数样本回归线/函数
PRL/PRF
SRL/SRF
怎样构造SRL/SRF,使这个估计做得尽量好?
(b1、b2尽可能地接近B1、B2)OLS法
2、OLS估计量的性质P127
高斯—马尔柯夫定理:
在满足古典线性回归模型(CLRM)假定的条件下,OLS估计量是BLUE。
(BestLinearUnbiasedEstimator)
三层含义:
首先,OLS估计量是线性的。
即是关于的线性组合。
其次,OLS估计量是无偏的。
重复抽样,做很多次OLS估计,估计量的均值可以十分逼近真实值(即SRF十分接近PRF)。
最后,在所有线性无偏估计量中,OLS估计量的方差最小(最优,精度最高,最有效率)
最小二乘法的基本假定——古典线性回归模型(CLRM)
假定7.1:
线性模型。
回归模型对参数而言是线性的。
如:
假定7.2:
解释变量X与扰动误差项u不相关。
(X是非随机的比这一假定更强
假定7.3:
对给定的X值,随机干扰项u的条件均值为零:
假定7.4:
同方差性。
给定X值,对所有的观测,ui的方差都是相同的。
即ui的条件方差
是一常数:
假定7.5:
各个干扰之间无自相关。
给定任意两个X值:
Xi和Xj,ui和uj之间的相关为
i和j为两次不同的观测,而cov表示协方差。
假定7.6:
回归模型是正确设定的。
即在实证分析中所使用的模型不存在设定偏误。
不难看出,上述6大假定全是针对解释变量X及误差项u所作的,实际上是对总体回归函数PRF的假定。
•为什么假定?
现实意义?
如不满足会怎样?
如何知道这些假定是否满足?
——暂不回答
对任何一门学科的探求,都需要做一些假定
√有助于逐步明确问题
×这些假定是现实所必需
3、OLS估计的精度——估计量的方差与标准误
由于Y是随机变量,而b1和b2是它的函数,因此b1和b2也是随机变量。
当数据从一个样本变到另一个样本时,它们的值会出现摆动。
因此,需要找一个量来度量
这种摆动的大小,即衡量估计量b1和b2的精度/可靠性。
——这个量就是估计量的方差及标准误。
通过计算,双变量线性回归OLS估计量的标准误为:
其中,σ2为常数,是假定7.4中ui的共同方差
上述表达式中,除了σ之外,其他量的值均可从样本数据直接得到,σ需要通过样本来估计:
其中,分子为回归的残差平方和(RSS),分母为回归的自由度(d.f.)。
被称为回归的标准误(区别于前面回归估计量b1和b2的标准误
用OLS法估计出b1,b2(得到了SRF)
在一定的假设前提下,OLS估计量的性质
用方差和标准误,衡量了OLS估计的精度
回归分析的第一阶段:
参数估计
回归分析的第二阶段:
统计检验
§4.双变量模型的统计检验
1、假设检验:
显著性检验法
(1)零假设与备择假设
零假设,记为H0,它通常代表一种意在维护的假设,或经济理论所描述的情况
例如H0:
B2=0.08,H0:
B1=0
备择假设,对立于零假设,记为H1
单边(单尾)备择假设
例如H1:
B2>0.08H1:
B1<0
双边(双尾)备择假设(使用较多)
例如H1:
B2≠0.08H1:
B1≠0
(2)检验的基本思想
合理构造一定的统计量,利用该统计量在零假设下的抽样分布,结合样本数据算出该统计量的值,并在事先确定的显著性水平下(能容忍的犯错误概率),决定是否接受零假设。
若H0成立,统计量会这样这样,接受H0(Yi,Xi)
代入,算得统计量的值那样,拒绝H0
可能判断错,规定一个犯错概率
(3)检验回归系数是否为零——t检验
用得最多的是:
检验斜率系数是否为零
(Xi对Yi是否具有显著影响)
用于这一检验的统计量为:
通常称为t统计量,可由OLS估计结果算得。
(EViews软件在报告回归结果时自动给出)
“2倍t”简单判别法则“2-t”RuleofThumb
注意:
t统计量的值可正可负,通常而言,当t的绝对值超过2时,就可拒绝H0:
B2=0。
在博彩例中,t=7.262>2,由此拒绝B2=0的零假设,
认为B2显著(显著异于0),即从统计的角度,每周可支配收入X所对每周博彩支出Y有显著的影响。
统计学术语的运用(非常重要!
!
!
)
在t检验的基础上,如果决定“接受H0”,不是说它毫无疑问是真的,而是根据样本提
供的信息,我们没有理由去拒绝它。
类似的例子:
法庭宣布嫌疑犯无罪≠清白
(4)第一、二类错误与p值
H0:
B2=B2*
拒绝H0
接受H0
H0为真
弃真错误
第一类错误
判断正确
H0不为真
判断正确
取伪错误
第二类错误
在假设检验中,理想的做法是把这两种错误发生的概率都尽量降低。
但不幸的是,在样本容量一定的条件下,无法做到!
(严一点,取伪少,但弃真多;松一点,弃真少,但取伪多)。
为解决该问题,在古典方法中,假定第一类错误(弃真)更严重,因而首先关注犯弃真错误的概率——用α表示,称为显著性水平(levelofsignificance)
最常用的显著性水平值为1%,5%和10%
(越来越容易拒绝H0)
关于回归中报告的p值
p值,又称“精确显著性水平”,它表示的是一个零假设H0可被拒绝的最低显著性水平,换句话说,它直接给出了拒绝H0所犯一类(弃真)错误的概率(p值越低,拒绝H0的证据越充分)
决策原则
2、判定系数r2:
拟合优度的度量P134
拟合优度:
样本回归线对数据拟合得多好
(1)Yi变异的分解
2)判定系数r2coefficientofdetermination
r2↗,SRF对数据拟合得越好,拟合优度↗
r2:
在Y的总变异当中,由回归解释的部分(可由X的变异来解释的部分)所占的百分比因此r2还可用于度量模型的解释力。
r2的性质
I.它是一个非负量
II.它的界限为[0,1]。
r2=1,完美拟合;
r2=0,选错了解释变量,对于y的变动,回归模型没有任何解释力。
问题:
r2多大才够大,是否越大越好?
r2大,拟合优度高,模型解释力强,是好事但是不应一味追求高r2
r2多大才够大,没有一个统一标准。
有些模型0.3~0.5就够了,有些模型0.8还嫌不够好。
对于双变量模型来说,最好有0.6以上。
(2)报告回归结果的一般格式
(3)分析和评价回归结果
各系数估计值的大小是多少,符号是否与预期一致?
每个回归系数是否显著?
若显著,说明
什么?
不显著,又说明什么?
这个回归告诉我们怎样的定量结果?
r2的大小是多少?
这个r2说明什么?
4、预测
对应选定的X0,预测Y的条件均值
接博彩支出例,当周收入为340美元时,平均来说,周博彩支出为:
35美元
本章小结(要点)
1.回归的基本概念
掌握PRF、SRF的定义、区别和联系
误差项、残差
2.双变量回归的参数估计
1)OLS的基本原理:
残差平方和的最小化
2)CLRM的六大假定
3)OLS估计量的统计性质:
BLUE
4)OLS估计的精度:
标准误
3.双变量回归的统计检验
1)对回归参数的显著性进行检验:
t检验
2倍t简单判别法则;p值
2)r2度量拟合优度、模型解释力
3)报告和评价回归结果
4)均值预测
第8章多元回归模型
1、多变量模型的基本形式
以三变量为例:
为截距系数,为偏回归系数,
为干扰项。
PartialRegressionCoefficients
2、多元回归模型的假定154页
与双变量模型六大假定的框架基本相同)
o线性方程、无设定偏误
o干扰项与每个解释变量都不相关
o干扰项零均值、无自相关、异方差
o解释变量间无完全的多重共线性(new)[p155e.g]
3、偏回归系数的含义:
净影响
B2:
保持X3不变,X2每变化一个单位,Y的均值变化多少。
B3:
保持X2不变,X3每变化一个单位,Y的均值变化多少。
它们分别给出X2和X3变化对Y均值的直接偏影响或净影响(VS总影响)。
§2多元线性回归模型的估计
1、OLS估计量
SRF:
做最小二乘回归,最小化残差平方和:
估计结果如下:
156页
2、OLS估计量的统计性质
✓在CLRM假定成立的情况下,多元线性回归模型的OLS估计量是BLUE(最优线性无偏估计量)。
✓这与双变量模型的OLS估计量性质完全一样
3、拟合优度:
多元判定系数R2158页
⏹
度量估计的样本回归线与数据拟合的好坏
双变量模型:
r2多变量模型:
R2
⏹R2:
Y的变异由模型中所有解释变量联合
解释的比例
4、预测Y的条件均值
对应选定的X20和X30,预测Y的条件均值为
§4多元回归的假设检验
把双变量模型的假设检验思想延伸到多变量模型之中
2、检验单个偏回归系数的显著性:
t检验
⏹零假设H0:
Bi=0,i可从1,2,…,k中选
⏹
若H0成立,则:
⏹若,拒绝H0;否则不拒绝H0
若p<给定的α(如5%),则拒绝H0
F检验与R2的一个重要关系式
⏹F检验:
衡量回归方程的总显著性;
R2:
Y的变动可由所有解释变量的变动来解释的部分所占的百分比。
两者之间必定有某种联系
这样计算的F跟以前的方式所得到的结果是一样的
161页
(8-50)
ØF与R2是同向变化的,F大,R2也大;
当R2=0,F=0;当R2=1,F变为无穷大。
ØF检验既是所估回归的总显著性的一个度
量,也是R2的一个显著性检验。
换句话说,检验H0:
B2=B3=…=Bk=0
等价于检验H0:
(总体)R2=0。
§5设定偏误、校正R2
1、多变量模型与双变量模型:
设定偏误
⏹解释变量的斜率系数不同
⏹方程截距系数不同
⏹判定系数R2不同
三变量模型与双变量模型的这些不同从何而来?
为什么不同?
将总影响误当成净影响(漏变量)
导致设定偏误
包括了X2通过影响X3对Y产生的间接影响
X2i对Yi的总影响
X2i对Yi的净影响(保持X3i不变,不染有X3i)
2、比较两个R2值:
校正R2(AdjustedR2)
⏹R2是解释变量个数的非减函数。
因此,在比较有同一应变量Y,但是解释变量个数不同的两个回归时,选择最高R2值的模型必须当心!
不一定R2越大越好,可能大的R2是由较多的解释变量带来的
引入一个校正的R2
校正R2考虑到了模型中X的个数(k-1)
P1658-54
这样定义的R2称校正R2(AdjustedR2),记为。
“校正”一词,指对R2式中平方和所涉及的自由度的校正(自由度与解释变量的个数密切相关)。
校正R2是R2的增函数
I.对于k>1,。
随着解释变量个数的增加(即k增加),校正
R2会比R2增加得慢些(作为解释变量多的惩罚)
II.校正R2可能为负,而R2不会。
(实际应用中,若校正R2为负,则取0)
III.Y相同,X个数不同的模型,校正R2可比
如何在两个R2之间做选择?
⏹一般的统计软件两者同时报告
⏹“R2对回归拟合的描述,特别是当解释变
量个数k-1相对于观测次数n来说并不算少时,明显地偏向乐观,因此,用校正R2而不用R2是一种好的实践。
”
⏹一般来说,R2高,校正R2也高。
因此建议都看。
原则:
在保证t值显著的条件下,多选X,使R2或校正R2尽量高。
3、何时增加新的解释变量
经验结论:
当新加入一个解释变量斜率系数的t统计量绝对值大于1,校正R2才会增加,此时可以增加该解释变量进原来的回归方程
§6多元回归:
若干实例
⏹例8-1税收政策会影响公司资本结构吗
⏹例8-2牙买加的进口需求
⏹例8-3英国的酒需求
⏹例8-4城市劳动力参与率、失业率以及平均小时工资
多元回归结果分析的主要内容
⏹各系数的估计值是多少,符号是否与预期一致?
⏹每个回归系数是否显著(t检验)?
若显著,说明什么?
不显著,又说明什么?
是否应把它去掉?
⏹R2和校正R2是多少?
说明什么?
所有解释变量是否联合显著/模型的整体显著性如何?
(F检验)
⏹这个回归告诉我们怎样的定量结果?
本章小结(重点)
1、多元回归的基本概念
偏回归系数的含义、净影响和总影响的区别
2、多元线性模型的估计
校正R2与R2的联系和区别
3、假设检验
区别t检验和F检验
第9章回归模型的函数形式(均为参数线性模型)
§1.双对数模型:
测度弹性(Double-logModel)
双对数模型的特性:
斜率系数度量Y对X的弹性B2为常数不变弹性模型
•B2度量了Y对X的弹性:
X变化1%,Y将变化B2×1%
关于弹性
•当E的绝对值大于1,Y对X有弹性
•当E的绝对值小于1,Y对X缺乏弹性
•当E的绝对值等于1,Y对X有单位弹性
对比两次的回归结果(以博彩支出为例)
线性模型的斜率系数0.0814表示:
周可支配收入每增加一个单位(1美元),平均而言,周博彩支出将增加0.0814个单位(约8美分)。
双对数模型的斜率系数0.7256表示:
周可支配收入每增加1%,平均而言,周博彩支出将增加约0.73%。
注意
虽然双对数模型改变了变量X、Y的函数形式,但由于仍是参数线性模型,模型的参数估计、假设检验(t、F、p值)、预测等都与第6、7章介绍的方法类似,可直接套用!
选择线性模型还是双对数模型?
P184
规律1:
看散点图(只适用与单个X)
规律2:
看解释变量系数的预期符号
统计显著性
规律3:
看是否需要类似弹
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量 经济学 复习 笔记 要点 达莫达尔版