虚拟变量案例.docx
- 文档编号:28711290
- 上传时间:2023-07-19
- 格式:DOCX
- 页数:15
- 大小:185.42KB
虚拟变量案例.docx
《虚拟变量案例.docx》由会员分享,可在线阅读,更多相关《虚拟变量案例.docx(15页珍藏版)》请在冰豆网上搜索。
虚拟变量案例
虚拟变量(dummyvariable)
在实际建模进程中,被说明变量不但受定量变量阻碍,同时还受定性变量阻碍。
例如需要考虑性别、民族、不同历史时期、季节不同、企业所有制性质不一样因素的阻碍。
这些因素也应该包括在模型中。
由于定性变量通常表示的是某种特点的有和无,因此量化方式可采纳取值为1或0。
这种变量称作虚拟变量,用D表示。
虚拟变量应用于模型中,对其回归系数的估量与查验方式与定量变量相同。
1.截距移动
设有模型,
yt=0+1xt+2D+ut,
其中yt,xt为定量变量;D为定性变量。
当D=0或1时,上述模型可表达为,
0+1xt+ut,(D=0)
yt=
(β0+β2)+β1xt+ut,(D=1)
图测量截距不同
D=1或0表示某种特点的有无。
反映在数学上是截距不同的两个函数。
假设β2显著不为零,说明截距不同;假设β2为零,说明这种分类无显著性不同。
例:
中国成年人体重y(kg)与身高x(cm)的回归关系如下:
–105+xD=1(男)
y=-100+x-5D=
–100+xD=0(女)
注意:
①假设定性变量含有m个类别,应引入m-1个虚拟变量,不然会致使多重共线性,称作虚拟变量陷阱(dummyvariabletrap)。
②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不阻碍查验结果。
③定性变量中取值为0所对应的类别称作基础类别(basecategory)。
④关于多于两个类别的定性变量可采纳设一个虚拟变量而对不同类别采取赋值不同的方式处置。
如:
1(大学)
D=0(中学)
-1(小学)。
【案例1】中国季节GDP数据的拟合(虚拟变量应用,file:
case1及case1-solve)
GDP序列图不用虚拟变量的情形
假设不采纳虚拟变量,得回归结果如下,
GDP=+T
R2=,DW=,.=
概念
1(1季度)1(2季度)1(3季度)
D1=D2=D3=
0(2,3,4季度)0(1,3,4季度)0(1,2,4季度)
第4季度为基础类别。
GDP=+T–D1–D2–D3
R2=,DW=,.=
附数据如下:
年
GDP
t
D1
D2
D3
1996:
1
1
1
0
0
1996:
2
2
0
1
0
1996:
3
3
0
0
1
1996:
4
4
0
0
0
1997:
1
5
1
0
0
1997:
2
6
0
1
0
1997:
3
7
0
0
1
1997:
4
8
0
0
0
1998:
1
9
1
0
0
1998:
2
10
0
1
0
1998:
3
11
0
0
1
1998:
4
12
0
0
0
1999:
1
13
1
0
0
1999:
2
14
0
1
0
1999:
3
15
0
0
1
1999:
4
16
0
0
0
2000:
1
17
1
0
0
2000:
2
18
0
1
0
2000:
3
19
0
0
1
2000:
4
20
0
0
0
数据来源:
《中国统计年鉴》1998-2001
2.斜率转变
以上只考虑定性变量阻碍截距,未考虑阻碍斜率,即回归系数的转变。
当需要考虑时,可成立如下模型:
yt=β0+β1xt+β2D+β3xtD+ut,
其中xt为定量变量;D为定性变量。
当D=0或1时,上述模型可表达为,
(β0+β2)+(β1+β3)xt+ut,(D=1)
yt=
β0+β1xt+ut,(D=0)
通过查验β3是不是为零,可判定模型斜率是不是发生转变。
图情形1(不同类别数据的截距和斜率不同)图情形2(不同类别数据的截距和斜率不同)
例2:
用虚拟变量区别不同历史时期(file:
case2及case2-solve)
中国进出口贸易总额数据(1950-1984)见上表。
试查验改革前后该时刻序列的斜率是不是发生转变。
概念虚拟变量D如下
0(1950-1977)
D=
1(1978-1984)
中国进出口贸易总额数据(1950-1984)(单位:
百亿元人民币)
年
trade
T
D
T*D
年
trade
T
D
T*D
1950
1
0
0
1968
19
0
0
1951
2
0
0
1969
20
0
0
1952
3
0
0
1970
21
0
0
1953
4
0
0
1971
22
0
0
1954
5
0
0
1972
23
0
0
1955
6
0
0
1973
24
0
0
1956
7
0
0
1974
25
0
0
1957
8
0
0
1975
26
0
0
1958
9
0
0
1976
27
0
0
1959
10
0
0
1977
28
0
0
1960
11
0
0
1978
29
1
29
1961
12
0
0
1979
30
1
30
1962
13
0
0
1980
31
1
31
1963
14
0
0
1981
32
1
32
1964
15
0
0
1982
33
1
33
1965
16
0
0
1983
34
1
34
1966
17
0
0
1984
35
1
35
1967
18
0
0
以时刻T=time为说明变量,进出口贸易总额用trade表示,估量结果如下:
trade=+time-+timeD
+time(D=0,1950-1977)
=
-+time(D=1,1978-1984)
上式说明,改革前后不管截距和斜率都发生了转变。
进出口贸易总额的年平均增加量扩大了18倍。
【案例3】香港季节GDP数据(单位:
千亿港元)的拟合(file:
case3及case3-solve)
1990~1997年香港季度GDP呈线性增加。
1997年由于蒙受东南亚金融危机的阻碍,经济进展处于停滞状态,1998~2002年底GDP总量几乎没有增加(见上图)。
对如此一种先增加后停滞,且含有季节性周期转变的进程简单地用一条直线去拟合显然是不适当的。
为区别不同季节,和不同时期,概念季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT如下(数据见附录):
1(第2季度)
D2=
0(其他季度)
1(第3季度)
D3=
0(其他季度)
1(第4季度)
D4=
0(其他季度)
1(1998:
1~2002:
4)
DT=
0(1990:
1~1997:
4)
得估量结果如下:
GDPt=+t+D2+D3+D4+DT-DT⨯t
R2=,DW=,.=,F=,T=52,(52-7)=
关于1990:
1~1997:
4
GDPt=+t+D2+D3+D4
关于1998:
1~2002:
4
GDPt=+t+D2+D3+D4
若是不采纳虚拟变量拟合成效将很差:
GDPt=+t
R2=,DW=,T=52,(52-2)=
【案例4】天津市粮食市场小麦批发价与面粉零售价的关系研究(file:
xiezhiyong)
第一看天津市粮食市场小麦批发价钱的转变情形(图1)。
1995年初,天津市粮食市场的小麦批发价钱第一放开。
在经历5个月的上扬以后,进入平稳波动期。
从1996年8月份开始小麦批发价钱一路走低。
至2002年12月份,小麦批发价钱降至是1160元/吨。
第二看面粉零售价的转变情形。
因为面粉零售价钱直接关系到居民的日常生活,因此开始时没有与小麦批发价钱一路放开。
当小麦批发价钱一路看涨时,1995年1月至1996年6月面粉零售价钱一直处于元/千克的水平上。
1996年7月起,面粉零售价钱也开始在市场上放开。
受小麦批发价钱上涨的阻碍,一个月内面粉零售价钱从元/千克涨到元/千克。
在那个价位上坚持了11个月以后,面粉零售价钱开始下降。
与小麦批发价钱的下降相一致,在经历了5年零7个月的转变以后,面粉零售价钱又恢复到接近开放前元/千克的水平上(元)。
散点图如图2。
按时刻分析这些观测点的转变情形(见图3,逆时针方向运动)。
见图4,直接拟合这些数据成效将很差(R2=,r=)。
图1图2
图3图4
利用虚拟变量技术,在模型中加入虚拟变量。
概念
D=0,(1995:
1~1996:
6,面粉零售价钱放开之前),
D=1,(1996:
7~2002:
12,面粉零售价钱放开以后)。
取对数关系成立模型。
Lnsale的系数没有显著性(关于面粉零售价钱放开之前的散点来讲回归直线是一条水平线)。
剔出Lnsale变量,得估量结果
PRICE=+Lnsale⨯D–⨯D
R2=,
PRICE=,D=0
PRICE=–+Lnsale,D=1
一条回归直线的斜率为零,一条回归直线的斜率为。
可决系数从不加虚拟变量模型的增加到(输出结果见下)。
本例也能够成立倒数模型:
PRICE=+⨯D–(1/sale)⨯D
R2=,
PRICE=,D=0
PRICE=–(1/sale),D=1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 虚拟 变量 案例