数理统计B班大作业.docx
- 文档编号:10313120
- 上传时间:2023-02-10
- 格式:DOCX
- 页数:18
- 大小:128.28KB
数理统计B班大作业.docx
《数理统计B班大作业.docx》由会员分享,可在线阅读,更多相关《数理统计B班大作业.docx(18页珍藏版)》请在冰豆网上搜索。
数理统计B班大作业
逐步回归法建立纳斯达克股市指数回归模型
数理统计B班
学号:
SY1003132
姓名:
刘翔宇
专业:
控制科学与工程
学院:
自动化科学与电气工程学院
一问题描述
为了研究纳斯达克股市的变化规律,建立回归方程,分析影响股票价格趋势变动的因素。
这里我们选了3个影响股票价格指数的经济变量:
x1是成交额(万$),x2是国际贸易金额(100万$),x3是美元汇率。
本例选择成交额x1来反映市场状况。
Y为股票指数。
本例采集了以上变量1996---2007年12年的数据资料,如表1所示。
表11996---2007年纳斯达克股市指数
年份
股票指数
X1是美元
汇率
x2是国际
贸易金额
x3是成交额
x4优惠利率
1996
3849.08
556.10
85.85
89468.10
113.96
1997
2531.73
317.40
30.17
74462.60
170.66
1998
2262.34
302.10
26.20
67884.60
188.42
1999
1059.94
253.60
3.33
34634.40
70.19
2000
1488.78
279.90
10.78
46759.40
97.45
2001
1877.95
290.60
20.37
58478.10
162.84
2002
7242.60
1333.50
347.85
136875.90
93.42
2003
2949.06
340.80
48.03
78345.20
141.85
2004
3349.04
413.40
62.90
82067.50
125.87
2005
4637.66
719.10
128.09
97314.80
112.89
2006
5480.03
903.40
172.55
105172.30
127.28
2007
6208.27
1108.60
259.01
117390.20
104.59
二异方差问题分析
1.异方差模型
经典线性回归模型可以表示为
,假设有n组观察值
,则原模型方程可表示为:
。
在经典线性回归模型中,假设随机误差项
是一个随机变量,且服从数学期望为零,方差为一常数的正态分布,即
,这一假设称为随机误差项
的同方差性假设。
另外还假设不同观察值的随机误差项之间是不相关的,而且随机误差项与
项不趋于共同变化。
但在实际的经济问题中,上述假设不一定满足。
比如,当自变量
变化较大时(如在一些横截面数据中),
的方差可能随
的变化而变化;而当
和
之间存在一定的顺序关系时(如在时间序列中),
可能与
并不独立(j
i)。
当同方差(homoscedasticity)或等方差(equalvariance)性假定不满足,也就是说,随机误差项
的方差不等于一个常数,即
则称随机误差项
具有异方差(heteroscedasticity)或非同方差(unequalvariance)性。
在模型(1-3)中,除随机误差项具有异方差性外,其它基本假设都能满足,则称这种模型为异方差的线性回归模型,简称异方差模型。
2异方差性的后果
变量的显著性检验失去意义,在多元线性回归模型的显著性检验中,构造了t统计量,在该统计量中包含有随机误差项共同的方差
并且有t统计量服从自由度为(n-k-1)的t分布.如果出现了异方差性,t检验就失去意义.采用其它检验也是如此.
模型的预测失效,一方面,由于上述后果,使得模型不具有良好的统计性质;另一方面,在预测值的置信区间中也包含有随机误差项共同的方差
,所以当模型出现异方差性时,它的预测功能失效.
3异方差性检验
(1)残差图分析法
残差图分析法是一种直观、方便的分析法,它以残差e为纵坐标,以任何其他的量为横坐标画散点图。
常用的横坐标有有三种选择:
以拟合值为横坐标;以Xi为横坐标,i=1,2………p;以观察时间或序号为横坐标。
一般情况下,当回归模型满足所有假设时,残差图上的n个点的散布会应是随机的,无任何规律的。
如果回归模型存在异方差,残差图上的点的散步会呈现相应的趋势。
(2)等级相关系数法
等级相关系数检验法又称斯皮尔曼(spearman)
检验,是一种应用较广泛的方法。
这种检验法既可用于大样本,又可用于小样本。
(3)格莱斯尔(Glejser)检验
格莱斯尔检验的中心思想是随机项的估计值e与自变量是有关系的,是自变量的函数,它随J值的增减而变化。
进行格莱斯尔检验主要有两个步骤:
1)以所有解释变量Xi来解释被解释量y,估计其参数,计算出随机项的估计值e。
2)以e为被解释变量,以某个解释变量Xi为解释变量,建立如下方程:
以Xi的不同幂次的形式f(Xi),分别估计两个参数
,选择最佳的拟合形式,并对它们的显著性进行检验。
如果它们显著性不为0,则认为异方差性存在,因为随机项与Xi存在相关性。
否则就具有同方差性。
4异方差性问题的处理方法
当研究的问题存在异方差性时,就违背了线性回归模型的假设。
此时,就不能用普通最小二乘法进行参数估计,必须寻求适当的补救方法,对原来的模型进行变换,使变换后的模型满足同方差性假设,然后进行模型参数的估计,就可到理想的回归模型。
消除异方差性的方法通常有加权最小二乘法(WeightedLeastSquare)、BOX-COX变换法、方差稳定性变换法。
在SPSS软件中提供了加权最小二乘法。
三多重共线性分析
在多元线性回归模型的基本假设中,假定解释变量之间不存在密切的线性关系。
如果存在,则称它们存在多重共线性(Multi-Collinearity)。
1多重共线性带来的问题
当回归模型存在多重共线性时,有rk(x)
不存在。
这样参数向量的
也不存在,
对角线元素较大,所以参数向量的协方差也很大。
这样虽然用OLSE还能得到参数向量的无偏估计,不能正确判断解释变量的影响程度,使估计精度降低,并且估计结果的波动性很大,这严重影响了估计量的经济意义解释。
2多重共线性的诊断
本文介绍三种诊断方法
(1)判定系数法
设有p个自变量的回归模型为:
y=f(x1,x2,……..,xp),为了诊断多重共线性,使模型中每一个解释变量分别为其余解释变量作为解释变量构造p个回归方程:
X1=f(X2,X3,……Xp);
X2=f(X1,X2,…Xp);
……
Xj=f(X1,X2,….Xj-1,Xj+1,…Xp);
……
Xp=f(X1,X1,…..Xp)
对上述p个方程进行参数估计,并计算样本决定系数。
若这些决定系数中的最大者接近1,比如说
,则说明该变量Xj可以用其他解释变量线性表示,则存在多重共线性。
并且还同时找出了多重共线性的表达式。
这种方法比较适合于解释变量少的模型。
这种方法可以在SPSS软件上完成。
(2)条件数
被称为方差
的条件数(ConditionNumber).利用条件数可以度量
的特征根散布程度,可以用它来判断多重共线性是否存在以及多重共线性的严重程度。
通常认为0
在SPSS软件中没有该方法。
(3)方差扩大因子
设
为Xj对其余p-1个变量的复相关系数,则
被称为方差扩大因子(VarianceinflationFactor,简记为VIF)。
如果记
的方差仅差一个因子,
是由两个因子
和
构成,且
与OLSE
的方差仅差一个因子。
因为
度量了自变量Xj与其余p-1个自变量的线性依赖度,这种相关程度越强,说明自变量之间的多重共线性越严重,
就越接近1,VIFj也就越大。
反之则相反。
由此可见VIF的大小反映了自变量之间是否存在多重共线性,由此可由它来度量多重共线性的严重程度。
经验表明,当VIF>10时,就说明自变量间有严重的多重共线性,且这种共线性可能会过度地影响最小二乘估计值。
以上三种方法都是诊断共线性是否存在的专门方法,相对这几种方法,还有一些在建模过程中能顺便主观判断的非正规方法。
3消除多重共线性的方法
当通过某种检验,发现解释变量中存在严重的多重共线性时,就要设法消除这种共线性。
消除这种共线性的方法很多,常用的有下面几种。
(1)剔除一些不重要的解释变量。
通常在经济问题的建模中,由于人们认识水平的局限,容易考虑更多的自变量。
当涉及自变量较多时,大多数回归方程都受到多重共线性的影响。
这时,最常用的办法就是舍去一些与y相关程度低、而与其他自变量高度相关的变量,然后重新建立回归方程。
(2)最大样本容量。
建立一个实际经济问题的回归模型,如果所收集的样本数据太少,也容易产生多重共线性。
这时可以通过增加样本容量来减弱多重共线性的程度。
(3)改变变量定义形式。
对于样本数据是时间序列资料时,回归方程存在的多重共线性,我们可以重新定义变量的形式,差分法就是改变变量定义形式的一种方法。
(4)利用已知信息。
即利用一些先验信息组合某些变量。
例如模型中的两个参数b1和b2满足关系:
b1=5b2,这时可将这个等式代入到原模型中,把模型的变量综合到一起,再利用最小二乘法进行估计。
(5)回归系数的有偏估计。
这种方法提出以引人偏误为代价来提高估计量稳定性的方差,如岭回法、主成分法、偏最小二乘法等。
(6)将截面数据与时序相结合。
(7)采用新的样本数据。
在数据中重新抽取一个样本,有可能会减弱其中变量的多重共线性,因为数据样本的变化,往往会对方程的回归系数及其标准误差产生影响。
这些消除多重共线性的方法都可以在SPSS软件中间接完成。
四数据分析与模型建立
1对变量引入/剔除方式信息表的分析
表2输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
x3成交额
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
2
x1美元汇率
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
3
x2国际贸易金额
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
a.因变量:
y股票指数
通过逐步回归产生的三种模型1、2、3,模型1的自变量只有X3,模型2的自变量有X3和X1,模型3的自变量有X2、X3和X1。
表2显示变量的引入和剔除,以及引入或剔除的标准。
逐步回归方法最先引入变量X3,建立模型1。
接着引入变量X1,没有变量被剔除,建立模型2。
最后引入X2,没有变量被剔除,建立模型3。
2对模型汇总表的分析
表3模型汇总
模型
R
R方
调整R方
标准估计的误差
更改统计量
Durbin-Watson
R方更改
F更改
df1
df2
Sig.F更改
1
.984a
.967
.964
370.28084
.967
296.554
1
10
.000
2
.997b
.995
.994
154.49654
.028
48.441
1
9
.000
3
.999c
.997
.996
121.84788
.002
6.469
1
8
.035
1.236
a.预测变量:
(常量),x3成交额。
b.预测变量:
(常量),x3成交额,x1美元汇率。
c.预测变量:
(常量),x3成交额,x1美元汇率,x2国际贸易金额。
d.因变量:
y股票指数
表3显示了各模型的拟合情况。
模型3的自相关系数(R)为0.999,判断系数为0.997。
从统计变量的改变看,模型1的改变值绝对大于其他两个模型,这说明与该模型相关的自变量X3是因变量很好的预测。
3对方差分析表的分析
表4方差分析表Anovad
模型
平方和
df
均方
F
Sig.
1
回归
4.066E7
1
4.066E7
296.554
.000a
残差
1371078.977
10
137107.898
总计
4.203E7
11
2
回归
4.182E7
2
2.091E7
875.944
.000b
残差
214822.633
9
23869.181
总计
4.203E7
11
3
回归
4.191E7
3
1.397E7
940.986
.000c
残差
118775.238
8
14846.905
总计
4.203E7
11
a.预测变量:
(常量),x3成交额。
b.预测变量:
(常量),x3成交额,x1美元汇率。
c.预测变量:
(常量),x3成交额,x1美元汇率,x2国际贸易金额。
d.因变量:
y股票指数
表4显示各模型的方差分析结果。
模型3的P值为0.00<0.05,拒绝原假设,认为因变量与其他三变量X2、X3和X1之间有线性关系。
4对模型回归系数表的分析
表5回归系数a
模型
非标准化系数
标准系数
t
Sig.
相关性
共线性统计量
B
标准误差
试用版
零阶
偏
部分
容差
VIF
1
(常量)
-1842.387
332.416
-5.542
.000
x3成交额
.066
.004
.984
17.221
.000
.984
.984
.984
1.000
1.000
2
(常量)
-936.587
190.196
-4.924
.001
x3成交额
.039
.004
.579
9.222
.000
.984
.951
.220
.144
6.945
x1美元汇率
2.328
.334
.437
6.960
.000
.973
.918
.166
.144
6.945
3
(常量)
-1507.722
270.044
-5.583
.001
x3成交额
.041
.003
.608
11.966
.000
.984
.973
.225
.137
7.317
x1美元汇率
4.316
.825
.810
5.232
.001
.973
.880
.098
.015
67.916
x2国际贸易金额
-7.223
2.840
-.403
-2.543
.035
.966
-.669
-.048
.014
71.164
a.因变量:
y股票指数
表5显示各模型的偏回归系数、标准化的偏回归系数及其对应的检验值;还显示了模型中的各变量与因变量的零阶相关、偏相关和部分相关;还有多重共线性统计量。
根据模型3可以建立多元线性回归方程为:
,这里X3的系数为负,显然不合理,原因可能是由于自变量之间存在多重共线性。
5对被剔除的变量信息表的分析
表6已排除的变量
模型
BetaIn
t
Sig.
偏相关
共线性统计量
容差
VIF
最小容差
1
x1美元汇率
.437a
6.960
.000
.918
.144
6.945
.144
x2国际贸易金额
.383a
3.807
.004
.785
.137
7.277
.137
x4优惠利率
-.144a
-3.910
.004
-.793
.986
1.014
.986
2
x2国际贸易金额
-.403b
-2.543
.035
-.669
.014
71.164
.014
x4优惠利率
-.048b
-1.426
.192
-.450
.458
2.181
.067
3
x4优惠利率
-.047c
-1.982
.088
-.600
.458
2.181
.013
a.模型中的预测变量:
(常量),x3成交额。
b.模型中的预测变量:
(常量),x3成交额,x1美元汇率。
c.模型中的预测变量:
(常量),x3成交额,x1美元汇率,x2国际贸易金额。
d.因变量:
y股票指数
表6显示各模型变量的有关统计量。
对模型3来说,它的偏回归系数的P值都大于0.05,接收原假设,不能把这些变量加入方程中
6对多重共线性的诊断及排除
表7多重共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
x3成交额
x1美元汇率
x2国际贸易金额
1
1
1.947
1.000
.03
.03
2
.053
6.055
.97
.97
2
1
2.840
1.000
.01
.00
.00
2
.150
4.352
.20
.00
.12
3
.010
17.140
.80
1.00
.87
3
1
3.647
1.000
.00
.00
.00
.00
2
.341
3.271
.02
.00
.00
.01
3
.010
19.158
.34
.98
.04
.01
4
.002
38.535
.64
.02
.96
.98
a.因变量:
y股票指数
表7显示多重共线性的诊断表,它包括3项诊断值:
特征值、条件数和方差比率。
特征值表明在自变量中存在多少截然不同的维数,当几个特征值都接近0是,变量是高度相关的,这样的数据微小改变将导致系数估计值的改变较大。
条件数是最大特征值对每一个连续特征值的比率的平方根,若条件数大于15则表明可能存在多重共线问题,若大于30则表明存在严重的多重共线性问题方差比率是能够被每一个主成分解释的估计值方差的比率,这个主成分是与其对应的特征值相关的。
当与高条件数相关的成分充分贡献于两个或者更多的变量方差时就产生了多重共线性。
表7中变量X2的条件数大于30,说明回归方程存在多重共线性。
6.1多重共线性的诊断与处理
(一)运用方差扩大因子法。
如表5所示,x1、x2的方差扩大因子VIF1=67.916,VIF2=71.164。
远超过10,说明回归方程存在严的多重共线性。
(二)剔除一些解释变量。
X2的方差扩大因子最大,剔除x2,用SPSS诊断,对数据进行分析可得下列几个表:
表8模型汇总c
模型
R
R方
调整R方
标准估计的误差
更改统计量
Durbin-Watson
R方更改
F更改
df1
df2
Sig.F更改
1
.984a
.967
.964
370.28084
.967
296.554
1
10
.000
2
.997b
.995
.994
154.49654
.028
48.441
1
9
.000
1.168
a.预测变量:
(常量),x3成交额。
b.预测变量:
(常量),x3成交额,x1美元汇率。
c.因变量:
y股票指数
表9回归系数a
模型
非标准化系数
标准系数
t
Sig.
相关性
共线性统计量
B
标准误差
试用版
零阶
偏
部分
容差
VIF
1
(常量)
-1842.387
332.416
-5.542
.000
x3成交额
.066
.004
.984
17.221
.000
.984
.984
.984
1.000
1.000
2
(常量)
-936.587
190.196
-4.924
.001
x3成交额
.039
.004
.579
9.222
.000
.984
.951
.220
.144
6.945
x1美元汇率
2.328
.334
.437
6.960
.000
.973
.918
.166
.144
6.945
a.因变量:
y股票指数
此时x1、x3的方差扩大因子分别为VIF1=6.945,VIF3=6.945。
同时,复相关系数R=0.997,决定系数R2=0.997,F=8754,回归系数的显著性检验P值均小于0.05,故可认为方程具较强的拟合性,x1、x3整体上与y高度相关。
7对残差统计表的分析
表10残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
971.9191
7304.2144
3578.0400
1951.97305
12
残差
-142.10725
187.85078
.00000
103.91222
12
标准预测值
-1.335
1.909
.000
1.000
12
标准残差
-1.166
1.542
.000
.853
12
a.因变量:
y股票指数
表10是残差统计结果。
主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。
可见标准化残差的最大绝对值为1.542
8迪欧残差分布直方图的分析
图1回归标准化残差
图1是标准化残差的直方图。
正态曲线被加在直方图上,判断标准化残差是否呈正态分布。
从图可以看见,它服从近似正态分布。
9对残点图的分析
图2散点图
图2是散点图。
选用DEPENDENT(X纵轴变量)与*ZPRED(Y横轴变量)作图,绘制回归残差项e的图形,从图中可以看出变量间不存在自相关性。
9.1异方差性消除
若模型存在异方差性,则可以进行如下操作,依次点击Analyze→Regression→Weight—Estima-tion,将人均食品消费支出选为因变量,人均纯收入选为自变量,人均纯收入选为WeightVariable,Power取值范围从-2到2,每次变化0.5,即可得到结果。
五总结
通过以上分析,可得回归方程为:
代表纳斯达克指数,
表示美元汇率(%),
代表成交额(100万$)。
从上述回归方程看,影响纳斯达克指数的主要因素为成交额和美元汇率。
成交额作为反映市场因素的主要指标对股票价格有主要影响。
纳斯达克股市上,成交额每增长100万美元,指数上涨0.039个百分点。
美元汇率反映国际金融情况的指标,它代表金融环境对股票价格的影响,美元汇率没增长一个百分点,指数上涨2.328个百分点。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 作业