书签分享收藏举报版权申诉 / 18

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 电子电路 > 数理统计B班大作业.docx

数理统计B班大作业.docx

文档编号：10313120
上传时间：2023-02-10
格式：DOCX
页数：18
大小：128.28KB

数理统计B班大作业.docx

《数理统计B班大作业.docx》由会员分享，可在线阅读，更多相关《数理统计B班大作业.docx（18页珍藏版）》请在冰豆网上搜索。

数理统计B班大作业.docx

数理统计B班大作业

逐步回归法建立纳斯达克股市指数回归模型

数理统计B班

学号：

SY1003132

姓名：

刘翔宇

专业：

控制科学与工程

学院：

自动化科学与电气工程学院

一问题描述

为了研究纳斯达克股市的变化规律，建立回归方程，分析影响股票价格趋势变动的因素。

这里我们选了3个影响股票价格指数的经济变量：

x1是成交额（万$），x2是国际贸易金额（100万$），x3是美元汇率。

本例选择成交额x1来反映市场状况。

Y为股票指数。

本例采集了以上变量1996---2007年12年的数据资料，如表1所示。

表11996---2007年纳斯达克股市指数

年份

股票指数

X1是美元

汇率

x2是国际

贸易金额

x3是成交额

x4优惠利率

1996

3849.08

556.10

85.85

89468.10

113.96

1997

2531.73

317.40

30.17

74462.60

170.66

1998

2262.34

302.10

26.20

67884.60

188.42

1999

1059.94

253.60

3.33

34634.40

70.19

2000

1488.78

279.90

10.78

46759.40

97.45

2001

1877.95

290.60

20.37

58478.10

162.84

2002

7242.60

1333.50

347.85

136875.90

93.42

2003

2949.06

340.80

48.03

78345.20

141.85

2004

3349.04

413.40

62.90

82067.50

125.87

2005

4637.66

719.10

128.09

97314.80

112.89

2006

5480.03

903.40

172.55

105172.30

127.28

2007

6208.27

1108.60

259.01

117390.20

104.59

二异方差问题分析

1.异方差模型

经典线性回归模型可以表示为

，假设有n组观察值

，则原模型方程可表示为：

。

在经典线性回归模型中，假设随机误差项

是一个随机变量，且服从数学期望为零，方差为一常数的正态分布，即

，这一假设称为随机误差项

的同方差性假设。

另外还假设不同观察值的随机误差项之间是不相关的，而且随机误差项与

项不趋于共同变化。

但在实际的经济问题中，上述假设不一定满足。

比如，当自变量

变化较大时（如在一些横截面数据中），

的方差可能随

的变化而变化；而当

和

之间存在一定的顺序关系时（如在时间序列中），

可能与

并不独立（j

i）。

当同方差（homoscedasticity）或等方差（equalvariance）性假定不满足，也就是说，随机误差项

的方差不等于一个常数，即

则称随机误差项

具有异方差（heteroscedasticity）或非同方差（unequalvariance）性。

在模型（1-3）中，除随机误差项具有异方差性外，其它基本假设都能满足，则称这种模型为异方差的线性回归模型，简称异方差模型。

2异方差性的后果

变量的显著性检验失去意义，在多元线性回归模型的显著性检验中,构造了t统计量,在该统计量中包含有随机误差项共同的方差

并且有t统计量服从自由度为（n-k-1）的t分布.如果出现了异方差性,t检验就失去意义.采用其它检验也是如此.

模型的预测失效，一方面,由于上述后果,使得模型不具有良好的统计性质;另一方面,在预测值的置信区间中也包含有随机误差项共同的方差

，所以当模型出现异方差性时,它的预测功能失效.

3异方差性检验

（1）残差图分析法

残差图分析法是一种直观、方便的分析法，它以残差e为纵坐标，以任何其他的量为横坐标画散点图。

常用的横坐标有有三种选择：

以拟合值为横坐标；以Xi为横坐标，i=1,2………p;以观察时间或序号为横坐标。

一般情况下，当回归模型满足所有假设时，残差图上的n个点的散布会应是随机的，无任何规律的。

如果回归模型存在异方差，残差图上的点的散步会呈现相应的趋势。

（2）等级相关系数法

等级相关系数检验法又称斯皮尔曼（spearman）

检验，是一种应用较广泛的方法。

这种检验法既可用于大样本，又可用于小样本。

（3）格莱斯尔（Glejser）检验

格莱斯尔检验的中心思想是随机项的估计值e与自变量是有关系的，是自变量的函数，它随J值的增减而变化。

进行格莱斯尔检验主要有两个步骤：

1）以所有解释变量Xi来解释被解释量y，估计其参数，计算出随机项的估计值e。

2）以e为被解释变量，以某个解释变量Xi为解释变量，建立如下方程：

以Xi的不同幂次的形式f（Xi）,分别估计两个参数

，选择最佳的拟合形式，并对它们的显著性进行检验。

如果它们显著性不为0，则认为异方差性存在，因为随机项与Xi存在相关性。

否则就具有同方差性。

4异方差性问题的处理方法

当研究的问题存在异方差性时，就违背了线性回归模型的假设。

此时，就不能用普通最小二乘法进行参数估计，必须寻求适当的补救方法，对原来的模型进行变换，使变换后的模型满足同方差性假设，然后进行模型参数的估计，就可到理想的回归模型。

消除异方差性的方法通常有加权最小二乘法（WeightedLeastSquare）、BOX-COX变换法、方差稳定性变换法。

在SPSS软件中提供了加权最小二乘法。

三多重共线性分析

在多元线性回归模型的基本假设中，假定解释变量之间不存在密切的线性关系。

如果存在，则称它们存在多重共线性（Multi-Collinearity）。

1多重共线性带来的问题

当回归模型存在多重共线性时，有rk（x）

不存在。

这样参数向量的

也不存在,

对角线元素较大，所以参数向量的协方差也很大。

这样虽然用OLSE还能得到参数向量的无偏估计，不能正确判断解释变量的影响程度，使估计精度降低，并且估计结果的波动性很大，这严重影响了估计量的经济意义解释。

2多重共线性的诊断

本文介绍三种诊断方法

（1）判定系数法

设有p个自变量的回归模型为：

y=f（x1,x2,……..,xp），为了诊断多重共线性，使模型中每一个解释变量分别为其余解释变量作为解释变量构造p个回归方程：

X1=f（X2,X3,……Xp）;

X2=f（X1,X2,…Xp）;

……

Xj=f（X1,X2,….Xj-1,Xj+1,…Xp）;

……

Xp=f（X1,X1,…..Xp）

对上述p个方程进行参数估计，并计算样本决定系数。

若这些决定系数中的最大者接近1，比如说

，则说明该变量Xj可以用其他解释变量线性表示，则存在多重共线性。

并且还同时找出了多重共线性的表达式。

这种方法比较适合于解释变量少的模型。

这种方法可以在SPSS软件上完成。

（2）条件数

被称为方差

的条件数（ConditionNumber）.利用条件数可以度量

的特征根散布程度，可以用它来判断多重共线性是否存在以及多重共线性的严重程度。

通常认为01000,则认为存在严重的多重共线性。

在SPSS软件中没有该方法。

（3）方差扩大因子

设

为Xj对其余p-1个变量的复相关系数，则

被称为方差扩大因子（VarianceinflationFactor,简记为VIF）。

如果记

的方差仅差一个因子，

是由两个因子

和

构成，且

与OLSE

的方差仅差一个因子。

因为

度量了自变量Xj与其余p-1个自变量的线性依赖度，这种相关程度越强，说明自变量之间的多重共线性越严重，

就越接近1，VIFj也就越大。

反之则相反。

由此可见VIF的大小反映了自变量之间是否存在多重共线性，由此可由它来度量多重共线性的严重程度。

经验表明，当VIF>10时，就说明自变量间有严重的多重共线性，且这种共线性可能会过度地影响最小二乘估计值。

以上三种方法都是诊断共线性是否存在的专门方法，相对这几种方法，还有一些在建模过程中能顺便主观判断的非正规方法。

3消除多重共线性的方法

当通过某种检验，发现解释变量中存在严重的多重共线性时，就要设法消除这种共线性。

消除这种共线性的方法很多，常用的有下面几种。

（1）剔除一些不重要的解释变量。

通常在经济问题的建模中，由于人们认识水平的局限，容易考虑更多的自变量。

当涉及自变量较多时，大多数回归方程都受到多重共线性的影响。

这时，最常用的办法就是舍去一些与y相关程度低、而与其他自变量高度相关的变量，然后重新建立回归方程。

（2）最大样本容量。

建立一个实际经济问题的回归模型，如果所收集的样本数据太少，也容易产生多重共线性。

这时可以通过增加样本容量来减弱多重共线性的程度。

（3）改变变量定义形式。

对于样本数据是时间序列资料时，回归方程存在的多重共线性，我们可以重新定义变量的形式，差分法就是改变变量定义形式的一种方法。

（4）利用已知信息。

即利用一些先验信息组合某些变量。

例如模型中的两个参数b1和b2满足关系：

b1=5b2，这时可将这个等式代入到原模型中，把模型的变量综合到一起，再利用最小二乘法进行估计。

（5）回归系数的有偏估计。

这种方法提出以引人偏误为代价来提高估计量稳定性的方差，如岭回法、主成分法、偏最小二乘法等。

（6）将截面数据与时序相结合。

（7）采用新的样本数据。

在数据中重新抽取一个样本，有可能会减弱其中变量的多重共线性，因为数据样本的变化，往往会对方程的回归系数及其标准误差产生影响。

这些消除多重共线性的方法都可以在SPSS软件中间接完成。

四数据分析与模型建立

1对变量引入/剔除方式信息表的分析

表2输入／移去的变量a

模型

输入的变量

移去的变量

方法

1

x3成交额

.

步进（准则:

F-to-enter的概率<=.050，F-to-remove的概率>=.100）。

2

x1美元汇率

.

步进（准则:

F-to-enter的概率<=.050，F-to-remove的概率>=.100）。

3

x2国际贸易金额

.

步进（准则:

F-to-enter的概率<=.050，F-to-remove的概率>=.100）。

a.因变量:

y股票指数

通过逐步回归产生的三种模型1、2、3，模型1的自变量只有X3，模型2的自变量有X3和X1，模型3的自变量有X2、X3和X1。

表2显示变量的引入和剔除，以及引入或剔除的标准。

逐步回归方法最先引入变量X3，建立模型1。

接着引入变量X1，没有变量被剔除，建立模型2。

最后引入X2，没有变量被剔除，建立模型3。

2对模型汇总表的分析

表3模型汇总

模型

R

R方

调整R方

标准估计的误差

更改统计量

Durbin-Watson

R方更改

F更改

df1

df2

Sig.F更改

1

.984a

.967

.964

370.28084

.967

296.554

1

10

.000

2

.997b

.995

.994

154.49654

.028

48.441

1

9

.000

3

.999c

.997

.996

121.84788

.002

6.469

1

8

.035

1.236

a.预测变量:

（常量）,x3成交额。

b.预测变量:

（常量）,x3成交额,x1美元汇率。

c.预测变量:

（常量）,x3成交额,x1美元汇率,x2国际贸易金额。

d.因变量:

y股票指数

表3显示了各模型的拟合情况。

模型3的自相关系数（R）为0.999，判断系数为0.997。

从统计变量的改变看，模型1的改变值绝对大于其他两个模型，这说明与该模型相关的自变量X3是因变量很好的预测。

3对方差分析表的分析

表4方差分析表Anovad

模型

平方和

df

均方

F

Sig.

1

回归

4.066E7

1

4.066E7

296.554

.000a

残差

1371078.977

10

137107.898

总计

4.203E7

11

2

回归

4.182E7

2

2.091E7

875.944

.000b

残差

214822.633

9

23869.181

总计

4.203E7

11

3

回归

4.191E7

3

1.397E7

940.986

.000c

残差

118775.238

8

14846.905

总计

4.203E7

11

a.预测变量:

（常量）,x3成交额。

b.预测变量:

（常量）,x3成交额,x1美元汇率。

c.预测变量:

（常量）,x3成交额,x1美元汇率,x2国际贸易金额。

d.因变量:

y股票指数

表4显示各模型的方差分析结果。

模型3的P值为0.00<0.05，拒绝原假设，认为因变量与其他三变量X2、X3和X1之间有线性关系。

4对模型回归系数表的分析

表5回归系数a

模型

非标准化系数

标准系数

t

Sig.

数理统计B班大作业.docx

热门标签