动态面板数据分析算法.docx
- 文档编号:11391151
- 上传时间:2023-02-28
- 格式:DOCX
- 页数:14
- 大小:27.09KB
动态面板数据分析算法.docx
《动态面板数据分析算法.docx》由会员分享,可在线阅读,更多相关《动态面板数据分析算法.docx(14页珍藏版)》请在冰豆网上搜索。
动态面板数据分析算法
动态面板数据分析算法
1.面板数据简介
面板数据(PanelData,LongitudinalData),也称为时间序列截面数据、混合数据,是指同一截面单元数据集上以不同时间段的重复观测值,是同时具有时间和截面空间两个维度的数据集合,它可以被看作是横截面数据按时间维度堆积而成。
自20世纪60年代以来,计量经济学家开始关注面板数据以来,特别是近20年,随着计量经济学理论,统计方法及计量分析软件的发展,面板数据计量经济分析已经成为计量经济学研究最重要的分支之一。
面板数据越来越多地被应用到计量模型的研究中,其在实证分析中的优点是明显的:
相对于只具有一个时点的横截面数据模型,面板数据包含了更多时间维度的数据,从而可以利用更多的信息来分析所研究问题的动态关系;而时间序列模型,其数据往往是由个体数据加总产生的,在实际计量分析中,在研究其动态调整行为时,由于个体差异被忽略,其估计结果有可能是有偏的,而面板数据模型能够通过截距项,捕捉到数据的动态调整过程中的个体差异,有效地减少了由于数据加总所产生的偏误;同时,面板数据同时具有时间和截面空间的两个维度,从而分享了横截面数据和时间序列数据的优点,另外,由于具有更多的观察值,其推断的可靠性也有所增加。
2.面板数据的建模与检验
设
3.动态面板数据的建模与检验
所谓动态面板数据模型,是指通过在静态面板数据模型中引入滞后被解释变量以反映动态滞后效应的模型。
这种模型的特殊性在于被解释变量的动态滞后项与随机误差组成部分中的个体效应相关,从而造成估计的内生性。
数据挖掘相关的信息
支持向量机及其应用(转载)
yonglee,May1415:
41,文档资料?
数据挖掘,评论(0),引用(0),阅读(397),本站原创
引用地址:
注意:
该地址仅在今日23:
59:
59之前有效
一、数据挖掘分类技术
数据挖掘是机器学习、数据库和统计学三者相结合的产物。
数据挖掘首先要确定挖掘的任务或目的,确定了挖掘任务后,就要决定使用什么样的挖掘算法,选择了算法后就可以实施数据挖掘操作,获取有用的模式。
分类作为数据挖掘中一项非常重要的任务,目前在商业上应用最多(比如分析型CRM里面的客户分类模型,客户流失模型,客户盈利等等,其本质属于分类问题)。
分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个,从而可以用于预测。
目前,分类方法的研究成果较多,判别方法的好坏可以从三个方面进行:
1)预测准确度(对非样本数据的判别准确度);
2)计算复杂度(方法实现时对时间和空间的复杂度);
3)模式的简洁度(在同样效果情况下,希望决策树小或规则少)。
近年来,对数据挖掘中分类算法的研究是该领域中一个热点,对不同分类方法都有许多对比研究成果。
没有一个分类方法在对所有数据集上进行分类学习均是最优的。
目前在数据挖掘软件中运用的最早也是最多的分类算法是神经网络,它具有对非线性数据快速建模的能力,通过对训练集的反复学习来调节自身的网络结构和连接权值,并对未知的数据进行分类和预测。
但是由于神经网络是基于经验最小化原理,它有如下几个固有的缺陷:
1)结构复杂(神经元的结构,还有输入层,隐含层,输出层组合起来的复杂结构)
2)容易陷入局部极小
3)容易出现过学习问题,也就是训练出来的模型推广能力不强
为了克服传统神经网络的以上缺点,Vapnik提出了一种新的基于统计学习理论的机器学习算法―支持向量机,正式奠定了SVM的理论基础,由于SVM扎实的理论基础,其目前已经成为继神经网络之后的的机器学习领域研究热点之一。
二、支持向量机核心思想
支持向量机实现是通过某种事先选择的非线性映射(核函数)将输入向量映射到一个高维特征空间,在这个空间中构造最优分类超平面。
我们使用使用SVM进行数据集分类工作的过程首先是通过预先选定的一些非线性映射将输入空间映射到高维特征空间(如下图)
使得在高维属性空间中有可能对训练数据实现超平面的分割,避免了在原输入空间中进行非线性曲面分割计算。
SVM数据集形成的分类函数具有这样的性质:
它是一组以支持向量为参数的非线性函数的线性组合,因此分类函数的表达式仅和支持向量的数量有关,而独立于空间的维度。
在处理高维输入空间的分类时,这种方法尤其有效。
其工作原理如下图
三、支持向量机在数据挖掘中的应用
鉴于支持向量机扎实的理论基础,并且和传统的学习算法想比较(比如人工神经网络),SVM通过提高数据的维度把非线性分类问题转换成线性分类问题,较好解决了传统算法中训练集误差最小而测试集误差仍较大的问题,算法的效率和精度都比较高。
所以近年来该方法成为构造数据挖掘分类器的一项新型技术,在分类和回归模型中得到了很好的应用。
但由于支持向量机出现的时间在90年代中期,人们对支持向量机的应用主要集中在模式识别方面,对于将支持向量机应用于数据挖掘的研究刚处于起步阶段。
目前,用SVM构造数据挖掘中的分类器来处理海量数据主要面临以下两个困难:
(1)SVM算法对大规模训练样本难以实施
由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。
针对以上问题的主要改进有有J.Platt的SMO算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、张学工的CSVM以及O.L.Mangasarian等的SOR算法
(2)用SVM解决多分类问题存在困难
经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。
可以通过多个二类支持向量机的组合来解决。
主要有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。
主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。
如:
与粗集理论结合,形成一种优势互补的多类问题的组合分类器
四、考虑一点商业智能中应用
支持向量机是基于统计学习理论的新一代学习机器,具有很多吸引人的特点,它在函数表达能力、推广能力和学习效率上都要优于传统的人工神经网络,在实际应用中也解决了许多问题,但由于SVM的出现比较晚,还处于发展阶段,尤其是其算法实现方面存在着效率低下的问题,这也是限制SVM很好地应用于数据挖掘中的一个瓶颈。
可以考虑对传统支持向量机进行扩展,实现多分类支持向量机。
可以考虑运用于现在的客户智能系统当中,现有客户智能系统采用的分类技术都是传统的数据挖掘技术:
比如神经网络,决策树,回归分析等等。
根据最后的图,大家可以看到现在的分析型CRM的整个功能和技术架构,如果把这种新兴的数据挖掘技术-支持向量机,运用于商业智能,相信是种不错的尝试。
面板数据分析方法步骤全解
yonglee,May516:
16,文档资料?
数据挖掘,评论(0),引用(0),阅读(515),本站原创
引用地址:
注意:
该地址仅在今日23:
59:
59之前有效
面板数据分析方法步骤全解(2009-11-0711:
50:
38)
转载标签:
面板数据
步骤一:
分析数据的平稳性(单位根检验)
按照正规程序,面板数据模型在回归前需检验数据的平稳性。
李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。
这种情况称为称为虚假回归或伪回归(spuriousregression)。
他认为平稳的真正含义是:
一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。
因此单位根检验时有三种检验模式:
既有趋势又有截距、只有截距、以上都无。
因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。
而检验数据平稳性最常用的办法就是单位根检验。
首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。
单位根检验方法的文献综述:
在非平稳的面板数据渐进过程中,LevinandLin(1993)很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。
后来经过Levinetal.(2002)的改进,提出了检验面板单位根的LLC法。
Levinetal.(2002)指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250之间,截面数介于10~250之间)的面板单位根检验。
Imetal.(1997)还提出了检验面板单位根的IPS法,但Breitung(2000)发现IPS法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung法。
MaddalaandWu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。
由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher和PP-Fisher5种方法进行面板单位根检验。
其中LLC-T、BR-T、IPS-W、ADF-FCS、PP-FCS、H-Z分别指Levin,Lin&Chut*统计量、Breitungt统计量、lmPesaran&ShinW统计量、ADF-FisherChi-square统计量、PP-FisherChi-square统计量、HadriZ统计量,并且Levin,Lin&Chut*统计量、Breitungt统计量的原假设为存在普通的单位根过程,lmPesaran&ShinW统计量、ADF-FisherChi-square统计量、PP-FisherChi-square统计量的原假设为存在有效的单位根过程,HadriZ统计量的检验原假设为不存在普通的单位根过程。
有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:
对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。
如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含截距项,T&I代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。
但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。
具体操作可以参照李子奈的说法:
ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。
并且认为,只有三个模型的检验结果都不能拒绝原假设时,我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零假设,就可认为时间序列是平稳的。
此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。
我们记I(0)为零阶单整,I
(1)为一阶单整,依次类推,I(N)为N阶单整。
步骤二:
协整检验或模型修正
情况一:
如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。
协整检验是考察变量间长期均衡关系的方法。
所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。
此时我们称这些变量序列间有协整关系存在。
因此协整的要求或前提是同阶单整。
但也有如下的宽限说法:
如果变量个数多于两个,即解释变量个数多于一个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。
另当解释变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。
如果只含有两个解释变量,则两个变量的单整阶数应该相同。
也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动幅度也不同)的序列,对协整结果的影响不大,因此包不包含的重要性不大。
而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数相同的高阶,此时也被称作同阶单整,这样的话另当别论),一定不能将其纳入协整检验。
协整检验方法的文献综述:
(1)Kao(1999)、KaoandChiang(2000)利用推广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。
(2)Pedron(1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。
和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。
(3)Larssonetal(2001)发展了基于Johansen(1995)向量自回归的似然检验的面板协整检验方法,这种检验的方法是检验变量存在共同的协整的秩。
我们主要采用的是Pedroni、Kao、Johansen的方法。
通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。
因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。
这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前提是变量协整)。
但如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过此时可以先对数据进行处理。
引用张晓峒的原话,“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。
”
下面简要介绍一下因果检验的含义:
这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:
在所有其它事件的发生情况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y的原因。
考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值是否显著影响Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响不显著,那么称X不是Y的“Granger原因”(Grangercause);如果影响显著,那么称X是Y的“Granger原因”。
同样,这也可以用于检验Y是X的“原因”,检验Y的滞后值是否影响X(已经考虑了X的滞后对X自身的影响)。
Eviews好像没有在POOL窗口中提供Grangercausalitytest,而只有unitroottest和cointegrationtest。
说明Eviews是无法对面板数据序列做格兰杰检验的,格兰杰检验只能针对序列组做。
也就是说格兰杰因果检验在Eviews中是针对普通的序列对(pairwise)而言的。
你如果想对面板数据中的某些合成序列做因果检验的话,不妨先导出相关序列到一个组中(POOL窗口中的Proc/MakeGroup),再来试试。
情况二:
如果如果基于单位根检验的结果发现变量之间是非同阶单整的,即面板数据中有些序列平稳而有些序列不平稳,此时不能进行协整检验与直接对原序列进行回归。
但此时也不要着急,我们可以在保持变量经济意义的前提下,对我们前面提出的模型进行修正,以消除数据不平稳对回归造成的不利影响。
如差分某些序列,将基于时间频度的绝对数据变成时间频度下的变动数据或增长率数据。
此时的研究转向新的模型,但要保证模型具有经济意义。
因此一般不要对原序列进行二阶差分,因为对变动数据或增长率数据再进行差分,我们不好对其冠以经济解释。
难道你称其为变动率的变动率?
步骤三:
面板模型的选择与回归
面板数据模型的选择通常有三种形式:
一种是混合估计模型(PooledRegressionModel)。
如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。
一种是固定效应模型(FixedEffectsRegressionModel)。
如果对于不同的截面或不同的时间序列,模型的截距不同,则可以采用在模型中添加虚拟变量的方法估计回归参数。
一种是随机效应模型(RandomEffectsRegressionModel)。
如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都服从正态分布,则固定效应模型就变成了随机效应模型。
在面板数据模型形式的选择方法上,我们经常采用F检验决定选用混合模型还是固定效应模型,然后用Hausman检验确定应该建立随机效应模型还是固定效应模型。
检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归:
在回归的时候,权数可以选择按截面加权(cross-sectionweights)的方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存在异方差现象。
估计方法采用PCSE(PanelCorrectedStandardErrors,面板校正标准误)方法。
Beck和Katz(1995)引入的PCSE估计方法是面板数据模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相关,异方差,序列相关等,在样本量不够大时尤为有用。
面板数据的计量方法
1.什么是面板数据?
面板数据(paneldata)也称时间序列截面数据(timeseriesandcrosssectiondata)或混合数据(pooldata)。
面板数据是截面数据与时间序列综合起来的一种数据资源,是同时在时间和截面空间上取得的二维数据。
如:
城市名:
北京、上海、重庆、天津的GDP分别为10、11、9、8(单位亿元)。
这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。
如:
2000、2001、2002、2003、2004各年的北京市GDP分别为8、9、10、11、12(单位亿元)。
这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。
如:
2000、2001、2002、2003、2004各年中国所有直辖市的GDP分别为:
北京市分别为8、9、10、11、12;
上海市分别为9、10、11、12、13;
天津市分别为5、6、7、8、9;
重庆市分别为7、8、9、10、11(单位亿元)。
这就是面板数据。
2.面板数据的计量方法
利用面板数据建立模型的好处是:
(1)由于观测值的增多,可以增加估计量的抽样精度。
(2)对于固定效应模型能得到参数的一致估计量,甚至有效估计量。
(3)面板数据建模比单截面数据建模可以获得更多的动态信息。
例如1990-2000年30个省份的农业总产值数据。
固定在某一年份上,它是由30个农业总产值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。
面板数据由30个个体组成。
共有330个观测值。
面板数据模型的选择通常有三种形式:
混合估计模型、固定效应模型和随机效应模型。
这三类模型的差异主要表现在系数、截距以及随机误差的假设不同。
第一种是混合估计模型(PooledRegressionModel)。
如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。
此时,对所有横截面数据而言,截距应是相同的。
第二种是固定效应模型(FixedEffectsRegressionModel)。
在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型(fixedeffectsregressionmodel)。
此时,相对于混合效应模型而言,个体间存在差异可以体现在截距的差异也可以体现为系数的差异。
固定效应模型分为3种类型,即个体固定效应模型(entityfixedeffectsregressionmodel)、时刻固定效应模型(timefixedeffectsregressionmodel)和时刻个体固定效应模型(timeandentityfixedeffectsregressionmodel)。
(1)个体固定效应模型。
个体固定效应模型就是对于不同的个体有不同截距的模型。
如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型。
注意:
个体固定效应模型的EViwes输出结果中没有公共截距项。
(2)时刻固定效应模型。
时刻固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。
如果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型,
相对于混合估计模型来说,是否有必要建立时刻固定效应模型可以通过F检验来完成。
H0:
对于不同横截面模型截距项相同(建立混合估计模型)。
H1:
对于不同横截面模型的截距项不同(建立时刻固定效应模型)。
(3)时刻个体固定效应模型。
时刻个体固定效应模型就是对于不同的截面(时刻点)、不同的时间序列(个体)都有不同截距的模型。
如果确知对于不同的截面、不同的时间序列(个体)模型的截距都显著地不相同,那么应该建立时刻个体效应模型。
相对于混合估计模型来说,是否有必要建立时刻个体固定效应模型可以通过F检验来完成。
H0:
对于不同横截面,不同序列,模型截距项都相同(建立混合估计模型)。
H1:
不同横截面,不同序列,模型截距项各不相同(建立时刻个体固定效应模型)。
第三种是随机效应模型。
在固定效应模型中采用虚拟变量的原因是解释被解释变量的信息不够完整。
也可以通过对误差项的分解来描述这种信息的缺失。
yit=a+b1xit+eit
其中误差项在时间上和截面上都是相关的,用3个分量表示如下。
eit=ui+vt+wit
其中ui~N(0,su2)表示截面随机误差分量;vt~N(0,sv2)表示时间随机误差分量;wit~N(0,sw2)表示混和随机误差分量。
同时还假定ui,vt,wit之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。
上述模型称为随机效应模型。
与固定效应模型不同,随机效应模型中。
随机误差项和截距项都是随机变量。
随机效应模型和固定效应模型比较,相当于把固定效应模型中的截距项看成两个随机变量。
一个是截面随机误差项(ui),一个是时间随机误差项(vt)。
如果这两个随机误差项都服从正态分布,对模型估计时就能够节省自由度,因为此条件下只需要估计两个随机误差项的均值和方差。
假定固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,而且对均值的离差分别是ui和vt,固定效应模型就变成了随机效应模型。
注意:
随机效应模型EViwes输出结果中含有公共截距
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 动态 面板 数据 分析 算法