实证研究基础知识.docx
- 文档编号:23729608
- 上传时间:2023-05-20
- 格式:DOCX
- 页数:89
- 大小:1.22MB
实证研究基础知识.docx
《实证研究基础知识.docx》由会员分享,可在线阅读,更多相关《实证研究基础知识.docx(89页珍藏版)》请在冰豆网上搜索。
实证研究基础知识
实证研究基础
国泰安信息技术有限公司
GTAInformationTechnologyCompany
第一部分如何学习实证研究方法
第三章掌握常用计量软件
对于实证研究初学者来说在掌握了基本知识和查阅了大量的文献之后,但是开始做实证研究不仅需要数据和方法,而且需要工具来检验实证研究的结果,如果工具不全,那么实证研究者也无法达到收发自如。
另外,实证研究可能面对处理大量甚至海量的数据,这些对于实证研究初学者来说都是棘手的问题,随着计算机的发展,不同的处理软件的出现,帮助我们解决了这个问题。
在实证金融会计领域中,目前常用的计量软件包括SAS、SPSS、Matlab、Eviews、Excel、Foxpro等。
下面我们对于这几个常用的软件和实证研究的关系作简要的论述。
第一节常见计量软件
一、SAS
SAS是美国SAS软件研究所研制的一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析和数据展现功能。
尤其是创业产品统计分析系统部分,由于其具有强大的数据分析能力,一直为业界著名软件,在数据处理和统计分析领域,被誉为国际上的标准软件和最权威的优秀统计软件包,广泛应用于政府行政管理、科研、教育、生产和金融等不同领域,发挥着重要的作用。
SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等等。
详细内容请登陆:
二、SPSS
SPSS(StatisticalPackagefortheSocialScience)--社会科学统计软件包是世界是著名的统计分析软件之一。
20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。
20世纪80年代以前,SPSS统计软件主要应用于企事业单位。
1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,从而确立了个人用户市场第一的地位。
同时SPSS公司推行本土化策略,目前已推出9个语种版本。
SPSS/PC+的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。
目前已经在国内逐渐流行起来。
它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。
详细内容请登陆:
查询。
三、MatLab
Matlab软件是由美国Mathworks公司推出的用于数值计算和图形处理的科学计算系统,在MatLab环境下,用户可以集成地进行程序设计、数值计算、图形绘制、输入输出、文件管理等各项操作。
它提供的是一个人机交互的数学系统环境,与利用c语言作数值计算的程序设计相比,利用Matlab可以节省大量的编程时间,且程序设计自由度大。
最大的特点给用户带来的是最直观,最简洁的程序开发环境,语言简洁紧凑,使用方便灵活,库函数与运算符极其丰富,另外具有强大的图形功能。
在国际学术界,Matlab已经被确认为准确、可靠的科学计算标准软件,许多国际一流学术刊物上,都可以看到MATLAB的应用。
详细内容请登陆:
查询。
四、EViews
EViews是美国GMS公司1981年发行第1版的MicroTSP的Windows版本,通常称为计量经济学软件包。
EViews是EconometricsViews的缩写,它的本意是对社会经济关系与经济活动的数量规律,采用计量经济学方法与技术进行"观察"。
计量经济学研究的核心是设计模型、收集资料、估计模型、检验模型、运用模型进行预测、求解模型和运用模型。
EViews是完成上述任务得力的必不可少的工具。
正是由于EViews等计量经济学软件包的出现,使计量经济学取得了长足的进步,发展成为实用与严谨的经济学科。
使用EViews软件包可以对时间序列和非时间序列的数据进行分析,建立序列(变量)间的统计关系式,并用该关系式进行预测、模拟等等。
EViews。
虽然EViews是由经济学家开发的,并且大多数被用于经济学领域,但并意味着必须限制该软件包仅只用于处理经济方面的时间序列。
EViews处理非时间序列数据照样得心应手。
实际上,相当大型的非时间序列(截面数据)的项目也能在EViews中进行处理
详细内容请登陆:
五、MicrosoftExcel
MicrosoftOffice是微软公司开发的办公自动化软件,Office2000是第三代办公处理软件的代表产品,可以作为办公和管理的平台,以提高使用者的工作效率和决策能力。
Office2000是一个庞大的办公软件和工具软件的集合体,为适应全球网络化需要,它融合了最先进的Internet技术,具有更强大的网络功能;Office2000中文版针对汉语的特点,增加了许多中文方面的新功能,如中文断词、添加汉语拼音、中文校对、简繁体转换等。
Office2000不仅
是您日常工作的重要工具,也是日常生活中电脑作业不可缺少的得力助手。
Excel是微软公司出品的Office系列办公软件中的一个组件,确切地说,它是一个电子表格软件,使用MicrosoftExcel执行计算、分析信息并管理电子表格或Web页中的列表。
Excel应用程序可以协助我们进行财务、预算、统计、各种清单、数据跟踪、数据汇总、函数运算等计算量大的工作。
详细内容请登陆:
六、VisualFoxPro
VisualFoxPro是Microsoft公司VisualStudio系列开发产品之一,简称VFP,是Xbase数据库家族的最新成员,可以运行于Windows9X/2000和WindowsNT平台的32位的数据库开发系统。
VisualFoxPro提供了一个功能强大的集成化开发环境.VisualFoxPro使得用户管理数据库更加方便,组织数据、创建应用程序等工作更加快捷,另外,面向对象的编程工具、OLE支持和WEB服务能力,使开发程序更加完备。
采用可视化和面向对象的程序设计方法,使数据管理和应用程序的开发更加简便。
详细内容请登陆:
第二节常用实证分析方法介绍
一、统计描述
在进行实证研究过程中往往会收集到大量的资料数据,但从这些杂乱无章的资料中,很难对其总体水平与分布状况做出评价判断。
因此,必须采用一些适当的方法对这些资料进行处理,使之简约化、分类化、系统化,从中发现它们的分布规律,掌握总体的特征,以便对其水平做出客观的评价。
统计描述方法就是研究简缩数据并描述这些数据的统计方法。
将搜集来的大量数据资料,加以整理、归纳和分组,简缩成易于处理和便于理解的形式,并计算所得数据的各种统计量,如平均数、标准差、以及描述有关事物或现象的分布情况、波动范围和相关程度等,以揭示其特点和规律。
统计描述常用的主要分两个方面的内容:
(1)频数分布表分析(Frequencies);
(2)统计描述分析(Descriptivesg);随着统计和计量软件的发展,目前已有许多软件块均可以完成描述性统计,如SPSS、SAS、EVIEWS等等。
下面以常用的SPSS软件为例介绍描述性统计的实现过程。
1.1.频数分布表分析(Frequencies)
频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。
它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。
1.1.1.界面说明
从SPSS的“Analyze”->“DescriptiveStatistics”->“Frequencies”,进入频数分布表分析过程的主对话框,如图1.1所示:
图1.1频数分布表分析过程的主对话框
下面重点介绍一下各部分的功能如下:
【Displayfrequencytables复选框】:
确定是否在结果中输出频数表。
【Statistics钮】:
单击后弹出Statistics对话框如图1.2,用于定义需要计算的其他描述统计量。
图1.2频数分布表分析过程Statistics对话框
现将各部分解释如下:
(1)PercentileValues复选框组:
定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsforequalgroups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5。
(2)Centraltendency复选框组:
用于定义描述集中趋势的一组指标:
均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。
(3)Dispersion复选框组:
用于定义描述离散趋势的一组指标:
标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。
(4)Distribution复选框组:
用于定义描述分布特征的两个指标:
偏度系数(Skewness)和峰度系数(Kurtosis)。
(5)Valuesaregroupmidpoints复选框:
当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。
【Charts钮】:
弹出Charts对话框,用于设定所做的统计图。
(1)Charttype单选钮组:
定义统计图类型,有四种选择:
无、条图(Barchart)、圆图(Piechart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(Withnormalcurve)。
(2)ChartValues单选钮组:
定义是按照频数还是按百分比做图(即影响纵坐标刻度)。
【Format钮】:
弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。
(1)Orderby单选钮组:
定义频数表的排列次序,有四个选项:
Ascendingvalues为根据数值大小按升序从小到大作频数分布;Descendingvalues为根据数值大小按降序从大到小作频数分布;Ascendingcounts为根据频数多少按升序从少到多作频数分布;Descendingcounts为根据频数多少按降序从多到少作频数分布。
(2)MultipleVariables单选钮组:
如果选择了两个以上变量做频数表,则Comparevariables可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,Organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示。
(3)SuppressTablesmorethan...复选框:
当频数表的分组数大于下面设定数值时禁止它在结果中输出,这样可以避免产生巨型表格。
1.1.2.分析实例
例:
某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。
4.773.376.143.953.564.234.314.715.694.124.564.375.396.305.217.225.543.935.214.125.185.774.795.125.205.104.704.743.504.694.384.896.255.324.504.633.614.444.434.254.035.854.093.354.084.795.304.973.183.975.165.105.864.795.344.244.324.776.366.384.885.553.044.553.354.874.175.855.165.094.524.384.314.585.726.554.764.614.174.034.473.403.912.704.604.095.965.484.404.555.383.894.604.473.644.345.186.143.244.903.05
解:
为节省篇幅,这里只给出精确频数表的做法,假设数据已经输好,变量名为X,具体解法如下:
1.Analyze==>DescriptiveStatistics==>Frequencies
2.Variables框:
选入X
3.单击Statistics钮:
4.选中Mean、Std.deviation、Median复选框
5.单击Percentiles:
输入2.5:
单击Add:
输入97.5:
单击Add:
6.单击Continue钮
7.单击Charts钮:
8.选中Barcharts
9.单击Continue钮
10.单击OK
得出结果后手工计算出CV。
1.1.3.结果解释
上例除直方图外的输出结果如表1.1和表1.2:
表1.1统计特征值描述
最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.69,中位数Median=4.61,标准差STD=0.8616,P2.5=3.04,P97.5=6.45。
表1.2频数分布表
系统对变量x作频数分布表(此处只列出了开头部分),Vaild右侧为原始值,Frequency为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Validpercent为各组频数占总例数的有效百分比,CumPercent为各组频数占总例数的累积百分比。
1.2.统计描述分析过程(Descriptives)
Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。
这和其他过程相比并无不同。
但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。
1.2.1.界面说明
从SPSS的“Analyze”->“DescriptiveStatistics”->“Descriptives”,进入统计描述分析过程的主对话框,如图1.3。
图1.3统计描述分析过程的主对话框
【Savestandardizedvaluesasvariables复选框】:
确定是否将原始数据的标准正态评分存为新变量。
【Options钮】:
弹出Options对话框,大部分内容均在前面Frequences过程的Statistics对话框中见过,只有最下方的DisplayOrder单选钮组是新的,可以选择为变量列表顺序、字母顺序、均数升序或均数降序。
1.2.2.结果解释
表1.3是一个典型的Descriptives过程结果统计表,一望可知,这里的大部分内容都在上一节见过,结果报告了X变量的样本数N、最小值、最大值、均值和标准差。
表1.3Descriptives过程结果统计表
二、均值分析与T检验
T检验是检验差异性显著性的十分重要的统计工具,这种差异显著性的检验是样本均值间的比较,因此T检验也可以称为一种均值比较分析。
具体包括:
单样本T检验、独立样本T检验、配对样本T检验。
下面仍然以SPSS为例介绍上述各种均值检验的实现过程。
2.1.独立样本T检验(One-SamplesTTest)过程
One-SamplesTTest过程用于进行样本所在总体均数与已知总体均数的比较,可以自行定义已知总体均数为任意值,该对话框的界面非常简单。
2.1.1.界面说明
从SPSS的“Anallyze”->”CompareMeans”->”One-SamplesTTest”,进入单样本T检验的主对话框,如下图2.1:
图2.1单样本T检验的主对话框
【TestVariables框】:
用于选入需要分析的变量。
【TestValue框】:
在此处输入已知的总体均数,默认值为0。
【Options钮】:
弹出Options对话框,用于定义相关的选项,有:
(1)ConfidenceInterval框输入需要计算的均数差值可信区间范围,默认为95%。
如果是和总体均数为0相比,则此处计算的就是样本所在总体均数的可信区间。
(2)MissingValues单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludescasesanalysisbyanalysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludescaseslistwise)。
默认为前者,以充分利用数据。
2.1.2.结果解释
One-SamplesTTest过程的输出也是比较简单的,由描述统计表和t检验表组成,比如要检验某数据中血磷值的总体均数是否等于1,则输出见表2.1和表2.2。
表2.1One-SamplesTTest描述统计表
所分析变量的基本情况描述,有样本量、均数、标准差和标准误。
表2.2单样本t检验表
表2.2为单样本t检验表,第一行注明了用于比较的已知总体均数为1,下面从左到右依次为t值(t)、自由度(df)、P值(Sig.2-tailed)、两均数的差值(MeanDifference)、差值的95%可信区间。
由上表可知:
t=2.975,P=0.007。
因此可以认为血磷值的总体均数不等于1。
2.2.独立样本T检验(Independent-SamplesTTest)过程
Independent-SamplesTTest过程用于进行两样本均数的比较,即常用的两样本t检验。
进行独立样本T检验要求被比较的两个样本彼此独立,即没有配对关系。
要求样本均来自正态总体,而且均值对于检验是有意义的描述统计量。
2.2.1.界面说明
从SPSS的“Anallyze”->”CompareMeans”->“Independent-SamplesTTest”,进入独立样本T检验的主对话框,如图2.2所示。
图2.2独立样本T检验的主对话框
【TestVariables框】:
用于选入需要分析的变量。
【GroupingVariable框】:
用于选入分组变量。
注意选入变量后还要定义需比较的组别。
【DefineGroups框】:
用于定义需要相互比较的两组的分组变量值。
【Options钮】:
和One-SamplesTTest对话框的Options钮完全相同,此处不再重复。
2.2.2.结果解释
比如要检验某数据中病患者与健康人的血磷值是否相同,用Independent-SamplesTTest过程的结果输出如表2.3和表2.4。
表2.3独立样本T检验统计表
表2.3为两组需检验变量的基本情况描述。
表2.4独立样本T检验表
从表2.4可见该结果分为两大部分:
第一部分为Levene's方差齐性检验,用于判断两总体方差是否齐,这里的戒严结果为F=0.032,P=0.860,可见在本例中方差是齐性的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐性,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t=2.524,ν=22,P=0.019。
从而最终的统计结论为按α=0.05水准,拒绝H0,认为病患者与健康人的血磷值不同,从样本均数来看,可认为病患者的血磷值较高。
最后面还附有一些其他指标,如两组均数的可信区间等,以对差异情况有更直观的了解。
2.3.配对样本T检验(Paired-SamplesTTest)过程
该过程用于进行配对设计的差值均数与总体均数0比较的t检验,配对样本T检验与独立样本T检验均使用TTest过程,但两者调用该过程的菜单不同,对数据文件结构的要求不同和使用的命令语句也有区别。
在进行配对样本T检验的数据文件中一对数据必须作为同一观测值的两个变量。
2.3.1.界面说明
从SPSS的“Anallyze”->“CompareMeans”->“Paired-SamplesTTest”,进入配对样本T检验的主对话框,如下图2.3所示。
图2.3配对样本T检验的主对话框
整个界面上只有一个PairedVariable框需要介绍,他用于选入希望进行比较的一对或几对变量--注意这里的量词是对而不是个。
选入变量需要成对成对的选入,即按住Ctrl键,选中两个成对变量,再单击
将其选入。
如果只选中一个变量,则
按钮为灰色,不可用。
2.3.2.分析实例
某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白鼠按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别?
大白鼠对号
正常饲料组
维生素E缺乏
1
3550
2450
2
2000
2400
3
3000
1800
4
3950
3200
5
3800
3250
6
3750
2700
7
3450
2500
8
3050
1750
解:
为了说明问题,此处假设输入数据时就按照上表格式输入,其中正常饲料组变量名为G1,维生素E缺乏组变量名为G2。
操作如下:
1.同时选中G1、G2:
选入PairedVariables框
2.单击OK钮
2.3.3.结果解释
其输出结果如表2.5。
表2.6和表2.7。
表2.5配对样本统计表
Mean
N
Std.Deviation
Std.ErrorMean
Pair1
G1
3318.7500
8
632.42024
223.59432
G2
2506.2500
8
555.13029
196.26820
配对变量各自的统计描述,此处只有1对,故只有Pair1。
表2.6配对样本相关分析
此处进行配对变量间的相关性分析。
等价于Analyze==>Correlate==>Bivariate。
表2.6配对样本检验
PairedDifferences
t
df
Sig.(2-tailed)
Mean
Std.Deviation
Std.Error
95%ConfidenceIntervaloftheDifference
Lower
Upper
Pair1
G1-G2
812.50
546.25
193.13
355.82
1269.18
4.21
7
.004
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实证 研究 基础知识