计量经济学课程设计指导书Word文件下载.docx
- 文档编号:21495069
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:13
- 大小:79.28KB
计量经济学课程设计指导书Word文件下载.docx
《计量经济学课程设计指导书Word文件下载.docx》由会员分享,可在线阅读,更多相关《计量经济学课程设计指导书Word文件下载.docx(13页珍藏版)》请在冰豆网上搜索。
用于评估的模型通常都具备可描述性,这是非常有道理的。
举例来说,财产评估者利用Hedonic定价模型对家庭最近上未售出的房屋价值进行评估。
他描述了房屋的价格对它的特性(大小,卧室的数量、浴室的大小、厨房的大小等)的回归模型。
若以此来作为论文的研究内容就缺乏新意了,因为我们不可能从中学到更多的有新意的、有价值的东西,而这些分析也就没有什么明显的政策涵义了。
可是如果把邻里犯罪率作为一个解释变量加入进来,就能够知道邻里犯罪率是否是确定房屋价格的一个非常重的因素。
这在评估犯罪成本是会有一定的作用。
一些关系式的估计大多利用了描述性的宏观经济数据。
例如,一个总量储蓄函数模型能够用来判断总量边际储蓄倾向和储蓄对资产回报(如利率)的反应。
如果把时间序列数据应用于一个曾经经历过政治动乱的国家,并确定其在政治不稳定时期的储蓄率是否会下降,这种分析将变得更有意义。
(研究的实际意义)
一旦你确定了一个研究领域,对于所选的题目就可能有许多的方法来为论文定位。
JournalofEconomicLiterature有一套细致的分类体系。
每篇论文都有一组编号确认,从而将其归于经济学的某一子领域中。
JournalofEconomicLiterature还搜集了在其他各类期刊中发表的文章的列表,按其题目来组织,甚至有时包括文章的摘要。
因特网服务式的搜索各种题目的已发表的论文更为方便。
例如,Ecomlist就为许多美国大学所订阅。
使用者通过Ecomlist,按照作者的名字、文章的主题、关键词等方式便可以广泛的搜索几乎所有的经济学期刊。
SocialScienceCitationIndex用在搜索于社会科学的广泛领域相关的论文是非常有用,尤其包括那些很受欢迎并经常被其他著作所引用的优秀或经典论文。
(搜索发现有研究价值的题目:
别人是否研究过,研究了哪些内容,研究的程度等)
在构思一个题目是,对以下几个问题要做到心里有数。
第一,要使一个问题让人感兴趣,并不需要它具有广泛的政策内涵,相反,它可以只是当地的居民所关心的问题所在。
例如在大学里,生活在社团中间会使学习成绩提高还是下降,也许是你所关心的问题。
这一问题或许能或许不能令校外的人感兴趣,但至少会引起校内部分人的关注。
另一方面,你也许只是从当地的利益出发分析问题,最后却引起了广泛的关注。
比方说确定什么因素会影响大学校园内的酗酒现象,以及有哪些学校规章可以对其进行制约等等。
第二,利用经济的标准宏观经济总量数据进行真正有创造性地研究是非常困难的,尤其对一篇要在较长时期内完成的论文来说更是如此。
比方说,货币增长和政府支出增长等因素是否会影响经济增长,是专业的宏观经济学家一直以来致力研究的问题。
利用现有的信息能否系统的预测股票或其他资产的汇报,这一问题显然已经被研究得非常深入。
然而,这并不意味着你应该回避对宏观或经验性金融模型的估计,因为,仅仅增加一些新进的数据就可能使我们的讨论或研究更具有建设性。
另外,有时你会发现对宏观经济总量和金融回报有重要影响的新变量,这样的发现往往令人非常激动。
问题是,再多用几年的数据为国民经济或为世界经济估计一个标准的菲利普斯曲线或总量消费寒暑,像这样的练习,尽管他们对学生来说可能会有所启发,但却并不可能为我们带来更多新的理解。
然而,你可以利用一个较小国家的数据来估计静态的或动态的菲利普斯曲线,或是检验有效市场机制的假定等等。
在非宏观层面上,同样有许多被广泛研究的问题。
劳动经济学家发表了许多关于教育回报的论文。
这个问题很重要,所以还在被研究,况且新的数据集,还有新的计量经济学方法也在发展之中。
举例来说,对不可观测的能力来说,有些数据集就比其它数据集提供更好的代理变量。
另外,我们可能得到纵列数据或者从一个自然实验得到数据,使我们得以从一个不同的方面去思考一个老问题。
再举一个例子来说,犯罪学家对研究不同法律对犯罪的影响感兴趣。
死刑是否有威慑作用,长久以来一直是一个争论的话题。
类似地,经济学家对税收是否能减少研究的消费量感兴趣。
随着我们掌握越来越多年的各省的数据,一个更为丰富的纵列数据集就会产生,它能够帮助我们更好的回答大部分政策问题。
另外,有一些相当新近的反犯罪革新,他们的有效性如何可以经验性的评估出来。
在把你的问题用公式表达出来以前,跟你的同学、指导老师和朋友讨论你的想法会有所帮助。
你应该能够说服别人相信你对问题的解答是正确的。
如果有人问你的论文,而你的回答如果是:
“我正在进行关于犯罪的论文”或是“我的论文是关于利率的”这既有可能说明你只确定了一个总的范围,但却没有准确的表述出一个真正的问题。
你应该能够说出一些“我正在研究美国的社区管辖对城市犯罪率的影响”或“我正着眼于巴西的通货膨胀的反复无常是如何影响短期利率的”之类的话。
2、文献回顾
所有的论文,即使非常短,也应该包括相关的文献综述。
几乎没有人会试图进行尚无先例的经验项目。
如果你通过期刊或网络搜索服务,例如Ecolist搜寻一个题目,那么你所作的正式文献检索。
如果你自行选题——例如研究你们学校药用量对学习成绩的影响——那么可能工作起来要辛苦一些。
但网络搜索服务是这一过程简化,例如你可以通过关键词、题目中的词、作者姓名等等进行搜索。
然后你就可以通过论文的摘要得知他们的研究与你自己的研究有多少关系。
在进行文献检索时,你应该考虑到利用少量的关键词可能搜索不到的相关的题目。
例如,如果你在研究吸毒量对工资或平均成绩的影响,或许你应该查阅一些关于饮酒量对这些因素的影响的著作。
了解如进行彻底的文献搜索是一种有待学会的技巧,但如果你在行动前多加思考,可能会减少不少麻烦。
如何将文献综述包含在论文中,不同的研究人员有不同的做法。
有些人喜欢开辟独立的章节,叫做“文献综述”而其它的人则倾向于将文献综述作为一个部分包含在序言中。
尽管大量的文献综述是值得占一个独立章节的,但这主要是个人的习惯而定。
如果你做的是学位论文,你的文献综述就有可能相当长。
如果只是某门课程的作业,相应的文献综述也要简洁一些。
3.数据收集
(1)确定适当的数据集
为学期论文而搜集数据可能是富有启发意义的、令人激动的,有时可能也是一件叫人相当沮丧的事情。
首先你必须确定用以回答你所设定的问题的数据类型。
数据集以多种形式出现。
最常见的类型是截面数据、时间序列数据、合并数据和纵列数据集。
有些问题可以有任何一种数据结构进行描述。
例如,在研究更强的执法力度是否能够降低犯罪率时,我们可以利用一些城市的横截面数据,或者某个给定城市的时间序列数据,也可以选择一些城市的纵列数据集——它包含相同几个城市两年或多年的数据。
确定收集何种数据通常取决于该分析的性质。
为了回答个人或家庭层次上的问题,我们通常只需要找到单一的横截面的数据;
他们往往有调查取得。
接着,我们要自问,是否能够获得一个丰富的数据集来进行分析。
举例来说,假设我们想知道通过个人退休账户来储蓄的家庭——这具有某些税收优势——是否会有较少的非个人退休账户储蓄。
换而言之,是否个人退休账户储蓄会把其他形式的储蓄排挤出去?
有些数据集,例如消费者财务调查,包括了每年不同家庭的不同储蓄种类的信息。
利用这样的的数据集会产生一些问题,其中或许影响最大的一个就是是否有足够多的可控解释变量——包括收入、人口统计特性和储蓄偏好的代理变量——来进行分析。
如果这些是我们能够获得的唯一一种数据集,就必须尽我们所能来处理它。
在处理关于公司、城市、州县等的截面数据时,相同的问题也会产生。
在大多数情况下,判断我们能否利用单一横截面数据进行分析,这一点比较困难。
例如,关于执法力度对犯罪率的作用的任何研究都必须认识到执法经费的内生性(执法经费受到执法力度和犯罪率的影响)。
如果利用标准的回归方法,那么无论我们有多少解释变量,或许都很难完成一个令人信服的分析。
一旦学会了纵列数据的分析方法后,你就会发现,具备两个或多个不同时点上相同的截面单元的数据能够让我们控制毫不随时间而改变的无法观测的效应,而正是这些效应经常把我们在单一横截面上所作的会高的复杂起来。
个人或家庭的纵列述举既相对来说较难获得——尽管还是有一些例子存在,如动态收入的纵列数据研究——但他们可以用于非常令人信服的问题的分析。
公司的纵列数据也是存在的。
例如,Compustat和证券价格研究中心对各公司进行大规模的财务信息的纵列数据信息的收集。
对更大的单元,如学校、城市、县和州来说,要获得纵列数据则更为容易,因为这些单元不会随着时间而消失,而且政府部门会负责每年收集这些相同变量的信息。
例如,美国联邦调查局或收集并报告每个城市的犯罪率的详细信息。
数据以多种形式出现。
一些数据集,特别是历史数据,通常仅以印刷资料的形式出现。
如果数据集不大,把来源于印刷资料的数据输入在操作上是可行的。
有时有些文章连同一些小的数据集一起发表——特别是时间序列的分析。
把这些资源应用与实证研究中,也许还得用近年来的数据加以补充。
许多数据既可以在计算机磁盘、磁带上找到。
前一种特别容易操作。
现在很大的数据集已经可以存放在磁盘中了。
各种政府机构会出售数据磁盘,私人企业也不例外。
研究人员通常愿意以磁盘的方式提供它们的数据集。
越来越多的数据集可以在互联网上找到。
网络是网上数据库的丰富来源。
无数包括经济和相关数据集的网站被建立起来。
有一些网站包括经济学家所关注的数据集的链接;
总的说来,用因特网搜寻数据资源相当简单而且在将来会更加便利。
(2)输入并存储数据
一旦确定了数据类型并找到了数据来源,就必须把数据转变为可操作的形式。
如果数据在磁盘里,那么它们已经具备了一定的形式,而且可能是具备广泛用途的一种形式。
用磁盘形式获取数据最灵活的方法是将其作为标准的文本文件(ASCII)。
所有的统计和计量经济学软件包都可以以这种方式存储原始数据。
一般来说,只要该文本文件构架合理,就可以被直接读入一个计量经济学软件。
作为一般性原则,数据应该具备表格形式,每次观测占一个不同的行;
而数据集的每一列则代表不同的变量。
偶尔我们会遇到以列代表观测次数而行代表不同变量的方式存储的数据集。
这并不是理想的方式,但大部分软件包允许以这种变量形式读取数据,然后把它改过来。
所以,了解计量经济学软件数据读入计量经济学软件之前如何组织是非常关键的。
对时间序列数据集来说,只有一种实用的方式来进行数据的输入和存储,也就是说,以时间为序,最早的时间段列为第一次观测,最近的时间段列为最后一次观测。
把带有年份或带有季度或月份信息的变量包括近来通常会有帮助。
它有助于对今后模型有所改变时的估计,包括考虑到不同时间区间的季节性变化和间断。
对一段时间的合并数据集来说,通常最好的是把最早一年的截面放在第一观测区内,接着是第二年的截面,然后以此类推。
这种安排并不关键,但把注明年份的变量附在每一个观测之上是非常重要的。
对纵列数据来说,如果所有的年份的截面观测值都是相邻的且以时间为序,就是最理想的。
有了这样的顺序,我们就可以利用所有的纵列数据的分析方法来分析。
对于纵列数据,让每一个截面单元具备一个独特的标志和一个时间变量是非常重要的。
如果你获得印刷资料形式的数据,就可以有多种选择将其输入电脑。
首先,你可以利用标准文本编辑器(如:
EDIT,WORDPAD,NOTES等)创建一个文本文件。
一般的要求是每一行开始一次新的观测,并且每行的变量有相同的顺序——特别的,每行的变量数要相等——而且数值和数值之间至少需要一个空格分开。
有时候,用一个其它的分隔符可能会更好,但这取决于你所使用的软件。
如果你缺掉了某些变量的某些次观测,你就必须决定如何将其表示出来;
仅仅留下一个空格一般是不行的。
许多回归软件包接受以句号为缺失数据值的标志。
有些人倾向于用一个数字——也许是对所关注的变量来说是一个不可能的值——来表示缺失数据值。
如果你不是非常细心的话,这样做就非常危险。
如果你有非数值数据——比如所,你想把一个样本学院的名字或城市的名字包括近来——那么你需要查询一下你将要使用的计量经济学软件包以确定输入这种变量的最佳方式,习惯上字符串都被放在双引号或单引号之间。
有的文本文件遵循严格的形式,即通常用一个小程序来读取文本文件。
不过你最好还是查询你使用的计量经济学软件包以获得详细的信息。
另一种普遍适用的数据是利用spreadsheet来输入你的数据,比如说EXCEL他与文本文件相比有一些优点。
第一,因为每个变量的每次观测值是一个单元格,所以数字不太容易连在一起。
第二,spreadsheet允许对数据进行操作,例如进行归类和计算平均值等。
如果你所使用的软件包能进行精密的数据管理,那么这第二个优点就不那么重要了;
许多软件包,包括EXCEL、EVIEWS和STATA,都属于这一类。
如果你利用spreadsheet进行原始数据的输入,那么通常需要把数据以你的计量经济学软件包可读的形式输出出来。
第三种数据输入方法是直接把数据输入你的计量经济学软件包。
这种方法就不需要文本编辑器或者spreadsheet。
从因特网上下载的数据以多种格式出现,通常数据数据是文本文件的格式。
一些因特网上的数据以spreadsheet的形式出现,这种情况下你就必须用适合spreadsheet的来读取他们。
(3)检查、整理、总结数据
在实证分析中,熟悉你将要使用的数据及尤为重要。
如果你自己输入数据,那么就必须完全了解它的内容。
但如果你从外界来源获取数据,就仍然需要花时间了解它的结构和管理。
即使是广泛使用且大量存储的数据也会有缺陷,如果你使用来自某论文作者的数据集,你就必须意识到数据集构造方式也可能被忽略。
你还需要知道缺失的数值是如何标识的。
较可取的方式是用一个非数字符号,如句号,标明缺失数值。
如果是利用诸如”999”或者“-1”这样的数字来作为缺失数值的标识,那么在利用这些观测进行统计计算时就必须非常小心。
你的计量经济学软件包或许不知道某一数值实际上代表一个缺失数值:
很有可能这样一次观测会被当作有效的值而被使用,从而产生极其错误的结果。
最好的办法是把所有代表缺失数值的数字符号该为其他不会与实属数据混淆的符号(如句号)。
你还必须知道数据集中变量的性质。
哪些是二进制数据?
哪些是序数(如信用评级)?
变量的测量单位是什么?
比方说,货币价值是美元、千美元、百万美元还是其他测量单位?
变量时表示以百分比还是以其他比率。
特别是对于时间序列数据来说,了解货币价值是名义的,还是实际的价值非常关键。
如果这个价值是实际值,那么基年或基期又是什么?
如果你从一个作者那里得到一个数据集,那么有些变量已经以一定的方法进行了变换。
比方说,有时候只有变量的对数形式出现在数据集中。
在数据集中检查数据错误对保持人和数据分析的正确性都是必要的。
在分析中找出所有的或者至少是最显著的的变量的最小值、最大值、均值和标准差通常都是有用的。
举例来说,如果你发现你的样本中教育的最小值是-99,你就会知道教育的输入之中至少有一个要被设为缺失值。
经过进一步检查,如果教育水平的数次观测值为-99,那么你可以信心十足地说,你发现了教育的缺失数值标志。
据另一例来看,如果你发现一个城市样本的谋杀罪平均定罪率为0.632,你就知道这个定罪率是一比率而不是以百分数测量的。
那么,如果最大值大于1,那么这就有可能是一个印刷或输入错误。
我们在使用时间序列数据时同样要小心。
如果运用月份或季度数据,我们就必须知道那些变量,如果有的话,是否经过了季节调整。
改变数据同样需要格外小心。
假使我们有每月的数据集,而且想要从中产生从一个月到下一个月的改变量。
为达到这一目的,我们必须确定数据是按日历从最早的时期到最晚的时期依次排列的。
如果出于某些原因情况并非如此,相减的结果将是无意义的。
为确保数据正确排列,运用一个时间标示变量会有所帮助。
对于年份数据,知道年份就足够了,但我们还必须知道年份是以四位数还是以两位数输入的。
同样,有了月份或季度数据,拥有一个或多个表示月份或季度的变量将有所帮助。
对于月份数据,我们可以拥有一组虚拟变量或者用一个指明月份的变量。
无论用不用年、月或季度标识变量,我们都可以在所有计量经济学软件包中轻易的构建时间序列。
如果标示出月份或季度,那么构建季节虚拟变量就很简单;
至少,我们需要知道第一次观测的月份或季度。
操作纵列数据更具挑战性。
作为控制不可测影响的一般方法,我们对差分数据是用混合普通最小二乘法。
在建立差分数据的时候,我们应该小心,不要产生错觉。
假使我们拥有1992—1997年城市的纵列数据,即使数据在每一个横截面单元上都按时间先后顺序排列——这是开始时首先要做的事情——一个不精心的差分也会对样本中除第一个观测值之外的所有城市产生一个1992年的观测值。
这一观测值将是1992年城市I的值减去1997年城市I-1的值;
这显然是愚蠢的。
因此,我们必须保证,对所有被取差分的变量来说,1992年都是确实了的。
对于非纵列数据的合并数据,情况就更复杂,因为没有一个命令是对所有横截面但愿都适用。
通常对合并数据使用固定影响模型更简单。
4.计量经济学分析
在确定了题目之后,必须选出一个合适的数据集。
假定这也应经完成了,我们就必须接着决定合适的计量经济学方法。
如果你的研究着重于多元线性回归模型的普通最小二乘估计,利用的数据是时间序列或截面数据,那么对你来说计量经济学的方法在很大程度上已经确定了。
这不一定是不好的,因为最小二乘法仍然是使用最广泛的方法。
当然,你还必须确定,是否需要最小二乘法的其它变星——例如加权最小二乘法或时间序列回归中的序列相关的校正。
为说明普通最小二乘法,你还必须给出一个令人信服的例子以说明你的模型满足普通最小二乘法的关键假定。
第一个问题时,误差项是否与解释变量不相关。
较理想的情况是你能够控制最够多的其它变量来假定留在误差项中的因素与回归元不相关。
特别是在处理个人、家庭或者公司这一层次的横截面数据时,选择性偏误通常是需要考虑的。
你好应该能够证明其他潜在的内生因素——也就是,测量误差和联立性——不是严重问题。
在设定你的模型的时候,你同样需要确定采取何种函数形式。
某些变量是否应该以对数的形式出现?
某些变量是否应该为水平值或平方值描绘可能递减的变量的影响?
定性因素应该怎样出现?
对不同的属性和群体,仅用虚拟变量够吗?
或者,需要考虑它们与数量变量的交互作用吗?
对截面数据分析来说,其次但同样重要的问题是,异方差是否存在。
最简单的方法是计算队以方差稳健估计量。
对时间序列的应用需要格外小心。
对方程的估计应使用水平值吗?
如果利用水平值,是否需要时间趋势变量呢?
用数据的差分是否更合适?
如果是月份数据或季度数据,是否应该考虑季节因素?
如果你考虑动态——比方说,分布滞后动态——有多少滞后因素应该被包括进去?
你应该从一些基于直觉或常识的滞后因素开始,但这最终还是一个经验问题。
如果你的模型有潜在的设定误差,比方说遗漏变量,而且利用普通最小二乘法,那么你应该尝试对设定误差进行分析。
基于合理的假定,你能够确定估计量偏差的方向吗?
如果你应经学习了工具变量法,你就应该知道可以用它来解决各种形式的内生解释变量问题,包括遗漏变量、变量测量误差和联立性偏倚。
当然,你需要考虑你所考虑的工具变量是否可能奏效。
社会科学方面的实证优秀论文应包括灵敏度分析(sensitivityanalysis)。
简单的说,这就意味着你首先估计一个初始模型,然后用一些看似合理的方法修改它。
理想的情况是重要的结论不发生改变。
例如,如果用一个表示酒精消费量的一个指标作为解释变量,或者用一个表示酒精用量的虚拟变量来替代定量的度量,这两种做法能够得到性质上相似的结果吗?
如果表示用量的虚拟变量是显著的,而表示酒精使用量的变量不显著,那么酒精使用量就可能反映出某些影响着被解释变量且与酒精使用量相关的不可观测的因素,但这需要根据具体情况进行考虑。
如果某些观测值与样本群体非常不同——比方说,有几个公司比其他公司大得多——那么如果把这些观测值从样本中出去,你的结果会有很大的改变吗?
如果是,你就可能不得不改变函数的形式来考虑这些观测值,或者证明他们从属于完全不同的一个模型。
——异常值问题(有些软件会自动发现异常值)
对纵列数据的利用为我们提出了更多的计量经济学问题。
假使你已经搜集了两个时期的数据,无需借助工具变量,至少也有四种方法来利用这两个时期的纵列数据。
你可以在普通最小二乘法分析中混合这两个时期。
虽然相对于一个横截面来说,这样做或许可以扩大样本容量,但他并没有控制随时间而变化的不可观测因素。
另外,由于观测区间中给定解释变量的值之下,观测不到的影响有零军职,用随机效应估计法就可以纠正序列相关问题并且产生渐进有效地估计量。
另一种可能的方法是在第二年的方程中加入滞后的因变量。
我们至少可以把它作为可以缓解缺失变量问题的一种方法。
但是,这通常会导致与取数据差分相似的问题。
当我们拥有更多年的纵列数据的时候,除了老办法,还有一种新的选择。
我们可以利用固定效应便换来消去不可观测因素的影响。
作为一般性的原则,同时运用几种合理的计量经济学方法并比较他们的结果是一种很好的想法,这通常能够帮助我们确定诸假定中哪一个可能是错误的。
设计题目、设计模型、搜集数据并运用计量经济学方法,即使在这整个的过程中你都非常谨慎,你还是有可能——至少在某些时候——得到令人迷惑的结果。
当这种情况发生时,很自然的想法是尝试不同的模型、不同的估计方法,或者可能不同的数据集,知道结果与预期更加一致。
实际上所有的应用研究人员在找到最佳模型之前会寻找各种不同的模型。
不幸的是,数据开采
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量 经济学 课程设计 指导书