第1讲 Stata的学习背景与学习意义.docx
- 文档编号:8134722
- 上传时间:2023-01-29
- 格式:DOCX
- 页数:11
- 大小:129.49KB
第1讲 Stata的学习背景与学习意义.docx
《第1讲 Stata的学习背景与学习意义.docx》由会员分享,可在线阅读,更多相关《第1讲 Stata的学习背景与学习意义.docx(11页珍藏版)》请在冰豆网上搜索。
第1讲Stata的学习背景与学习意义
统计分析方法与Stata应用(2015年春季学期)
第一讲Stata的学习背景与学习意义
一、Stata是什么?
“Stata”并非数个单词的缩写(因此其正确拼写为Stata而非STATA),而是由“statistics”和“data”合成的一个新词,Stata公司的员工都将其读做“Stay-ta”。
从这
个小小的趣闻中,可以看出Stata在问世之初(1985年)的主要功能在于统计分析和数据处理。
经历了三十余年的发展,Stata已经升级到第13.1版(表1),在不断强化上述功能的同时,Stata在矩阵运算、绘图、编程等方面的功能也在不断加强。
表1Stata发展历程
版本
发布日期
版本
发布日期
13.1
Oct-13
7
Dec-00
13
Jun-13
6
Jan-99
12.1
Jan-12
5
Sep-96
12
Jul-11
4
Jan-95
11.2
Mar-11
3.1
Aug-93
11.1
Jun-10
3
Mar-92
11
Jul-09
2.1
Aug-90
10.1
Aug-08
2.05
Apr-89
10
Jun-07
2
Jun-88
9.2
Apr-06
1.5
Feb-87
9.1
Sep-05
1.4
May-86
9
Apr-05
1.3
Aug-85
8.2
Oct-03
1.2
May-85
8.1
Jul-03
1.1
Feb-85
8
Jan-03
1
Jan-85
资料来源:
http:
//www.S
Stata擅长数据处理、面板数据分析、时间序列分析、生存分析,以及调查数据分析,但其它方面的功能也并不逊色(表2)。
表2 Stata的功能一览
数据处理和绘图
Datamanagement
Graphics
统计分析和检验
Basicstatistics
Nonparametricmethods
Exactstatistics
ANOVA/MANOVA
其它检验方法和函数
回归分析
Linearmodels
GLM
MLE
GMM
Multilevelmixedmodels
Paneldata
Probit/Logit/Count
Timeseries
多变量模型(多元统计)
抽样和模拟分析
Multivariatemethods
Clusteranalysis
Resamplingandsimulation
调查分析和生存分析
Surveymethods
Survivalanalysis
Epidemiologists
编程
Programminglanguage
Mata
User-writtencommands
二、为什么要学习Stata
1.时代发展的需要:
大数据时代的兴起
(1)什么是大数据?
传统的统计分析常常希望数据多多益善。
也就是说,数据越多,分析越深入,所得的结论就越全面。
从字面含义上理解似乎指的是数量庞大信息量巨大的数据。
大数据常常被描述成已经大到无法用传统的数据处理工具进行管理和分析的极大的数据集。
超大的数据量只是大数据概念的一个部分。
大数据涉及结构化数据、非结构化数据和半结构化数据这三类数据。
结构化数据通常指的是传统数据库中的数据,利用结构化查询语言(StructuredQueryLanguage,简称SQL)来存取数据以及查询、更新和管理数据库系统。
非结构化数据一般无法直接进行商业智能分析,这是由于非结构化数据无法直接存储到数据库表中,也无法被程序直接使用。
二进制图片文件就是非结构化数据的一个典型例子。
半结构化数据介于结构化数据和非结构化数据之间。
半结构化数据不具有严格的结构因而不同于结构化数据。
半结构化数据也不同于非结构化数据,它使用标签和各种标识区分不同的元素,并利用层级结构来定义数据。
(2)理解大数据的概念需要把握4个维度,统称为4V特征。
海量性(Volume)。
大数据都是数量巨大的数据。
很多企业都拥有海量数据,数据量很容易就积累到TB(1012字节)级,甚至跃升至PB(1015字节)级。
多样性(Variety)。
大数据冲破结构化数据的局限,不仅包括结构化数据,还覆盖了如文本、音频、视频、点击流、日志文件等各种类型的非结构化数据。
精确性(Veracity)。
数据量多不见得都是好事,庞杂的数据可能会导致对收集到的信息的误读或统计误差,因此信息的纯度对价值发掘至关重要。
时效性(Velocity)。
大数据对时效性要求很高,企业必须能够在短时间内高速、流畅地处理源源不断产生或流入企业的海量实时数据,方能最大化地显现出大数据的商业价值。
与此同时,大数据还应被归档存储,以备不时之需。
(3)在大数据的范畴下,包含如下方面。
传统商业智能(TraditionalBusinessIntelligence,BI)。
传统的商业智能对来自数据库、应用程序和其他可访问数据源提供的详细商业数据进行深度分析,通过运用基于事实的决策支持系统,给用户提供可操作性的建议,辅助企业用户做出更好的商业决策。
数据挖掘(DataMining,DM)。
数据挖掘是人们对数据进行多角度的分析并从中提炼有价值的信息的过程。
数据挖掘的对象通常是静态数据和归档数据。
统计应用(StatisticalApplication)。
统计应用通常是基于统计学原理利用算法来处理数据,一般用于民意调查、人口普查以及其他统计数据集。
为了更好地估计、测试或预测分析,可以使用统计软件分析收集到的样本观测值来推断总体特征。
调查问卷和实验报告这类经验数据都是用于数据分析的主要数据来源。
预测分析(PredictiveAnalysis)。
预测分析是统计应用的一个分支,人们基于从各个数据库得到的发展趋势及其他相关信息,分析数据集进行预测。
预测分析在金融和科学领域显得尤为重要,因为加入对外部影响因素的分析,更容易形成高质量的预测结论。
预测分析的一个主要目标是为业务流程、市场销售和生产制造等规避风险并寻求机遇。
(4)大数据的商业价值正在得到越来越多的实现和证明。
对大数据商业价值的渴求,促使组织机构利用企业内部和外部数据“仓库”中的数据来揭示发展规律、进行数据统计、获取竞争情报,协助他们部署下一步战略。
据IBM公司称,全球每天产生2.5亿亿(2.5×1018)字节的数据,当今世界90%的数据都是近两年产生的。
这些数据来源广泛,有的来自收集气候信息的传感器,有的来自社交媒体网站,还有的是网络上传的数字照片和视频、电子商务交易记录,甚至是手机GPS信号等。
大数据的价值及其重要性已经在一些领域得到了证明。
美国国家海洋和大气管理局(NOAA)、美国国家航空航天局(NASA)、部分制药公司和许多能源公司正在把大数据技术运用于日常工作并从海量的数据中提取价值。
美国国家海洋和大气管理局运用大数据的方法助力气候、生态系统、天气和商业研究,美国国家航空航天局则使用大数据从事航空航天等研究。
在大数据的帮助下,制药公司和能源公司已经在药物测试和地理分析方面得到了实际的效益。
《纽约时报》利用大数据工具进行文本分析和Web挖掘;迪士尼公司则分析了旗下所有店铺、主题公园和网站的数据,试图发现数据间的关联性,进而理解用户行为。
2.自身进步的需要
两个政策背景:
一个是国家要加大职业技术教育,另一个是取消文理分科。
一个教育背景:
人大、北大等名校都开设Stata课。
结论:
文科生要加强技术方法的学习。
3.为什么选择Stata
由图可知,SAS比Stata使用更广泛。
好了,下面是一张预测图
三、如何学习Stata?
1.三门基础课
微积分、线性代数、概率论与数理统计,缺一不可。
基础有多重要?
有一句广告词:
It's only about Fundamentals.你只需做好基本功。
基础打好了,学习统计、计量,真的势如破竹;如果基础不行,想要有多难,就有多难。
1.1微积分。
推荐教材:
同济六版《高等数学》,国内相关的参考资料非常丰富,内容详略基本得当,也比较流行。
想比较有深度的,可以看史济怀、常庚哲的《数学分析》(高等教育出版社,2012)。
1.2线性代数。
1.3概率论与数理统计。
1.4基础课程的系列教材,如果能找到视频,就更好了。
比如吉林大学陈殿友的《线性代数》、《高等数学》,麻省理工的GilbertStrang的线性代数,中科大的缪柏其《概率论与数理统计》,中科大史济怀或复旦陈纪修的《数学分析》,都是极好的。
不过要真看完你就研究生毕业了(如果你是两年制的研究生)。
另外,我觉得有些考研的数学视频也是不错。
个人觉得Strang的线代超赞,但适合先经历一次国内教材和教授方式的“洗脑”,你就觉得老外讲得真心好!
没有比较的话,你会发现线代永远是那么的抽象。
2Stata图书
1.《应用STATA做统计分析(更新至STATA10.0版)》(劳伦斯·汉密尔顿著,郭志刚等译,重庆大学出版社,2011)。
2.《社会统计分析与数据处理技术:
STATA软件的应用》(杨菊华,中国人民大学出版社,2008)我个人觉得是最适合入门的教材。
3.《数据管理与模型分析:
STATA软件应用》(杨菊华,中国人民大学出版社,2012)。
4.陈强-《高级计量经济学及Stata应用第二版》
5.人大陈传波stata十八讲
6.现代医学统计方法与Stata应用_第二版(陈峰)
(1)网络资源
值得一提的有如下几个:
Stata官方网站。
Stata公司提供的Webresources,涵盖了大量相关网络资源;其FAQ则提供了各种常见问题的解答;Statalist则是一个类似于人大经济论坛的免费的讨论区。
加入Statalist的方法很简单,你只需要发送邮件至,邮件内容无需任何称谓,只需写上“subscribeStatalist”的字样即可。
接到确认信息后,你便成为一名Statalist的成员了。
当然,即使不加入,你仍然可以浏览,但不能提问。
majordomo@hsphsun2.harvard.edu
Statawebsite:
http:
//www.S 导航图
Sataresources:
http:
//www.S (大量网络教程链接)
Statajournal:
http:
//www.S
Statalibrary:
http:
//www.ats.ucla.edu/stat/Stata/library/
Statalistarchive:
http:
//www.hsph.harvard.edu/cgi-bin/lwgate/STATALIST/archives/
StataFAQs:
http:
//www.S
StatastatisticsFAQs:
http:
//www.S
Statalistserver:
http:
//www.S
Statadiscussionlist:
Statalist@hsphsun2.harvard.edu
Statabookstore:
http:
//www.S
StataManual:
http:
//www.Stata-
UCLA(加州大学洛杉矶分校)提供的网络教程。
该网站提供的DataManagement、Graphics、Regression、LogisticRegression、MultilevelModeling、SurveyDataAnalysis等模块都非常出色;其WebBooks 、TextbookExamples模块则非常细致地呈现了几十本非常流行的统计和计量教材的Stata实例;对于LaTeX感兴趣的朋友,则可以通过StataToolsforLaTeX模块获得诸多有用的信息;在Graphexamples模块中,则列举了四十余种图形的绘制方法;最后,在ClassesandSeminars模块中,你可以在线观看数十个Stata教学视频。
DataManagement
Graphics
ANOVA
Regression
Logistic(andCategorical)Regression
CountModels
MultilevelModeling
SurvivalAnalysis
SurveyDataAnalysis
FrequentlyAskedQuestions (FAQ)
StatisticalAnalysis
DataAnalysisExamples (绝佳的数据处理专题)
AnnotatedOutput (详细解读Stata输出结果)
TextbookExamples (包含十余本教科书的Stata实例)
WebBooks (两本Stata网络教程)
WhatstatisticalanalysisshouldIuse?
(常用统计分析的Stata实例)
StataPortal (acomprehensivelinks)
人大经济论坛。
若从人数上来讲,人大经济论坛或许是全球最大的经济类论坛了。
目前,其计量经济学板块又细分出多个计量软件专题讨论区。
在Stata专版已发布了4000余个讨论主题(18000余条回复),而Stata上传下载区则汇集了大量学习资料。
在统计软件培训班VIP答疑区中,Stata培训班的学员所提出的问题,可以在24小时内得到详尽的回复。
人大经济论坛Stata专版:
http:
//www.pinggu.org/bbs/forum-67-1.html
人大经济论坛Stata上传下载区:
http:
//www.pinggu.org/bbs/forum-121-1.html
人大经济论坛统计软件培训班VIP答疑区(针对Stata视频教程学员):
http:
//www.pinggu.org/bbs/forum-114-1.html (所有Stata问题24小时内回复)
3.5一些常用的网站:
3.5.2人大经济论坛:
http:
//bbs.pinggu.org/
3.5.3新浪爱问:
3.5.4统计之都:
http:
//cos.name/
3.5.5UCLAstata:
http:
//www.ats.ucla.edu/stat/stata/
3.5.7coursera:
https:
//www.coursera.org/
4一些适用于社会科学类的实证教材
4.1社会学教材教参方法系列(全5本):
谢宇:
《社会学方法与定量研究》(社会科学文献出版社,2012),《回归分析》(社会科学文献出版社,2012);
4.2万卷方法丛书
4.3格致方法定量研究系列:
如《高级回归分析》(格致出版社,2011),《数据分析方法五种》,《线性回归分析基础》,等等。
4.4计量经济学系列:
杰弗里·M·伍德里奇,《计量经济学导论》,中国人民大学出版社,2010第4版。
威廉·H·格林,《计量经济分析》,中国人民大学出版社,第6版。
3所有这些书籍,配套的stata数据、程序与答案都不难找到。
如果你能找到英文版,看英文的也很好(如果你有能力!
)。
真的,学完这些书,基本上在社会学的研究生毕业之前,不太需要别的什么方法书了。
你所需要的,只是如何将这些应用于社会学研究的实践而已。
面板数据计量经济分析_4ed(Baltagi)
5.统计学图书:
《现代外国优秀统计学著作译丛》全套15本中英对照:
01外国统计学优秀著作译丛统计学
统计与真理
统计学的世界(第五版)
爱上统计学(第2版)
[驯服偶然].(加)伊恩﹒哈金
女士品茶
四、如何学好Stata?
(1)好脑瓜不如烂笔头。
这是一个适用于学习任何新知识的“秘诀”,对于功能强大,以敲命令为基础的Stata软件而言尤其如此。
因此,你要时刻记录新学到的命令、方法和技巧,并定期整理。
若能将这些手记与其他Stata用户分享,你会有更多的收获。
(2)学以致用。
在了解了Stata的基本功能和架构后,想要进一步提升自己的最佳途径就是动手写一篇实证分析的论文,并自始至终用Stata解决所有问题。
这项工作的起点是一份以txt或Excel格式存储的原始数据文件,中间过程完整地记录于一个do-files文档中,最终的分析结果要自动输出到Word,Excel或LaTeX文档中。
(3)不耻下问。
这个不用多言了,你只需克服“不耻”,进而多花些精力考虑考虑该如何提问即可(注:
很多人不会提问)。
五、Stata的安装与更新
安装步骤:
第一步:
解压缩,压缩包包含安装程序Stata13_setup.msi和破解补丁目录Crack
第二步:
点击Stata13_setup.msi,根据windows操作系统,自行选择32/64位MP版。
静静等待安装完成。
第三步:
把破解补丁目录Crack中的Stata.lic复制粘贴到安装目录。
运行程序,最后关键的一步是去掉自动在线注册的勾选项。
第四步:
手动更新!
!
!
手动更新升级包网址:
手动更新说明:
1.TypeaboutinStataandnotethe"Revision"date.Ifyouseeadateearlierthan"03Jul2014",youneedtoupdateStata.
2.Extractthefileyoudownloadedtoatemporarylocationonyoursystem.
3.TypedbupdateinStataandbrowsetotheextractedupdatedirectory.ClickOKandfollowanyinstructionsyouaregiven.
4.Typeaboutagain.
六、Stata各版本的比较:
§Stata/MP:
Stata的最快版本(用于双核以及多核/多处理器电脑)
§Stata/SE:
用于大数据集的Stata
§Stata/IC:
Stata的标准版
§SmallStata:
Stata的小型学生版(仅用于教学目的)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第1讲 Stata的学习背景与学习意义 Stata 学习 背景 意义