主成分分析报告法运用.docx
- 文档编号:25710047
- 上传时间:2023-06-11
- 格式:DOCX
- 页数:21
- 大小:80.11KB
主成分分析报告法运用.docx
《主成分分析报告法运用.docx》由会员分享,可在线阅读,更多相关《主成分分析报告法运用.docx(21页珍藏版)》请在冰豆网上搜索。
主成分分析报告法运用
统计学简介及在实践中的应用
--以主成分分析法分析影响房价因素为例
姓名:
阳飞
学号:
2111601015
学院:
经济管理学院
指导教师:
吴东武
时间:
二〇一七年一月六日
1简介
统计语源最早出现于中世界拉丁语的Status,意思指各种现象的状态和状况。
后来由这一语根组成意大利语Stato,有表示“国家”的概念,也含有国家结构和国情知识的意思。
根据这一语根,最早作为学名使用的“统计”的是在十八世纪德国政治学教授亨瓦尔(G.Achenwall)。
他在1749年所著《近代欧洲各国国家学纲要》一书的绪言中,就把国家学名定义为“Statistika”(统计)这个词。
原意是指“国家显著事项的比较和记述”或“国势学”,认为统计是关于国家应注意事项的学问。
自此以后,各国就相继沿用“统计”这个词,更把这个词译成各国的文字,其中,法国译为Statistique;意大利译为Statistica;英国译为Statistics;日本最初译为“政表”、“政算”、“国势”、“形势”等,直到1880年在太政官中设立了统计院,这个时候才确定以“统计”二字正名。
在我国近代史上首次出现是在1903年(清光绪廿九年)由钮永建、林卓南等翻译了四本由横山雅南所著的《统计讲义录》一书,这个时候才把“统计”这个词从日本传到我国。
1907年(清光绪卅三年),由彭祖植编写的《统计学》在日本出版,同时在国内发行。
这本书是我国最早的一本“统计学”书籍。
自此以后“统计”一词就成了记述国家和社会状况的数量关系的总称。
关于“统计”这个词,后来又引申到了各种各样的组合,包括:
统计工作、统计资料、统计科学。
统计工作是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数量资料的工作的总称,它是统计的基础,也称统计实践或统计活动。
是在一定统计理论指导下,采用科学的方法,搜集、整理、分析统计资料的一系列活动过程。
它是随着人类社会的发展、治国和管理的需要而产生和发展起来的,至今已有四五千年的历史。
现实生活中,统计工作已经作为一种认识社会经济现象总体和自然现象总体的实践过程。
一般包括统计设计、统计调查、统计整理和统计分析四个环节。
统计资料是指通过统计工作而取得的用来反映社会经济现象的数据资料的总称。
由统计工作所取得的各项数字资料及有关文字资料,一般都会反映在统计表、统计图、统计手册、统计年鉴、统计资料汇编和统计分析报告中。
也称为统计信息,它是反映一定社会经济现象总体或自然现象总体的特征或规律的数字资料、文字资料、图表资料及其他相关资料的总称。
统计资料包括刚刚调查取得的原始资料和经过一定程度整理、加工的次级资料。
其所形式的成果较直观地可分为:
统计表、统计图、统计年鉴、统计公报、统计报告和其他有关统计信息的载体等等。
统计科学也称统计学,它是统计工作经验的总结和理论概括,是经过系统化后的知识体系。
统计学是在后来研究如何搜集、整理和分析统计资料的理论与方法,是应用数学的一个分支。
主要通过利用概率论和数理统计来建立数学模型,通过模型可以把收集得到的所有数据,进行量化的分析、总结,从而进行推断和预测,以为后期所做的为相关决策提供依据和参考价值。
现如今,统计学已经被广泛的应用在各门学科之上,包括从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。
统计学主要又分为描述统计学和推断统计学。
假设给定一组数据,统计学就可以通过摘要简单地来描述这份数据,这个用法称作为描述统计学。
另外,观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称之为推论统计学。
这两种用法都可以被称作为应用统计学。
特别强调的是还有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。
总体来说,“统计”一词的三方面涵义是紧密联系的,统计资料是统计工作的成果,统计工作与统计科学之间是实践与理论的关系。
对于“统计学”,《XX百科》上是这样解释的:
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
随着社会经济的高速发展,人们已经逐渐进入了各种数据的时代。
小到分析生活中的柴米油盐的价格分析,探究究竟怎样才能用有限的物资来满足生活所需,这就需要我们考虑用怎样的方法才能实现最大的目的;大到宇宙中的天体运行,分析各行星是如何运动的,以便于我们探究宇宙的秘密,为航天事业做贡献。
这种爆炸似的数据就迫切需要我们去获取、处理、分析、挖掘出其中有价值的信息。
统计学就是为解决一系列数据问题而产生的一门学科,这门学科主要就是将生产生活中实际遇到的数据问题上升到理论层次,用用各种理论的方法来解决这些难题,得出一系列的结论;然后再将理论返回用于实际生活中,通过站在各种不同的视角,给出不同的政策建议。
统计学最大的优点就是能够将理论与实际相结合,能够真正意义上的在实际中体现统计的价值,是的爆炸式的数据变得清晰客观。
2统计原理及其应用
在学习统计学的方法时,主要的方法有聚类分析、主成分分析、因子分析、对应分析、典型相关分析等。
2.1相关统计方法及原理
2.1.1聚类分析
聚类分析是将个体或对象分类,使得同一类别的对象之间的相似性比与其他类的对象的相似性更强。
目的是在于使类间对象的同质性最大化和类与类间对象的异质性最大化。
这样就能把比较复杂的对象归成类,处理起来就大为方便。
具体方法是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品或指标聚合为一类,把另外一些彼此之间相似程度较大的样品或指标又聚合为一类,关系密切的聚合到一个小的类单位,关系疏远的聚合到另外一分类单位,知道把所有的样品或指标都聚合完毕。
把不同的类型一一划分出来,形成一个有小到大的分类系统。
最后把整个分类系统画成一张分群图(又称谱系图),用它就把所有的样品或指标间的亲疏关系表示出来。
2.1.2主成分分析
主成分分析(principalcomponentsanalysis)也称主分量分析,是由Hotelling于1933年首先提出来的。
主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。
通常把转化生成的综合指标称之为主成分,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。
这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而能够抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。
这样分析的原因是既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始数据变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。
2.1.3因子分析
因子分析(factoranalysis)模型是主成分分析的推广。
它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
相对于主成分分析,因子分子更加倾向于描述原始变量之间的相关关系。
因此,因子分析的出发点是原始变量的相关矩阵。
因子分析不仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常把前者称之为R型因子分析,后者称之为Q型因子分析。
2.1.4对应分析
对应分析是R型因子分析和Q型因子分析的结合,它也是利用降维的思想已达到简化数据结构的目的,不过,与因子分析不同的是,它同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。
对应分析的一大特点就是可以在一张二维图上同时表示出两类属性变量的各种状态,以直观地描述原始数据结构。
2.1.5典型相关分析
典型相关分析是研究两组变量之间相关关系的多元统计方法。
他借用主成分分析的降维思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各个主成分互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系。
近二十年来,随着计算机的发展以及各种统计软件的开发,作为一门基础学科的统计学在金融、保险、生物、医学、军事、经济、体育、运筹管理和工程技术等领域得到了广泛应用。
许多领域因为运用了统计工具及统计思想而得到了延伸。
2.2统计学的相关应用
2.2.1统计学在经济学中的应用
统计学在经济学中的作用主要有两方面,一是在其工具性上,统计学作为经济研究的基础工具,其作用自然不可小觑;二是在其思想性方面,统计学是一门严谨的学问,其严谨的思想在追求精确和理性的经济学中占据重要的地位。
经济学是研究在约束的条件下的最优化选择,即在资源稀缺的条件下,如何达到收益的最大化。
于是,在研究中就存在成本、收益等等的概念和运算。
同时,由于经济活动的多样性,研究中存在许多变化的因素,导致了经济研究的错综复杂,而统计学的用处就是在于为许多复杂的思想和现象提供了简洁而明了的解释,为许多错综的数据提供了计算模型,从而使经济研究简洁条理。
如金融顾问们利用各种统计信息来引导投资这件事,拿股票投资来说,顾问们检查包括市盈率和红利在内的一系列金融数据。
通过将某只个股的数据与股票市场平均数进行比较,金融顾问们就能够判断该只股票的价值是被高估还是被套。
2.2.2统计学在医学上的应用
医学科研是一种目的性的研究,属于应用研究,是应用基础理论知识,以某一过程、方法、工艺、技术路线的研究成果上进行的研究。
根据研究目的、内容选择好统计分析方法,即对不同性质的研究资料,应用不同的统计方法给予分析比较和评价,是保证科研成果真实性和可靠性的重要手段。
常用的医学统计方法根据数据的基本类型而定时。
如表:
表1数据类型和相应的统计方法
数据类型
差异比较的指标
显著性比较法
计量资料
计数资料
半定量资料。
平均值
率(%)
等级、记分
T检验、U检验、F检验
U检验
非参数检验(秩和、Ridit)
2.2.3统计学在社会生活中的应用
统计全国人口状况、农业收成、经济情况等数据,对一国经济与社会发展做统计性调查与研究。
经过多年的发展,统计学在社会生活中的应用被专家学家们系统化专业化,形成了不同流派不同类别的统计学。
而现在的人文社会统计分类便是对社会生活中统计学应用的专业化成果。
人口普查、经济情况调查等都是统计学在社会生活中的应用。
早在17世纪,统计学在社会生活中的应用就被提出了。
在约翰·格朗特1662年出版了《对死亡表的自然观察和政治考察》一书中,格朗特通过观察客观现象的数量关系,揭示出一系列统计规律,如男婴出生高于女生,男性死亡高于女性等,同时他还用最新颖的方法编制出了死亡率表。
18世纪中末叶到19世纪中末叶期间概率论与统计学成功结合,使得统计学在生活中的应用更加被加以重视。
2.2.4统计学在生命科学及生物制药领域的应用
统计知识在生命科学、生物制药领域的应用是十分广泛的。
以至于包括分子生物学中的统计方法、生物制药技术中的统计方法、流行病规律研究与探索的统计方法、人类染色体工程研究中的统计方法在内的各统计应用领域在不断发展壮大中。
在医药学中,关于吸烟与肺癌发病率联系的分析、关于某种新药效果的研究,都普遍使用统计方法;19世纪中叶基因学说的创立,也是依赖于统计推断技术。
2.2.5统计学在企业生产及社会经济生活中的应用
统计学在企业生产、经济生活中的应用很广,其中包括了保险精算、金融业数据库建设与风险管理、宏观经济监测与预测等一系列经济研究应用问题。
在金融业的统计学应用方面,运用统计方法研究金融风险,建立风险监测系统,不仅能够为管理层宏观调控金融市场提供科学的理论依据,而且对投资个人和机构实施风险控制具有重要指导作用。
企业经济管理对统计学的运用也是必不可少的。
其中,统计方法在企业质量管理中的应用研究就是一个典型的应用实例。
“九五”期间,“ISO9000”认证成为国际贸易中所要求的供方质量保证能力和水平的标志。
ISO9000族标准中有许多要素涉及到统计技术与方法的应用,例如紧密结合某企业或某产品的生产过程,运用统计方法,实施产品设计、生产的全过程控制,同时还可将统计学中的“6”质量标准应用于企业的质量管理中。
统计学知识在企业生产管理中的应用当然不只限于企业质量管理。
利用统计学知识还可以进行企业财务风险分析、顾客行为分析、商品市场的变化趋势及经济环境的研究等。
在进行企业的财务分析时,可使用统计数量方法,提供精确地采取比率与衡量指标,从而对企业的偿债能力、盈利能力和抵抗风险能力作出评价并找出存在的问题;在顾客行为分析方面,利用市场调查、资料采矿技术及资料库行销功能,強化行销及客服能力,提供满足顾客需求的产品及服务。
2.2.6统计学的其他应用
统计学研究还渗透到国家经济安全、金融危机的预警系统,投资项目的风险管理研究也依赖统计学者研究解决。
“十五”期间,统计学在旅游经济、假日经济和休闲时间方面的研究应用也被凸显出来。
此领域统计指标体系的建立问题的研究包括旅游客流量、宾馆入住率、景点门票收入、餐饮业收入、航空、铁路等运输客流量的预测研究等,根据对人民生活水平、生活质量及其休闲时间的规律研究,制定有关政策,进而开发经济市场。
对于我国居民消费模式的量化研究方面也有重要意义。
研究我国居民消费与收入之间的关系,考虑影响消费的众多因素,利用统计数据,建立消费模型,量测我国居民的消费水平,探讨影响居民消费的主要因素。
利用统计学预防犯罪,应用的研究方法是相关回归分析法。
利用统计学侦破案件(“语言DNA”),应用的研究方法是聚类分析。
民调在选举中的预测功能:
通过选择民调模式与应用时机,进行民调,对民调结果进行推估预测。
二、理论基础
土地购置费是指房地产开发企业通过各种方式取得土地使用权而支付的费用。
包括通过划拨方式取得的土地使用权所支付的土地补偿费、附着物和青苗补偿费、安置补偿费及土地征收管理费;通过出让方式取得土地使用权所支付的出让金;通过“招、拍、挂”方式取得的土地使用权所支付的资金等。
大量研究表明土地购置费与房地产价格存在一定的相关关系。
国内生产总值(GDP)是指一个国家在一定时期内生产的所有最终产品和劳务的市价值。
是国民经济核算的核心指标,也是衡量一个国家或地区总体经济状况重要指标。
房地产业是中国经济发展的重要产业之一,它对我国的经济发展影响巨大,房价的上涨直接推动了GDP的快速增长。
房地产开发投资额是货币形式表现的房地产开发企业在一定时期内进行房屋建设及土地开发所完成的工作量及有关费用的总称。
除房产外还包括土地使用权出让金、土地征用及拆迁安置补偿费、前期工程费、建安工程费、基础设施费、公共配套设施费、不可预见费、开发期间税费。
作为区域经济协调发展的重要组成部分,其内在的紧急体制直接影响房价的变化。
实证研究
通过查阅南昌市统计年鉴得到2010——2015年南昌市各项指标的原始数据相关信息如表2。
表2所取指标代码及其单位
指标代码
指标类别
指标单位
X1
国内生产总值
亿元
X2
社会商品零售总额
亿元
X3
年末总人口
万人
X4
房地产开发投资额
亿元
X5
地方财政预算内收入
亿元
X6
货物进出口总额
百万美元
X7
房地产企业购置土地面积
万/平方米
X8
货物运输量
万吨
X9
城乡居民年末储蓄余额
亿元
X10
在岗职工平均工资
元
X11
房地产开发竣工房屋面积
万/平方米
X12
商品房销售面积
万/平方米
其中所列原始数据的样本量N=6,变量指标P=12。
各指标值如表3。
表3各指标赋值表
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
2015
4000.01
1662.9
520.38
485.37
389.34
11464.3
89.7
13563
2491.39
57730
433.82
901.02
2014
3667.96
13004.9
517.73
414.07
342.21
12226.4
254.51
12709
2149.33
51848
510.97
824.66
2013
3336.03
1132.8
510.08
406.14
291.91
9722.33
157.13
10534
2051.16
46892
373.75
841.39
2012
3000.5
995.1
507.87
344.36
240.02
8287.43
129.45
9525
1853.57
43769
417.92
689.86
2011
2688.87
928.3
504.95
279.89
187.03
7883.71
208.93
8844
1603.96
39816
446.18
499.13
2010
2200.1
764.9
502.25
230.15
146.47
5303.64
164.45
8326
1417.58
35038
399.12
520.84
主成分分析通常把转化生成的综合指标成为主成分,其中每个主成分都是原始变量的线性组合,且每个主成分之间互不相关,使得主成分比原始变量具有更优越的性能。
为了消除量纲和数量级的不同,使得不同的指标数据能够具有可比性,在软件SPSS中需要将原始数据进行标准化处理。
数据标准化处理的过程如下:
(i=1,2…n;j=1,2…p)
其中:
这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。
表4各指标标准化后的取值
X1’
X2'
X3'
X4'
X5'
X6'
X7'
X8'
X9'
X10'
X11'
X12'
2015
1.2941
1.37516
0.9115
1.40019
1.45255
-1.3356
0.07486
1.0958
1.32994
1.45
1.3321
-0.2912
2014
0.78921
1.00469
1.2114
0.99886
0.5709
1.4988
1.71261
0.6512
0.82108
0.732
0.5745
2.03719
2013
0.28451
-0.0648
0.226
-0.0233
0.31787
-0.176
-1.2003
0.7486
0.27799
0.127
0.4903
-0.4001
2012
-0.2257
-0.3737
-0.339
-0.4974
-0.1914
-0.652
-0.2627
-0.134
-0.2823
-0.25
-0.166
-0.4283
2011
-0.6995
-0.782
-0.498
-0.8175
-0.8348
0.7149
0.33724
-1.244
-0.8544
-0.74
-0.851
-0.442
2010
-1.4427
-1.1594
-1.513
-1.0609
-1.3152
-0.0501
-0.6618
-1.118
-1.2923
-1.32
-1.38
-0.4756
将标准化后的值计算相关矩阵R,其中:
其中:
R=
(p=12)
标准化处理的指标数据的相关系数为:
.(i,j=1,2…p)
经SPSS操作,得到的相关矩阵见表5
表5各指标间的相关系数
X1
X3
X2
X4
X6
X5
X7
X8
X9
X10
X11
X12
相关
X1
1.000
.972
.442
.988
.961
.995
-.175
.962
.989
.993
.377
.932
X3
.972
1.000
.546
.941
.945
.982
-.115
.997
.960
.984
.501
.886
X2
.442
.546
1.000
.338
.639
.457
.700
.543
.338
.416
.845
.369
X4
.988
.941
.338
1.000
.918
.987
-.287
.934
.995
.981
.233
.965
X6
.961
.945
.639
.918
1.000
.949
.100
.932
.911
.937
.559
.862
X5
.995
.982
.457
.987
.949
1.000
-.191
.977
.991
.994
.363
.949
X7
-.175
-.115
.700
-.287
.100
-.191
1.000
-.115
-.309
-.231
.625
-.273
X8
.962
.997
.543
.934
.932
.977
-.115
1.000
.954
.977
.480
.887
X9
.989
.960
.338
.995
.911
.991
-.309
.954
1.000
.992
.269
.947
X10
.993
.984
.416
.981
.937
.994
-.231
.977
.992
1.000
.380
.917
X11
.377
.501
.845
.233
.559
.363
.625
.480
.269
.380
1.000
.131
X12
.932
.886
.369
.965
.862
.949
-.273
.887
.947
.917
.131
1.000
表6解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
9.091
75.758
75.758
9.091
75.758
75.758
2
2.414
20.117
95.875
2.414
20.117
95.875
3
.325
2.707
98.582
4
.132
1.102
99.684
5
.038
.316
100.000
6
4.161E-16
3.468E-15
100.000
7
2.151E-16
1.792E-15
100.000
8
2.518E-17
2.098E-16
100.000
9
1.682E-17
1.402E-16
100.000
10
-3.377E-16
-2.814E-15
100.000
11
-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 报告 运用