数据综合分析Word格式文档下载.docx
- 文档编号:16330023
- 上传时间:2022-11-22
- 格式:DOCX
- 页数:17
- 大小:492.04KB
数据综合分析Word格式文档下载.docx
《数据综合分析Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《数据综合分析Word格式文档下载.docx(17页珍藏版)》请在冰豆网上搜索。
题目:
消费是实现国民经济良性循环的关键。
而消费结构是否合理又是消费的关键问题。
本题是应用聚类分析、因子分析这两种方法对我国31个省、市、自治区的城镇居民的消费结构之间的异同进行了比较研究。
从《中国统计年鉴-----2005》中选取了如下9个指标反映我国2004年各地区城镇居民家庭平均没人全年消费性支出,分别是:
总消费支出、食品消费支出、衣着消费支出、家庭设备用品及服务消费支出、医疗保健消费支出、交通和通信支出、娱乐教育文化服务消费支出、居民消费支出、杂项商品和服务消费支出等。
文件名为各省城镇居民家庭年人均消费性支出.sav,原始数据间下表。
我国2004年各地区城镇居民家庭年人均消费性支出
地区总消费食品衣着家庭设备医疗保健交通通信教育文化居住杂项商品
河南5294.191855.44650.30332.06436.53569.85694.56578.60176.84
山西5654.151917.75747.43314.82401.75587.00901.40614.20169.80
黑龙江5567.531972.24719.28215.07537.44548.39762.49611.44201.18
内蒙古6219.262024.87897.88360.31473.64699.66858.38627.02277.50
青海5758.952056.06621.98438.44451.95566.97746.89664.20212.47
新疆5773.622083.13766.73292.14375.18615.19840.59566.99233.66
河北5819.182142.36630.93343.21550.29595.95682.87705.18168.39
宁夏5821.382156.34636.81364.07440.77646.97651.14660.19265.08
吉林6068.992180.09739.52254.33527.32643.16795.04700.04229.51
甘肃5937.302204.04736.19336.20411.95601.16853.31572.49221.96
陕西6233.072236.48609.33409.00513.27583.191025.76646.92209.10
贵州5494.452260.46585.18286.56301.26601.08793.40468.21198.30
江西5337.842296.48513.57328.18268.11498.45785.66505.47141.93
山东6673.752310.66829.22457.33484.42801.23983.07601.54206.28
湖南6884.612479.58689.48388.15475.61881.891091.29640.73237.87
安徽5711.332509.02637.88257.01395.74564.92623.48534.30188.99
湖北6398.522516.20710.96334.12461.40600.48938.62641.62195.12
四川6371.142560.35557.94384.08433.36769.24874.37600.67191.15
辽宁6543.282643.95651.66276.89541.26652.40845.37661.80269.96
海南5802.402722.84300.17302.41350.17701.92686.75564.86173.29
广西6445.732727.09423.17397.33461.67584.12960.77660.26231.31
云南6837.012895.60651.72302.04623.22882.19725.08592.93164.21
江苏7332.262931.70610.96493.53496.77765.171031.14760.71242.28
重庆7973.053015.32779.68474.15537.95865.451200.52903.22196.77
天津8802.443278.24624.61497.48823.99787.711232.381230.17327.86
福建8161.153394.63598.37435.32476.751055.591050.30869.25280.93
西藏8338.213799.171079.74469.74320.651184.66617.39483.20383.66
浙江10636.143851.23941.80596.62828.811419.091681.09971.33346.17
北京12200.403925.541062.47823.841182.811562.192115.891065.67461.98
广东10694.793953.30620.07592.66649.701754.121577.701205.12342.11
上海12631.034593.32769.72780.26761.701702.862195.151326.69474.33
操作步骤与过程如下:
(方法一)聚类分析法:
1、选择Analyze→Classify→HierarchicalCluster…,打开系统聚类分析主对话框。
2、选择聚类分析变量(除了地区和总消费者两个指标),按→,将其一如Variable(s)栏中,如下图。
3、选择标识变量,单击“地区”,按→,将其移入LabelCasesby栏中,同样上图。
4、选择聚类方法,单击Method…,打开对话框,选择数值标准化Z-Score,聚类法采用Between-grouplinkage(即默认选项),距离测度采用Interval的SquaredEuclideandistance(即默认选项),如下图,单击Continue返回主对话框;
5、选择输出统计量,单击Statistics…,打开对话框,选择输出AgglomerationSchedule、ProximityMatrix、范围从3类到6类的聚类解,如下图,单击Continue返回主对话框;
6、选择输出聚类图,单击Plots…打开对话框,选择Dendrogram树形图,如下图,单击Continue返回主对话框;
7、选择Save…打开如下图的对话框,选择RangeofsolutionFrom3through6Cluster,单击Continue返回主对话框。
8、单击OK按钮,运行系统聚类分析。
(方法二)因子分析法:
1、打开数据文件我国2004年各地区城镇居民家庭年人均消费性支出.sav,选择Compute打开对话框,见下图。
2、在TargetVariable对话框中输入Z总消费,在Numericexpression对话框中输入表达式1/总消费,即对变量总消费取倒数生成新的变量Z总消费,用同样的方法将衣着取倒数生成新变量Z衣着。
3、选择Analyze→DataReduction→Factor,打开对话框,选择变量Z总消费、食品、Z衣着、家庭设备、医疗保险、交通通信、教育文化、居住、杂项商品,进入Variable对话框,见下图。
4、单击Descriptives按钮,打开子对话框,选择Initialsolution,Coefficients,见下图,返回主对话框。
5、单击Extraction按钮,打开子对话框,选择Screeplot,其余均选默认项,返回主对话框,见下图。
6、单击Rotation按钮,打开子对话框,选择Varimax,Rotatedsolution,Loadingplot,返回主对话框,见下图。
7、单击Score按钮,打开子对话框,选择Saveasvariables,Regression,返回主对话框,见下图所示。
8、单击Options按钮,打开子对话框,选择Excludecaseslistwise,返回主对话框,见下图所示。
9、单击OK按钮提交系统运行,显示结果清单。
三、实验结论
(方法一)聚类分析法输出的结果及其分析:
实验输出结果:
表1
表2
AgglomerationSchedule
ClusterCombined
Coefficients
StageClusterFirstAppears
NextStage
Stage
Cluster1
Cluster2
1
6
10
19371.015
2
12
13
24415.288
16
3
7
8
27642.674
4
5
34555.980
17
19
46888.952
9
48688.736
49015.886
56559.966
14
18
63146.116
15
68151.850
11
73676.111
87212.221
23
24
98656.043
21
100476.809
108994.957
112370.596
135105.050
190073.256
22
214182.912
20
262826.693
25
26
282598.135
318159.342
28
30
323633.392
392938.816
562792.901
29
661654.179
27
31
935712.324
1261865.923
2716471.849
5622491.295
表3
ClusterMembership
图1冰柱图
图2树形图(欧式距离平方、组间平均距离连接法)
******HIERARCHICALCLUSTERANALYSIS******
DendrogramusingAverageLinkage(BetweenGroups)
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
新疆6
甘肃10
吉林9
内蒙古4
河北7
宁夏8
青海5
河南1
黑龙江3
山西2
贵州12
江西13
安徽16
湖北17
辽宁19
四川18
广西21
山东14
湖南15
陕西11
海南20
云南22
江苏23
重庆24
福建26
天津25
西藏27
浙江28
广东30
北京29
上海31
图3
实验结果及其分析:
(1)表1CaseProcessingSummary(数据信息汇总表)是缺失值报告,显示聚类分析的有效样品有31个,无缺失值。
(2)表2AgglomerationSchedule(聚类的凝聚过程表)显示聚类凝聚过程。
聚类一个分30步进行。
Coefficients值是距离测度值,可见随着聚类的进行而逐渐增大,开始增加的慢,后面增加的快,表明聚类开始时类间的差异小,结束时类间的差异大。
着正式系统聚类方法所表现出来的特征。
(3)表3ClusterMembership(聚类解)用欧式距离平方、组间类平均法生成的分为3类、4类、5类、6类时的聚类解。
(4)图1是冰柱图,由于太大了,所以只截了一小部分图。
比较混乱,一般选择分析树形图,即图2。
(5)图2是树形图。
树形图从右端看是看,一枝表示一类,像树枝一样向左展开。
比如从右边开始逐步分为两类,三类、四类等,到最后的末端时就是每个样品各成一类。
本题的树形图2是采用系统默认的方法进行分类的,明显分为三类,如下表4。
类别
样品
第一类(代表我国的较高消费水平)
北京、上海、广东、浙江
第二类(特例)
西藏
第三类(代表我国的一般消费水平)
其他的省(市、自治区)
(6)图3是在分析结果的同时,原数据集生成了clu6_1、clu5_1、clu4_1、clu3_1这四个新变量,用于记录聚类后每一观察对象所属类别。
比如:
clu6_1这一列表示的是第一次进行聚类分析,如果分为6类的话,这一个样品应属于哪一类。
同样的clu5_1表示的是如果分为5类的话,这个样品属于哪一类。
此外,还要强调的是并不是说第一类的消费水平一定比第二类的高,还要结合具体的数据进行分析。
(方法二)因子分析法输出的结果及其分析:
图1
表4
表5
表6
(1)特征值表,此表数据说明,前四个因子的特征值共占去方差的94.10%,说明前四个因
子提供了原始数据的足够信息,见表3。
(2)因子得分表,得出各地区消费的31各省(市、自治区)的消费因子得分,并据此作出
排序,见表1和图1。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 综合分析