运用spss软件解决数学建模 楼盘的分类问题 论文 附有答案.docx
- 文档编号:24088712
- 上传时间:2023-05-24
- 格式:DOCX
- 页数:28
- 大小:102.17KB
运用spss软件解决数学建模 楼盘的分类问题 论文 附有答案.docx
《运用spss软件解决数学建模 楼盘的分类问题 论文 附有答案.docx》由会员分享,可在线阅读,更多相关《运用spss软件解决数学建模 楼盘的分类问题 论文 附有答案.docx(28页珍藏版)》请在冰豆网上搜索。
运用spss软件解决数学建模楼盘的分类问题论文附有答案
楼盘的分类问题
摘要
本文结合统计学和因子分析学,对给出的楼盘指标信息进行系统聚类分析,利用spss、excel软件求解,得出楼盘分类类别、物业分类因素排名。
问题一:
对表1的数据进行统计分析,建立了系统聚类分析模型,对楼盘进行了分类。
由于各因素的量纲不同,对其量纲化统一处理。
最终得到楼盘的物业类别,具体结果如下:
类别
物业
楼盘
第1类
甲级住宅
1、7、9、10、12、14、15、16、17、22、25、26、31、32、34、36、39、44、45、47、48、49、50、51、52、57、59、60、65、66、67、69、70、72
第2类
别墅
2、55
第3类
公寓
3、4、5、6、8、11、13、18、19、21、24、28、33、35、37、38、41、42、43、46、53、54、56、63、64、68
第4类
甲级公寓
20、27、30、58
第5类
经济适用房
23、71
第6类
普通住宅
29、40、61、62、73
问题二:
我们采用了主成分分析法,利用spss软件对6种物业类别11个指标值进行了比较,根据其特征贡献率的不同,判断其影响程度的大小。
贡献率越高,影响越大。
在11个指标中,某些指标对物业类别的分类影响甚微,以至产生干扰,因此我们可以筛选某些变量,先筛选的变量影响最小,然后从小到大依次排序,得出各种楼盘影响因素的顺序。
以普通住宅为例,得到结果如下:
均价、原装修、车位、配套、总套数、绿化率、物业费、户型、位置、总占地、物状。
本模型具有较强的适用性和普遍性,可以为决策者提供多种决策方案,具有较强的实用价值。
关键字:
系统聚类分析SPSS软件主成分分析法欧式距离特征值
累积贡献率
一、问题的背景
21世纪是世界城市化高度发展的世纪。
据联合国人居中心预测,2010年将达到55%,2025年达到65%,其中发达国家将达到83%。
发展中国家将达到61%。
我国目前的城市化水平约在30%左右,不仅远落后于发达国家,也落后于发展中国家的平均水平,滞后于相对社会经济发展,需要迅速加以提高。
随着我国城市化进程的加快,人们在城市购房自然成为人人所关心的头等大事,那么我们就必要了解房产情况;面对眼花缭乱的楼盘信息,如何根据自己的实际情况,选择属于自己的物业呢?
针对人们的需求,开发商该如何投资建设,又该考虑建哪些物业及关于楼盘该如何定价呢?
解决这类问题是有很大的现实意义的。
二、问题的提出与重述
根据商品房个性化,一般可以将商品房自高至低划分为6种物业类别,分别为:
别墅、甲级公寓、公寓、甲级住宅、普通住宅、经济适用房。
现得到某城市一届房交会数据(见附表1),我们就此信息将解决以下问题:
(1)给出表1各楼盘的物业类别;
(2)关于该城市楼盘各物业类别,找出影响各物业类别的主要因素(或因素顺序);
三、基本假设
(1)在人为的推测和软件的基础之上考虑,会出现许多的误差,假设误差极小。
(2)在进行定级、评分的时候,各数值不受人为因素的影响,假设没有过大的差别。
(3)各个楼盘的各个指标数的波动极微,其改变对结果的影响可以忽略不计;
(5)表1中的各个指标值相互独立;
(6)各数值不受人为因素的影响。
四、主要变量符号说明
:
标准化后的数据矩阵(
;
);
:
原始数据矩阵(
;
);
:
楼盘i与楼盘j间的距离;
:
相关矩阵;
:
主成分;
五、问题的分析
问题一:
根据已知的数据对给定的73个楼盘进行分类,分成别墅、甲级公寓、公寓、甲级住宅、普通住宅、经济适用房6种物业类别。
相当于将这73个楼盘通过聚类,分成6个类别。
因此本文从聚类分析的角度对楼盘进行分类。
每种物业类别的的区别是根据不同的户型、物业、配套设施等11项指标信息来判断。
根据房地产方面的专业知识对物业结构进行初步的概念上的区分,以便对此后的模型的建立有一定的较专业的认识。
由于是看不到的房子的质量,楼盘环境,期房相对现房一般来说是要便宜。
问题二:
在问题一的基础上比较各影响因素程度的大小。
考虑到用主成分分析法,引入了贡献率的概念,是指有效或有用成果数量与资源消耗及占用量之比,即产出量与投入量之比,或所得量与所费量之比,计算式如下:
贡献率(%)=某因素贡献量(增量或增长程度)/总贡献量(总增量或增长程度)×100%
主成分分析法是一种数学变换的方法,把给定的相关变量通过线性变换成不相关的变量,这些新的变量按照方差依次递减的顺序排列。
变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,且与第一变量不相关,称为第二主成分。
以次类推,I个变量就有I个主成分。
主成分分析实际上是一种降维方法。
用较少的变量去解释原来资料中的大部分差异,将许多相关性高的变量转化成彼此相互独立或不相关的变量。
通常是选出比原始变量个数少,能解释大部分资料中的差异的几个新变量,即所谓主成分,并用以解释数据的综合性指标。
运用主成分分析法便可以顺利地找出影响各物业类别的主要因素,得出因素顺序。
六、问题1的模型建立与求解
建立系统聚类模型:
首先,将数据进行标准化,考虑到在实际问题中,不同类型的数据一般有不同的量纲。
为了使含有不同量纲的数据能进行同等比较,通常
需要对数据作以下变换:
,
其中:
,
经上述变换后消除了量纲的影响。
然后,计算73个楼盘之间的距离矩阵。
根据标准化指标数据,我们选择计算楼盘之间的欧氏距离矩阵,公式如下:
其次,进行系统聚类,其步骤如下:
(1)初始聚类:
将每个楼盘看作一类别,则各类之间的距离即等于各样点之间的距离。
(2)合并距离最短的两类为一个新的类别。
(3)计算新类别与此时待合并的各类之间的距离。
对于不同的系统聚类方法,其具体计算距离的递推公式不同,下面用的是离差平方和法。
假设类
与类
合并成新类
,则
与任一类
的距离递推公式为:
如果分类比较合理,则同类样品之间的离差平方和较小,类与类之间的离差平方和较大。
事实证明,综合比较各种聚类方法,发现本题运用离差平方法的效果较好。
(4)聚类结束。
将所有的样点合并为一个大类,否则就回到第3步继续。
聚类结束后,根据并类结构画出聚类分析关系图,建立模型1。
图1:
基于系统聚类分析模型进行物业类别判断的程序框图
通过spss运行将73个房屋进行了划分为六个类别。
此外,还要确定各个类别的物业类型。
通过对各个指标值的区别比较,可以很准确的得到结果,因为我们起初假设均价为最为主要因素,于是我们利用这点进行如下分析:
由于楼盘2、55的均价明显高于其他楼盘,因此可以判定第2类物业是别墅。
楼盘23、71的套数明显对于其他楼盘,且均价较低,物业费也不高,故判定第5类。
为经济适用房。
楼盘20、27、30、58略低于别墅,属于第4类。
为甲级公寓。
楼盘3、4、5、6、8、11、13、18、19、21…等属于第3类公寓,为公寓。
楼盘1、7、9、10、12、14、15、16、17…等属于第1类物业,为甲级住宅。
楼盘29、40、61、62、73则属于第6类物业,为普通住宅。
可以得到以下的结果:
类别
物业
楼盘
第1类
甲级住宅
1、7、9、10、12、14、15、16、17、22、25、26、31、32、34、36、39、44、45、47、48、49、50、51、52、57、59、60、65、66、67、69、70、72
第2类
别墅
2、55
第3类
公寓
3、4、5、6、8、11、13、18、19、21、
24、28、33、35、37、38、41、42、43、46、53、54、56、63、64、68
第4类
甲级公寓
20、27、30、58
第5类
经济适用房
23、71
第6类
普通住宅
29、40、61、62、73
七、问题2的模型建立与求解
在实际研究和应用中,由于指标较多,再加上指标之间有一定的相关性,容易造成信息重叠,而一旦随意减少变量又会损失很多信息,可能产生错误结论。
而主成分分析法(PrincipalComponentAnalysis)可以将多个指标简化成少数几个不相关的综合指标,达到降低数据空间维度、简化系统结构的目的。
表1为利用SPSS对附录表l中的11个原始评价指标、73个评价对象(楼盘)数据计算出来的相关系数矩阵的特征值及其贡献率。
表1中,ExtractionSum$ofSquaredI卫adings为因子提取结果,是未经旋转的因子载荷的平方和。
它给出了特征值大于1的前四个因子,可以看出前四个成分所解释的方差占总方差的67.865%,具有较好的代表性,因此我们确定提取前四个主成分,这在一定程度上减少了原始数据的复杂性。
表一楼盘分类指标数据
TotalVarianceExplained
主成分
InitialEigenvalues
ExtractionSumsofSquaredLoadings
特征值
%贡献率
累计贡献率%
特征值
%贡献率
累计贡献率%
1
3.345
30.410
30.410
3.345
30.410
30.410
2
1.895
17.225
47.634
1.895
17.225
47.634
3
1.151
10.465
58.099
1.151
10.465
58.099
4
1.074
9.765
67.864
1.074
9.765
67.864
5
.932
8.473
76.336
6
.801
7.282
83.619
7
.707
6.428
90.046
8
.416
3.778
93.824
9
.390
3.547
97.371
10
.217
1.968
99.339
11
.073
.661
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
图一特征值碎石图
由旋转后的因子得出的碎石图可以看出,因子l与因子2,以及因子2与因子3之间的特征值之差值比较大,而因子4以后的特征值之间的差值都比较小。
因此可以进一步得出:
保留3个因子将能够概括绝大部分信息,因此我们提出3个因子比较合适。
通过对前三个因子的计算,可以得到四个主成分的线性表达式,如表3。
ComponentMatrix(a)
Component
1
2
3
4
V1
-.214
-.042
.538
-.671
V2
.521
-.533
.286
.307
V3
-.548
.623
.258
.297
V4
-.590
.410
.248
.472
V5
-.193
.438
-.567
-.085
V6
.533
.169
-.174
-.194
V7
.098
.685
.086
-.349
V8
.716
.358
-.221
.010
V9
.588
.021
-.189
.173
V10
.728
.404
.313
.058
V11
.812
.266
.331
.134
ExtractionMethod:
PrincipalComponentAnalysis.a4componentsextracted.
RotatedComponentMatrix(a)
Component
1
2
3
4
V1
-.095
-.041
-.045
.880
V2
.196
-.251
-.770
-.190
V3
-.029
.871
.275
.086
V4
-.179
.871
.088
-.058
V5
-.041
.034
.712
-.222
V6
.477
-.357
.149
-.053
V7
.467
.160
.496
.346
V8
.724
-.261
.175
-.260
V9
.447
-.272
-.091
-.361
V10
.879
.015
-.143
.039
V11
.876
-.051
-.294
-.033
ExtractionMethod:
PrincipalComponentAnalysis.RotationMethod:
VarimaxwithKaiserNormalization.aRotationconvergedin6iterations.
从旋转后的因子可以看出,因子1l主要与楼盘扩散指标、学科影响指标、总被引频次和引用楼盘数相关,该因子主要反映楼盘的类别对外扩散程度;因子砣主要与影响因子、即楼盘指标和扩散因子相关,影响因子和楼盘指标反映的都是楼盘的自身影响力,而扩散因子也是显示总被引频次扩散的范围,所以因子F2主要反映楼盘类别对其他楼盘类别影响力;而因子F3主要与被引半衰期、他引率和影响因子相关,楼盘被引半衰期主要反映楼盘的类别因素关系,楼盘类别被引半衰期越高,该楼盘被其他因素引用的次数越多,从而与他引率关系越紧密,结合与影响因子关系,该因子反映的是楼盘类别影响力的持久性。
为了对楼盘进行综合评价,我们利用表三中旋转后的因子(主成分),将三个主成分分别表示成:
排序
因素变量
得分
得分标准化
1
均价
1.43
100.00
2
物业费
1.22
99.339
3
原装修
1.08
97.371
4
车位
1.00
93.824
5
户型
0.91
90.046
6
配套设施
0.82
83.619
7
绿化率
0.71
76.336
8
总套数
0.53
67.864
9
总占地
0.40
58.099
10
位置
0.21
47.634
11
物业状态
0.09
30.410
以三个主成分的方差贡献率为系数可以构建期刊评价指数w如下,即:
分别将方差贡献率代入上式,即:
这里我们提出的基于主成分分析法的期刊综合评价方法,可以有效规避楼盘评价指标权重设置中主观因素的影响,同时可以通过主成因子的构成,分析不同指标之间的相关关联性。
从方法的运用和结果来看,利用主成分分析法可以比较准确地评价楼盘质量和水平的高低,具有较好的实用性,但在主成分分析法的应用中必须注意如下几个方面:
(1)主成分分析法赋权的结果可能与客观实际有些偏差,也有可能无法客观地反映指标的实际重要程度71;
(2)主成分分析法中的样本彼此间是独立的,它们应该是一个简单的随机样本,否则用主成分分析法得出的结论是不妥当的旧3;(3)评价指标之间如果有多重相关性,那么主成分分析可能会歪曲真实的数据信息,一些主成分将会过分地夸大某些因素的作用,而无法客观反映样本的统计特征;(4)原始数据列中,某些数据是越大越好的正向分布,而有些数据是越小越好的逆向分布,对于逆向数据可以用取倒数的方法,将其变为正向分布,以利于原始数据的转化处理。
八、模型科学性分析
(1)假设的合理性
据表格可知,所给数据因素有一定的规律性,且由常识也知价格在一定程度上是衡量一件商品的好,因此我们假设了均价是楼盘分类的最大因素,我们当先通过spss软件将楼盘大致分为六大类,然后通过均价因素确定楼盘类别。
如果没有此项假设是很难确定类别的。
(2)思维的合理性
思路流程图
统计附件1数据,通过excel软件将所给数据进行排列分析
运用spss软件对其进行聚类分析得到相应的六大类,并在假设的约束下确定六大类的各类别
模型的进一步讨论
和模型的评价
运用spss软件已分类的数据进行因素排序,用MATLAB画图
(3)方法的科学性
本文针对不同问题,使用了各种可靠的科学的建模方法,因为spss是专门做有关做有关数据统计的题目的,而且对聚类分析也有相当的作用,于是我们决定用spss解决了楼盘分类以及因素分析等问题
(4)求解方法的的可靠性
在对模型进行求解时,我们采用了spss和MATLAB求解并得到了一致的结果,说明我们求解模型的方法是可靠的,结果是可信的。
九、模型的评价
1、模型的优点
(1)本文在正确、清楚地分析了题意的基础上,提出了合理的假设。
建立了科学的系统聚类分析模型,为合理对楼盘进行分类准备了条件。
(2)本文经过合理的假设与分析,建立了系统聚类分析模型模型,成功地解决了楼盘的分类问题,并运用spss软件进行系统的分类。
(3)在问题二中也合理地运用了主成分分析模型,使题目所给的数据显现隐藏的内在联系,并成功的对影响楼盘的各因素进行分析,为找出影响各物业类别的主要因素打好了数据基础。
(4)用数学软件Matlab6.5进行计算机求解以及画图,算法稳定,准确性高,容量大,逻辑性严格,计算速度快,具有较强的说服力和适应能力。
(5)建立的规划模型能与实际紧密联系,结合实际情况对问题进行求解,使得模型具有很好的通用性和推广性;
2、模型的缺点
(1)聚类分析是一个相对的分类过程,并不能精确描述出各楼盘之间的物业类别。
(2)spss软件的各种数学分析功能很实用,但是存在着解题过程不明显和约束条件有点简单的缺点;
(3)我们只考虑了楼盘各项指标信息稳定的情况,而没有考虑其他突发因素,会有误差。
(4)在处理问题二时,没有考虑到人为因素,使所求方案有所偏差。
参考文献
[1]姜启源,数学模型,北京:
高等教育出版社,2004年;
[2]谢季坚《spss相关聚类分析与因子分析》华中科技大学出版社2005;
[3]韩中庚,数学建模方法及其应用,北京:
高等教育出版社,2005年;
[4]苏金明,spss课程入门,北京:
电子工业出版社,2004年;
[5]何晓群,《现代统计分析方法与应用》,中国人民大学出版社,1998年;
[6]石博强、李海鹏《matlab程序设计与实例应用》中国铁道出版社2003;
[7]张泓铭《住宅经济学》上海财经大学出版社1998.
附表1
楼盘
物业状态
位置(记分)
总占地
(公顷)
总套数
绿化率(%)
配套设施(记分)
户型(记分)
车位
(比例)
原装修(记分)
物业费(元/月/平方米)
均价(元/平方米)
1
1
8
0.8
210
30
7
4
0.261
7
1.4
3800
2
1
7
1
185
33
9
8
0.969
20
12.4
18260
3
1
7
0.84
300
30
9
8
1.02
21
3.8
7500
4
1
8
20
2600
30
7
5
0.035
0
3.25
8600
5
0
7
2.2
600
50
9
5
1
14
3.46
8500
6
0
8
0.8
200
35
8
6
1
5
3.5
7300
7
0
7
1.945
292
40
8
5
1.466
24
2
5300
8
1
5
14
122
70
10
4
1
12
4.5
8800
9
0
6
2.06
803
40
11
5
0.772
18
2.5
5380
10
0
6
2
706
42
8
7
0.5
14
1.6
4200
11
1
7
20
3000
56
9
6
1
17
3.55
6500
12
1
3
23
1000
40
9
26
1
14
1.6
4300
13
1
9
3
522
40
8
8
1
13
2.8
8500
14
1
8
2.46
164
30
9
5
0.333
14
1.59
4900
15
0
8
4.3
996
33
9
9
1
10
2.5
6500
16
0
7
1.68
300
40
9
5
1
13
2.48
5300
17
0
7
12.8
3000
41
9
7
1
16
1.98
5100
18
1
8
8.5
2000
40
7
6
0.333
10
3
7300
19
1
8
13.28
3000
40
13
8
1
23
2.4
6400
20
0
8
1
600
30
11
11
1
20
9.6
14000
21
0
7
11.8
1260
38
8
4
1
21
2.9
7000
22
1
8
1.05
360
30
8
6
0.75
16
2.6
6300
23
1
4
104
6000
40
4
7
0
0
1.55
3700
24
1
9
3
80
30
10
10
0
0
2.5
7300
25
1
8
2.4
520
33
10
6
0.962
14
1.5
6200
26
1
7
1.263
255
31
7
8
0.333
15
1.62
4700
27
1
9
0.94
342
35
8
4
0.819
25
3.8
11300
28
0
7
1.5
332
32
8
3
0.83
16
3.9
9000
29
1
4
12.31
1500
46
8
8
0.333
12
1.26
2200
30
0
7
3.3
400
40
15
15
1.452
16
8.28
13000
31
1
7
5
720
38
7
5
0.833
14
2
4300
32
1
8
0.8
384
26
7
8
1
16
1.8
4800
33
1
7
8.1
442
40
7
14
1.357
22
3.6
8000
34
0
4
21
2300
41
7
11
1
5
2
4800
35
1
7
10
1800
30
7
3
0
20
2.9
7000
36
0
7
0.7
520
30
10
9
1
14
3.3
5800
37
1
4
49.9
317
46
8
19
1.5
20
6.84
9000
38
1
8
2.6
614
35
10
8
1
18
3.8
8800
39
1
4
15.8
3000
46
7
6
0
0
1.12
3200
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运用spss软件解决数学建模 楼盘的分类问题 论文 附有答案 运用 spss 软件 解决 数学 建模 楼盘 分类 问题 附有 答案