拟合多元回归聚类分析数据文档格式.docx
- 文档编号:18690487
- 上传时间:2022-12-31
- 格式:DOCX
- 页数:15
- 大小:99.80KB
拟合多元回归聚类分析数据文档格式.docx
《拟合多元回归聚类分析数据文档格式.docx》由会员分享,可在线阅读,更多相关《拟合多元回归聚类分析数据文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
6036
5561
1974
8867
7826
1961
6113
5579
1975
8944
7926
1962
6271
5729
1976
9175
8272
1963
6378
5855
1977
9381
8551
1964
6727
6099
1978
9735
8808
1965
7027
6362
1979
9829
8904
1966
7280
6607
1980
9722
8783
1967
7513
6730
1981
9769
8794
1968
7728
7003
1982
9725
8818
1969
7891
7185
1983
9930
9139
1970
8134
7275
1984
10419
9489
1971
8322
7409
1985
10622
9830
1972
8562
7726
1986
10947
10142
1973
9042
7972
3、在某化合物的合成试验中,为了提高产量,选取了原料配比(
)、溶剂量(
)和反应时间(
)三个因素,试验结果如表5所示。
试用线性回归模型来拟合试验数据。
表5试验数据
试验号
配比(
)
溶剂(
反应时间(
收率(
1.5
0.33
1.4
19
0.336
1.8
25
0.294
2.2
2.5
0.476
2.6
16
0.5
0.209
22
0.451
3.4
28
3.5
0.482
4、襄樊市近几年的经济收入数据来分析该城市主要影响经济的因素,挖掘其发展潜力。
表2:
襄樊市2006年3月-12月和2007年3月-11月统计数据表
期数
地方财政一般预算收入
规模以上工业增加值(亿元)
城镇以上固定资产投资额(万元)
社会消费品零售总额(万元)
外贸(万美元)
22159
17.93
129274
200503
813
18310
18.01
122486
192063
1690
15777
15.95
136243
208801
1415
25450
16.57
273860
201037
1782
13449
14.17
116674
193772
2145
12839
13.17
91764
202028
1855
17561
20.1
176719
259077
1874
14844
22.73
139560
272981
2345
15920
15.35
134617
270298
2026
24956
17.05
634630
291999
4935
18678
184840
237491
2052
24853
22.47
163021
222025
2072
20101
19.67
192306
243044
2745
27282
23.1
369928
240239
2500
18153
16.96
165810
233769
2184
17479
17.13
121393
239430
2313
17
19643
19.96
256451
312188
2056
18
21435
17.26
179209
323488
2378
17018
17.02
230200
320411
2193
5、一家电气销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计。
近8个月的销售额与广告费用数据
月销售收入(万元)
电视广告费用(万元)
报纸广告费用(万元)
96
5.0
90
2.0
95
4.0
92
3.0
3.3
94
2.3
4.2
1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。
2)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。
3)上述1)和2)所建立的估计方程,电视广告费用的系数是否相同?
对其回归系数分别进行解释。
4)根据问题2)所建立的估计方程,检验回归方程的线性关系是否显著(=0.05)
6、某农场通过试验取得早稻收获量与春季降雨量和春季温度的数据试确定早稻收获量对春季降雨量和春季温度的二元线性回归方程。
解释回归系数的实际意义。
收获量(公斤/公顷)
y
降雨量(毫米)
x1
温度()
x2
2250
3450
33
4500
45
6750
105
7200
110
7500
115
8250
7、一家房地产评估公司想对某城市的房地产销售价格(y1)与地产的评估价值(x1)、房产的评估价值(x2)和使用面积(x3)建立一个模型,以便对销售价格作出合理预测。
为此,收集了20栋住宅的房地产评估数据
销售价格(元/㎡)
地产估价(万元)
房产估价(万元)
使用面积(㎡)
6890
596
4497
18730
4850
900
2780
9280
5550
950
3144
11260
6200
1000
3959
12650
11650
1800
7283
22140
850
2732
9120
3800
800
2986
8990
8300
2300
4775
18030
5900
810
3912
12040
4750
2935
17250
4050
730
4012
10800
4000
3168
15290
9700
2000
5851
24550
4550
11510
4090
2089
11730
8000
1050
5625
19600
5600
400
2086
13440
3700
450
2261
9880
5000
340
3595
10760
2240
150
578
9620
写出估计的多元回归方程。
1)在销售价格的总变差中,被估计的回归方程所解释的比例是多少?
2)检验回归方程的线性关系是否显著(=0.05)。
3)检验各回归系数是否显著(=0.05)。
8、随机抽取的15家大型商场销售的同类产品的有关数据
企业编号
销售价格(元)
购进价格(元)
销售费用(元)
1238
966
1266
894
257
1200
440
387
1193
664
310
1106
791
339
1303
852
283
1313
804
302
1144
905
214
1286
771
304
1084
511
326
1120
505
1156
851
235
1083
659
276
1263
490
390
1246
696
316
1)计算y与x1、y与x2之间的相关系数,是否有证据表明销售价格与购进价格、销售价格与销售费用之间存在线性关系?
2)根据上述结果,你认为用购进价格和销售费用来预测销售价格是否有用?
3)进行回归,并检验模型的线性关系是否显著(=0.05)。
4)解释判定系数R2,所得结论与问题2)中是否一致?
5)计算x1与x2之间的相关系数,所得结果意味着什么?
锡克试验阴性率(%)随着年龄的增长而增高,某地查得儿童年龄(岁)X与锡克试验阴性率Y的资料如下,试拟合曲线。
年龄(岁)
锡克试验阴性率(%)
57.1
76.0
90.9
93.0
96.7
95.6
96.2
六组数据,分别设成x值和y值,拟合一条曲线,再总结出一个公式,用多项式的话,选用几次的多项式能够达到精度,有何评价标准。
问题补充:
x值y值
13.6631095.295
15.411330.063
16.9931643.16
19.5132177.739
24.3223330.34
26.1573816.51
据国务院西部办公室统计数据得以下2004年数据:
省份邮电电信邮政电话总量固定电话移动电话互联网工业增加值
青海26.3924.761.63209.6092.98116.70.24.80
西藏9.828.89.9360.1727.0833.09.14.40
甘肃109.04102.486.56835.00477.00358.00.505.12
内蒙古232.20223.608.601593.80499.601094.20.776.84
新疆153.06145.667.401011.60522.26489.4078.10616.85
广西268.06256.9411.121694.20812.00882.20147.00595.63
云南124.20..939.00437.00502.00103.00881.19
贵州112.10101.605.50663.70332.60331.1063.60438.40
重庆174.99165.60.1454.00..121.80579.67
宁夏39.2036.902.30278.20119.60158.6032.10163.07
陕西125.23111.4313.801578.91792.02786.8946.43870.71
四川336.10..2884.501369.901514.60254.001546.45
为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。
分析选用了三个指标:
(1)大学以上文化程度的人口占全部人口的比例(DXBZ);
(2)初中文化程度的人口占全部人口的比例(CZBZ);
(3)文盲半文盲人口占全部人口的比例(WMBZ)、分别用来反映较高、中等、较低文化程度人口的状况,原始数据如下表:
1990年全国人口普查文化程度人口比例(%)
序号
DXBZ
CZBZ
WMBZ
北京
9.30
30.55
8.70
天津
4.67
29.38
8.92
河北
0.96
24.69
15.21
山西
1.38
29.24
11.30
内蒙
1.48
25.47
15.39
辽宁
2.60
32.32
8.81
吉林
2.15
26.31
10.49
黑龙江
2.14
28.46
10.87
上海
6.53
31.59
11.04
江苏
1.47
26.43
17.23
浙江
1.17
23.74
17.46
安徽
0.88
19.97
24.43
福建
1.23
16.87
15.63
江西
0.99
18.84
16.22
山东
0.98
25.18
河南
0.85
26.55
16.15
1.57
23.16
15.79
湖南
1.14
22.57
12.10
广东
1.34
23.04
10.45
广西
20
0.79
19.14
10.61
海南
21
1.24
22.53
13.97
四川
21.65
16.24
贵州
23
0.78
14.65
24.27
云南
24
0.81
13.85
25.44
西藏
0.57
3.85
44.43
陕西
26
1.67
24.36
17.62
甘肃
27
1.10
16.85
27.93
青海
1.49
17.76
27.70
宁夏
29
1.61
20.27
22.06
新疆
30
1.85
20.66
12.75
数据来源:
《中国计划生育全书》第886页。
计算样品之间的相似系数,使用最长距离法、重心法和Ward法,将上机计算结果按样品号画出聚类图如下:
0510152025
根据聚类图把30个样品分为四类能更好地反映我国实际情况。
第一类:
北京、天津、山西、辽宁、吉林、黑龙江、上海。
其中大多是东部经济、文化较发达的地区。
第二类:
安徽、宁夏、青海、甘肃、云南、贵州。
其中大多是西部经济、文化发展较慢的地区。
第三类:
西藏。
经济、文化较落后的地区。
第四类:
其它省、直辖市、自治区。
经济、文化在全国处于中等水平。
例2根据信息基础设施的发展状况,对世界20个国家和地区进行分类。
country
call
movecall
fee
computer
mips
net
美国
631.60
161.90
0.36
403.00
26073.00
35.34
日本
498.40
143.20
3.57
176.00
10223.00
6.26
德国
557.60
70.60
2.18
199.00
11571.00
9.48
瑞典
684.10
281.80
1.40
286.00
16660.00
29.39
瑞士
644.00
93.50
1.98
234.00
13621.00
22.68
丹麦
620.30
248.60
2.56
296.00
17210.00
21.84
新加坡
147.50
2.50
284.00
13578.00
13.49
中国台湾
469.40
56.10
3.68
119.00
6911.00
1.72
韩国
434.50
73.00
3.36
99.00
5795.00
1.68
巴西
81.90
16.30
3.02
19.00
876.00
0.52
智利
138.60
8.20
31.00
1411.00
1.28
墨西哥
92.20
9.80
2.61
1751.00
0.35
俄罗斯
174.90
5.00
5.12
24.00
1101.00
0.48
波兰
169.00
6.50
40.00
1796.00
1.45
匈牙利
262.20
49.40
2.66
68.00
3067.00
3.09
马来西亚
195.50
88.40
4.19
53.00
2734.00
1.25
泰国
78.60
27.80
4.95
22.00
1662.00
0.11
印度
13.60
0.30
6.28
2.00
101.00
0.01
法国
559.10
42.90
1.27
201.00
11702.00
4.76
英国
521.10
122.50
248.00
14461.00
11.91
这里选取了发达国家、新兴工业化国家、拉美国家、亚洲发展中国家、转型国家等不同类型的20个国家作Q型聚类分析。
描述信息基础设施的变量主要有六个:
(1)Call—每千人拥有电话线数,
(2)movecall—每千房居民蜂窝移动电话数,(3)fee—高峰时期每三分钟国际电话的成本,(4)Computer—每千人拥有的计算机数,(5)mips—每千人中计算机功率《每秒百万指令》,(6)net—每千人互联网络户主数。
数据摘自《世界竞争力报告—1997》。
由于数据存在量纲和数量级的差别,在聚类之前先进行标准化处理,计算样品之间的距离采用欧氏距离。
下面分别用最长距离法、重心法、离差平方和法进行计算,其结果如下表:
最长距离法
重心法
离差平方和法见下页图。
从聚类图看,本例用三种方法聚类结果基本一致,而最长距离法和重心法所得结果更接近一致,结合实际情况分析采用离差平方和法把20个国家分为两类:
第Ⅰ类:
巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚。
第Ⅱ类:
瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、新加坡、英国、瑞士。
其中第Ⅰ类中的国家为转型国家和亚洲、拉美发展中国家,这些国家经济较不发达,基础设施薄弱,属于信息基础设施比较落后的国家;
第Ⅱ类中的国家是美、日、欧洲发达国家与新兴工业化国家中国台湾、新加坡、韩国。
新兴工业化国家这几十年来发展迅速,努力赶超发达国家,在信息基础设施的发展上已非常接近发达国家,而发达国家中美国、瑞典、丹麦的信息基础设施发展最为良好。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 拟合 多元 回归 聚类分析 数据