实验3美国50个州七种犯罪比率的数据分析.docx
- 文档编号:11819559
- 上传时间:2023-04-03
- 格式:DOCX
- 页数:14
- 大小:83.48KB
实验3美国50个州七种犯罪比率的数据分析.docx
《实验3美国50个州七种犯罪比率的数据分析.docx》由会员分享,可在线阅读,更多相关《实验3美国50个州七种犯罪比率的数据分析.docx(14页珍藏版)》请在冰豆网上搜索。
实验3美国50个州七种犯罪比率的数据分析
实验三美国50个州七种犯罪比率的数据分析
【实验目的】1.通过使用SAS软件对实验数据进行主成分分析和因子分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。
【实验内容】表3给出的是美国50个州每100000个人中七种犯罪的比率数据。
这七种犯罪是:
Murder(杀人罪),Rape(强奸罪),Robbery(抢劫罪),Assault(斗殴罪),Burglary(夜盗罪),Larceny(偷盗罪),Auto(汽车犯罪)。
表3美国50个州七种犯罪的比率数据
State
Murder
Rape
Robbery
Assault
Burglary
Larceny
Auto
Alabama
14.2
25.2
96.8
278.3
1135.5
1881.9
280.7
Alaska
10.8
51.6
96.8
284.0
1331.7
3369.8
753.3
Arizona
9.5
34.2
138.2
312.3
2346.1
4467.4
439.5
Arkansas
8.8
27.6
83.2
203.4
972.6
1862.1
183.4
California
11.5
49.4
287.0
358.0
2139.4
3499.8
663.5
Colorado
6.3
42.0
170.7
292.9
1935.2
3903.2
477.1
Connecticut
4.2
16.8
129.5
131.8
1346.0
2620.7
593.2
Delaware
6.0
24.9
157.0
194.2
1682.6
3678.4
467.0
Florida
10.2
39.6
187.9
449.1
1859.9
3840.5
351.4
Georgia
11.7
31.1
140.5
256.5
1351.1
2170.2
297.9
Hawaii
7.2
25.5
128.0
64.1
1911.5
3920.4
489.4
Idaho
5.5
19.4
39.6
172.5
1050.8
2599.6
237.6
Illinois
9.9
21.8
211.3
209.0
1085.0
2828.5
528.6
Indiana
7.4
26.5
123.2
153.5
1086.2
2498.7
377.4
Iowa
2.3
10.6
41.2
89.8
812.5
2685.1
219.9
Kansas
6.6
22.0
100.7
180.5
1270.4
2739.3
244.3
Kentucky
10.1
19.1
81.1
123.3
872.2
1662.1
245.4
Louisiana
15.5
30.9
142.9
335.5
1165.5
2469.9
337.7
Maine
2.4
13.5
38.7
170.0
1253.1
2350.7
246.9
Maryland
8.0
34.8
292.1
358.9
1400.0
3177.7
428.5
Massachusetts
3.1
20.8
169.1
231.6
1532.2
2311.3
1140.1
Michigan
9.3
38.9
261.9
274.6
1522.7
3159.0
545.5
Minnesota
2.7
19.5
85.9
85.8
1134.7
2559.3
343.1
Mississippi
14.3
19.6
65.7
189.1
915.6
1239.9
144.4
Missouri
9.6
28.3
189.0
233.5
1318.3
2424.2
378.4
Montana
5.4
16.7
39.2
156.8
804.9
2773.2
309.2
Nebraska
3.9
18.1
64.7
112.7
760.0
2316.1
249.1
Nevada
15.8
49.1
323.1
355.0
2453.1
4212.6
559.2
NewHampshire
3.2
10.7
23.2
76.0
1041.7
2343.9
293.4
NewJersey
5.6
21.0
180.4
185.1
1435.8
2774.5
511.5
NewMexico
8.8
39.1
109.6
343.4
1418.7
3008.6
259.5
NewYork
10.7
29.4
472.6
319.1
1728.0
2782.0
745.8
NorthCarolina
10.6
17.0
61.3
318.3
1154.1
2037.8
192.1
Ohio
7.8
27.3
190.5
181.1
1216.0
2696.8
400.4
NorthDakota
0.9
9.0
13.3
43.8
446.1
1843.0
144.7
Oklahoma
8.6
29.2
73.8
205.0
1288.2
2228.1
326.8
Oregon
4.9
39.9
124.1
286.9
1636.4
35061
388.9
Pennsylvania
5.6
19.0
130.3
128.0
877.5
1624.1
333.2
RhodeIsland
3.6
10.5
86.5
201.0
1489.5
2844.1
791.4
SouthCarolina
11.9
33.0
105.9
485.3
1613.6
2342.4
245.1
SouthDakota
2.0
13.5
17.9
155.7
570.5
1704.4
147.5
Tennessee
10.1
29.7
145.8
203.9
1259.7
1776.5
314.0
Texas
13.3
33.8
152.4
208.2
1603.1
2988.7
397.6
Utah
3.5
20.3
68.8
147.3
1171.6
3004.6
334.5
Vermont
1.4
15.9
30.8
101.2
1348.2
2201.0
265.2
Virginia
9.0
23.3
92.1
165.7
986.2
2521.2
226.7
Washington
4.3
39.6
106.2
224.8
1605.6
3386.9
360.3
WestVirginia
6.0
13.2
42.2
90.9
597.4
1341.7
163.3
Wisconsin
2.8
12.9
52.2
63.7
846.9
2614.2
220.7
Wyoming
5.4
21.9
39.7
173.9
811.6
2772.2
282.0
1、1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异?
2)原始数据的变化可否由三个或者更少的主成分反映,对所选取的主成分给出合理的解释。
3)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序.
2、从样本相关矩阵出发,做因子分析。
【实验所使用的仪器设备与软件平台】
计算机、SAS9.4(简体中文)
【实验方法或步骤】
1.先将数据输入到Excel中,再通过SAS系统导入数据。
程序代码:
procprincompdata=work.crimecovariance;
procprincompdata=work.crimeout=defen;
run;
procsortdata=defen;
byprin1;
run;
procprintdata=defen;
run;
procfactordata=work.crimesimplecorr;
run;
procfactordata=work.crimepriors=smcmsascreeresidual
preplotrotate=promaxreorderplotoutstat=fact_all;
run;
【实验原理】
因子分析与主成分分析有区别:
主成分分析只是简单的变量代换,而因子分析要构造因子模型;主成分分析时将一组具有相关关系的变量变换为一组互不相关的变量,而因子分析的目的是要用尽可能少的因子构造一个结构简单的因子模型,主成分分析是将主成分表示成原始变量的线性组合,而因子分析时将原始变量表示成公共因子和特殊因子的线性组合。
【实验结果】
1、1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异?
○1样本协方差矩阵:
均值和标准差:
协方差矩阵和总方差:
协方差矩阵的特征值:
特征值、差分、比例、累积:
可以得出主成分为Murder(杀人罪)特征向量:
Larceny(偷盗罪)与Murder(杀人罪)高度相关;Burglary(夜盗罪)与Rape(强
奸罪)高度相关;Robbery(抢劫罪)与Auto(汽车犯罪)高度相关;Robbery(抢劫罪)
与Larceny(偷盗罪)高度相关;Murder(杀人罪)与Auto(汽车犯罪)高度相关
陡坡图和已解释方差:
○2样本相关矩阵:
均值和标准差:
相关矩阵:
相关矩阵的特征值:
特征值、差分、比例、累积:
可以看出主成分为Murder(杀人罪),Rape(强奸罪),Robbory(抢劫罪)
0.9
特征向量:
由上图可知,各成分间没有很高的相关性,没有两个成分的相关度达到
以上
Robbory(抢劫罪)与Larceny(偷盗罪)的相关系数为0.736050;Rape(强奸罪)与Auto(汽车犯罪)的相关系数为0.750208。
样本协方差矩阵和样本相关矩阵的差别:
1.主成分发生了变化。
用样本协方差矩阵求得主成分为Murder(杀人罪);用样本相关矩阵求得主成分为Murder(杀人罪),Rape(强奸罪),Robbory(抢劫罪)。
2.各成分间的相关系数不不相同。
所以由样本协方差矩阵,样本相关矩阵求得的主成分一般是不同的。
陡坡图和已解释方差:
2)原始数据的变化可否由三个或者更少的主成分反映,对所选取的主成分给出合理的解释。
○1用样本协方差矩阵求出的主成分Murder(杀人罪),它的贡献率为98.94%可
以用它来代替其他六个变量,其信息损失量是很小的。
○2用样本相关矩阵求出的主成分为Murder(杀人罪),Rape(强奸罪),Robbory(抢劫罪)。
Murder(杀人罪)的贡献率为52.96%,Murder(杀人罪)和Rape(强奸罪)的累计贡献率为69.31%,Murder(杀人罪),Rape(强奸罪),Robbory(抢劫罪)
三个的累计贡献率为83.89%。
可以用这三个主成分来代替7个原始变量,而且也不至于损失原始变量中的太多信息。
3)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序。
2、从样本相关矩阵出发,做因子分析
50个观测的均值和标准差:
相关性:
相关矩阵的特征值:
特征值、差分、比例、累积:
因子模式:
每个因子的已解释方差:
最终的公因子方差估计:
控制所有其他变量的偏相关和Kaiser抽样适当性测度:
先验公因子方差估计:
缩减相关矩阵的特征值:
特征值、差分、比例、累积:
特征值的陡坡图:
因子模型:
每个因子已解释方差:
最终的公因子方差估计:
对角线上唯一的残差相关:
【结果分析与讨论】
通过此次的实验,得出以下结论:
1.一般由样本协方差矩阵和样本相关矩阵求得的主成分是不一样的。
在实际应用中,当涉及的各变量的变化范围差异较大时,从样本相关矩阵出发求主成分比较合理。
2.原始数据的变化可以由三个或者更少的主成分反映而不至于损失原变量中的太多信息。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 美国 50 个州七种 犯罪 比率 数据 分析