数据分析实验报告分析解析.docx
- 文档编号:25947552
- 上传时间:2023-06-16
- 格式:DOCX
- 页数:39
- 大小:838.92KB
数据分析实验报告分析解析.docx
《数据分析实验报告分析解析.docx》由会员分享,可在线阅读,更多相关《数据分析实验报告分析解析.docx(39页珍藏版)》请在冰豆网上搜索。
数据分析实验报告分析解析
实验课程:
数据分析
专业:
信息与计算科学
班级:
学号:
姓名:
中北大学理学院
实验一SAS系统的使用
【实验目的】
了解SAS系统,熟练掌握SAS数据集的建立及一些必要的SAS语句。
【实验内容】
1.将SCORE数据集的内容复制到一个临时数据集test。
SCORE数据集
Name
Sex
Math
Chinese
English
Alice
f
90
85
91
Tom
m
95
87
84
Jenny
f
93
90
83
Mike
m
80
85
80
Fred
m
84
85
89
Kate
f
97
83
82
Alex
m
92
90
91
Cook
m
75
78
76
Bennie
f
82
79
84
Hellen
f
85
74
84
Wincelet
f
90
82
87
Butt
m
77
81
79
Geoge
m
86
85
82
Tod
m
89
84
84
Chris
f
89
84
87
Janet
f
86
65
87
2.将SCORE数据集中的记录按照math的高低拆分到3个不同的数据集:
math大于等于90的到good数据集,math在80到89之间的到normal数据集,math在80以下的到bad数据集。
3.将3题中得到的good,normal,bad数据集合并。
【实验所使用的仪器设备与软件平台】SAS
【实验方法与步骤】
1:
DATASCORE;
INPUTNAME$Sex$MathChineseEnglish;
CARDS;
Alicef908591
Tomm958784
Jennyf939083
Mikem808580
Fredm848589
Katef978382
Alexm929091
Cookm757876
Bennief827984
Hellenf857484
Winceletf908287
Buttm778179
Geogem868582
Todm898484
Chrisf898487
Janetf866587
;
Run;
PROCPRINTDATA=SCORE;
DATAtest;
SETSCORE;
2:
DATAgoodnormalbad;
SETSCORE;
SELECT;
when(math>=90)outputgood;
when(math>=80&math<90)outputnormal;
when(math<80)outputbad;
end;
Run;
PROCPRINTDATA=good;
PROCPRINTDATA=normal;
PROCPRINTDATA=bad;
3:
DATAAll;
SETgoodnormalbad;
PROCPRINTDATA=All;
Run;
【实验结果】
结果一:
结果二:
结果三:
实验二 上市公司的数据分析
【实验目的】通过使用SAS软件对实验数据进行描述性分析和回归分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。
【实验内容】表2是一组上市公司在2001年的每股收益(eps)、流通盘(scale)的规模以及2001年最后一个交易日的收盘价(price).
表2某上市公司的数据表
代码
流通盘
每股收益
股票价格
000096
8500
0.059
13.27
000099
6000
0.028
14.2
000150
12600
-0.003
7.12
000151
10500
0.026
10.08
000153
2500
0.056
22.75
000155
13000
-0.009
6.85
000156
3600
0.033
14.95
000157
10000
0.06
12.65
000158
10000
0.018
8.38
000159
7000
0.008
12.15
000301
15365
0.04
7.31
000488
7700
0.101
13.26
000725
6000
0.044
12.33
000835
1338
0.07
22.58
000869
3200
0.194
18.29
000877
7800
-0.084
12.55
000885
6000
-0.073
12.48
000890
16934
0.031
9.12
000892
12000
0.031
7.88
000897
14166
0.002
6.91
000900
21423
0.058
8.59
000901
4800
0.005
27.95
000902
6500
-0.031
10.92
000903
6000
0.109
11.79
000905
9500
0.046
9.29
000906
6650
0.007
14.47
000908
8988
0.006
8.28
000909
6000
0.002
9.99
000910
8000
0.036
8.9
000911
7280
0.067
9.01
000912
15000
0.112
8.06
000913
8450
0.062
11.86
000915
4599
0.001
14.4
000916
34000
0.038
5.15
000917
11800
0.086
16.23
000918
6000
-0.045
10.12
1、对股票价格
1)计算均值、方差、标准差、变异系数、偏度、峰度;
2)计算中位数,上、下四分位数,四分位极差,三均值;
3)作出直方图;
4)作出茎叶图;
5)进行正态性检验(正态W检验);
6)计算协方差矩阵,Pearson相关矩阵;
7)计算Spearman相关矩阵;
8)分析各指标间的相关性。
2、1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;
2)给定显著性水平α=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;
3)拟合残差关于拟合值
的残差图及残差的正态QQ图。
分析这些残差,并予以评述。
【实验所使用的仪器设备与软件平台】SAS
【实验方法与步骤】
dataprices;
inputnumscaleepsprice;
cards;
00009685000.05913.27
00009960000.02814.2
00015012600-0.0037.12
000151105000.02610.08
00015325000.05622.75
00015513000-0.0096.85
00015636000.03314.95
000157100000.0612.65
000158100000.0188.38
00015970000.00812.15
000301153650.047.31
00048877000.10113.26
00072560000.04412.33
00083513380.0722.58
00086932000.19418.29
0008777800-0.08412.55
0008856000-0.07312.48
000890169340.0319.12
000892120000.0317.88
000897141660.0026.91
000900214230.0588.59
00090148000.00527.95
0009026500-0.03110.92
00090360000.10911.79
00090595000.0469.29
00090666500.00714.47
00090889880.0068.28
00090960000.0029.99
00091080000.0368.9
00091172800.0679.01
000912150000.1128.06
00091384500.06211.86
00091545990.00114.4
000916340000.0385.15
000917118000.08616.23
0009186000-0.04510.12
run;
PROCPRINTDATA=prices;
run;
procmeansdata=pricesmeanvarstdskewnesskurtosiscv;
varprice;
outputout=result;
run;
procunivariatedata=pricesplotfreqnormal;
varprice;
outputout=result2;
run;
proccapabilitydata=pricesgraphicsnoprint;
histogramprice/normal;
run;
proccorrdata=pricespearsonspearmancovnosimple;
varprice;
withprice;
run;
procregdata=prices;
modelprice=scaleeps/selection=backwardnointpr;
outputout=pricesp=pr=r;
procprintdata=prices;
run
【实验结果】
对于问题二结果:
实验三 美国50个州七种犯罪比率的数据分析
【实验目的】通过使用SAS软件对实验数据进行主成分分析和因子分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。
【实验内容】表3给出的是美国50个州每100000个人中七种犯罪的比率数据。
这七种犯罪是:
Murder(杀人罪),Rape(强奸罪),Robbery(抢劫罪),Assault(斗殴罪),Burglary(夜盗罪),Larceny(偷盗罪),Auto(汽车犯罪)。
表3美国50个州七种犯罪的比率数据
State
Murder
Rape
Robbery
Assault
Burglary
Larceny
Auto
Alabama
14.2
25.2
96.8
278.3
1135.5
1881.9
280.7
Alaska
10.8
51.6
96.8
284.0
1331.7
3369.8
753.3
Arizona
9.5
34.2
138.2
312.3
2346.1
4467.4
439.5
Arkansas
8.8
27.6
83.2
203.4
972.6
1862.1
183.4
California
11.5
49.4
287.0
358.0
2139.4
3499.8
663.5
Colorado
6.3
42.0
170.7
292.9
1935.2
3903.2
477.1
Connecticut
4.2
16.8
129.5
131.8
1346.0
2620.7
593.2
Delaware
6.0
24.9
157.0
194.2
1682.6
3678.4
467.0
Florida
10.2
39.6
187.9
449.1
1859.9
3840.5
351.4
Georgia
11.7
31.1
140.5
256.5
1351.1
2170.2
297.9
Hawaii
7.2
25.5
128.0
64.1
1911.5
3920.4
489.4
Idaho
5.5
19.4
39.6
172.5
1050.8
2599.6
237.6
Illinois
9.9
21.8
211.3
209.0
1085.0
2828.5
528.6
Indiana
7.4
26.5
123.2
153.5
1086.2
2498.7
377.4
Iowa
2.3
10.6
41.2
89.8
812.5
2685.1
219.9
Kansas
6.6
22.0
100.7
180.5
1270.4
2739.3
244.3
Kentucky
10.1
19.1
81.1
123.3
872.2
1662.1
245.4
Louisiana
15.5
30.9
142.9
335.5
1165.5
2469.9
337.7
Maine
2.4
13.5
38.7
170.0
1253.1
2350.7
246.9
Maryland
8.0
34.8
292.1
358.9
1400.0
3177.7
428.5
Massachusetts
3.1
20.8
169.1
231.6
1532.2
2311.3
1140.1
Michigan
9.3
38.9
261.9
274.6
1522.7
3159.0
545.5
Minnesota
2.7
19.5
85.9
85.8
1134.7
2559.3
343.1
Mississippi
14.3
19.6
65.7
189.1
915.6
1239.9
144.4
Missouri
9.6
28.3
189.0
233.5
1318.3
2424.2
378.4
Montana
5.4
16.7
39.2
156.8
804.9
2773.2
309.2
Nebraska
3.9
18.1
64.7
112.7
760.0
2316.1
249.1
Nevada
15.8
49.1
323.1
355.0
2453.1
4212.6
559.2
NewHampshire
3.2
10.7
23.2
76.0
1041.7
2343.9
293.4
NewJersey
5.6
21.0
180.4
185.1
1435.8
2774.5
511.5
NewMexico
8.8
39.1
109.6
343.4
1418.7
3008.6
259.5
NewYork
10.7
29.4
472.6
319.1
1728.0
2782.0
745.8
NorthCarolina
10.6
17.0
61.3
318.3
1154.1
2037.8
192.1
Ohio
7.8
27.3
190.5
181.1
1216.0
2696.8
400.4
NorthDakota
0.9
9.0
13.3
43.8
446.1
1843.0
144.7
Oklahoma
8.6
29.2
73.8
205.0
1288.2
2228.1
326.8
Oregon
4.9
39.9
124.1
286.9
1636.4
35061
388.9
Pennsylvania
5.6
19.0
130.3
128.0
877.5
1624.1
333.2
RhodeIsland
3.6
10.5
86.5
201.0
1489.5
2844.1
791.4
SouthCarolina
11.9
33.0
105.9
485.3
1613.6
2342.4
245.1
SouthDakota
2.0
13.5
17.9
155.7
570.5
1704.4
147.5
Tennessee
10.1
29.7
145.8
203.9
1259.7
1776.5
314.0
Texas
13.3
33.8
152.4
208.2
1603.1
2988.7
397.6
Utah
3.5
20.3
68.8
147.3
1171.6
3004.6
334.5
Vermont
1.4
15.9
30.8
101.2
1348.2
2201.0
265.2
Virginia
9.0
23.3
92.1
165.7
986.2
2521.2
226.7
Washington
4.3
39.6
106.2
224.8
1605.6
3386.9
360.3
WestVirginia
6.0
13.2
42.2
90.9
597.4
1341.7
163.3
Wisconsin
2.8
12.9
52.2
63.7
846.9
2614.2
220.7
Wyoming
5.4
21.9
39.7
173.9
811.6
2772.2
282.0
1、1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异?
2)原始数据的变化可否由三个或者更少的主成分反映,对所选取的主成分给出合理的解释。
3)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序.
2、从样本相关矩阵出发,做因子分析。
【实验所使用的仪器设备与软件平台】SAS
【实验方法与步骤】
首先将上述数据复制到excel,再通过SAS导入数据至数据集crime。
样本协方差矩阵做主成分分析:
procprincompdata=work.crimecovariance;
run;
样本相关矩阵做主成分分析:
procprincompdata=work.crime;
run;
对第一样本主成分排序
procprincompdata=crimeout=defen;
run;
procsortdata=defen;
byprin1;
run;
procprintdata=defen;
run;
2、
程序:
procfactordata=work.crimescore;
run;
【实验结果】
实验四 1991年全国各省、区、市城镇居民
月平均收入的数据分析
【实验目的】通过使用SAS软件对实验数据进行判别分析和聚类分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。
【实验内容】1991年全国各省、区、市城镇居民月平均收入情况见下表,变量含义如下:
X1-人均生活费收入(元/人);X2-人均全民所有制职工工资(元/人);X3-人均来源于全民标准工资(元/人);X4-人均集体所有制工资(元/人);X5-人均集体职工标准工资(元/人);X6-人均各种奖金及超额工资(元/人);X7-人均各种津贴(元/人);X8-职工人均从工作单位得到的其他收入(元/人);X9-个体劳动者收入(元/人)。
省(区\市)名
类型
x1
x2
x3
x4
x5
x6
x7
x8
x9
北京
1
170.03
110.2
59.76
8.38
4.49
26.8
16.44
11.9
0.41
天津
1
141.55
82.58
50.98
13.4
9.33
21.3
12.36
9.21
1.05
河北
1
119.4
83.33
53.39
11
7.52
17.3
11.79
12
0.7
上海
1
194.53
107.8
60.24
15.6
8.88
31
21.01
11.8
0.16
山东
1
130.46
86.21
52.3
15.9
10.5
20.61
12.14
9.61
0.47
湖北
1
119.29
85.41
53.02
13.1
8.44
13.87
16.47
8.38
0.51
广西
1
134.46
98.61
48.18
8.9
4.34
21.49
26.12
13.6
4.56
海南
1
143.79
99.97
45.6
6.3
1.56
18.67
29.49
11.8
3.82
四川
1
128.05
74.96
50.13
13.9
9.62
16.14
10.18
14.5
1021
云南
1
127.41
93.54
50.57
10.5
5.87
19.41
21.2
12.6
0.9
新疆
1
122.96
101.4
69.7
6.3
3.86
11.3
18.96
5.62
4.62
山西
2
102.49
71.72
47.72
9.42
6.96
13.12
7.9
6.66
0.61
内蒙古
2
106.14
76.27
46.19
9.65
6.27
9.655
20.1
6.97
0.96
吉林
2
104.93
72.99
44.6
13.7
9.01
9.435
20.61
6.65
1.68
黑龙江
2
103.34
62.99
42.95
11.1
7.41
8.342
10.19
6.45
2.68
江西
2
98.089
69.45
43.04
11.4
7.95
10.59
16.5
7.69
1.08
河南
2
104.12
72.23
47.31
9.48
6.43
13.14
10.43
8.3
1.11
贵州
2
108.49
80.79
47.52
6.06
3.42
13.69
16.53
8.37
2.85
陕西
2
113.99
75.6
50.88
5.21
3.86
12.94
9.492
6.77
1.27
甘肃
2
114.06
84.31
52.78
7.81
5.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 实验 报告 解析