《统计信息应用软件》上机试验指导书SPSS精.docx
- 文档编号:4865647
- 上传时间:2022-12-11
- 格式:DOCX
- 页数:29
- 大小:183.86KB
《统计信息应用软件》上机试验指导书SPSS精.docx
《《统计信息应用软件》上机试验指导书SPSS精.docx》由会员分享,可在线阅读,更多相关《《统计信息应用软件》上机试验指导书SPSS精.docx(29页珍藏版)》请在冰豆网上搜索。
《统计信息应用软件》上机试验指导书SPSS精
《统计信息应用软件上机实验指导书》
(编写人李灿
湖南商学院信息系
2005-4-10
编写说明
为了方便教师教学,提高学生运用统计信息应用软件的能力,以更好的适应信息社会对现代化定量分析人才的需求,为社会培养现代化的高级专门人才,以及更好地配合统计信息应用软件课程的案例教学改革,我在教学的过程中精心编写了此本《统计信息应用软件》上机试验指导书(SPSS12.0统计软件。
在编写的过程中得到了信息系领导龚曙明教授、欧阳资生博士以及统计学教研室各位老师的支持,在此我表示感谢。
由于时间仓促,本人水平有限,错误之处敬请各位专家学者指正,本人邮箱:
xlican@。
李灿
2004.3
目录
试验一、数据统计处理(3
试验二、单变量频率分配分析(4
试验三、T-TEST过程(6
试验四、聚类分析(9
试验五、因子分析(14
试验六、判别分析..........................................17.试验七、多元方差分析(21
试验一、数据统计处理
试验目的:
通过上机试验,使学生掌握数据统计处理基本原理,熟悉数据文件的
处理,具体包括数据的输入、数据变量的定义、数据资料的统计处理等软件操作过程,能对软件输出结果进行分析。
实验题目:
某班进行其中考试成绩分析,首先输入全班36人的学号、性别、数学、
无力、化学、外语和语文成绩,如表1所示:
存为aa.sys文件,现按以下要求操作。
表1某班期终考试成绩
学号性别数学物理化学外语语文学号性别数学物理化学外语语文
0301女88936572860319女5664667574
0302女87936878910320女59871707478
0303女82987181860321男6874767875
0304男7083缺考90920322女7168717082
0305男80887988850323女7456646884
0306男78907882880324男7684829294
0307女70807276900325男9188889490
0308男71788378940326女8791908890
0309男74747678860327男9395949688
0310男777881缺考760328男8486868892
0311男66868583850329女9092909189
0312女73707475910330男6168707482
0313男68827276760331男7675815662
0314女81899188910332女8168788881
0315女55848691840333男6771906872
0316女64757478890334女7876819179
0317男61666870800335男8581728969
0318女缺考545868720336女8891727692
(1定义缺失值。
(2计算个人平均成绩,按平均分从大到小进行排序,挑选出学习成绩最好、最差的3
个同学。
(3求这5门课的平均成分和标准差。
(4将各门成绩按5级分类(优、良、中、及格和不及格贴标签,求其频数分布,查
看哪一分数段人最多。
(5将数学和物理成绩做一散点分布图。
(6将数据文件、输出结果和图形分别存盘保存。
试验二、单变量频率分配分析
试验目的:
通过上机试验,使学生掌握频率分配分析基本原理,熟悉频率分配分
析软件操作过程,能对软件输出结果进行分析。
实验题目:
某单位对100名健康女大学生测定了血清蛋白含量(serum,克/升如
下表所示。
试做单变量频率分配分析并作直方图。
74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.074.072.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.737.276.572.770.477.268.867.367.367.372.775.873.575.072.773.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4
实验分析:
频率分配表
FrequencyPercentValidPercentCumulativePercent
Valid65以下33.03.03.065-701313.013.016.0
70-754646.046.062.0
75-803131.031.093.0
80以上77.07.0100.0
Total100100.0100.0
从以上频数分布表中可以知道,100名健康女大学生血清蛋白含量在65克/升的占3%,65-70克/升的占13%,70-75克/升的占46%,75-80克/升的占31%,80克/升以上的占7%。
区间
5.0
4.0
3.0
2.0
1.0
5040302010
0Std.Dev=.88Mean=3.3
N=100.00
1、65克/升以下
2、65-70克/升
3、70-75克/升
4、75-80克/升
5、80克/升以上
从以上直方图可以看出100名健康女大学生血清蛋白含量基本上与正态曲线一致,这说明,健康女大学生血清蛋白含量基本合理。
试验三、T-TEST过程
试验目的:
通过上机试验,使学生掌握T-TEST过程基本原理,熟悉T-TEST过程
分析软件操作过程,能对软件输出结果进行分析。
实验题目:
10个病号每人都做了3种不同的减肥治疗。
下面的数据和命令用来表示体重减轻的变化情况(单位:
公斤/月。
ID(个案号T1(治疗1T2(治疗2T3(治疗3
01
1.351.271.33021.281.311.26031.40
2.052.01041.281.371.32051.361.271.3506.991.321.48071.651.581.73081.011.081.21091.151.181.6610
1.33
1.34
1.32
1、请用SPSS的T-TEST过程,检验治疗1于治疗3,治疗2于治疗3之间体重变化的“均值相等的原假设”。
2、创建一个新变量T,它等于治疗1于治疗3体重减轻之差,并使用Frequencies过程。
试比较1题与2题的结果。
计算变量T的均值、标准偏差和标准误差。
实验分析:
1、由于三种减肥治疗效果具有相关性,因此采用配对样本
T检验。
Analyze菜单中选择comparemeans,进而选择paired-samplesTtest。
分别将T1与T3同时选入pairedvariables栏,然后将T2与T3同时选入,确定。
得结果:
T-Test
表1
PairedSamplesStatistics1.280010.19408.061371.467010.25517.080691.377010.26940.085191.4670
10
.25517
.08069
治疗1治疗3Pair1治疗2治疗3
Pair2
MeanN
Std.Deviation
Std.ErrorMean
表2
PairedSamplesCorrelations
10.396.25710
.814
.004
治疗1&治疗3Pair1治疗2&治疗3
Pair2
N
Correlation
Sig.
表3
PairedSamplesTest-.1870.25202.07969-.3673-.0067-2.3469.044-.0900
.16035.05071
-.2047.0247
-1.7759
.110
治疗1-治疗3Pair1
治疗2-治疗3
Pair2MeanStd.Deviation
Std.ErrorMeanLowerUpper95%ConfidenceIntervaloftheDifferencePairedDifferences
tdfSig.(2-tailed
由表1可见,各类治疗方法减轻体重的平均数,标准差和标准误差。
可见治疗1的减肥效果比较稳定,治疗3次之,治疗2效果因个人身体状况不同差异较大。
由表2可见,治疗1与治疗3的相关性不明显(Sig值=0.257>0.05,未通过显著性检验,而治疗2与治疗3的效果比较相似,呈现较强的相关性(Sig值=0.004<0.05,通过显著性检验。
由表3可见,治疗1与治疗3的效果之间存在明显的差别,它通过了T检验(Sig值=
0.044<0.05,通过显著性检验,而治疗2与治疗3的效果比较相似,没有显著差别(Sig值=0.110>0.05,未通过显著性检验,可见与表2得出的结论一致。
2、通过transform中的compute菜单可计算得到新变量T,通过frequencies程序结果如下:
Statistics
T100-.1870.07969.25202
ValidMissing
N
Mean
Std.ErrorofMeanStd.Deviation
由上表可见新变量T的平均值为-0.187,标准误差为0.07969,标准差为0.25202。
与第一题的结果比较可见,T的均值、标准误差和标准差与第一题中的治疗1与治疗3配对T检验的结果一致,可见配对样本T检验的原假设是将两样本之差与0比较,H0:
X1-X2=0,H1:
X1-X2≠0,其中t=mean
ESmean
..。
练习题:
1、用大白鼠配成八对,每对分别喂以正常饲料和缺乏维生素E饲料,过一段时间,测得两组大白鼠肝中维生素A的含量如下:
大白鼠对号正常饲料组缺乏维生素E饲料组
123456783550
2000
3000
3950
3800
3750
3450
3050
2450
2400
1800
3200
3250
2700
2500
1750
试比较两组维生素A含量有无差别?
2、用某药物治疗不同病情的老年慢性支气管炎病人,疗效如下表。
某药疗效数据:
疗效单纯性单纯性合并肺气肿
控制6542
显效186
有效3023
无效1311
试比较两种病情的疗效?
试验四、聚类分析
试验目的:
通过上机试验,使学生掌握聚类分析的基本原理,熟悉快速聚类分析与分层聚类分析操作过程,能对软件输出结果进行分析。
实验题目1:
快速聚类分析
某集团公司为研究下属不同企业的经营特点,调查了20个企业的盈利能力、领导才干、组织文化和员工发展等4项指标(变量,将这20个企业按照各自的特点分成4种类型。
数据表:
实验分析:
ClusterMembership
A314.361
B211.785
C39.014
D27.993
E216.415
F19.718
G110.541
H215.366
I317.500
J24.082
K312.162
L313.769
M49.682
N49.682
O28.819
P314.361
Q112.693
R29.860
S213.540T
2
12.910
CaseNumber1234567891011121314151617181920
企业Cluster
Distance
FinalClusterCenters
78876388538362806381825867
78
77
63
盈利能力领导才干组织文化员工发展
1
234Cluster
DistancesbetweenFinalClusterCenters
37.66327.50029.09537.66332.89628.32127.50032.89641.783
29.095
28.321
41.783
Cluster1234
1234
NumberofCasesineachCluster3.0009.0006.0002.00020.000.000
1234
Cluster
ValidMissing
(1第一类的企业有F、G和Q,盈利能力比较强,其他方面相对较弱;
第二类的企业有B、D、E、H、J、O、R、S和T,各方面的能力比较平衡,综合能力强;
第三类的企业有A、C、I、K、L和P,组织文化和员工发展比较突出;
第四类的企业有M和N,盈利能力和领导才干比较强。
(2每一例的各案数(Numbersofcaseineachcluster,可见3例在第一类中,9例在第二类中,6例在第三类中,2例在第四类中。
(3最终聚类中心间的距离(distancesbetweenfinalclustercenters,即4种聚类中心两两间的欧氏距离。
第一类到第二类的距离是37.663,第一类到第三类的距离是27.500,第一类到第四类的距离是29.095,第二类到第三类的距离是32.896,第二类到第四类的距离是28.321,第三类到第四类的距离是41.783。
实验题目2:
分层聚类分析
为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家4项指标,原始数据见表1。
试用该数据对国别进行聚类分析。
国别森林面积
(万公顷森林覆盖率(%林木蓄积量
(亿立方米
草原面积
(万公顷
中国11978.0012.5093.5031908.00美国28446.0030.40202.0023754.00日本2501.0067.2024.8058.00
德国1028.0028.4014.00599.00英国210.008.601.501147.00法国1458.0026.7016.001288.00意大利635.0021.103.60514.00加拿大32613.0032.70192.802385.00澳大利亚10700.0013.9010.5045190.00前苏联92000.0041.10841.5037370.00捷克458.0035.808.90168.00波兰868.0027.8011.40405.00匈牙利161.0017.402.50129.00南斯拉夫929.0036.3011.40640.00罗马尼亚634.0026.7011.30447.00保加利亚385.0034.702.50200.00印度6748.0020.5029.001200.00印度尼西2180.0084.0033.701200.00尼日利亚1490.0016.10.802090.00墨西哥4850.0024.6032.607450.00巴西57500.0067.60238.0015900.00
实验分析:
由于是对个案聚类,采用R型聚类。
在数据编辑器中打开该数据文件,运行结果如下:
表1:
样本总体统计结果:
CaseProcessingSummary(a,b
Cases
ValidMissingTotal
NPercentNPercentNPercent
21100.00.021100.0
aSquaredEuclideanDistanceused
bAverageLinkage(BetweenGroups
表2:
聚结表
AgglomerationSchedule
Stag
eClusterCombinedCoefficient
s
StageCluster
FirstAppearsNextStage
Cluster
1Cluster
2
Cluster
1
Cluster
2
17154580.650006
211166395.170005
341411551.170004
441261130.68
5306
5111372812.905207
64
7114992.105417
7411410706.019659
8618532624.5800010
945871022.4757011
10619959232.1108011
11462810959.03091012
12343764010.61301113
13
31734176880.90
2
12014
14
32060118208.16
9
13018
15
19178051698.9
60
0018
16
28473998139.9
30
0017
17
221853922083.4
45
16019
18131542260836.151419
373
19
121829449692.
582
181720
20
1108299084550.
993
1900
表3:
冰柱图(省去
图4:
树状图
******HIERARCHICALCLUSTERANALYSIS******DendrogramusingAverageLinkage(BetweenGroups
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
意大利7⇩ø
罗马尼亚15⇩▫
德国4⇩▫
南斯拉夫14⇩▫
波兰12⇩▫
捷克11⇩▫
保加利亚16⇩▫
匈牙利13⇩▫
英国5⇩▫
法国6⇩▫
印度尼西18⇩▫
尼日利亚19⇩▫
日本3⇩⇳⇩⇩⇩⇩⇩⇩⇩ø
印度17⇩▫▫⇩ø
墨西哥20⇩÷⇔⇔
中国1⇩✗⇩⇩⇩⇩⇩⇩⇩÷
▫⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩ø
澳大利亚9⇩÷⇔⇔
美国2⇩⇩⇩✗⇩ø⇔⇔
加拿大8⇩⇩⇩÷▫⇩⇩⇩⇩⇩÷⇔
巴西21⇩⇩⇩⇩⇩÷⇔
前苏联10
⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩÷
试验五、因子分析
试验目的:
通过上机试验,使学生掌握因子分析的基本原理,熟悉因子分析操作
过程,能对软件输出结果进行分析。
实验题目:
选择10名游泳选手作为受试者,观察他们的气力、耐力、速度和协调
4方面,所得测验成绩如表5所示。
试分析这4项体能的共同因素。
表5
1(气力
2(耐力
3(速度
4(协调
12345678910
1199862512151
98111356711126
7115156944114
4134141198
5136
CorrelationMatrix
1.000.796.379.24
2.7961.000.561.311.379.5611.000.826.242
.311
.826
1.000
气力耐力速度协调
Correlation
气力耐力
速度
协调
KMOandBartlett'sTest
.52221.111
6.002
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
Approx.Chi-SquaredfSig.
Bartlett'sTestofSphericity
TotalVarianceExplained
2.56964.23264.2322.56964.23264.2321.83445.85745.8571.09227.30491.5351.09227.30491.535
1.82745.67991.535
.2375.92697.462.1022.538100.000
Compone
nt1234
Total%ofVarianceCumulat
ive%Total%ofVarianceCumulat
ive%Total%ofVarianceCumulat
ive%InitialEigenvalues
ExtractionSumsofSquared
LoadingsRotationSumsofSquared
LoadingsExtractionMethod:
PrincipalComponentAnalysis.
ScreePlot
ComponentNumber
4
3
2
1
Eigenvalue
3.0
2.5
2.0
1.5
1.0
.5
0.0
ComponentMatrixa
.750.582.838.450.870-.409.740
-.619
气力耐力速度协调
1
2ComponentExtractionMethod:
PrincipalComponentAnalysis.2componentsextracted.a.
RotatedComponentMatrixa
.942.116.912.272.328.904.088
.960
气力耐力速度协调
1
2ComponentExtractionMethod:
PrincipalComponentAnalysis.RotationMethod:
VarimaxwithKaiserNormalization.Rotationconvergedin3iterations.
a.
答:
对于10名游泳选手的因素:
“气力”,“耐力”,“速度”,“协调”,经过转轴后,可看出气力和耐力为一类,将其命名为“体能因子”,速度和协调为一类,将其命名为“致胜因子”,所以经过分析可以分为以上两个因子。
练习题:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计信息应用软件 统计 信息 应用软件 上机 试验 指导书 SPSS