完整word版统计分析软件应用题库 12311.docx
- 文档编号:26795859
- 上传时间:2023-06-22
- 格式:DOCX
- 页数:18
- 大小:62.32KB
完整word版统计分析软件应用题库 12311.docx
《完整word版统计分析软件应用题库 12311.docx》由会员分享,可在线阅读,更多相关《完整word版统计分析软件应用题库 12311.docx(18页珍藏版)》请在冰豆网上搜索。
完整word版统计分析软件应用题库12311
统计分析软件应用
一、判断题
1.Spss可以读取excle格式的数据文件和文本文件。
2.当我们新建一个SPSS数据文件时,首先应在数据编辑器窗口中的数据视图中输入个案,然后再在变量视图中定义变量。
3.Spss允许同时创建或打开多个查看器窗口。
4.Spss两配对样本T检验中,两配对样本数据存放在同一个变量列上。
5.如果把“年龄”变量的缺失值指定为“99”,则如果某个被调查者的年龄回答为“300”,则就用
99岁来代替。
6.Spss两独立样本T检验中,两个样本的样本容量是必须相同的。
7.如果一次随机抽样问卷调查共收回1000份问卷,两个同学建立SPSS数据文件各完成了500份问卷的
录入工作,为便于对这次抽样调查结果进行统计分析,首先应该将两个数据文件进行横向合并。
8.Spss文件的变量名的首字符可以是汉字、字母和数字。
9.当变量分布不对称时,偏度值小于0为负偏,密度函数曲线有一条长尾拖在右边。
10.
-3,可认为
假设某数值变量服从正态分布,将其进行标准化处理后,如果某观测值标准化值小于是异常值。
11.对于所选答案不需要排序的多项选择题可采用多选项分类法进行分解
12.对多项选择题进行频数分析的SPSS操作步骤是:
【分析】T【描述统计】T【频率】
13方差分析中,控制变量应为分类型变量。
14.
0时,说明两变量没有相关关系。
F检验和对回归系数的T检验的作用是相同的。
pearson简单相关系数r的绝对值接近
15.在一元线性回归分析中,对回归方程的
二、案例分析题
15名工人,调查他们在工艺改进前后生产100件产品的时间,
1.某工厂改进了技术,调查者随机抽取了数据如下表,试在5%显著性水平下,检验零件加工时间是否显著减少?
改进前
改进后
70
48
76
54
58
60
63
64
63
48
56
55
58
54
60
45
65
51
65
48
75
56
66
48
56
64
59
50
70
54
64
53
以下是用spsS成对样本T检验的输出结果,请填写表中的空格,并根据输出结果回答零件加工时间是否显著减少。
程對差異數
T
df
显著性(双尾)
平均數
標準偏
差
標準錯
誤平均
值
95%差異數的信賴區
間
下限
上限
對組1改进前-改进
后
10.733
9.573
2.472
5.432
16.035
.001
2.现有甲乙丙三个工厂分别生产某种电池,现在从每个厂家生产的电池中各抽取
12个检验其寿命,在5%的
显著性水平下,检验三个厂家的电池寿命是否具有显著差异。
以下是spss方差分析的输出结果:
變異數同質性測試
电池寿命
Levene統計資
料
df1
df2
顯著性
.390
2
33
1.680
變異數分析
电池寿命
平方和
df
平均值平方
F
顯著性
群組之間
1007.056
2
.000
在群組內
428.583
12.987
總計
1435.639
35
多重比較
LSD
因變數:
电池寿命
⑴企业
(J)企业
平均差異(I-J)
標準錯誤
顯著性
95%信賴區間
下限
上限
1
2
10.917*
1.471
.000
7.92
13.91,
3
-.583
1.471
.694
-3.58
2.41
2
1
-10.917*
1.471
.000
-13.91
-7.92
3
-11.500*
1.471
.000
-14.49
-8.51
3
1
.583
1.471
.694
-2.41
3.58
2
11.500*
1.471
.000
8.51
14.49
*.平均值差異在0.05層級顯著。
要求填写表中空格,并根据以上输出结果回答
三个厂家生产的电池寿命是否满足方差齐性的假设,为什么?
三个厂家生产的电池使用寿命是否存在显著差异,为什么
对多重比较的结果进行分析说明。
3、为了研究某健身器材三个品牌(AB、C)需求,商场对消费了该健身器材的顾客进行了随机抽样调查。
调查结果的频数分析结果如下:
表1统计量
N有效
338
缺失
0
均值
2.2811
方差
0.672
偏度
-0.560
偏度的标准误
0.133
峰度
-1.287
峰度的标准误
0.265
百分位数25
2.0000
50
3.0000
75
3.0000
购买品牌
请根据频数分析结果回答:
(1)该样本有无缺失值?
(2)该样本的中位数为多少?
(3)
该样本的分布形态如何?
(分别描述分布的对称性、陡缓程度)
表2学历
频率
百分比
有效百分比
累积百分比
有效小学或以下
20
1.8
1.8
1.8
中学或中专
723
65.1
65.1
66.9
大专
230
20.7
20.7
87.6
本科
118
10.6
10.6
98.2
硕士或以上
20
1.8
1.8
100.0
合计
1111
100.0
100.0
请根据频数分析结果,绘制频数分析的条形图。
Z月信用卡消费为标准
5、现对每月信用卡消费(元)做描述分析,并通过标准化过程,寻找异常值。
其中化的数据。
表3月信用卡消费的描述分析
月信用卡消费(元)
Z月信用卡消费
6661.7
-0.26141
16762.4
0.20209
7752.6
-0.21135
4987.2
-0.33825
5849.2
-0.29869
11923.4
-0.01996
10.2
-0.56663
4246.8
-0.37222
8544.1
-0.17503
89975.8
3.56165
5521.8
-0.31371
5741.9
-0.30361
5698.3
-0.30562
6841.7
-0.25315
4859.2
-0.34412
根据描述分析结果回答:
(1)请写出数据标准化的数字定义式:
Z=
(2)该样本中是否有异常值?
哪个是异常值,为什么?
【参考答案】
(1)
(2)有异常值,为89975.8。
因为如果标准化值的绝对值大于3,根据统计学经典歹准则,为异常值。
89975.8的标准化值为3.56165,大于3,因此为异常值。
表4单个样本统计量
6、为了研究某公司内30个员工的月基本工资,收集了30个员工的月基本工资数据,并进行了单样本T
检验。
表4为单个样本统计量,表5为单个样本的检验。
1N
均值
标准差
均值的标准误
月基本工资130
6029.0000
1404.55257
256.43504
表5单个样本检验
检验值=4500
t
df
Sig.(双侧)
均值差值
差分的95%置信区间
下限
上限
月基本工资
5.963
29
0.000
1529.00000
1004.5314
2053.4686
请根据单样本T检验的相关知识回答:
(1)该检验中,原假设丹0是什么?
(2)该检验是拒绝原假设还是不拒绝原假设?
为什么?
7、为了研究高校每年投入高级职称的人员数和每年发表的论文数的关系,做了如下相关分析。
13JCCD-
Tcasfl-
HJCCO-
tOOCD-
4«co-
4DIDCD
XCC-JQ
表相关性
投入高级职称的
人年数
论文数
投入高级职称的人员数
Pearson相关性
1
0.953**
显著性(双侧)
0.000
N
31
31
论文数
Pearson相关性
0.953**
1
显著性(双侧)
0.000
N
31
31
**.在.01水平(双侧)上显著相关。
请根据相关分析结果回答:
(1)在相关分析中,图1的名称叫什么?
它有什么作用?
(2)该分析使用的是哪种相关系数?
高校每年投入高级职称的人员数和每年发表的论文数的相关系数为多少?
【参考答案】
(1)散点图。
散点图是相关分析过程中极为常用的直观分析方式,能够直观发现变量间的统计关系以及强弱程度。
(2)使用的是Pearson相关系数。
相关系数为0.953。
24头家畜(猪)分别进行了3种饲料的喂养。
8为了测量不同种类的饲料对家畜(猪)的体重影响,对
表6ANOVA
喂养后体重增加
平方和
df
均方
F
显著性
组间
①
2
658.792
⑤
0.000
组内
②
③
④
总数
2555.958
23
请根据以上信息回答:
(1)该分析运用的哪种分析方法?
(2)请完善表中空格部分的数据。
(需列出具体计算步骤)
(3)若给定显著性水平a=O・OS,通过该分析,不同饲料对家畜(猪)的体重增加影响大吗?
为什么?
【参考答案】
(1)方差分析(或单因素方差分析)
(2)需列出具体计算步骤:
①=1317.583:
②=1238.375:
③=21;④=58.970:
⑤=11.172
(3)该分析认为,不同饲料对家畜的体重增加影响大。
原因:
该方差分析的P值为0.000,小于显著性水平a=0.05,因此拒绝原假设(原假设为:
不同饲料对家畜(猪)的体重增加没有影响)
SPSS软
9、为了研究农业劳动者人数与粮食总产量的关系,建立了一元线性回归方程模型。
相关数据经过件分析得出以下结果:
表7模型汇总
模型
R
R方
调整R方
标准估计的误差
1
a
0.954
①
0.908
2350.34682
a.预测变量:
(常量),农业劳动者人数(百万人)。
表8Anovab
a.预测变量:
(常量),农业劳动者人数(百万人)。
b.因变量:
粮食总产量(y万吨)
表9系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
-9662.737
1908.102
-5.064
0.000
农业劳动者人数(百万人)
129.257
7.033
0.954
18.378
0.000
表7模型汇总
模型1
R
R方
调整R方
标准估计的误差
1
0.954a
①
0.908
2350.34682
a.因变量:
粮食总产量(y万吨)
请根据一元线性回归模型的结果分析:
(1)请计算并填写空白处的数据。
(需列出具体计算步骤)
(2)请写出一元线性回归方程模型,并解释回归系数的意义。
(3)R方(尺2)是什么?
它的表达式是什么?
为什么它能代表回归方程的拟合优度?
(4)在显著性水平=下,检验回归系数是否显著。
(5)在显著性水平«=0.OS下,检验线性回归方程是否显著。
【参考答案】
(1)①=0.911;②=1;③=2.048X10”:
④=5524130.166:
⑤=337.749
(2)y=196&2.737+129'.+。
回归系数129.257的意义是,表示每增加1百万人的农
129.257吨。
业劳动者人数,粮食总产量增加
(3)RZ是判定系数,表达式为
*2能体现回归方程所能解释的变差比例,因
(答对等式其中一个表达都得分)。
从其表达式上看,由于此其值可以代表回归方程的拟合优度。
^‘越接近于1,表示拟合效果越好。
(4)在显著性水平ar=O.OS下,回归系数的显著性检验P值为o.ooovfl=0.QS,因此拒绝原假设(原假设为=O),回归系数显著。
(5)在显著性水平a=i).os下,线性回归方程的显著性检验P值为0.000<氐=0-05,因此拒绝原假设(原假设为=O),线性回归方程显著。
10、三代同堂的家庭中,婆婆与儿媳妇关系紧张的现象并不少见,为了解住房条件对婆媳关系的影响,对600户家庭进行了调查并进行了列联分析,结果如下表所示。
VAR00001*VAR00002交叉制表
VAR00002
合计
1.00
2.00
3.00
VAR00001
1.00
计数
62
78
55
195
期望的计数
48.8
68.3
78.0
195.0
总数的%
10.3%
13.0%
9.2%
32.5%
2.00
计数
45
87
63
195
期望的计数
48.8
68.3
78.0
195.0
总数的%
7.5%
14.5%
10.5%
32.5%
3.00
计数
43
45
122
210
期望的计数
52.5
73.5
84.0
210.0
总数的%
7.2%
7.5%
20.3%
35.0%
合计
计数
150
210
240
600
期望的计数
150.0
210.0
240.0
600.0
总数的%
25.0%
35.0%
40.0%
100.0%
卡方检验
值
df
渐进Sig.(
侧)
双
Pearson卡方
50.061a
4
.000
似然比
50.073
4
.000
线性和线性组合
27.579
1
.000
有效案例中的N
600
a.0单元格(.0%)的期望计数少于5。
最小期望计数为48.75。
问:
(1)写出卡方检验的统计量并说明其构造基本原理。
(2)说明婆媳关系与住房条件有无联系。
11.
根据结果分析
下面的表格是对某班某次考试男生和女生课程平均分是否存在显著差异的软件分析结果,男生和女生的平均分是否有显著差异,写出分析步骤。
组统计量
sex
N
均值
标准差
均值的标准误
female
30
67.5208
9.08385
1.65848
male
30
68.9229
9.85179
1.79868
独立样本检验
方差方程的
Levene检验
均值方程的t检验
F
Sig.
t
df
Sig.(双
侧)
均值差
值
标准误差
值
差分的95%置信
区间
下限
上限
averag假设方差相
.257
.614
-.573
58
.569
-1.402
2.44659
-6.299
3.4953
e等
08
47
0
假设方差不
-.573
57.622
.569
-1.402
2.44659
-6.300
3.4959
相等
08
15
8
答:
可以看出男生和女生成绩平均差为1.4021在置信区间内sig值为0.307>0.05所以不能拒绝原假设(原
假设u-u0=0即男生和女生成绩的平均分不存在显著差异)即认为男生和女生的平均成绩不存在显著差异。
SPSS
12、现对收集到的某地区若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,利用
软件的回归分析功能分析了影响粮食总产量的主要因素,部分结果见下表。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
-25172.108
5793.953
-4.345
.000
总播种面积(万公顷)
2.337
.376
.134
6.215
.000
施用化肥量(kg/公顷)
132.028
11.386
.707
11.595
.000
风灾面积比例(%)
-230.751
44.888
-.131
-5.141
.000
农业劳动者人数(百万人)
48.358
7.719
.357
6.265
.000
a.因变量:
粮食总产量(y万吨)
试写出回归方程的具体形式,并对此表格所展现的结果进行进一步的分析。
答:
回归方程:
Y=-25172.108+2.337*总播种面积+132.028*施用化肥量-230.751*风灾面积比例+48.358*农业劳动者人数影响粮食产量的主要因素:
总播种面积,施用化肥量,分在面积比例和农业劳动者人数四个因素采用的
是向后删除策略,但是最终的结果存在这四个变量可以认为这四个因素都是主要影响粮食产量的因素。
三、简答题
1、在定义SPSS数据结构时,默认变量名和变量类型是什么?
如果希望增强统计分析的可读性,还需要对数据结构的那些方面进行必要的说明?
2、请简述交叉列联表卡方检验的步骤。
答:
第一步,建立原假设,列联表分析中卡方检验的原假设是:
行变量与列变量独立。
第二步,计算检验统计量。
列联表分析中卡方检验的检验统计量是Pearson卡方统计量。
第三步,确定显著性水平和临界值。
第四步,得出结论和决策。
3、请简述多选项问题分解常见的两种方法。
答:
多选项二分法,多选项分类法。
多选项二分法是将多选项问题中的每个答案设为一个SPSS变量,每个变量只有0和1两个取值,分
别表示选择该答案和不选择该答案。
SPSS
多选项分类法中,首先估计多选项问题最多可能出现的答案个数,然后,为每个答案设置一个变量,变量取值为多选项问题中的可选答案。
4、请简述两独立样本t检验的目的及基本步骤。
答:
两独立样本t检验的目的是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。
基本步骤为:
第一步,提出原假设;第二步,选择检验统计量;第三步,计算检验统计量的观测值和概率P值;第四步,给定显著性水平a,并作出决策。
5、简述事物之间的函数关系与统计关系的异同。
x取一定值时,另一变量
答:
所谓函数关系指的是两事物之间的一种一一对应的关系,即当一个变量y可以依确定的函数取唯一确定的值。
统计关系指的是两事物之间的一种非一一对应的关系,即当一个变量x取一定值时,另一变量y无法依确定的函数取唯一确定的值。
6、简述利用样本数据获得回归线的函数拟合方法。
答:
首先,通过散点图观察变量之间的统计关系,得到对回归线形状的直观认知,并确定一个能够反映和拟合这种认知且最简洁的数学函数,即回归模型。
其次,利用样本数据在一定的统计拟合准则下,估计出回归模型中的各个参数,得到一个确定的回归方程。
最后,回归方程中的参数是在样本数据的基础上得到的。
由于抽样随机性的存在,估计出的回归方程未必是事物总体间数量关系的真实体现,因此需要对回归方程进行各种检验,判断该方程是否真实地反映了事物总体间的统计关系,能否用于预测,并最终得到由回归方程确定的回归近似线。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整word版统计分析软件应用题库 12311 完整 word 统计分析 软件 应用 题库