数据统计与分析课后参考答案.docx
- 文档编号:12763031
- 上传时间:2023-04-22
- 格式:DOCX
- 页数:35
- 大小:211.55KB
数据统计与分析课后参考答案.docx
《数据统计与分析课后参考答案.docx》由会员分享,可在线阅读,更多相关《数据统计与分析课后参考答案.docx(35页珍藏版)》请在冰豆网上搜索。
数据统计与分析课后参考答案
附录2:
《数据统计与分析——SPSS应用教程》习题答案
本“习题答案”也适用于《统计分析应用教程—SPSS,LISREL&SAS实例精选》书中的习题。
习题1答案
1.
(1)答:
有错误,犯了水平互相嵌套的错误;如“每周去2次或2次以上”把第1组的编码嵌套进去了。
又比如:
“每周去3次或3次以上”又把第2组的编码嵌套进去了。
(2)答:
正确的编码方案如下:
1=每周去1次
2=每周去2次
3=每周去3次
4=每周去4次或4次以上
2.答:
该编码问题严重。
(1)80岁不能是缺失值,缺失值可用00岁。
(2)职业不编码不行,而必须编码为:
1=工人2=农民等等。
(3)职业变量用全称(Occupation)超出8个字符。
(4)而且栏目位置占1列即可。
(5)颜色的第1个字母作为变量值会引起重复,应该用单词的前3-4个字符。
(6)Color变量的栏目位置10被嵌套在“4-14”之内,这是严重的错误。
更正后的编码方案见图1-19:
Variable
Code
栏目位置
Age
00岁是MissingValue
1-2
Occupation
①职业应编码为:
1=工人2=农民
3=教师4=干部
5=医生6=其它
②职业变量要缩写,如Occu,然后用变量标签注解Occu为“职业”
3
Color
颜色用前三个字母作为变量值,比如:
blu=蓝色(blue)
bla=黑色(black)
4
图1-19纠错后的编码方案
3.
(1)答:
错。
错在变量名超过8个字符。
(2)答:
错。
错在变量名的首字符是数字领头。
(3)答:
错。
错在变量名中间冒出一个空格。
(4)答:
对,#号可以作为变量名。
但不提倡。
习题2答案
1.答:
合并后的大目标数据文件“BIGab.sav”中仍然有30个Cases、但每个Cases各有(50+30)=80个变量,即v1、v2、v3、v4……v50、x1、x2、x3、x4……x30。
2.答:
合并后的大目标数据文件“BIGab2.sav”中仍然是50个变量,即v1、v2、v3、v4……v50。
但是Cases数目增加为(20+30)=50个Cases。
3.答:
请读者照着书中的方法去使用对话框。
排序的命令如下:
SORTCASESBYxh(D)sex.
LISTxhsexscore。
4.答:
对话框的解法请按照书中介绍的去举一反三。
命令解法如下:
GETFile=’9293.sav’.
SELECTIF(location=2ANDsex=2).
SORTCasesBYxh(D)sex.
LISTxhsexscore.
5.答:
对话框的解法请按照书中介绍的去举一反三。
命令解法如下:
SAMPLE0.20.
LISTxh.
6.答:
对话框的解法请按照书中介绍的去举一反三。
命令解法如下:
N50.
LISTxh.
7.答:
对话框的解法请按照书中介绍的去举一反三。
命令解法如下:
WEIGHTBYlocation.
8.答案略。
9.答案略。
习题3答案
1.
(1)答:
DATALIST命令本身应有终止符“.”。
(2)答:
在DATALIST命令中,File所调用的数据文件名必须用一对左撇号括住。
正确的写法是:
DATALISTFile='Myf1.Dat'/v11-2v23.
(3)答:
栏目位置不够变量数目整除。
正确的写法是:
DATALIST/v1Tov1210-33.
(4)答:
数值标签要用一对左撇号括住,而且要加上命令的终止符“.”。
正确的写法是:
VALUELABELVf1'工人'2'农民'3'教师'4'医生'.
(5)答:
命令后面应有终止符“.”。
正确的写法是:
VALUELABELVf1'工人'2'农民'3'教师'4'医生'
5'干部'.
(6)答:
定义缺失值时只能根据变量的栏目位置赋予一个唯一的值。
正确的写法是:
MISSINGVALUEv1Tov100(-1).
或是:
MISSINGVALUEv1Tov100(0).
(7)答:
变量标签是唯一的;一个变量应该对应唯一的一个标签。
正确的写法是:
VARIABLELABELScore1'第一次考试的成绩'
/Score2'第二次考试的成绩'
/Score3'第三次考试的成绩
2.
(1)答:
此文件的前5个cases见表1-4。
表1-4文件的前5个cases
CASES
Id
age
Height
1
01
23
1.65
2
02
22
1.70
3
06
21
1.75
4
08
21
1.76
5
12
21
1.68
(2)答:
学号为01的学生有最多的Score1(高考得分)。
(3)答:
学号为12的学生家住农村。
(4)答:
在Vm变量中,有4个Cases的数据有效。
3.答:
至少有8处错误。
(1)A应改为(A)
(2)Haircolor超过8个字符,应改为Haircolr
(3)Weigh应改为WEIGHT
(4)VALUELABEL中的Eyecolr应改为Eyecolor
(5)VALUELABEL中的Haircolor应改为8个字符以内,如Haircolr
(6)MISSINGVALUE中的age(-1)应去掉,因为DataList中尚未定义age。
(7)正确的MISSINGVALUE语句应改为:
MISSINGVALUEHeightWeight(000).
(8)ListVariable语句应改为:
ListVariable=HeightToEyecolor.
4.答:
“05FLl”中的Ll为字母(型),犯了类型不匹配的错误。
正确的写法是:
05F00
5.答:
总体(population)是样本测量值的集合。
对于感兴趣的整个组中,每个成员都对应一个这样的值。
具体说来是某省的人口(总体)或工业产值(总体)中的某个指标测量值的集合,而不是那些人或物的集合。
样本(sample)虽然也是一些值的集合,但不代表整个感兴趣的组。
比如,一个样本可以是某省中某县的人口的集合或某县工业产值的集合。
6.答:
由于总体与样本的不同,由此派生出参数与统计量的差别。
(1)参数:
参数(parameters)是总体的测量值,用希腊字母表示。
(2)统计量:
统计量(statistics)则是样本的测量值,用一般的英文字母表示(见本章内容)。
7.答:
(1)均值:
用以描述数据(值)分布的中心位置。
定距以上的数据计算均值才有意义。
比如,对于一个总体(某省)的人口,其平均值被称为总体均值(populationgmean),记为μ。
对于某样本(某县)的人口,其平均人口则被称为样本均值(sampleaverage)。
总体均值和样本均值的计算公式是相同的。
但是其他测量值不一定相同。
此外,还有方差、标准偏差等概念。
(2)标准偏差:
也被称为标准差。
表示某人的身高或收入等测量值偏离均值多少。
比如甲班语文成绩的标准偏差为20,乙班语文成绩的标准偏差为30,那么,乙班语文成绩比甲班的语文成绩变化(波动)大。
(3)方差:
标准偏差的平方则是方差。
方差表示数据内部的变异性。
8.答:
统计学上,一般都是假设被统计的样本是来自正态分布(Normaldistribution)的总体。
正态分布是关于总体的一种理论分布,是有严格的数学定义的。
从正态分布的总体中抽取的样本一般是服从正态分布的。
正态分布的重要特征如下:
(1)均值:
均值是观察值的平均值(Meanvalue)。
区间(Interval)型以上变量值的均值才有意义。
(2)众数:
众数是最经常发生的频次。
众数是对定类变量(Nominal)而言的。
比如某班有男生25名、女生15名,那么,该班男生的人数是众数。
(3)中位数:
中位数是对次序(Ordinal)变量值而言的。
中位数是比取值的一半大、同时又比取值的一半小的值。
或者说,中位数的一半落在均值之上,同时,另一半则落在均值之下。
中位数的取值方法有两种:
单数情况下的观察值的中位数;双数情况下的观察值的中位数。
(4)正态分布的均值、众数、中位数重叠:
将正态分布的图形沿着中心位置对半折叠时,均值、众数、中位数三者重叠在一起。
9.有哪些经验规则?
答:
如果数据来自服从正态分布的总体,可用下面的经验规则很快地概括出我们的数据。
经验规则如下:
·68%的观察值是落在离均值一个标准偏差(1σ)的范围内。
·95%的观察值是落在离均值两个标准偏差(2σ)的范围内。
·99%的观察值是落在离均值三个标准偏差(3σ)的范围内。
习题4答案
下面是RECODE习题。
1.答:
命令格式如下:
RECODEv1,v2(原值1=新值1)(原值2=新值2)......(原值m=新值m)
例如:
RECODEage(0thru30=1)(30thru60=2)(60thru90=3)(90thruhi=4).
2.答:
命令中允许使用的关键词如下:
LO(或LOWEST)、HI(或HIGHEST)、THRU、MISSING、ELSE、SYSMIS
3.
(1)答:
语法正确,但结果不太理想。
因为结果只剩下0和2两组。
(2)答:
语法正确,但结果不太理想。
原因同上。
4.答:
用“/”分隔。
例如:
RECODEGage(1,2=1)(3,4=2)/sex(1=1)(2=0).
5.答:
对。
因为将变量A由原来的4组合并为两组。
6.
(1)答:
对。
这是端点连接法。
(2)答:
对。
符合语法规则,但是会漏掉各组的端点值。
(3)答:
对。
符合语法规则。
但结果只剩下100卡以内的一组数据。
7.RECODEage(MISSING=00).
MISSINGVALUEage(-1).(进一步将系统缺失值“-1”改为用户缺失值)
8.答:
RECODEINCOME(LOTHRU5000=1)(5000THRUHI=2).
9.答:
RECODEsex(’F’=’B’)(’M’=’A’).
10.答:
有以下4个变换命令。
RECODEsex(1=1)(2=0).
COMPUTEGage=age.
COUNTFM=F
(1)M
(2).
IF(sex=2ANDlocation=2)GROUP=2.
下面是Compute习题
11.答:
COMPUTEscore=S1/S2*100.
COMPUTEX=ABS(-7.8).
12.答:
见第4章。
13.
(1)答:
Y1=7.8
(2)答:
Y2=-16
(3)答:
Y3=25
(4)答:
Y4=-1
(5)答:
A=10
(6)答:
B=0.79
(7)答:
C=2.2
(8)答:
D=2
(9)答:
E=2.72
(10)答:
F=0
下面是COUNT习题
14.
(1)答:
真
(2)答:
真
(3)答:
假
15.
(1)答:
真
(2)答:
真
习题5答案
下面是FREQUENCIES习题答案。
1.
(1)答:
众数
(2)答:
众数
(3)答:
均值
(4)答:
均值
(5)答:
众数
(6)答:
均值
(7)答:
均值
2.
(1)答:
真
(2)答:
真
(3)答:
假
(4)答:
假
(5)答:
真
3.答:
已填补的频次见图5-24中打#标记的数据。
图5-24择偶标准的频率表
4.
(1)答:
画出的book变量的频率表见图5-25。
图5-25book变量的频率表
(2)答:
用直方图为宜。
因为直方图可画出空缺的位置,便于一目了然地看出缺的是何种数据。
(3)答:
直方图与条形图的主要区别见表5-1。
表5-1直方图与条形图的主要区别
直方图
条形图
①适用于区间(定距)以上的数据,如:
收入、年龄、工资、体重等。
适用于标称(定类)型以上的数据。
如:
性别、肤色、种族、国别等。
②以图形的面积为频次
以图形的条形为频次
③变量的某种水平空缺时仍留空位置
变量的某种水平空缺时,不留空位
下面是Descriptive习题答案。
5.
(1)答:
Computepct=income1/income2*100.
(2)答:
COMPUTEsqrt1=SQRT(x**2).
或COMPUTEsqrt1=SQRT(x*x).
(3)答:
计算变量s的命令为:
COMPUTEs=SQRT(a*a+b*b)*4.
(4)答:
COMPUTEmax1=MAX(a,b,c).
6.
(1)答:
结果为13
(2)答:
结果为19
(3)答:
结果为15
(4)答:
结果为11
(5)答:
结果为13
7.
(1)答:
结果为2
(2)答:
结果为9
(3)答:
结果为3
(4)答:
结果为8
(5)答:
结果为4
8.
(1)答:
其范围为:
30岁以下的归入第1组,“30.5”岁以上的归入第2组。
(2)答:
其范围为:
20岁以下的归入第1组,“20.5”岁以上的归入第2组。
(3)答:
其范围为:
8-10岁的归入第1组,18-20岁的归入第2组,其余的忽略不计。
(4)答:
其范围为:
18岁以下的归入第1组,18岁-30岁的归入第2组,“30.5”岁~45岁的归入第3组,“45.5”岁以上的归入第4组。
(5)答:
其范围为:
45岁以下的归入第1组,“45.5”岁以上的归入第2组。
(6)答:
其范围为:
40岁~45岁的归入第1组,“45.5”岁以上的不分组。
9.
(1)答:
无意义
(2)答:
有意义
(3)答:
排序后有意义
10.
(1)答:
无意义
(2)答:
有意义
(3)答:
无意义
11.
(1)标称测量
(2)比例测量
(3)次序测量
(4)比例测量
(5)区间测量
(6)标称测量
12.答:
中位数=(355+1)/2=178,即第178个个案为中位数。
13.
(1)答:
能。
因为服从正态分布,其均值、中位数、众数均为0.09
(2)答:
能。
因为服从正态分布,其均值、中位数、众数均为0.09
(3)答:
能。
因为其方差等于标准偏差0.12的平方
(4)答:
不能。
因为服从正态分布,其峰态系数为0
14.答:
需要。
因为标准值的均值应是0。
15.答:
其含义是女性占了80%。
16.
(1)答:
假
(2)答:
有可能,但不一定。
17.答:
如果我是该公司的经理,我将用均值统计量描述高支付水平。
因为该数据的离散性显著,只有采用均值统计量,才能描述高支付水平。
答:
如果我是该公司的雇员,我将用中位数(或众数)描述低支付水平。
因为该数据虽然离散性显著,但绝大多数人集中在低收入范畴,采用中位数(或众数)统计量,能描述实际低支付水平。
18.答:
填补后的结果见表5-3。
表5-3填补空缺值后的表格
Mean1.70
Variance0.1236
StdDev1.06
Maximum4
Minimum0
Mode2
Median2
Range4
19.答:
填补后的结果见表5-5。
表5-5填补标准值Z后的表格
Student
Student
StandardScore(Z)
1
75
-0.5
2
85
0.5
3
80
0
20.解:
Mean=60Range=60Minimum=30Maximum=90均不变。
只是N=99+1=100(人)。
21.解答:
略。
习题6答案
1.答:
有4名学生月伙食费漏答(0元,被当作极小值)。
有19名学生月伙食费在500元以上,这些是极大值。
学生月伙食费100元的有5人,120元的有2人。
其余照此分析。
其中,&表示只列出部分的值。
2.答:
占半数学生的家中,兄弟姐妹有1~2人,中位数偏向均值之下。
极大值1人,界外值1人。
3.答:
因为Sig值0.25>α值0.05,所以没有理由拒绝原假设。
说明方差相同。
方差相同时数据可以不转换。
又因为斜率=-2.286,查表6-1知,该数据可以不转换。
4.答案见书。
习题7答案
1.答:
该程序运行之后,输出见图7-20。
图7-20Crosstabs表格(已填充)
2.
(1)答:
正确。
因为不带选项是允许的。
(2)答:
错误。
因为WITH关键词在此是非法的,可改为:
CROSSTABShappyBYmaritalBYsex.
3.答:
没有单个的测量值(即统计量)能概括所有可能的结合测量,如标称测量的统计量LAMBDA虽好,却也不能用于次序数据的测量中。
余者类推。
4.
(1)答:
见正文的图7-21,如果性别与地区是互为独立的两个变量,则观察图7-21各单元中的第2行频次。
例如(1,1)单元中的行百分比为50.0%,(2,1)单元中的行百分比为60.0%等。
(2)答:
这个交叉表的自由度为:
DF=(行-1)*(列-1)=(2-1)*(2-1)=1
(3)答:
独立性卡方检验的卡方值为0.166,详见图7-22。
图7-22皮尔逊独立性卡方检验
5.
(1)答:
编码方案见表7-2(供参考):
表7-2编码方案
变量名
变量标签
变量类型
栏位
数据(变量值)编码
Id
个案号
数值型
1-2
Sex
性别
数值型
3
1=男
2=女
Age
年龄
数值型
4-8
比例测量(RatioMeasure)
Dq
家庭住址
数值型
9
1=城市
2=农村
Height
学生身高
数值型
10-12
比例测量(RatioMeasure)
Weight
学生体重
数值型
13-16
比例测量(RatioMeasure)
score1
高考得分
数值型
17-19
比例测量(RatioMeasure)
score2
高考满分
数值型
20-22
比例测量(RatioMeasure)
Mz
民族
数值型
23
1=汉族2=回族3=朝鲜族
4=满族5=苗族6=藏族
(2)答:
根据
(1)的编码方案,可建立以下的程序7.5。
程序7.5:
DATALIST/ID1-2sex3age4-8dq9height10-12
(1)
weight13-16
(1)score117-19score220-22mz23.
VARIABLELABELid'个案号'/sex'性别'/age'年龄'
/dq'家庭住址'/height'学生身高'
/weight'学生体重'/score1'高考得分'
/score2'高考满分'/mz'民族'.
VALUELABELsex1'男'2'女'
/dq1'城市'2'农村'
/mz1'汉族'2'回族'3'朝鲜'
4'满族'5'苗族'6'藏族'.
MISSINGVALUEsex(9)age(00000)mz(0)WEIGHT(0000)
heightscore1score2(000).
BEGINDATA.
01120.00116912005026401
02121.50217112004976401
03220.75116611007779002
04119.25117613007709002
05222.00116009805256403
06119.50217311155276401
07222.25115809054926004
08220.25116010354946005
09123.00217513556087201
10119.75117012802654006
ENDDATA.
SAVEOUTFile='Score.sav'.
6.答:
COMPUTEscore=score1/score2*100.
7.答:
以下是所要求的命令。
程序7.6:
COMPUTEgscore=score.
RECODEgscore(LOTHRU70=1)(70THRU75=2)
(75THRU80=3)(80THRU85=4)(85THRUHI=5).
CROSSTABSageBYscore/FORMAT=NOTABLE
/STATISTICS=CHISQCORR.
CROSSTABSageBYgscore/CELL=ROWColumnTotalCount
/STATISTICS=CHISQLAMBDA.
评价(略)。
习题8答案
下面是MEANS过程的习题答案。
1.答:
其命令为MEANSscoreBYvfBYlocation/MISSING=DEPENDENT.
2.
(1)答:
表达式有误。
正确的写法是:
IF(vfEQ1ORvf=2ORvf=6)GROUP=1.
(2)答:
表达式有误。
正确的写法是:
IF(location=1ANDsex=1)GROUP=1.
(3)答:
表达式有误。
正确的写法是:
IF(ageGE20ANDageLE23)GROUP=1.
3.
(1)答:
Means
(2)答:
Crosstabs
(3)答:
Frequences
(4)答:
Means
(5)答:
Crosstabs
4.答:
这个高考平均成绩的概括表如图8-24所示。
图8-24按城乡考生分组,并进一步按父亲职业分组的高考平均成绩
下面是T-Test习题答案。
5.
(1)答:
jobcat≥8的为第1组,jobcat<8的为第2组。
(2)答:
jobcat=1的为第1组,jobcat=3的为第2组。
(3)答:
jobcat=1的为第1组,jobcat=2的为第2组。
6.
(1)答:
错误。
错在缺少命令的终止符"."。
正确的写法是:
T-TESTGROUP=sex/VARIABLES=score/PAIRS=income1income2.
(2)答:
错误。
错在子命令PAIRS与GROUPS的位置颠倒了。
正确的写法是:
T-TESTGROUP=sex/VARIABLES=score/PAIRS=income1income2.
(3)答:
错误。
子命令PAIRS后面少了一个变量INCOME2,正确的写法是:
T-TESTPAIRS=income1income2.
(4)答:
正确。
(5)答:
错误。
错在括号内多了一个值。
正确的写法是:
T-TESTGROUPS=jobcat(1,2)/var=Score.
或T-TESTGROUPS=jobcat(1,3)/var=Score.
或T-TESTGROUPS=j
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计 分析 课后 参考答案