《统计学》解答修改版.docx
- 文档编号:24186916
- 上传时间:2023-05-25
- 格式:DOCX
- 页数:30
- 大小:35.18KB
《统计学》解答修改版.docx
《《统计学》解答修改版.docx》由会员分享,可在线阅读,更多相关《《统计学》解答修改版.docx(30页珍藏版)》请在冰豆网上搜索。
《统计学》解答修改版
第一章绪论
思考题
1.什么是统计学?
请简要说明一下它的发展过程。
统计学是关于数据搜集、整理、归纳、分析的方法论科学。
统计学的发展主要经历了三个阶段:
(1)17世纪中叶至18世纪,统计学的产生和形成阶段;
(2)18世纪末至20世纪中叶,统计推断方法和理论体系确立的阶段;
(3)20世纪50年代以来,统计理论、方法和应用进入了一个全面发展的阶段。
2.统计学、统计数据,以及统计活动之间有什么关系?
统计活动直接影响统计数据的数量和质量;统计学是统计实践活动的理论概括,同时,它又用理论和方法研究分析统计实践活动,统计学和统计活动是理论与实践的关系。
3.统计学的研究方法有哪些,它们有怎样的关系?
并举例说明。
主要方法有两个:
(1)描述统计:
搜集由试验或调查所获得的资料,进行整理、归类,计算出各种用于说明总体数量特征的数据,并运用图形或表格的形式将它们显示出来。
(2)推断统计:
指利用概率论的理论,根据试验或调查获得的样本信息科学地推断总体的数量特征。
关系:
描述统计和推断统计都是统计方法的两个组成部分,前者是统计学的基础,后者是现代统计学的主要内容。
由于现实问题中,要获得总体数据存在很大的难度,能够获得的数据多为样本数据,因此,推断统计在现代统计学中的地位和作用越来越重要,它已成为统计学的核心内容.当然,描述统计的重要性不可忽略,通过它得到可靠的统计数据并为后面的推断统计提供有效的样本信息,只有这样,才可以运用推断统计方法得出符合实际情况的结论。
4.简要说明总体、样本、变量的概念.
总体:
根据一定的目的确定的所要研究对象的全体,它是统计问题最基本的要素;
样本:
从总体中随机抽取的若干单位构成的集合体,它是统计问题的第二要素;
变量:
可变的数量;变量的具体表现,即可变数量的不同取值,称为变量值。
5.简述SPSS统计软件的特点和应用领域。
(1)特点:
第一,工作界面友好完善、布局合理、操作简便,大部分统计分析过程可以借助鼠标,通过菜单命令的选择、对话框参数设置、点击功能按钮来完成,不需要用户记忆大量的操作命令。
菜单分类合理,并且可以灵活编辑菜单以及设置工具栏.
第二,具有完善的数据转换接口,可以方便地和Windows其他应用程序进行数据共享和交换。
可以读取Excel、FoxPro、Lotus等电子表格和数据库软件产生的数据文件,可以读取ASCII数据文件。
第三,提供强大的程序编辑能力和二次开发能力,方便高级用户完成更为复杂的统计分析任务的需要,具有丰富的内部函数和统计功能。
第四,附带丰富的数据资料实例和完善的使用指南,为用户学习掌握软件的使用方法提供更多的方便。
软件启动后,用户可直接上网访问SPSS公司主页获得更多的帮助和信息。
(2)应用领域:
社会科学、自然科学、经济管理、商业金融、医疗卫生、体育运动等.
6.SPSS软件的数据编辑器包括哪些内容?
(1)标题栏,显示当前工作文件名称。
(2)主菜单栏,排列SPSS的所有菜单命令。
(3)工具栏,排列系统默认的标准工具图标按钮,此栏图标按钮可以通过单击View菜单的Toolbars命令选择隐藏、显示或更改。
(4)状态栏,状态栏位于SPSS窗口底部,它反映了工作状态。
当用户将光标置于不同的区域时或者进行不同的操作时将显示不同的内容。
(5)数据编辑栏,用户通过键盘输入的数据首先显示在这里.
(6)数据显示区域。
它是一个二维的表格,编辑确认的数据都将在这里显示,其中每一个矩形格为单元格(Cell),其中边框加黑的单元格称为选定单元格。
数据显示区域的左边缘排列观测量序号,上边缘排列要定义的各变量名。
7。
调查表明,顾客每周花在某超市蛋糕的平均费用是30元,他们选择经常购买蛋糕的主要原因是该蛋糕味道很好。
要求:
(1)总体是什么?
(2)该项研究所使用的方法是描述统计方法还是推断统计方法?
(1)总体是所有的购买蛋糕的顾客;
(2)推断统计方法。
第二章数据整理和描述
思考题
1.获取统计数据有哪两种途径?
一种是直接向调查对象搜集反映调查单位的统计数据,一般称为原始数据或第一手数据;另一种是搜集已经加工、整理过的、说明总体现象的数据,一般称为次级数据或第二手数据。
2.统计数据的搜集有哪几种方法?
直接观察法、访问法、报告法、问卷法。
3.对统计数据进行搜集时,有哪几种组织方式?
普查、抽样调查、重点调查、典型调查。
4.什么是数据分组?
数据分组的方式有哪几种?
(1)统计数据分组是根据统计研究目的,按某一标志将数据分别列入不同的组,使组与组之间有比较明显的差别,而在同一组内的单位具有相对的同质性,即同一组内各单位之间具有某些共同的特征.
(2)统计数据分组可以按品质标志分组和按数量标志分组。
(一)按品质标志分组就是按照事物的性质和属性特征进行分组.一般来言,按品质标志分组的操作比较容易,分组也相对稳定。
如人口按性别分组、职工按文化程度分组等;
(二)按数量标志分组,就是按照事物的数量特征进行分组。
例如,企业按职工人数、产值、产量等标志分组,人口按年龄分组等。
5.简述组距、组限、组数与组中值的含义以及它们的计算方法。
(1)组距是指各组中最大变量值与最小变量值之差,用i表示。
计算方法为:
i=R/n,其中,n表示组数,R表示变量最大值与最小值之差(即全距);
(2)组限是指限定各组组距的数值。
各组的较大值称上限,较小值称下限;
(3)组数是指数据被分成的组个数。
计算方法为:
式中:
表示组数;表示变量值个数;
(4)组中值是上限到下限之间的中点数值,其计算公式为:
组中值=(上限+下限)/2
6.向上积累和向下积累的数据有什么区别?
累计频数(或频率)可以是向上累计频数(或频率),也可以是向下累计频数(或频率)。
(1)向上累计频数(或频率),通常是指由变量值小的组向变量值大的组依次累计;
(2)向下累计频数(或频率),通常是指由变量值大的组向变量值小的组依次累计。
7。
什么是频数分布?
试描述频数分布表的编制过程.
(1)分布数列是指在统计分组的基础上,将总体的所有单位按一定标志分组整理,并按一定顺序排列,形成总体单位在各组的分布;
(2)一、确定变量数列的形式。
根据变量的类型和变量值的多少及现象本身的特点确定是编制单项数列还是编制组距数列。
二、组距式变量数列编制方法:
计算全距、确定组数、确定组距、确定组限、计算组中值、计算累计频数和累计频率。
8.对统计数据进行描述时,有哪几种统计图表表达方式?
有统计表和统计图,其中统计图包括:
直方图、折线图、曲线图.
9。
直方图和折线图有什么区别和关系?
折线图可以在直方图的基础上,将直方图的每个长方形的顶端中点用折线连点而成。
如果不绘直方图,也可以用组中值与频数求出坐标点,连接而成。
它们与横轴围成的区域面积相等.
10。
请举出自己实际生活中的一组数据,对它进行分组,然后绘制直方图、折线图以及箱线图,分析该组数据的结构特征。
略
练习题
1.某地区7月份的气温数据(单位:
摄氏度)如下:
28313229313330323429323038383739343636333430373632383530343535
(1)对以上数据进行适当的分组;
(2)绘制直方图,说明该城市气温分布的特点.
解:
(1)频数分布如下:
[28,30)3;[30,32)6;[32,34)6;[34,36)7;[36,38)5;[38,40)4;
(2)直方图略。
从直方图可以看出,该地区7月份气温集中在34~36摄氏度的天数最多,其次多的时间集中在30~32摄氏度或32~34摄氏度。
2。
某人的家位于城市的A地,工作单位位于城市的B地,为了确定A、B两地的车程,他记录了60天(来回共乘车120次)内往返于A、B两地所花的时间(单位:
分钟),所得数据如下:
98
101
120
112
94
96
89
108
106
111
113
109
108
112
99
93
98
100
87
89
125
120
118
103
117
111
119
100
105
108
98
96
110
123
117
115
109
103
92
99
88
80
83
86
93
98
90
120
93
98
90
111
109
103
108
112
123
120
109
118
92
91
89
87
95
121
119
123
108
99
103
92
97
95
102
108
113
99
114
89
95
106
109
100
108
112
109
123
121
110
110
124
108
109
113
96
123
105
109
112
96
98
108
112
99
90
93
96
99
96
105
111
120
98
92
103
102
90
113
120
(1)利用SPSS对以上数据进行排序。
(2)以组距10进行等距分组,编制频数分布表,并绘制直方图.
解:
(1)略
(2)频数分布表如下:
[80,90)10,[90,100)37,[100,110)33,[110,120)25,[120,130)15;直方图略。
3.某百货公司冬天连续60天的销售额数据如下(单位:
万元):
372
338
403
321
286
357
328
309
329
318
368
349
369
372
353
380
331
347
302
308
383
326
329
333
342
349
351
324
369
362
370
319
342
356
393
382
401
396
377
379
380
356
352
349
363
370
321
316
322
320
336
343
389
369
375
398
359
364
354
350
(1)用SPSS对以上数据进行适当的分组,编制频率分布表。
(2)计算出累积频数和累积频率。
(3)绘制直方图和折线图。
解:
(1)、
(2)
分组
频数
频率分布表
向下累积
向上累积
[285,300)
1
1/60
1
60
[300,315)
3
1/20
4
59
[315,330)
12
1/5
16
56
[330,345)
7
7/60
23
44
[345,360)
13
13/60
36
37
[360,375)
11
11/60
47
24
[375,390)
8
2/15
55
13
[390,405)
5
1/12
60
5
(3)略.
4。
为评价某餐馆服务质量,随机调查了120个顾客对它的评价。
评价服务质量的等级分为五种:
A。
优;B。
较好;C。
中等;D.较差;E.极差。
调查结果如下表所示:
A
C
C
B
D
B
E
C
D
C
A
B
D
C
C
D
B
C
B
C
C
E
D
A
A
C
D
D
E
D
B
B
D
C
C
D
A
B
D
E
E
B
C
C
E
D
A
C
D
E
B
B
A
C
A
C
E
B
B
A
B
C
C
D
E
D
E
B
A
A
C
B
C
A
E
A
A
C
D
C
C
B
E
B
C
D
E
A
E
B
C
C
B
E
D
C
B
A
B
E
E
D
B
A
C
B
A
C
C
D
A
D
B
E
C
B
D
D
B
E
(1)编制频率分布表;
(2)绘制条形图,找出对该餐馆评价等级的分布。
解:
(1)频率分布表如下:
评价等级
频数
频率
A
19
19/120
B
27
9/40
C
32
4/15
D
23
23/120
E
19
19/120
(2)略
5.某小学对该校四年级160位学生的数学成绩分组如下:
成绩
60分以下
60~70
70~80
80~90
90~100
所占比例
9.1%
14。
4%
32.2%
29。
3%
15%
(1)对该校四年级学生的成绩绘制直方图;
(2)根据直方图分析四年级学生的成绩分布特点。
解:
(1)略;
(2)左偏分布.
6。
为了确定灯泡的使用寿命(单位:
h),在一批灯泡中随机抽取100只进行测试,所得结果如下:
688
717
696
703
729
704
726
725
699
713
693
697
664
681
721
720
677
679
695
691
692
683
712
733
717
683
707
718
671
701
688
689
683
685
702
741
698
713
676
702
727
708
749
673
651
696
689
736
690
694
706
692
691
747
699
682
698
700
710
722
698
696
666
698
658
674
697
693
710
668
708
729
694
681
695
685
706
661
735
665
701
707
692
690
708
691
722
712
715
706
700
716
728
719
685
709
691
684
705
718
(1)利用SPSS对上面的数据进行排序;
(2)以10为组距进行等距分组,构建频率分布表;
(3)根据分组数据绘制茎叶图和箱线图,说明数据分布的特点。
解:
(1)略;
(2)频率分布表如下:
分组
频数
频率
[650,660)
2
1/50
[660,670)
5
1/20
[670,680)
6
3/50
[680,690)
14
7/50
[690,700)
26
13/50
[700,710)
18
9/50
[710,720)
13
13/100
[720,730)
10
1/10
[730,740)
3
3/100
[740,750)
3
3/100
(3)略。
第三章数据特征的度量
思考题
1.数据分布的特征可以从哪些方面进行度量和描述?
(1)数据集中程度度量的常用方法有均值(算术平均数)、调和平均数、几何平均数、众数、中位数。
(2)数据离散程度的测度方法,常用的有极差、内距、标准差及离散系数。
2.简述中位数、四分位数、十分位数的概念,并举例说明.
中位数是将顺序排列的统计数据从中间分成相等的两部分;
四分位数就是将排序后的数据4等分的三个数值,每部分包含25%的数据,其中中间的四分位数就是中位数,其余两项分别为下四分位数(Q1)和上四分位数(Q3);
十分位数和百分位数分别是将排序后的数据10等分和100等分的数值。
3.简述众数、中位数和均值的特点和关系。
(1)关系:
当数据呈对称分布时,均值、中位数、众数必定相等,即有;
当数据呈左偏分布时,均值小于中位数且小于众数,即有;
当数据呈右偏分布时,均值大于中位数且大于众数,即有;
(2)特点:
均值是根据所有数据计算的一般水平代表值,数据信息的提取足够充分,特别是当用样本信息估计总体特征时,均值就更显示其良好的特征。
因而在统计数据分析中均值起着很重要的作用。
众数、中位数虽然数据信息利用不够充分,但当数据有极端值出现时,中位数的优势就显现了。
4.简述内距、极差、标准差的概念,并举例说明.
(1)内距:
又称为四分位数差,是指上四分位数和下四分位数之差,通常用Qd表示;
(2)极差:
也称全距,它是一组数据的最大值与最小值之差;
在组距式数列中,极差可以是最高组的上限与最低组下限之差;
(3)标准差:
也称均方差,是各数据和均值离差平方平均数的平方根。
5.什么是离散系数?
为什么要计算离散系数?
(1)常用的离散系数主要有标准差系数,也称均方差系数,它是数据的标准差与其相应的均值之比;
(2)原因:
总体和样本的离散程度除了受变量值之间的离散程度影响外,还受变量值本身水平高低的影响,因此,在比较不同总体和样本的离散程度时,应消除由于变量值水平不同或计量单位不同带来的影响。
在统计分析中,用离散系数来比较不同总体和不同样本的均值的代表性。
6.简述偏度和峰度的概念.
偏度:
偏度是对分布偏斜方向及程度的度量;
峰度:
是对数据分布尖峭程度的度量,它可以衡量频数分布的集中程度.
练习题
1.对某公司28位员工的年龄进行统计,得到数据如下(单位:
周岁):
28293222234642232940263032374425252742302443253333313927
(1)计算员工年龄的众数、中位数和平均数;
(2)计算标准差;
(3)绘制员工年龄的茎叶图,说明员工年龄的分布特征。
解:
(1)众数:
25,中位数:
30,平均数:
(2)7.2011;
(3)略.
2。
某地区7月份上半月的气温数据如下(单位:
摄氏度):
3537.5283237393736。
533353729273031
(1)计算该地区7月份上半月气温的众数、中位数和算术平均数;
(2)计算几何平均数;
(3)计算气温的标准差;
(4)绘制直方图,说明气温分布的特点。
解:
(1)众数:
37,中位数:
35,算术平均数:
(2)几何平均数:
(3)3。
874;
(4)略。
(将第3题改成了分组数据)
3。
某百货公司冬天连续60天的销售额数据分组如下(单位:
万元):
按销售额分组(万元)
频数()
组中值()
280~290
1
285
290~300
3
295
300~310
9
305
310~320
10
315
320~330
13
325
330~340
11
335
340~350
8
345
350~360
5
355
试计算该组数据的平均数、中位数、众数。
解:
(1)
(3)由题中数据分布知,众数在出现次数最多的320~330组内,故
4。
一项对大学生身高状况的调查表明,男生的平均身高为175cm,标准差为5cm,女生的平均身高为165cm,标准差为5cm.试问是男生的身高差异大还是女生的身高差异大?
解:
比较男、女生身高的离散系数,
5。
对10名男生和10名女生的体重(单位:
Kg)进行抽样调查,结果如下:
男生组
64
56
60
62
68
54
52
60
65
61
女生组
52
54
45
50
48
47
54
55
46
50
(1)现在要比较男生和女生的体重差异,应采用什么方法?
(2)比较分析哪一组的体重差异大?
解:
(1)采用离散系数进行比较;
(2)
6。
一种机器由多个零组件组成,在使用之前需要人工组装,现在有四种组装方法,为选取最好的方法,随机抽取10个工人,由他们分别用四种方法进行组装。
工人们分别采用四种方法组装的机器数量(单位:
台)如下:
方法A
方法B
方法C
方法D
92
65
82
79
93
69
88
73
90
59
78
69
85
60
70
70
89
62
79
75
91
67
83
68
87
56
85
65
82
58
80
70
83
63
79
72
90
62
78
71
试采用一种你认为比较好的方法来评价组装方法的优劣。
解:
下表给出了一些主要描述统计量:
方法A
方法B
方法C
方法D
平均数
88.2
62.1
80。
2
71.2
中位数
89。
5
62
79.5
70.5
众数
90
62
78、79
70
标准差
3.795
4.0675
4。
8488
3.8816
极差
11
13
18
14
最小值
82
56
70
65
最大值
93
69
88
79
7.A、B、C三个工厂生产3种产品的单位成本和总成本资料如下(单位:
元):
产品名称
单位成本
总成本
A工厂
B工厂
C工厂
甲
乙
丙
7
11
18
3410
4000
3890
2000
5200
5420
4150
3820
3000
试比较三个工厂哪一个总平均成本高?
解:
故B工厂总平均成本最高。
(将第8题删除)
8.一应试者准备参加某公司的招聘测试,该测试分三个过程,在A项测试中,其平均分数是120分,标准差为20分;在B项测试中,其平均分数是360分,标准差为40分,在C项测试中,其平均分数是500分,标准差为60分。
这位应试者参加测试后,在A项测试中考了125分,在B项测试中得了380分,在C项测试中得了530分。
与平均分数相比,该应试者哪一项测试更为理想?
解:
通过计算标准化值来判断,
说明在A项测试中该应聘者比平均分数高出0.25个标准差,而B、C项测试中均高出0。
5个标准差,由于B、C测试的标准化值A项测试,所以B、C项测试比较理想.
(将第9题删除或者放在第2章作为计算调和平均数的例子)
9。
两个菜场有关销售资料如下:
绿叶蔬菜
单价(元/公斤)
甲市场的销售额(元)
乙市场的销售量(公斤)
A
5
2200
330
B
5.6
1960
350
C
7
1500
430
试计算比较两个菜场价格的高低,并说明原因。
解:
故乙菜场平均价格较高。
原因:
尽管两个菜场的单价相同,但单价较低的蔬菜在甲菜场的销售量中所占比重较大,故拉低了其平均价格。
10.某班学生《统计学》考试成绩表如下:
成绩(分)
频率(%)()/
50~60
6.7
60~70
13。
3
70~80
30。
0
80~90
36.7
90~100
13.3
合计
100。
0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 解答 修改