统计学复习要点Word格式文档下载.docx
- 文档编号:22656745
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:12
- 大小:104.79KB
统计学复习要点Word格式文档下载.docx
《统计学复习要点Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《统计学复习要点Word格式文档下载.docx(12页珍藏版)》请在冰豆网上搜索。
将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位。
先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位
18.多阶段抽样:
先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查
19.非概率抽样:
相对于概率抽样而言。
抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式
20.方便抽样:
调查过程中由调查员依据方便的原则,自行确定入抽样本的单位
21.判断抽样:
研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本
22.自愿样本:
被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息
23.滚雪球抽样:
先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。
这个过程持续下去,就会形成滚雪球效应
24.配额抽样:
先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位
25.概率抽样与非概率抽样的比较:
概率抽样
依据随机原则抽选样本;
样本统计量的理论分布存在
可根据调查的结果推断总体
非概率抽样:
不是依据随机原则抽选样本
样本统计量的分布是不确定的
无法使用样本的结果推断总体
26.问卷调查的方式:
自填式问卷调查;
面访式问卷调查;
电话式问卷调查
27.实验往往将研究对象分为两组:
实验组和对照组
28.抽样误差:
由于抽样的随机性所带来的误差,它是所有样本可能的结果与总体真值之间的平均性差异。
29.影响抽样误差的大小的因素:
样本量的大小,总体的变异性
30.非抽样误差。
相对抽样误差而言,除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异。
存在于所有的调查之中:
有抽样框误差、回答误差、无回答误差、调查员误差、测量误差
31.非抽样误差的控制:
调查员的挑选,调查员的培训,督导员的调查专业水平,调查过程控制
32.原始数据审核的要点:
完整性审核;
准确性审核;
适用性审核;
时效性审核
33.数据的排序与筛选要用到excel中哪个选项按钮?
34.分类数据的排序:
汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分
35.数据的整理与显示:
对分类数据和顺序数据主要是作分类整理,对数值型数据则主要是作分组整理。
36.适合于低层次数据的整理和显示方法也适合于高层次的数据;
但适合于高层次数据的整理和显示方法并不适合于低层次的数据
37.饼图:
也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题
38.环图与饼图区别:
饼图只能显示一个总体各部分所占的比例,环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环
39.确定组数:
在实际分组时,组数一般为5?
K?
15
40.做图形时,图形的长宽比例大致为10:
7
41.二维散点图展示二个变量之间的关系
42.气泡图展示三个变量之间的关系
43.雷达图是展示多个变量之间关系的图形
44.众数:
一组数据中出现次数最多的变量值。
不受极端值的影响。
一组数据可能没有众数或有几个众数。
主要用于分类数据,也可用于顺序数据和数值型数据。
45.中位数:
排序后处于中间位置上的值。
不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据
46.
47.9个家庭的人均月收入数据
原始数据:
15007507801080850960200012501630
48.10个家庭的人均月收入数据
排序:
66075078085096010801250150016302000
49.平均数
集中趋势的最常用测度值
易受极端值的影响
有简单平均数和加权平均数之分
50.一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。
计算该投资者在这四年内的平均收益率
51.
不同品牌饮料的频数分布
饮料品牌
频数
比例
百分比(%)
果汁
矿泉水
绿茶
其他
碳酸饮料
6
10
11
8
15
0.12
0.20
0.22
0.16
0.30
12
20
22
16
30
合计
50
1
100
52.四分位差
上四分位数与下四分位数之差
Qd=QU–QL
反映了中间50%数据的离散程度
不受极端值的影响
用于衡量中位数的代表性
53.方差和标准差
数据离散程度的最常用测度值
反映了各变量值与均值的平均差异
54.经验法则表明:
当一组数据对称分布时
约有68%的数据在平均数加减1个标准差的范围之内
约有95%的数据在平均数加减2个标准差的范围之内
约有99%的数据在平均数加减3个标准差的范围之内
55.离散系数
标准差与其相应的均值之比
对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响
用于对不同组别数据离散程度的比较
56.概率非负性
对任意事件A,有0?
P(A)?
1
规范性
必然事件的概率为1;
不可能事件的概率为0。
即P(?
)=1;
P(?
)=0
可加性
若A与B互斥,则P(A∪B)=P(A)+P(B)
推广到多个两两互斥事件A1,A2,…,An,有P(A1∪A2∪…∪An)=P(A1)+P(A2)+…+P(An)
57.连续型随机变量的概率分布
连续型随机变量可以取某一区间或整个实数轴上的任意一个值
它取任何一个特定的值的概率都等于0
不能列出每一个值及其相应的概率
58.设X~N(0,1),求以下概率:
(1)P(X<
1.5);
(2)P(X>
2);
(3)P(-1<
X?
3);
(4)P(|X|?
2)
解:
(1)P(X<
1.5)=?
(1.5)=0.9332
(2)P(X>
2)=1-P(X?
2)=1-0.9973=0.0227
3)=P(X?
3)-P(X<
-1)
=?
(3)-?
(-1)=?
(3)–[1-?
(1)]
=0.9987-(1-0.8413)=0.84
2)=P(-2?
X?
2)=?
(2)-?
(-2)
(2)-[1-?
(2)]=2?
(2)-1=0.9545
59.设X~N(5,32),求以下概率
(1)P(X?
10);
(2)P(2<
X<
10)
60.设X1,X2,…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量
样本均值、样本比例、样本方差等都是统计量
61.样本统计量的概率分布,是一种理论分布
62.分布、t分布、F分布,常称之为统计三大分布。
63.分布的变量值始终为正
64.可加性:
若U和V为两个独立的?
2分布随机变量,U~?
2(n1),V~?
2(n2),则U+V这一随机变量服从自由度为n1+n2的?
2分布
65.从均值为?
,方差为?
2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
66.6.4设从一个均值为10、标准差为0.6的总体中随机选取容量为36的样本。
假定该总体不是很偏的,要求:
(1)计算样本均值小于9.9的近似概率。
(2)计算样本均值超过9.9的近似概率。
(3)计算样本均值在总体均值10附件0.1范围内的近似概率。
67.样本比例的数学期望
重复抽样,样本比例的方差为:
68.设,试描述10X的抽样分布。
解:
,根据上述性质10X也服从正态分布,由于
E(10X)=10E(X)=90
D(10X)=100D(X)=100×
22=400
所以10X~N(90,400)
69.常用的置信水平值有99%,95%,90%,相应的?
?
为0.01,0.05,0.10
70.一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。
现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。
已知产品重量的分布服从正态分布,且总体标准差为10g。
试估计该批产品平均重量的置信区间,置信水平为95%
25袋食品的重量
112.5
101.0
103.0
102.0
100.5
102.6
107.5
95.0
108.8
115.6
100.0
123.5
101.6
102.2
116.6
95.4
97.8
108.6
105.0
136.8
102.8
101.5
98.4
93.3
已知X~N(?
,102),n=25,1-?
=95%,z?
/2=1.96。
根据样本数据计算得:
由于是正态总体,且方差已知。
总体均值?
在1-?
置信水平下的置信区间为
,102),n=25,1-?
=95%z?
。
该食品平均重量的置信区间为101.44g~109.28g
71.一家保险公司收集到由36个投保人组成的随机样本,得到每个投保人的年龄(单位:
周岁)数据如下表。
试建立投保人平均年龄90%的置信区间
36个投保人年龄的数据
23
35
39
27
36
44
42
46
43
31
33
53
45
54
47
24
34
28
40
49
38
48
32
已知n=36,1-?
=90%,z?
/2=1.645。
,
总体均值?
置信水平下的置信区间为
投保人平均年龄的置信区间为37.37岁~41.63岁
72.已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位:
h)如下。
建立该批灯泡平均使用寿命95%的置信区间
16灯泡使用寿命的数据
1510
1520
1480
1500
1450
1490
1530
1460
1470
,?
2),n=16,1-?
=95%,t?
/2=2.131
根据样本数据计算得:
在
该种灯泡平均使用寿命的置信区间为1476.8h~1503.2h
73.某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。
试以95%的置信水平估计该城市下岗职工中女性比例的置信区间
已知n=100,p=65%,
,
该城市下岗职工中女性比例的置信区间为55.65%~74.35%
74.某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为?
0=0.081mm,总体标准差为?
=0.025。
今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭圆度为0.076mm。
试问新机床加工零件的椭圆度的均值与以前有无显着差异?
(?
=0.05)
n=200
决策:
的水平上拒绝
结论:
有证据表明新机床加工的零件的椭圆度与以前有显着差异
75.根据过去大量资料,某厂生产的灯泡的使用寿命服从正态分布N~(1020,1002)。
现从最近生产的一批产品中随机抽取16只,测得样本平均寿命为1080小时。
试在0.05的显着性水平下判断这批产品的使用寿命是否有显着提高?
检验统计量:
有证据表明这批灯泡的使用寿命有显着提高
76.某电子元件批量生产的质量标准为平均使用寿命1200小时。
某厂宣称他们采用一种新工艺生产的元件质量大大超过规定标准。
为了进行验证,随机抽取了100件作为样本,测得平均使用寿命1245小时,标准差300小时。
能否说该厂生产的电子元件质量显着地高于规定标准?
的水平上不拒绝
不能认为该厂生产的元件寿命显着地高于1200小时
77.某机器制造出的肥皂厚度为5cm,今欲了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3cm,标准差为0.3cm,试以0.05的显着性水平检验机器性能良好的假设。
决策:
结论:
说明该机器的性能不好
78.一项统计结果声称,某市老年人口(年龄在65岁以上)的比重为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。
调查结果是否支持该市老年人口比重为14.7%的看法?
=0.05)
该市老年人口比重为14.7%
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 复习 要点