统计与概率知识点.docx
- 文档编号:28104909
- 上传时间:2023-07-08
- 格式:DOCX
- 页数:14
- 大小:283.56KB
统计与概率知识点.docx
《统计与概率知识点.docx》由会员分享,可在线阅读,更多相关《统计与概率知识点.docx(14页珍藏版)》请在冰豆网上搜索。
统计与概率知识点
统计与概率知识点
部门:
xxx
时间:
xxx
整理范文,仅供参考,可下载自行编辑
统计与概率知识点
一:
统计
1:
简单随机抽样
<1)总体和样本
在统计学中,把研究对象的全体叫做总体.
把每个研究对象叫做个体.
把总体中个体的总数叫做总体容量.b5E2RGbCAP
为了研究总体
的有关性质,一般从总体中随机抽取一部分:
,
,
,
研究,我们称它为样本.其中个体的个数称为样本容量.p1EanqFDPw
<2)简单随机抽样,也叫纯随机抽样。
就是从总体中不加任何分组、划类、排队等,完全随
机地抽取调查单位。
特点是:
每个样本单位被抽中的可能性相同<概率相等),样本的每个单位完全独立,彼此间无一定的关联性和排斥性。
简单随机抽样是其它各种抽样形式的基础。
通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
DXDiTa9E3d
<3)简单随机抽样常用的方法:
抽签法
随机数表法
计算机模拟法
使用统计软件直接抽取。
RTCrpUDGiT
在简单随机抽样的样本容量设计中,主要考虑:
①总体变异情况;②允许误差范围;③概率保证程度。
<4)抽签法:
给调查对象群体中的每一个对象编号;
准备抽签的工具,实施抽签;5PCzVD7HxA
对样本中的每一个个体进行测量或调查
<5)随机数表法:
2:
系统抽样
<1)系统抽样<等距抽样或机械抽样):
把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。
第一个样本采用简单随机抽样的办法抽取。
K<抽样距离)=N<总体规模)/n<样本规模)jLBHrnAILg
前提条件:
总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。
可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。
如果有明显差别,说明样本在总体中的分布承某种循环性规律,且这种循环和抽样距离重合。
xHAQX74J0X
<2)系统抽样,即等距抽样是实际中最为常用的抽样方法之一。
因为它对抽样框的要求较低,实施也比较简单。
更为重要的是,如果有某种与调查指标相关的辅助变量可供使用,总体单元按辅助变量的大小顺序排队的话,使用系统抽样可以大大提高估计精度。
LDAYtRyKfE
3:
分层抽样
<1)分层抽样<类型抽样):
先将总体中的所有单位按照某种特征或标志<性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。
Zzz6ZB2Ltk
两种方法:
先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中抽取。
先以分层变量将总体划分为若干层,再将各层中的元素按分层的顺序整齐排列,最后用系统抽样的方法抽取样本。
dvzfvkwMI1
<2)分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。
rqyn14ZNXI
分层标准:
以调查所要分析和研究的主要变量或相关的变量作为分层的标准。
以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。
EmxvxOtOco
以那些有明显分层区分的变量作为分层变量。
<3)分层的比例问题:
抽样比=
按比例分层抽样:
根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。
SixE2yXPq5
不按比例分层抽样:
有的层次在总体中的比重太小,其样本量就会非常少,此时采用该方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较。
如果要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。
6ewMyirQFL
类别
共同点
各自特点
相互关系
适用范围
简单随机抽样
抽样过程中每个个体被抽取的机会相等
从总体中逐个抽取
总体中的个体数较少
系统抽样
将总体均匀分成几部分,按事先确定的规则在各部分抽取
再起时部分抽样时采用简单随机抽样
总体中的个数较多
分成抽样
经总体分成几层,分层进行抽取
各层抽样时采用简单随机抽样
总体由差异明显的几部分组成
4:
用样本的数字特征估计总体的数字特征
<1)样本均值:
<2)样本标准差:
用样本估计总体时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差。
在随机抽样中,这种偏差是不可避免的。
kavU42VRUs
虽然我们用样本数据得到的分布、均值和标准差并不是总体的真正的分布、均值和标准差,而只是一个估计,但这种估计是合理的,特别是当样本量很大时,它们确实反映了总体的信息。
y6v3ALoS89
<3)众数:
在样本数据中,频率分布最大值所对应的样本数据<可以是多个)。
<4)中位数:
在样本数据中,累计频率为1.5时所对应的样本数据值<只有一个)。
注意:
如果把一组数据中的每一个数据都加上或减去同一个共同的常数,标准差不变
如果把一组数据中的每一个数据乘以一个共同的常数k,标准差变为原来的k倍
一组数据中的最大值和最小值对标准差的影响,区间
的应用;
“去掉一个最高分,去掉一个最低分”中的科学道理
5:
用样本的频率分布估计总体分布
1:
频率分布表与频率分布直方图
频率分布表盒频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布规律,它可以使我们看到整个样本数据的频率分布情况。
M2ub6vSTnP
具体步骤如下:
第一步:
求极差,即计算最大值与最小值的差.
第二步:
决定组距和组数:
组距与组数的确定没有固定标准,需要尝试、选择,力求有合适的组数,以能把数据的规律较清楚地呈现为准.太多或太少都不好,不利对数据规律的发现.组数应与样本的容量有关,样本容量越大组数越多.一般来说,容量不超过100的组数在5至12之间.组距应最好“取整”,它与
有关.0YujCfmUCw
注意:
组数的“取舍”不依据四舍五入,而是当
不是整数时,组数=[
]+1.
频率分布折线图:
连接频率分布直方图中各个小长方形上端的重点,就得到频率分布折线图。
eUts8ZQVRd
总体密度曲线:
总体密度曲线反映了总体在各个范围内取值的半分比,它能给我们提供更加精细的信息。
sQsAEJkW5T
2:
茎叶图:
茎是指中间的一列数,叶是指从茎旁边生长出来的数。
例:
例如:
为了了解某地区高三学生的身体发育情况,抽查了地区内100名年龄为17.5~18岁的男生的体重情况,结果如下<单位:
kg).GMsIasNXkA
56.5
69.5
65
61.5
64.5
76
71
66
63.5
56
66.5
64
64.5
76
58.5
59.5
63.5
65
70
74.5
72
73.5
56
67
70
68.5
64
55.5
72.5
66.5
57.5
65.5
68
71
75
68
76
57.5
60
71.5
62
68.5
62.5
66
59.5
57
69.5
74
64.5
59
63.5
64.5
67.5
73
68
61.5
67
68
63.5
58
55
72
66.5
74
63
59
65.5
62.5
69.5
72
60
55.5
70
64.5
58
64.5
75.5
68.5
64
62
64
70.5
57
62.5
65
65.5
58.5
67.5
70.5
65
69
71.5
73
62
58
66
66.5
70
63
59.5
试根据上述数据画出样本的频率分布直方图,并对相应的总体分布作出估计.
解:
按照下列值的差
<1)求最大值与最小计.在上述数据中,最大值是76,最小值是55,极差是76-55=21.
<2)确定组距与组数.如果将组距定为2,那么由21÷2=10.5,组数为11,这个组数适合的.于是组距为2,组数为11.TIrRGchYzg
<3)决定分点.根据本例中数据的特点,第1小组的起点可取为54.5,第1小组的终点可取为56.5,为了避免一个数据既是起点,又是终点从而造成重复计算,我们规定分组的区间是“左闭右开”的.这样,所得到的分组是7EqZcWLZNX
[54.5,56.5),[56.5,58.5),…,[74.5,76.5).
<4)列频率分布表.
分组
频数
频率
累计频率
[54.5,56.5)
2
0.02
0.02
[56.5,58.5)
6
0.06
0.08
[58.5,60.5)
10
0.10
0.18
[60.5,62.5)
10
0.10
0.28
[62.5,64.5)
14
0.14
0.42
[64.5,66.5)
16
0.16
0.58
[66.5,68.5)
13
0.13
0.71
[68.5,70.5)
11
0.11
0.82
[70.5,72.5)
8
0.08
0.90
[72.5,74.5)
7
0.07
0.97
[74.5,76.5)
3
0.03
1.00
合计
100
1.00
<5)绘制频率分布直方图.
频率分布直方如图2-2-3所示.
连接频率直方图中各小长方形上端的中点,就得到频率分布折线图.如图2-2-4所示.
例2:
某赛季甲、乙两名篮球运动员每场比赛得分情况如下
甲的得分:
15,21,25,31,36,39,31,45,36,48,24,50,37;
乙的得分:
13,16,23,25,28,33,38,14,8,39,51.
上述的数据可以用下图来表示,中间数字表示得分的十位数,两边数字分别表示两个人各场比赛得分的个位数.
图2-2-5
通常把这样的图叫做茎叶图.请根据上图对两名运动员的成绩进行比较.
从这个茎叶图上可以看出,甲运动员的得分情况是大致对称的,中位数是36;乙运动员的得分情况除一个特殊得分外,也大致对称,中位数是25.因此甲运动员发挥比较稳定,总体得分情况比乙好.lzq7IGf02E
用茎叶图表示有两个突出的优点:
其一,从统计图上没有信息的损失,所有的信息都可以从这个茎叶图中得到;其二,茎叶图可以在比赛时随时记录,方便记录与表示.但茎叶图只能表示两位的整数,虽然可以表示两个人以上的比赛结果<或两个以上的记录),但没有两个记录表示得那么直观,清晰.zvpgeqJ1hk
6:
变量间的相关关系:
自变量取值一定时因变量的取值带有一定随机性的两个变量之间的关系交相关关系。
对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
NrpoJac3v1
<1)回归直线:
根据变量的数据作出散点图,如果各点大致分布在一条直线的附近,就称这两个变量之间具有线性相关的关系,这条直线叫做回归直线方程。
如果这些点散布在从左下角到右上角的区域,我们就成这两个变量呈正相关;若从左上角到右下角的区域,则称这两个变量呈负相关。
1nowfTG4KI
设已经得到具有线性相关关系的一组数据:
。
。
。
。
。
。
所要求的回归直线方程为:
,其中,
是待定的系数。
。
。
。
。
。
。
<2)回归直线过的样本中心点
二:
概率
1:
随机事件的概率及概率的意义
<1)必然事件:
在条件S下,一定会发生的事件,叫相对于条件S的必然事件;
<2)不可能事件:
在条件S下,一定不会发生的事件,叫相对于条件S的不可能事件;
<3)确定事件:
必然事件和不可能事件统称为相对于条件S的确定事件;
<4)随机事件:
在条件S下可能发生也可能不发生的事件,叫相对于条件S的随机事件;
<5)频数与频率:
在相同的条件S下重复n次实验,观察某一事件A是否出现,称n次实验中事件A出现的次数
为事件A出现的频数;称事件A出现的比例
为事件A出现的概率:
对于给定的随机事件A,如果随着实验次数的增加,事件A发生的频率
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 概率 知识点
