统计过程控制spc统计分布.docx
- 文档编号:10331439
- 上传时间:2023-02-10
- 格式:DOCX
- 页数:13
- 大小:112.09KB
统计过程控制spc统计分布.docx
《统计过程控制spc统计分布.docx》由会员分享,可在线阅读,更多相关《统计过程控制spc统计分布.docx(13页珍藏版)》请在冰豆网上搜索。
统计过程控制spc统计分布
1我们为什么需要统计?
统计方法让我们可以利用一小组数据就可以作出相当精确的预测。
用统计方法虽无法预测单个事件,但有助你得出整体的结果。
比如,没有人能预测一个人的寿命,因为一次事故或疾病可能明天就会发生,或许此人能活到100岁,甚至更长。
然而,人寿保险公司可以精确预测多少比例的人口可以活到50岁、60岁或者70岁甚至更长。
这种精确的预测信息的方式,正是我们生产过程中需要获取信息的方式。
统计方法让我们在不需要知道所有可能结果的情况下也能作出判断。
比如,从来没有人测量过所有美国人的身高,但我们却知道美国人的平均身高是多少。
那是因为,我们从总人口中抽取一个小样本,得到平均身高,并由它推知全体。
统计学处理两块东西:
过去和将来。
我们用统计方法来概括历史事件,这样有助于我们对其理解,然后根据这个概括来对未来做出预测。
SP把它应用到过程控制中,使我们能预测这些过程将来的趋势,和受历史事件影响的产出情况。
如果想要理解SPC勺原理,那就需要更全面的了解一些基本的统计概念。
本章将概括介绍这些基本概念。
2总体
在统计学中,总体指某组研究对象的全体。
总体可以是任何东西——人
类、螺钉或者一台机器的所有部件等。
要研究总体的性质,我们必须考虑总体的某些特征量的分布情况。
分布的形状可以告诉我们研究的对象有没有某种趋势:
如是否平稳。
我们利用这种趋势就可以预测将来的事件。
3概率
统计学研究概率,而概率是指某件事发生的可能性,帮助我们了解某事件将来发生的机会或者频率。
例如,一枚硬币有两面,当我们扔硬币时会出现两种可能的结果:
正面或背面。
当你扔硬币时,有50%的机会出现正面。
这些几率表明我们预测的可能性会发生的是多少,SPC就是利用概率来预测某个结果再次发生的可能性。
4统计符号
我们用统计符号很容易记录统计结果。
例如,用x来记某个样本的读数或观测值。
如果读数不止一个,我们借助下标来识别。
比如,用x1记第一个读数,x2记第二个读数。
如果要指代某个读数,但并不想给出精确值,就用记号xi,称之为第i个读数。
我们用“n”表示样本容量(有时也称子群),“N'表示研究对象的总量,“k”表示样本子群数目。
假如有25个子群样本,每个子群样本有5个观测值,观测值总数就是125个。
我们有这样的等式:
n=5,k=25
N=nxk=5x25=125
在总体抽样时,我们利用收集的数据来计算。
这种计算使我们把众多的观测值简化为一个值,这种从样本数据得到的单个值称为统计值。
每个计算出来的值都是统计值,每个统计值都是对总体的真实值的预测。
比如一副纸牌,假如把Jacks作为11,Queens作为12,Kings作为
13,纸牌的号码就是1〜13。
那么,所有号码的平均数或期望值(平均值)是7:
(1+2+3+4+5+6+7+8+9+10+11+12+13)/13=7
假如我们随机抽3张纸牌:
3,7和Queen样本的均值就是7.333。
如果我们抽的是4,6和Ace,均值就是3.667。
我们不能指望每个样本的均值都相等或者等于7。
样本统计值最多只是总体真实值的一个预测而已。
只要借助样本数据,就可以使用任何方法构造统计值。
每个统计值在重复抽样中都有其可变性,因而根据统计值不同的变化有特定的分布。
只要知道分布情况,就能预测每个统计值的表现会是什么样的。
从分布中看出的统计值的变化,反映了原始的观测值的变化。
监控统计值,就能监控过程。
5中心趋势的衡量
对一个分布而言,我们可以计算出几种统计值;因此可把统计值与其他分布的统计值相比较,或者利用它来描述其他统计值。
描述分布的中值或者中心趋势的统计值就是如此,我们有4种方法来度量中心趋势。
找出整个取值范围的极差中值是计算分布中心的一种方法。
我们找出最大值和最小值,分布的中心就是两者的平均。
计算方法是把最大值和最小值相加的和除以二就得到极差中值。
极端值影响着这种统计值,它不能反映中间的那些数值的情况。
比如你从一副纸牌里抽了15张:
3,4,5,6,7,8,5,4,9,9,4,10,7,Queen
(12)和4。
这些纸牌最大的号码是12,最小值是3
如图2.1A所示,这15张纸牌的极差中值是7.5
£
4
3
Xmid-i
X■'
r^ngerj
卫
■XXX
X
1
XxxxX
XXXx
'J
123-1567
6gIQ111211
图2.1A极差中值
第二种描述分布中心的统计值是众数。
众数是该样本中出
现次数最多的那个值。
尽管众数也可应用于原始数据,但它
经常用于分组后的数据,如用来作直方图的数据。
众数告诉我
们哪个值出现最频繁,但并没有显示与其他数据的关系。
比如,看上面的15张纸牌的例子,可以看到众数是4,如图2.1B所
示。
图2.1B众数
找出中位数是第三种描述中心趋势的方法。
中位数是指这样的数值,在其两侧的数值各占50%为了找出中位数,必须把数据按升序或降序排列,然后从任意一端列举出一半的数值。
如果观测值是奇数个,中位数是唯一确定的;如果观测值是偶数个,中位数落在两个数值之间,需把两者平均才能得到。
正如图2.1C所示,我们的15张纸牌的中位数为6。
中位数表现了数据相互间的位置关系。
但是它仅仅是利用数据的顺序关系来得到的。
如果前一部分的数据比后一部分的数据离散程度更大,中位数是无法体现的。
6
■
S
-median
-
4
-X
-X
2
-XX
XX
1
F
1
•XXXXXXXXX
C
123<5€
;7aa1D111213
图2.1C中位数
第四种度量中心趋势的量是平均值或均值。
把样本的所有观测值相加再除以观测值的
数目就可算得均值。
在“X”上加一横,记作X,来表示均值。
均值不但反映了数据间的顺序还反映了数据间的间隔。
上面的例子中均值是6.47,如图2.1D所示。
-
mean
-6.47
-
X
X
—
X
X
X
A
X
XX
XA
X
J1L
—1
1F
r11
J1
1A
123J567891Cr11213
图2.1D均值
可以看到,我们有4种方法来度量样本的中心趋势。
每种方法都告诉了我们一些样本的不同的信息。
均值告诉我们样本的平均数值的情况,但并没有指出哪个值出现最频繁及这些值的相对位置。
我们可以用任意一个量来比较不同样本的中心趋势。
然而,有相同的中心趋势值的样本可能大不相同,如图2.2所示。
四个样本的众数均为4,中位数均为6,极差中值均为7.4,均值均为6.47,但可以看到这些值的散布程度是很不一样的。
这正是我们比较分布时需要度量数据的离散程度的原因。
图2.2四个有相同的中心化趋势,不同的散布程度的过程
6过程的离中趋势的度量
我们来看一个例子,在这个例子里面,分布有相同的中心化趋势值,但分布本身却很不一样。
这种数据的散布程度称为过程的离中趋势。
把过程的离中趋势与中心化趋势一起考察,可对数据作出更为全面的描述。
极差是最简单的度量离中趋势的量。
把最大值减去最小值就能得到极差。
极差越大,样本的观测值散布得越开。
和极差中值一
样,极差只考虑了极端值。
在抽纸牌的例子中,号码为:
3,4,
5,6,7,8,5,4,9,9,4,10,7,12和4,极差是9,记为“R”。
为了在分析中包含其他观测值,我们计算一个平均的数值,即算出每个观测值与均值的差值,计算它们的平均值。
由于所有的这些差值加起来正负相抵消,和为零,所以我们考察差值的绝对值的和(对负数而言,绝对值是忽略该差值的负号),再除以该组的观测值数目,就能得到它们与均值的平均差异。
这个统计值称为平均绝对偏差或MAD其公式为:
3,47
247
247
247
2U7
L47
L47
0*47
0.53
L53
2.53
2+53
153
553
算:
魂關值数目
3
4
4
4
4
5
5
6
7
7
8
9
9
10
12
3347/15=2.23=MAD
SPC中另外还有两个重要的量来度量离中趋势:
标准差和方差。
求标准差的方法跟求MAD类似,但不是用差值的绝对值,而是用差值的平方来计算,我们首先计算出偏差平方和,然后再除以样本数。
标准差是这个值的平方根“”或者c都可表示标准差。
其公式为:
(xiX)2
c=
在抽纸牌的例子中,标准差可以这样计算:
离差平方
2(X
(T=-
3
3.47
]2.04(39
4
2.47
6J009
4
2-47
6.10W
4
2.47
CU009
4
2.47
6.1009
L47
2J009
5
1.47
丄[但为
6
0.47
0.2209
7
(L53
0.2809
7
0$
0.2809
K
2.3409
9
2,53
6.4009
g
23
6,4009
10
]2.46OQ
12
5.53
3O.5&O9
99.7J35
x99J335/15
=\=
=2.57K6=er
观测值
离差
有时你会发现标准差的平方更容易处理,这种统计值
称为方差。
其记号为“s2”或“。
2”,公式为:
X)2
i
n
知道了标准差,平方一下就得到方差(或者求标准差时,不开方就得到方差)。
在抽纸牌的例子中,标准差是2.5786,方差为6.649。
7一些常见的分布
大多数数据的表现可用下面的分布来描述,这些分布
有不同的性质,不仅能揭示数据的特点,还有助于推测
总体的性质。
图2.3A二项分布图2.3B均匀分布图
2.3C正态分布
其中,最简单的是二项分布,它是一个概率分布,用以
描述有两种可能结果的事件。
比如,扔硬币会出现“正面”或“反面”的结果,分别称为“好的”和“坏的”,这就构成了一个二项分布。
扔硬币时,出现“正面”和“反面”的可能性是一样的。
把某个部件标为有缺陷时,情况也是这样的。
图2.3A表示一个二项分布。
如果每个结果的出现有相同的可能性,这种分布称为均
匀的。
比如,掷均匀的骰子,出现每一面的可能性是相等
的。
均匀分布的一个显著特征是它的对称性,如图2.3B所示。
有了对称性,还需要知道均值和标准差来描述分布。
正态分布也是对称的。
在正态分布下,当观测值接近中心值或均值时,事件发生的可能性变大;观测值远离均值时,事件发生可能性变小。
如图2.3所示,当数据服从正态分布时,其图像呈现常见的钟形。
可测量的数据往往服从正态分布,比如美国人的身高,或者把一定数目的试剂加到桶中所花的时间。
数据来自于一个稳定过程的话,自然会服从正态分布。
要描述正态分布同样要知道均值和标准差。
正态分布是对称的,这意味着均值两侧图象形状是相同的。
假如又抽了15张牌:
3,4,5,5,6,7,7,7,7,8,8,
9,9,10,11,均值、中位
数、众数都是7,分布是近似正态的。
如图2.3D所示,其图象呈现正态曲线的形状。
和均匀分布类似,可用均值和标准差来描述它。
第四种分布是泊松分布,得名于其提出者西蒙•泊松。
当事件发生的概率很小,试验次数很多的时候,用泊松分布可以描述其细节。
比如,你可以用泊松分布来描述每天高峰时期通过十字路口的汽车数。
泊松分布往往从零开始取值;只需知道均值就可以描述该分布,如图2.3E所示。
8正态曲线的性质
由于样本均值有渐进正态的趋势,正态曲线在SPC中处于核心地位。
如果某过程服从正态分布,就可利用正态曲线的性质对其数据作出某些假定。
图2.4是一个正态曲线的例子。
可以注意到,曲线下面分3块标出了百分比,每一块离均值的距离都是相等的。
图2.4显示各倍标准差长度所含数据比例的正态曲线。
这些距离是标准差的倍数,标以c,2c等。
不论正态
分布的均值和标准差如何,每一块代表的百分比是不变的。
可以看到,大约2/3,68.26%的数据落在均值两侧各一倍标准差长度的区间里面。
如果把每一侧区间长度扩大到标准差长度的两倍,95.44%的数据落在其中;扩大到3倍的话,
99.73%的数据落在其中;扩大到6倍的话,99.99%的数据落在其中。
从实用的角度,我们说样本落在均值左右两侧各3倍标准差长度的区间里面,这是因为1000个观测值里面,只有3个落在此区间外。
2.9中心极限定理
每个过程都有其独特表现,很少会精确地符合某个经典的统计分布。
然而,有规律表明,能用正态分布控制样本的均值,而不管单个样本分布是怎样的。
这个规律就是中心极限定理,它表明:
不管总体分布的形状如何,随着样本量(n)增力口,取自总体的样本均值的分布是趋近于正态分布的。
换言之,不管样本现在的分布如何,只要样本量增大,其分布就趋近于正态分布。
我们还可以看到,样本量(n)变大
时,样本均值的可变性减小了。
回到那个抽纸牌的例子,我们每次抽2张作为一组,这样每组的均值会差异很大。
我们可能抽到一个K跟一个10,也可能抽到一个1和一个4。
如果抽10张纸牌的话,平均值就会接近真实的均值7。
根据这个定理,在过程控制中,我们没有必要考虑单个观测值的分布。
中心极限定理让我们可以定量的分析可变性减小的情况。
样本量增加时,样本均值的
标准差减小至:
(X)。
I*
如果我们知道样本均值的标准差和样本量,就可以利用这个公式估计总体的标准差。
在后面的章节里我们将讨
论如何把这种方法应用到生产实际中去。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 过程 控制 spc 分布