统计学基础知识.docx
- 文档编号:27076951
- 上传时间:2023-06-26
- 格式:DOCX
- 页数:13
- 大小:72.61KB
统计学基础知识.docx
《统计学基础知识.docx》由会员分享,可在线阅读,更多相关《统计学基础知识.docx(13页珍藏版)》请在冰豆网上搜索。
统计学基础知识
、数据的特征值
(一)数据的位置特征值
1)平均值x
如果从总体中抽取一个样本,得到一批数据Xi,X2,X3….Xn,则样本的平均值X为:
—
1n
X
Xi
ni1
n-数据个数;
Xi-第i个数据数;刀-求和。
2)中位数x
有时,为减少计算,将数据Xi,X2,X3….Xn按大小次序排列,用位居于正中的那个数或中间两个数的平均值(当数据为偶数时)表示数据的总体平均水平。
4)众数
在用频数分布表示测定值时,频数最多的值即为众数。
若测定值按区间做频数分布时,频数最多的区间代表值(一般取区间中值)也称众数。
(二)数据的离散特征值
1)极差R
测定值中的最大值Xmax与最小值Xmin之差称为极差。
通常R用于个数n小于10的情况下,n大于10时,一般采用标准偏差s表示。
2)偏差平方和S_
各测定值Xi与平均值X之差称为偏差。
各测定值的偏差平方和称为偏差平方和,简称平方和,用S表示。
S=
(X1X)2(X2
x)2
...(Xn
x)
n
=
(XiX)2
i1
n
(Xi
(三)变异系数
以上反映数据离散程度的特征值,只反映产品质量的绝对波动大小。
在工程实践中,
量较大的产品,绝对误差一般较大,反之亦然。
因此要考虑相对波动的大小,在统计技术上
上式中c和卩为总体均值和总体标准差,用样本标准差s和样本均值x估计。
当过程在受控状态下,且样本容差较大时,
用变异系数CV来表达:
Ca、Cp、Cpk的计算
过程准确度指数(Ca值):
表示过程特性中心位置的偏移程度,越小越好
Ca=(样本平均值-规格中心值)/(规格公差/2)
等级A:
|Ca|三12.5%表示作业员遵守作业规范,并达规格要求
等级B:
12.5%<|Ca|三25%表示必要时尽可能提升至A级
等级C:
25%<|Ca|三50%表示作业员可能看错或未按标准作业,或须修改规格及作业标准。
等级D:
50%<|Ca|表示应采取紧急措施,全面整改可能影响之因素,必要时应停止生产
过程精密度能力系数(Cp值):
表示过程特性分散的程度,值越大越集中。
Cp=(规格上限-规格下限”(6X标准差)
合格:
1.33三Cp表示能力足够
警告:
1.00三Cp<1.33表示能力无足够宽度,平均值稍有偏差时,不良率既会增加。
不合格:
Cp<1.00表示能力不足,有不合格品,须全数筛选,并设法缩小变异或整改规格公差。
过程综合能力系数(Cpk值):
同时考虑偏移”程度及分散程度
Cpk=(1-Ca)xCp
此系数为过程评价用系数,用于过程改善
客户指定Cpk值时,欲达到此Cpk值,可先探讨Ca及Cp值:
准确度”精密度”是否有适当能力
一般客户是指定值多数为三1.33;Cpk值三3.00时,表示过程能力已经足够了,继续维持即可;
若想进一步改善,应考虑成本效益。
Cp=(Ucl-Lsl)/68
Cpku=(UcI-Xbar)/38Cpkl=(Xbar-Lsl)/38Cpk=min(Cpku:
Cpkl)
二、回归分析
(1)什么是回归分析
回归分析是用来研究一个指标与几个变量间的相关关系的方法。
设有两个变量X和y,前者为自变量,后者为因变量,并均为随机变量。
当自变量X变化时,丫会产生相应的变化,如果具有大量或较多的统计数据(x,yi),则可以用数学方法找出两者之间的统计关系y=f(x),这种数学方法称为回归分析。
当y=a+bx时,称之为一元线性回归;
当y=f(x)为非线性函数关系时,称之为非线性回归;
当X变量不止1个,有几个时,即有(X1,X2•••,Xn),则y=f(X1,X2•••,Xn)
称之为多元回归。
当有y=a+bixi+b2X2+•••+bnxn时,称之为多元线性回归,否则为多元非线性回归。
回归分析可用于预测、质量控制等方面。
(2)一元线性回归方程的计算方法
设一元线性回归方程的表达式为:
y=a+bx
b
xy
Lxx
Lxx
n
(Xi
i1
X)2
Lyy
n
i1
y)2
现在给出了n对数据(Xi,yi),要求根据这些数据去估计a与b的值。
则:
aybx
其中
Lxx:
----X的离差平方和
Lyy----y的离差平方和
n__
Lxy一X,y的离差成积之和Lxy(xix)(yiy)
i1
三、统计过程控制基本概念
StatisticalProcessControl(SPC---统计过程控制)的概念是:
应用统计技术对过程中的各个阶段进行评估和检察,保持过程处于可接受的和稳定的水平,以保证产品与服务满足要
求的均匀性。
这里的统计技术涉及到数理统计内容,但所应用的主要工具是控制图。
SPC可以判断过程的异常,及时告警。
但是不能告知此异常是什么因素引起的,发生于何处。
20世纪80年代起,我国的张公绪先生提出StatisticalProcessDiagnosis理论(SPD---统计过程诊断)。
20世纪90年代起又发展为StatisticalProcessAdjustment(SPA---统计过程调整)。
三者循环关系如下:
SPC---告诉过程是否有异常
SPD---告诉过程是否有异常,若异常,告知问题出在哪里
SPA---告诉过程是否有异常,若异常,告知问题出在哪里,如何进行调整
所以SPC是质量改进循环的首要步骤,应该熟练掌握运用。
四、控制图的应用
统计过程控制的主要工具是控制图(SPC图)。
控制图是将一个过程定期收集的样本数
据按顺序描点绘制成曲线的一种技术,可以发现过程异常,是采取预防措施的重要手段。
1984
年日本名古屋工业大学调查了上百家中小型企业,发现平均每家企业采用137张控制图。
美
国柯达一共应用了35000张控制图。
(一)控制图的原理
当质量特性值x服从正态分布时,由两个参数决定分布曲线的位置与形状,即平均值卩和标准差不论□和b取什么值,产品质量特性值x落在[卩-3^,口+3a]区间内的
概率为99.73%。
根据小概率事件可以忽略的原则,若变量x超出±3a范围,则认为过程存在异常。
一个控制图有三条线:
中心线,简称CL线。
CL=卩
上控制线,简称UCL线。
UCL=y+3a
下控制线,简称LCL线。
LCL=卩-3a
将正态分布曲线图旋转180度,即得到控制图。
(二)如何利用控制图判断过程异常
多数点子在□土1a范围内(68%左右),小部分点子在□土2a和卩土1a之间(27%^右),点子随机排列,是过程控制的理想状态。
中心线一侧的点子明显比另一侧多,应考虑均值可能产生偏移。
较多的点子接近上下控制线,说明标准差已经变大。
中心线一侧连续出现多个点子或点子连续上升/下降,证明有系统因素干扰。
点子按一定时间间隔呈周期性变化,可能工艺、环境等因素失控。
(三)常规控制图(休哈特控制图)
常规控制图即休哈特控制图,参见下表“常规控制图”。
常规控制图
分布
控制图代号
控制图名称
控制图界限
备注
正态分布(计量值)
XR
均值-极差控制图
UCLxXA2R
UCLrD4R
LCLrd3R
正态分布的参数□与b互相独立,控制正态分布需要分别控制□与b,故正态分布控制图都有两张控制图,前者控制卩,后者控制b。
二项分布与泊松分布则并非如此。
Xs
均值-标准差控制图
UCL*玄A3S
UCLsB4S
LCLrB3-r
XR
中位数-极差控制图
UCL汰Xm3A2R
UCLrD4R
LCLrD^R
XRs
单值-移动极差控制图
UCLxX2.66Rs
UCLRs3.267Rs
LCLRsX2.66Ri
二项分布(计件值)
P
不合格品率控制图
UCLpP3/p(1p)/n
左列两图可由通用不合格品数npr图代替。
np
不合格品数控制图
UCLnpnP3np(1p)
泊松分布(计点值
)
u
单位不合格数控制图
UCLuu3\u/n
左列两图可由通用缺陷数cr图代替。
c
不合格数控制图
UCLcc3、;c
五、过程能力分析、过程能力指数计算
(一)、过程能力分析
过程能力(processcapability)指过程加工质量方面的能力,决定因素是人、机、料、法、测和环(即5M1E),与公差无关。
分析过程能力只能在稳态的基础上,即统计控制状^态。
过程能力决定于由偶因造成的总变差厂当过程处于稳态时,产品的计量质量特性值有
99.73%在卩土3b范围内,即几乎全部产品的特性值包含在6b范围之内。
故常用6倍标准
差(6c)表示过程能力,它的数值越小,表示过程能力越强。
(二)、过程能力指数计算
当产品质量特性分布的均值卩与公差中心M重合时
1、对于公差的上、下限都有要求时,过程能力指数计算公式如下:
T为公差,Tu为公差上限,Tl为公差下限,?
是质量特性总体标准差的估计值。
在上述过程能力指数中,T反映对产品的技术要求(或客户对产品的要求),而b反映
本企业过程加工的质量。
比值CP反映过程加工质量满足产品技术要求的程度。
根据T与6b的比值,可以得到下图所示三种典型的情况。
Cp值越大,表明加工质量
越好,但对设备和人员的要求也越高,加工成本相应升高。
当Cp=1,似乎既满足要求也节
约成本,但由于过程的波动,分布中心一有偏移,不合格品率就要增加,因此,Cp应取>1。
一般情况下,当Cp=1.33,T=8b,整个分布基本上都在上下规范限度内,且留有变动空间。
故ISO8258:
1991要求Cp羽.33。
㈱况2》(WS3)
2、只对单侧公差限有规定时
只规定上限时,
CPL
3
只规定下限时,
当产品质量特性分布的均值卩与公差中心M有偏离时
这种情况下,需要对无偏离Cp乘上一个修正系数(1-K)。
C规定的公差TTuTlTuTl
p'过程变异度乔~6—~6T~
有偏离情况下的过程能力指数是:
过程能力指数与不合格品率的关系
考虑过程能力指数与不合格品率的关系时,直接查@正态分布表比较方便。
当公差中心M与数据分布中心卩重合时,
P22(3Cp)
当公差中心M与数据分布中心□有偏离时,
P23CP1K3CP1K
例:
在无偏离情况下,求Cp=0.7时的不合格品率P。
解答:
P22(3Cp)
Cp=0.7,3Cp=2.1
查“正态分布表”,得到(2.1)0.98214
不合格品率为:
P=2-2x0.98214=0.03572
643.36c控制方法
6b控制方法,即过程能力指数达到2以上,不合格品率0.08197316,几乎达到零缺陷。
执行6c需要多方面的专业技能和知识,包括:
SPC、MSA、DOE、可靠度工程、FMEA、
TQM、QFD、田口方法、ISO9000、质量成本QCOST、数理统计、顾客满意、同步工程、价值工程、绿色设计等等。
所用的工具可以是:
SPC度量、分析、改进和监控过程的波动
DOE/田口方法优化设计技术,通过DOE,改进过程设计,使过程能力达到最优水平
FMEA风险分析技术,辅助确定改进项目制定改进目标
QFD顾客需求分析技术,辅助将顾客需求正确地转换为内部工作要求
防错从根本上防止错误发生的方法
平均值加减标准差表示的是什么
标准差,标准差的平方是方差,方差就是为了统计这组数据偏离平均值的程度,也可以说是
这组数据的稳定性。
例如两个人打靶,A打6,7,8,9,10,平均值是8,方差就是[(-2)A2+(-1)
人2+0+1人2+2人2]/5=2,标准差等于根号2
B打8,8,8,8,8,平均值是8,方差就是0,这样来说B的成绩更稳定。
平均数加减标准差的范围内代表大概率事件,范围外代表小概率事件。
用成绩为样本,则范围内的成绩为正常的大部分考生的成绩,范围外的为特殊的少部分考生的成绩(包括特别好的和特别差的)。
通常,一次考试的成绩都是成正态分布的,平均数加减标准差的范围内的成绩应该达到85%以上。
如果没有成正态分布,则说明试卷没有出好,出得太难或者太简单了。
对某一个人所有考试的成绩看平均数和标准差就够了,对平均数加减标准差的分析没有多大意义。
但是,某一个人在一段时间内某一特定科目的所有考试成绩又可以用平均数加减标准差来分析了。
平均数只能显示总体情况,而标准差能够看出变异程度。
标准差越大,数据越离散。
比如以
下两组数:
a.22222b.11233两组的均数相等,而a组数据集中(向均数集中),b组
离散,a组标准差小于b组
P值与a值的关系?
P值(Pvalue)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
a值是一个临界概率值。
它表示在统计假设检验”中,用样本资料推断总体时,犯拒绝假设”错误的可能性大小。
a越小,犯拒绝假设”的错误可能性越小。
P是拒绝原假设时犯错误概率’又或者说是如果你拒绝掉原假设实际上是在冤枉好人的概率”。
不管怎么表达理解上都有点绕,所以你还是看例子吧。
比如你做一个假设(null
hypothesis):
你的女性朋友平均身高2米,输入你统计的样本数据后,计算机给你返回的p值是0.03。
这意味着如果你拒绝女性朋友平均身高2米”这个结论,犯错的概率是0.03,小于0.05(人们一般认为拒绝一句话时犯错概率小于0.05就可
以放心大胆地拒绝了),这个时候你就可以拒绝原假设。
如果计算机返回p值是0.9,那么你就会想,这说明拒绝原假设犯错概率高达90%,那么我就不应该拒绝原假设,
即你应该认为你的女性朋友平均身高就是2米。
至于什么是alpha呢,上面例子中0.05这个标准就是alpha值,这个标准是可以你自己人为改变的。
==========================以下是补充内容
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 基础知识