数据的处理.docx
- 文档编号:23979989
- 上传时间:2023-05-23
- 格式:DOCX
- 页数:26
- 大小:358.14KB
数据的处理.docx
《数据的处理.docx》由会员分享,可在线阅读,更多相关《数据的处理.docx(26页珍藏版)》请在冰豆网上搜索。
数据的处理
4数据处理
4.1个体、总体和样本
1)个体
构成总体或样本的基本单位叫个体。
这里的基本单位可以是一件物品,如一筒POY丝,一条编织袋,一个机器零件;也可以是一定量的物质,如200ml航空煤油,100g催化剂;个体还可以泛指观测值,如一组观测值为x1,x2,x3,…,xn,则任意一个观测值xi就是一个个体。
2)总体
所要研究或考虑的个体的全体,称做总体。
总体也称为母体,习惯上总体用大写英文字母来表示。
例如,考察某厂92年3月25日包装出的全部袋装尿素时,这天的全部袋装尿素便是我们所考察问题的总体。
一个班次某天生产的全部柴油;一次到货的某型低温度换催化剂;拉丝工序生产的全部变形丝等。
总体中所含的个体数目或单位量数目称为总体容量或总体的大小。
如40000袋化肥,30000m³原油,1000t催化剂。
总体按照容量来分可分为有限总体和无限总体。
有限总体指总体中所含的个体数目是有限的。
如上面所列举的总体的例中,前三个总体都可认为是有限总体。
无限总体指总体中所含的个体数目无限多。
如所举例中的第四个总体。
一般对某流水线上产品做定时定量、不断抽样检测时,
可视该流水线上的产品为无限总体;长期开工的某道工序上的全部半成品也可视为无限总体。
在实际应用中,无特别要求时,无需专门去区分两种总体。
3)样本
从总体中抽取的一部分个体,组成总体的一个样本。
样本也称子样。
构成样本的个体称为样品。
例如,从3月25日生产的袋装尿素中随机抽取100袋,则这100袋尿素就构成第一个总体的一个样本。
被抽到的每袋尿素都称为样品。
又如,从馏出口取得8个200rnl的柴油样,可构成第二个总体的一个样本,每次取得的200ml的柴油,为一个样品。
样本的大小等于样本中所包含的抽样单位数目,也称为样本容量。
习惯上,样本容量用字母n表示。
如刚提到的这两个样本,第一个样本的容量为100、第二个样本容量为8。
4)样本、总体及数据的关系
我们研究的对象是一个事物的整体。
如一批产品、一项工程、一条完整的作业生产线等。
从它们之中取得数据的目的是为了衡量整体的质量是否合乎规格的要求,但实际上,对总体完全地、一个不漏地进行测试以取得数据、是不现实的。
一般采取从总体中抽取一定量(或一定比例)的个体,构成样本,并作为总体的代表接受检验。
样本取自总体,样本能否真正地反映。
单体、代表总体,很大程度上取决于取样方法。
样本和总体的特征完全一致的情形,是极为少见的,但只要取样方法适当,样本容量适宜,样本则可能较好地反映出总体的特征。
为了使样本尽可能准确地反映总体特征,一般采取随机抽样方式,即不加任何主观意愿的去抽取样本,使总体中每一个个体被取中的可能性是一样的。
当我们从有限总体中随机抽取一定容量的样本之后,要通过测试得到样本中每一个样品的测定值,这就是数据,然后通过对数据的整理分析,得到样本的特征,再以样本的特征去推断总体的特征。
这种有限总体、样本与数据之间的关系,可用下面的框图(见图—1)来表示。
图—1有限总体、样本与数据的关系
为了对生产过程中某道工序进行预防性控制和管理,我们常以该工序为无限总体,在它生产加工过程或已加工出还未进入下道工序的产品中,经常或定期地抽取样本,进行测试分析,以判断工序状态,这种无限总体、样本与数据间的关系,可用下面框图(见图—2)来表示。
总之一总体与样本、数据之间的关系可用图—3框图来表示。
图-2无限总体、样本和数据的关系图—3总体、样本和数据的关系
4.2平均数、标准差和方差
在实际使用中,样本平均数x与样本标准差s是两个最常用的特征数。
上面已说过,前者属于位置特征数,而后者则是离散特征数。
4.2.1平均数¯x
设有容量为n的样本:
x1,x2,x3,…,xn
所谓样本的平均数x就是:
x=1/n(x1+x2+x3+…+xn)
或者
x=1/n∑xi(i=1,2,3,…,n)
1)从频数表求平均数
前面说过,无论对哪一种变量,样本数据往往被整理成频数频率分布表。
那么从已整理好的频数表又怎样去求平均数呢?
设频数表如下:
2)加权平均数
4.2.2标准差和方差
1)标准差s
2)方差s²
当从频率分布表出发时,样本方差和样本标准差的定义是:
4.2.3标准差和方差的数学意义
很明显,方差s²也是一组数的均值——它是各xi与¯x的偏差之平方(x1-x)²,(x2-x)²,…,(xn-x)²这n个数的均值,是平均的平方偏差,因此称它为方差。
标准差s是方差s²的算术平方根,它与x1,x2,x3,…,xn。
有相同的度量单位。
容易看出,s²越大,这组数据就越“分散”,或者说,这组数据的变异性(即互相不同的程度)就越大;s²越小,这组数据的变异性就越小,也就更“集中”。
当s²=2时,x1=x2=x3=…=xn=x,就没有变异。
因此,对一组数据x1,x2,x3,…,xn作分析时,x与s(或s²)是最常用的两个量:
一个是代表性的值(指¯x);一个是描述数据的变异性的值(指s或s²)。
4.3数据的列表整理法
4.3.1列表整理概述
收集的数据是零乱无章的,很难直接应用,通常须经过整理才能进行分析研究。
数据整理的具体方法有多种多样,归纳起来,无外乎三种类型:
一是将数据重新排列、组合,整理成某种表格形式;二是整理成某种图形的形式;三是通过不太复杂的数学运算、计算一些特征值。
整理,不仅使得零乱的数据化为醒目的形式,还常能反映出总体的某些分布特征,为分析研究提供重要的信息资料。
数据的整理既重要,又繁琐。
这一章里,我们介绍几种质量管理中经常用到的、也是最基本的列表整理方法。
4.3.2顺序及权数整理
顺序整理与权数整理是最简单的数据整理方法、它们往往是数据进一步整理的基础。
1)顺序整理
顺序整理指将原始数据按从小到大或从大到小的顺序重新排列。
数据经顺序整理后,数据中的最大、最小值,一目了然。
例如,下面表4—1中数据,按从小到大的顺序整理为表4—2的形式,即表4—2为原始数据的顺序整理表。
2)权数整理
权数整理是将原数据依从小到大的顺序排列,相同的数据只记一次,并以“权数”来表示该数据出现的频率,整理成权数表形式(见表4—3)。
一般,权数整理后的第i个数据记为xi,xi的权数记为pi。
权数越大的数据,其出现的频率越大,这个数据对全局的影响也越大。
形象地说,它的“权”也越大。
权数最大的数据也被称为众数。
下面看一个权数整理的例子。
例4—1试对表4-1的数据做权数整理,并指出众数。
解:
数据总个数:
n=10。
合并相同的数据后,共有7个不同数据,列权数整理表为:
4.3.2数据的分层法
分层法也叫分类或分组法。
分层法是一种把收集来的数据,按照一定的标志进行分类的方法。
一个数据的形成受多方面的原因所影响,把诸多性质不同的原因而影响形成的数据搅在一起,很难理出头绪米。
而如果按照适当的标志将数据加以分类,如按照来源、影响因素、方法、材料等特性指标来分类,会使数据较分类前更清晰、更准确地反映数据所代表的客观事实,便于我们看出问题的主线。
分层法的基本原则是将性质相同的数据归在一起,这里所说的性质也就是分层的标志,恰当地选择标志,才可能实现分层的目标,标志选择不适当,分层后可能没有任何实际指导意义。
当然,并不是所有问题的所有数据都必须经过分层整理,分层的方式也没有什么统一的格式或规定,只要能够根据以往的经验,结合本专业的技术知识,恰当地选择分层标志,达到能从分层后的数据中看出问题或找出主要原因的目的就行。
比如,可以结合实际问题,选择以下的某种标志进行分类:
1)按操作人员分:
如按照工龄、男工与女工、操作工等级进行分类。
2)按使用的设备分:
如按不同的装置、流水线、不同的机床型号等分类。
3)按原材料分:
如按不同产地的原材料、不同贮存方法或不同保存时间的原料等进行分类。
4)按工艺条件分:
如按不同配料比、加剂时间、不同的温度等分类。
5)按不同的时间分:
如按不同的班次、不同的日期等分类。
6)按不同的检测手段分:
如按不同的检测仪器,不同的化验室,不同的检测方法等分类。
还可以按照其他的各种标志来分类、这里不再一一列举,下面我们来看两个分层的例题。
例4—2某QC小组针对本车问产品的某含量时常偏高问题,从不合格品中随机抽取了70个样品。
欲通过分类找出产生不合格品的主要原因。
1)当小组成员对不合格品的样本,按照生产的4个班次分类时,得到的结果见表4—4。
从这个分类统计表中看不出什么条理、头绪来,即选择时间为分层标志,使这次分层没有明显的指导意义。
故他们考虑重选分层标志。
2)按照导致含量偏高的原因进行分类,结果见表4—5。
从影响因素来分类、我们看到导致产品某含量过高的主要原因是塔顶温度偏高。
这样,在解决质量问题过程中抓住了主要矛盾。
例4—3某厂将一个月的所有质量差错按工人级别与性别两个标志进行分类,其结果见表4—6,从这个分类表能说明什么?
解:
从表中可看出男工差错率占总数的64%,学徒工差错率占总数的65%,而进一步计算,可得出结论:
男性学徒工的差错率占男工差错总数的73%,因此,男学徒工是造成本月质量差错的主要原因。
分层法还可与其他的数据整理方法联合使用,如分层排列图、分层直方图、分层管理图、分层散布图等。
只有掌握好各种基本方法的原理,融会贯通,才能将它们联合使用,运用自如,发挥出更好的作用。
4.3.4频数整理
频数)即出现的次数。
频数整理是将零乱分散的数据,分成几个数据区域,通过各区域里数据出现的次数,即频数,来反映原始数据的分布规律。
频数整理可以先通过顺序整理,也可以直接进行。
频数整理的一般步骤有:
1)找出最大值和最小值
分别记最大值与最小值为xmax及xmin。
可先在原始数据表中找出各行的最大(最小)值,然后再从各行的最大(最小)值中确定全体数据的最大(最小)值。
2)确定测定值的最小测量单位。
例如,表4—1中的数据,最小测量单位为0.01;表4—7中的数据,最小测量单位为0.2。
3)确定组数
组数即数据分组的个数。
组数太少;信息损失大,引起的计算误差也较大;组数太多,主信息受到干扰,失去频数整理的意义。
因此,分组数k应根据数据总数n的大小适当选定。
一般分组数k的确定,可参照表4—8来进行。
表4-8分组数参考表
数据个数(n)
分组数(k)
50—100
6—10
100-250
7-12
250以上
10—20
4)确定组距
组距即每组的跨度,也即每组的上界限值减去该组的下界限值。
一般地,质量数据频数整理采取等距分组方式,且组距h由下式决定:
h=极差/组数
=(xmax-xmin)/k
为了使分组简单方便,通常还需对上式求出的组距h放大至测量单位的整倍数。
但注意不要减小。
如当最小测量单位为0.01,求得的组距h为0.008时,可将h放大(圆整)为0.01,它恰恰等于测量单位。
当求得的组距h为0.028时,可将它放大至0.03,它是测量单位的3倍。
5)确定各组界限值
第一组的下限值等于数据的最小值减去最小测量单位的一半,即:
第一组下限值=xmin-最小测量单位×1/2
以后的各组界限值分别等于它前面的一界限值再加上组距h,也即:
第m组的上限值=第m组的下限值+h
=第一组下限值+mh
=xmin+mh-最小测量单位×1/2
6)做频数表
频数表也叫频数分布表。
一般地频数分布表,表头可依次安排:
组限、组中值、频数计数、频数f、频率f/n,累积频率F等。
这些项目属于基础统计项目,可以直接用于做直方图。
另外,频数表可增设一些项目,这些项目用于一些特征值的简化计算。
(1)组中值
组中值是组界值的平均,第i组的组中值用x表示,则
x=(第i组下限值+第i组上限值)/2
(2)频数
第i组的频数指落在第i组界限值域内的数据个数,一般用fi表示。
(3)频率
第i组的频率为第i组的频数与数据总个数之比,可用f/n表示。
(4)累积频率第i组累积频率等于第i组频率与第i组以前各组频率之和,一般用Fi表示。
Fi=1/n∑fk(k=1,2,3,···,i)
显然,最后一组的累计频率应该等于1。
下面我们举例介绍频数整理:
例4-4某厂QC小组随机抽取一个月的石油苯冰点数据100个(见表4—9),试对这批数据进行频数整理。
解:
(1)找出最大值与最小值
全体数据的最大值为5.46,最小值为5.40,
记:
xmax=5.46
xmin=5.40
(2)测定值的最小测量单位是0.01
(3)因n=100,我们选组数为7,即k=7
(4)组间距庇由公式求得为:
h=(xmax-xmin)/k
=(5.46—5.40)/k
=0.0086
放大为0.01,即取组间距h为0.01。
(5)求组界值
第一组下限值=xmin-最小测量单位×1/2
=5.40一0.01/2
=5.95
以后的各界限值分别为前一个界限值加上组距0.01,则7个组共8个界限值,从小到大依次为:
5.395,5.405,5.415,5.425,5.435,5.445,5.455,5.465
(6)做频数分布表
频数计数可以画“正”字。
第一组组中值:
x=(5.395+5.4.05)/2
=5.40
以后备组组中值分别为前一组组中值加上组距0.0,。
即7个组中值依次为:
5.40,5.41,5.42,5.43,5.44,5.45,5.46
各组累积频率分别为上一组累积频率加上该组频率。
如第3组累积频率为第2组累积频率0.18加上第3组频率0.17,等于0.35。
其余类似。
统计计算完毕,填写频数分布如表表4-10。
从这个频数分布表中,我们已能明显地看出数据的分布状况,如:
数据分布呈“中间多,两边少”状态,集中分布在数值5.43的附近、有74的数据落在了区间(5.415,5.445)内。
据此,我们可以做出简单地判断,这个月的石油苯冰点约有74%在5.415℃到5.445℃之间。
这也充分体现了频数整理的作用。
频数整理也常是其他整理方法的基础,下面我们将陆续看到它与其他方法的结合。
4.5数据的图形整理法
4.5.1直方图
1)频数直方图
频数直方图是一种在数据频数整理的基础上,用一些高低不等的直方来描绘数据分布状况的方法。
它能使得数据的频数分布状态更加直观,形象一目了然,还能表现数据的波动程度、偏离程度等,用途十分广泛。
频数直方图也常被简称为直方图。
做频数直方图要有足够多的数据,一般应有100个或100个以上的数据。
做频数直方图可按下面四个步骤来进行:
(1)做频数分布表
频数分布表的作法已在上章介绍过,频数整理是做直方图的基本步骤。
(2)建立直角坐标系
以纵坐标轴表示频数f,横坐标轴表示质量特性值。
先画纵轴,第一有效刻度从原点开始,将最大频数定在适当高度。
画横轴时,使第一组下限值与原点保持一定距离(以便观察图形),最后一组上限值定在适当的位置。
然后,等分横、纵轴上的有效刻度间距、标注各分点。
横、纵轴的有效长度可大致相当,否则会使图形显得过宽或过窄。
(3)画直方
直方的个数等于数据的分组数,每个直方相应位置的组距长为底,该组频数为高,依频数分布表的分组顺序排列。
(4)标注
在画好的直方图上,做些必要地标注。
如在图的下方,标注图名,收集数据的时间、地点等。
在图的右上方,标注数据的总个数n,数据的平均值¯x及标准偏差s等。
下面我们举例做频数直方图。
例5一l以表4—9的数据为例,做频数直方图。
解:
因为这批数据已经过频数整理,频数分布表见表4—10,则在频数表的基础上:
(1)建立坐标系
横、纵坐标轴上有效刻度长之比为7/8。
8等分纵轴,标注各刻度;7等分横轴,依次标上备组界限值。
(2)画直方并标注
按照频数表各组的顺序,分别画出高为4、14、17、39、18、6、2共7个直方,并做简单的标注后,得直方图(见图—4)。
图-4石油苯冰点数据直方图
频数直方图的观察及判断如下。
通过频数直方图的分布形状,可对工序状况作出大致的判断。
频数直方图从形状上观察,大致可分为以下六种:
(1)正常型:
其特点是左右基本对称,中间部分高,两边部分低,说明质量数据的分布呈正态分布或近似于正态分布,表明工序处于稳定理想状态。
(2)弧岛型:
在远离分布中心的地方出现另外的小直方,形如弧岛,它表明生产工序在短时间内发生了异常,或者测试仪器一度出现系统性偏差等。
(3)偏向型:
直方图的高峰明显地偏向一侧,形成一侧偏坡,一侧偏陡的形状。
它往往是技术上的原因或出于经济性的考虑所造成。
如石化生产中某些装置为提高收率,使工艺条件或产品质量特性偏移中心某一侧,在包装工序中存有“宁多不少”,轴类零件加工尺寸的“宁大不小”等意识指导下,都可能使指标直方图呈偏向型。
(4)双峰型:
直方图中出现了两个峰部。
它是由于两个总体混在一起或总体发生明显的变化所致,如两套装置或设备生产同一产品,或者是同一装置不同时期的数据混在一起,这时应考虑对数据进行分类。
(5)平顶型:
直方图没有突出的峰部,顶部基本呈平顶状。
这可能是将多种应该分开的数据混在了一起,或者是生产过程中某种缓慢因素在起作用,使得控制中心缓慢地向一侧移动。
(6)断齿型:
这种类型的直方图,呈现断齿形状,参差不齐,但从整体上看,左右基本对称,并且还是中间高、两边低的趋势。
它可能是由于分组过多或者测量仪器精度不够,数据误差大等原因所造成的。
从数据分布的离散、偏离程度的角度去观察频数直方图时,直方图还可分为下面三种类型:
(7)偏心型:
形状属于正常型,但位置明显地偏左或偏右。
说明控制中心偏离规定的中心。
中心分为规格中心与实测(或控制)中心,实测中心大致在直方图的高峰附近、规格中心则是标准所规定的理想中心。
如尿素包装袋重指标规定为40±0.02(kg)、规格中心为40kg。
当实测中心明显地偏离规格中心时,直方图呈偏心型。
(8)胖型:
图形左右基本对称,但整体高度明显下降,呈现出低而宽的形状,直方图的宽度超过规格界限(或称公差范围)。
说明、质量数据的波动很大、工序不稳定、易出不合格品。
规格限分标准规定的规格下限和上限、如(7)中提到的重量规格:
40±0.02中,40一0.02=39.38为规格下限,40十0.02=40.02为规格上限。
规格上限与规格下限之间的距离为允许公差范围T,即T=规格上限(TU)一规格下限(TL)
(9)瘦型:
图形基本对称,但整体高度明显提高.呈现出高而窄的形状,直方图全部落在规格上下限之内。
说明、质量数据波动很小,数据相当集中,在中心不偏移时,太瘦的直方图,表明实际质量远高于规定的质量。
下面是九种类型直方图的示意图,见图—5。
图—5直方图的示意图
4.5.3排列图
排列图是用来从诸多质量问题中寻找主要质量问题,或从诸多影响质量的原因中寻找主要原因的一种图。
排列图也叫主次因素图或帕雷托图。
排列图是由两个纵轴、一个横轴、若干个直方和一条累积频率折线组成的图。
它能直观、醒目地表现出主次因素。
排列图的作图步骤如下:
(1)做排列图统计表
如为了寻找主要质量问题,这个统计表可以是不合格项目统计表。
表头可分别安排:
项目、不合格频数、累积频数、累积频率。
项目一栏须按照项目不合格频数从大到小的顺序来填写,即将频数大的项目排在前,频数小的项目排在后。
通常,可将最后的几个频数太小的项目合并为一项,记为“其它”,放在最后。
累积频数仍是该项目频数与它前面各项目的频数之和。
累积频率是该项目频率与它前面各项目的频率之和。
(2)建立坐标系
画横坐标轴表示项目,并用项目的个数等分横轴,把各项目名称按统计表中的顺序,从左到右填写在备等分刻度的间距下。
画纵坐标轴。
左纵坐标轴表示频数,右纵坐标轴表示累积频率。
先确定左纵轴总频数或最大频数的高度,然后确定右纵轴100%位置。
这两个高度可大致相当。
纵、横轴长度之比为1~1.5为宜。
(3)画直方
每个项目名上对应一个直方、该直方的高等于它的频数。
(4)画累积频率折线
在各直方的右边线(或中线)或它们的延长线上打点,点的高为它所在项目的累计频率,并在点的近旁标出该点的累计频率值。
从左原点开始,用折线连结各点,直至右纵轴的100%处,便得到累计频率折线,该折线也称帕莱托折线。
(5)标注
在做好的排列图上做必要的标注。
如在图的下方标注图名、作图时间、制图者等,在图的左上方标注总频数N
排列图的观察:
从排列图右纵轴的75~80%处、90%处以及100%处,分别向累计频率折线引平行于横轴的虚线,三条虚线与折线所得的交点依次记为A点、B点和C点。
我们称A点以前的因素为主要的或关键的因素,因为这些因素造成的不合格品率或质量缺陷占总数的80%左右。
A类因素以一至两个为宜,在项目较多时,也不宜超过三个。
否则,应考虑重新分层排列。
A点到B点之间的因素为次要因素,也称B类因素。
B点到C点之间的因素为更次要的因素,也称C类因素。
B类因素与C类因素造成的质量缺陷各占总数的10%左右。
实际应用中,三类因素的划分不是绝对的,有时只占总数60%的项目也可认为是主要原因,确定主次因素,应根据实际情况灵活运用。
下面我们来看一个具体例子。
例5—4某炼厂催化车间为寻找当前质量问题中的主要问题,对两个月的全部112次产品分析不合格数据进行统计与排列整理,不合格项目统计表如表5—5,试做排列图(见图5—12)。
解:
由排列图统计表知:
共有7个项目,总频数为112。
将横轴7等分,依项目排列顺序从左到右填写。
将左纵轴上总频数112定在适当高度后,确定右纵轴上100%的高度与左轴基本相等。
然后画各直方。
将每个项目的累积频率点依次标出,并用折线连结各点至原点,从累积频率73%处向左引一条虚线,得交点A。
即汽油干点,柴油干点两个项目为主要质量问题。
例5—4中的排列图,其左纵轴标到了总频数N,通常,左纵轴也可以只标到最大频数。
如例5—4中将左纵轴只标到64。
例5—5绘制统计表5—6的排列图(见图5—13),并指出A类原因。
解:
将左纵轴最大有效刻度定为300,并与右纵轴100%高度相等,建立坐标系、画直方。
在各直方的中线或中线延长线上用点标出各项目的累积频率,连结成折线。
从右纵轴的80%处向折线引一条虚线,确定三个原因:
定伸,皂、结苯为A类原因。
4.5.4相关图
1)相关图
相关图又称散布图。
它是反映两个变量或两组数据之间相互关系的图。
在数据处理过程中,常常会遇到反映同一产品的不同质量特性的数据,这两种特性值数据问似乎有着某种关系,使两种数据互相联系、又相互制
约。
若将一组特性值看做是一个变量所取的不同值,另一组特性值是又一个变量关于前一个变量的对应值,则数据之间的关系可归为变量之间的关系。
我们知道,两个变量之间有如下三种可能:
一是存在着某种确定性关系,即两个变量可以用确定的函数关系式表示出来,从而由一个变量的取值精确地求出另一个变量的对应值。
二是不存在确定性关系,但却有相关关系。
即两个变量之问有关系,但又不能由一个变量的取值精确地求出另一个变量的对应值,只能近似地用某种函数关系来表示。
三是两个变量之间既无确定性关系,也不存在相关关系。
我们这里所要介绍的是上述第二种关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 处理