数据分析培训资料.docx
- 文档编号:30355615
- 上传时间:2023-08-13
- 格式:DOCX
- 页数:24
- 大小:80.89KB
数据分析培训资料.docx
《数据分析培训资料.docx》由会员分享,可在线阅读,更多相关《数据分析培训资料.docx(24页珍藏版)》请在冰豆网上搜索。
数据分析培训资料
数据分析培训提纲
1.概论
1.1数据分析的重要性
(1)贯彻质量管理8项原则的需要
QM的8项原则之一为:
基于事实的决策方法。
要避免决策失误必须提供足够的信息,以及进行科学决策。
信息:
有意义的数据。
数据:
能客观反映事实的资料和数字。
要使数据提升为信息,才能将其增值。
为此,必须从数据收集和分析上运用科学的方法,使之便于利用。
(2)通过数据的收集和分析可证实QMS是否适宜和有效。
(3)帮助识别和评价QMS持续改进的机会。
(4)增强对各种意见和决策的分析、判断、评审、质疑能力
因此,数据分析是保障QMS有效运行的重要手段。
1.2数据分析的一般过程
1.2.1数据收集
(1)收集范围
产品、体系和过程的数据,如:
产品检测中的不合格,QMS质量目标完成情况、持续改进情况、过程监视和测量情况等。
事实上在QMS的各个过程中,都会产生一些数据,在管理中必须根据当前及长远目标的需要,确定应收集那些数据,重点如何。
(2)收集方法
1)各种报表和原始记录(注意分类)
2)区域网中的数据库
3)注意明确收集人、收集时间、收集方式、传递方式。
(3)收集的要求
1)及时
2)准确数据的质量,“进来的是垃圾,出去的还是垃圾”
3)完整数据项目齐全,数量符合要求。
1.2.2数据分析、处理
(1)数据的审查和筛选
剔除奇异点,确定数据是否充分
(2)数据排序
按其重要度进行排序,以确定分析处理的对象和顺序
(3)确定分析内容,进行统计分析
(4)分析判断
在统计分析的基础上,以目标值或标准为依据,对统计分析结果(绘图或计算)作进一步分析,以获得指导过程改进的明确信息,找出主要问题和薄弱环节,并提出相应的改进建议。
(5)编写报告
对分析判断得出的规律、趋势整理成报告(附有直观的图表)
-1-
1.2.3数据的利用
不能为分析而分析,要有“的”放矢,数据分析应指导管理。
数据分析是为了科学决策,决策的结果,可通过前后对比来分析判断其有效性。
数据分析应对其全过程做到闭环管理。
为此,应将数据分析信息有效地传递,做到信息共享。
在风险评估的基础上,采取适当措施。
2.统计分析技术
2.1概述
2.1.1什么是统计分析技术
(1)统计技术
运用数理统计的方法对数据进行分析,找出其规律和趋势。
如:
常用的控制图、回归分析、试验设计等。
(2)分析技术
运用逻辑分析的方法对数据进行分析,找出影响事物的因素及其影响程度。
如常用的排列图、因果图、饼图、QFD和FMEA等方法。
2.1.2统计技术应用的基础条件
(1)日常管理秩序健全,产品质量有可追溯性。
(2)生产过程相对稳定。
影响质量的因素已规范化,过程质量处于受控状态。
(3)具备必要的物质、技术基础
测试手段适用,必要的图表及计算处理用具或软件。
(4)大量的数据计算和处理运用计算机
2.2统计技术的基础知识
2.2.1随机变量及其分布
(1)什么是随机变量:
变量——数值有变化的量,相对常量而言。
随机因素——随机(不是人为偏向)因素(多种因素),如:
年降雨量,抛硬币。
加工尺寸——由模具磨损、机器磨损、材料、人的操作重复性、环境……等决定。
随机变量——受随机因素影响的在一定范围内取值的量抽样必须随机,不能有倾向性,。
(2)分布
直方图:
fi
n——数据总数
参数
频率:
fi=
ni——第i组的频数
连续型随机变量:
ΔXO为一光滑曲线,此曲线为分布函数。
分布的特征:
形状(对称、偏斜)、位置、分布宽度(最大值—最小值)。
2.2.2总体与样本
总体——研究对象的全体,如一批电缆,可视为总体,研究其总长,每一根(或段)电缆则为总体中的一个个体(成员),一批所有电缆的总长为总体。
总体用变量X表示
-2-
样本——从总体中抽出的部份个体组成的集合称为样本。
抽样因为不可能研究每一个个体。
从样本推断总体,必须正确反映总体的信息,正确抽样。
随机抽样——简单随机样本、随机数表
Xi0~99可以构成2500个随机数。
2.2.3正态分布
钟形曲线,曲线下的面积表示概率
对称,中间高,两边低
X~(μ,σ2)
X
μ
μ——总体的均值;σ——总体标准差
正态分布检验:
·直方图
·概率纸横坐标——X的等距取值;纵坐标——不等距0.01%~99.99%
在概率纸上描出的点呈一直线,则为正态分布。
正态分布的分布函数值
近似正态分布——总趋势符合正态分布,但有个别的奇异点。
2.2.4常用统计特征量(样本)
统计量——不含未知数的样本函数称为统计量。
统计量是由样本得出,但其对估计总体状况(产品的某些特性值)具有重要意义。
(1)反映样本位置的统计量
1)均值——样本的算术平均值X
样本中的数据多数分布在样本均值附近,因此它是表示样本位置的最好的统计量。
局限性:
容易受数据中的特大、特小值(异常值)的影响。
若有5个样本,观测值为3,5,7,9,11X=7
如果误将11记为21X=9
当数据异常时,把X作为数据的代表不太合适,需要引入新的统计量。
2)中位数——样本中的数据从大到小排列后处在中间位置上的数。
样本容量n为奇数时,它为中间的一个数
n为偶数时,它为中间的两个数的平均值,记为Mα
如样本为10,15,23,30则Mα=(15+23)/2=19
10,15,23,30,35则Mα=23
中位数受异常值的影响较小,如:
其Mα均为7
3,5,7,9,11
3,5,7,9,21
(2)反映数据波动的统计量
1)极差R=Xmax—Xmin
极差计算简便,但对样本信息利用不够,且它受异常值的影响较大。
两者极差差异相当大,但中位数相同
如:
前例中3,5,7,9,21则极差为18
3,5,7,9,11极差为8
2)方差和标准差
样本方差:
较充分利用数据,反映数据的波动
S22=Σ(Xi—X)2/(n—1)
-3-
即单个样本数据与样本均值之差的平方和除以(样本容量—1)
若样本为3,5,7,9,11
n=5S2=(3—7)2+(5—7)2+(7—7)2+(9—7)2+(11—7)2/4=10
5,6,7,8,9则S2=2.5S2小说明数据波动小,即数据较为集中。
标准差——方差的平方根S2=S,如S2=16,则S=4
因为方差虽可反映数据的波动,但其量纲为原始数据的量纲的平方,在量纲上不明确,故引入标准差。
2.2.5正态分布总体参数估计
当一个特征量(总体函数)服从正态分布时,其分布可由μ,σ2唯一确定,若样本的观察数据服从正态分布时,则可用样本的均值和
方差去估计总体。
估计值μ=Xσ2=S2
这时需注意三个层次对应的三种符号
μ、σ——总体;X、S——样本;μ、σ2——估计值
2.3常用统计分析方法
2.3.1记实统计(描述性统计)
(1)记实统计的概念
记实统计是揭示数据分布特性的概述和显示定量数据的程序。
重要的数据特性:
1)趋中性(多数常常分布在中间)可以通过模型或中位数来描述。
2)数据范围如最大、最小值的区间,标准区域
3)数据分布如对称度,分布规律(可用数学模型描述)
(2)记实统计的表达方法
常用简单的图形来有效地传递信息,如:
饼图、条形图表、直方图等,其优点在于能显示定量分析中不易发现的数据的异常特性,可以显示复杂数据,适于非专业人员分析相关数据,它易于理解并能够在所有层次用于分析和判断。
(3)记实统计的应用
用于数据的概述并描述特征,通常是定量数据分析的第一步,它可提供抽样数据特性(如均值和标准偏差)的定量量值,然而其量值取决于抽样大小和所采用的抽样方法。
记实统计对收集定量数据的所有领域均适用,如:
·描述产品特性的关键量值(如中值或范围)
·描述过程参数(如温度)
·对顾客调查中收集数据的统计。
2.3.2抽样检查
抽样是为得到关于一个总体的一些特性的信息,而去研究总体的代表性部份(即样本),通过样本的特性来推断总体的特性的方法。
可利用抽样技术,如简单随机的、系统的、连续的、跳批等,来获取样本。
抽样方法的选择取决于抽样的目的和具体条件。
针对不同的对象和目的,有许多抽样标准,如GB/T2828是针对连续批产品验收,GB/T15239针对孤立批产品验收。
2.3.3统计过程控制(SPC)
2.3.3.1概述
(1)历史:
休哈特1924年发明控制图,30~60年代世界质量管理以此为基础来控制质量特性。
(2)统计过程控制的作用:
-4-
1)完成QC的重要任务,即“监测”影响质量的全部生产过程的变量和过程参数。
2)确定过程参数和产品特性是在期望的范围内,还是偏离了上述范围。
3)当过程中的问题暴露无遗时,将危及产品特性,因此需要统计过程控制来预见问题即将出现,从而降低生产费用。
4)了解过程变差,并帮助达到统计控制状态,处于统计控制状态,其性能可预测。
5)改进受控状态。
(3)SPC的应用条件
1)测量系统误差必须能被识别或给予补偿、消除,测量系统误差可按(MSA)去控制。
2)测量过程参数的偏差,都应是随机误差,并且服务正态分布。
3)过程在统计控制之下,均值和标准差近于恒定,分布范围在±3б之内。
2.3.3.2控制图基础知识
(1)控制图的优点
1)简便,便于现场操作者使用
2)有助于稳定过程和成本
3)促进过程信息交流(二、三班制工人间,工艺、质管人员)
4)易识别造成变差的原因,避免混淆、减少时间和资源的浪费
(2)应注意区别以下概念:
·公差(容差):
允许的参数变动范围
·偏差:
与公称值之差
·变差:
一批样本中参数的变动范围
(3)变差的两类原因
1)普通原因
造成随时间推移,稳定且可重复的分布过程的变差原因,对于稳定系统的偶然原因(如周期振动),需要采取系统措施:
·消除普遍原因
·大都由管理人员纠正
·85%问题属此类
一个稳定系统受到偶然因素干扰,排除干扰则受控。
2)特殊原因(可查明的原因)
不是始终作用于过程的形成变差原因,其影响过程分布改变(如热处理夜班工人睡觉),若存在特殊原因,过程将不稳定。
对于特殊原因需要采取局部措施:
·消除特殊原因
·由与过程直接相关人员实施
·15%问题属此类
2.3.3.3控制图的构造
观测值USL上偏差线
(统计量)UCL上控制限
A警示线(2σ)
LCL下控制限
LSL下偏差线
-5-序号(观测值的顺序号)
·警示线:
虽不能表明的问题已发生,但可提供重要信息。
短期内有较多的值在警示线外,应予重视,调查其原因,加以消除。
在发生问题之前予以现场警示(2σ对应于概率95.4%),4.6%将在线外。
A=kσ
我国A=3σ合格概率99.93%,不合格概率0.23%
汽车、电子(如焊点PPM)A=6σ不合格概率2.7‰
2.3.3.6绘制控制图的一般步骤(随机抽样)
(1)收集数据描点——按一定时间间隔,采集样本,测定每一样品特性值
计数样本容量n可相同或不同
计量分组(子组)相同子组内ni一般为5
一个样本的样品应当是在基本相同的生产条件下生产的(不能分层)
(2)计算控制限
一般无特殊原因不应超出控制线,否则已失控,暴露出问题,应加以消除。
(3)分析
判断是否异常或受控,有经验可遵循
(4)改进
针对普通原因,采取系统措施
2.3.3.5控制图的两类作用
(1)监控
中线CL、UCL、LCL都用以往数据可由试生产、以前生产统计、初次统计得到。
(2)分析
可先测出数据,在计算UCL、LCL、CPK。
2.3.4均值图X、极值图R
2.3.4.1概述
X—R图
X过程突变其反应最快
R较长周期较小波动
2.3.4.2绘图步骤
(1)选择子组:
子组内样本数ni=2—5
子组的作用:
子组的均值,比单次测量值更能表征总体。
注意事项:
1)测量误差带来影响,所产生不合格品的概率,要比过程本身大得多(应测量准确足够精密)
2)nIXi超过±σ的概率ni=2概率为0.21%
ni=3概率为0.01%
意味着niXi向中心线靠拢
所以ni有次序的数组的均值,很有作用。
3)周期性抽样(抽样频率)
应该控制抽样条件一致:
机台、模具不变,否则难以分清两类(普通、特殊)原因。
持续连续过程:
几秒钟抽取一个样本,这对研究过程能力很方便而可信。
慢速过程:
一般不频繁抽样。
一般的周期可取15、30、60min,这可反映一段时间后过程的变化。
潜在的原因:
-6-
如换班、操作人员更换等。
初期过程不稳定,抽样频率高,间隔短,生产过程稳定后可放慢。
(2)总样本容量:
子组数n一般取n=25(样本数),>20为小样本,>100属大样本。
通常总样本数N=100即n=25,ni=4这样可保证变差的主要原因有机会出现。
(3)绘制X-R图
1)计算Xi各子组的Xi的均值
Ri子组内RI=Rimax—Rimin
2)确定控制表的刻度(纵坐标)X≥2(Ximax—Ximin)
R:
一般可取X图的2倍
3)计算控制限
UCLX=X+A2R
LCLX=X—A2R
R图:
UCLR=D4R
LCLR=D3R(n<7无下限)
表
ni
2
3
4
5
6
7
D4
3.27
2.57
2.28
2.11
2.00
1.92
D3
-
-
-
-
-
0.08
A2
1.88
1.02
0.73
0.58
0.48
0.42
4)将控制限画到图上
一个受控的过程应是只有百分率很低的点失控,允许在失控点采取措施。
2.3.4.3异常情况分析
(1)异常情况
1)任何点超过控制线。
全在中心线上或下
2)“链”(连续形成的7个点)
连续上升或下降
3)明显的非随机性图形,如周期波动,子组内第一个数总为最大值。
4)过程分布宽度增大,过程失控,过程分布宽度增大。
5)数据点的分布规律。
6)图形趋势。
正态分布决定数据密集性,2/3点应落中1/3区域内
连续3点有2点超警示线(±2σ)
连续5点有4点在1/3σ以外。
(2)异常原因
1)描点、计算有误3σ99.73%
2)测量系统变化(如检验员、量具变化有零飘)
3)测量量具分辨力不够,准确度、精密度不够,过度磨损(7个点偏一侧)
4)过程输入有变化(原材料不均匀,设备故障,刀具松动……)
5)环境变化(温度)、变速、调速(自动)
·过程、取样方法分层(如材料批次混淆,几根芯轴每轴测一个数)
-7-
6)每个样本中有不同过程的测量值。
7)数据经过编辑(X、R波动大的数据已被剔除,更改数据)
若超出控制限的点多,则有特殊原因存在。
2.3.4.4过程能力分析
若处于统计状态,才能评价过程能力CPK
注意:
CPK与CP之区别
CP:
X=μ时,即中值与容差中心重合。
CPK:
X≠μ时,即中值有偏移时。
(1)过程的标准差:
σ=R/d2=σR/d2d2为常数,查表可得
(2)单边容差:
Z=或Z=CPK=Z/3
(3)双边容差:
ZUSL=ZLSL=CPK=Zmin/3
σR/d2σR/d2
Zmin=ZUSL和ZLSL中的较小者
(4)提高过程能力的途径:
采取系统措施,减少形成变差的普通原因,即通过管理措施来改变过程控制,可采取:
1)将X调整到与目标值一致或接近。
2)保持设备性能、输入材料的一致性。
3)改进过程操作方法
4)改进培训方法,提高培训有效性
5)改善工作环境
为了清楚地识别影响过程能力的原因,运用因果图、排列图是极为有益的。
(5)示例
(见扫描图)
-8-
~
2.3.5中位数X图
2.3.5.1概述
(1)中位数如何确定
~
奇数:
1,5,7,11,22共5个数字,按其数值大小顺序排列,位于中间的数值7即为中位数,记为X=7
~
偶数:
2,6,10,13,17,21共6个数字,按其数值大小顺序排列,位于中间的两个数字为10,13,则X=1/2(10+13)=11.5
(2)采用中位数的优点
1)简便易学易用,特别适用车间工人监控过程情况。
~
2)可显示过程输出的分布及变差趋势。
3)便于比较几个过程的输出情况及同一过程不同阶段的输出情况(可在同一张纸上描出几个X图)。
2.3.5.2中位数图绘图特点
由于X(中位数)图与X-R相类似,故仅注意其不同之处即可。
(1)收集数据
1)子组内样本数
~
ni≤10时,样本数宜为奇数,以便于找出中位数。
2)只绘一张X图
~
刻度设置图上刻度与量具一致,并考虑:
*产品容差+超出规范的读数(即可能的最大读数);
*(1.5~2)(测量最大值-测量最小值);
3)将每个子组的单值描在图中一条垂直线上并圈出每个子组的中位数,将各中位数连成一条折线,从其中可看出趋势。
4)将每个中位数(X)和极差(R)
值填入数值表,以了解其趋势。
(2)控制限
X:
UCLX=X+A2R
LCLX=X-A2R
~
n
2
3
4
5
6
7
8
9
10
A2
1.88
1.19
0.80
0.69
0.55
0.51
0.43
0.41
0.36
d2
1.13
1.69
2.06
2.23
2.53
2.70
2.85
2.97
3.08
R:
UCLR=D4R
LCLR=D3R
R的控制限用来判断是否有超出控制限的点,其中:
D4,D3及R与(X-R)图的数据相同。
-9-
(3)过程能力
^
σ=R/d2,d2可由上表查出。
若过程服从正态分布,中位数的极差处于统计状态,则可用σ直接来评价过程能力。
过程能力计算方法与X-R图相同。
(4)中位数图的替代方法
~
若控制限由以前数据得到,则可简化,用于监控。
1)只描Xi的点不必记录数据。
2)标出Rmax和Rmin
(5)示例
-10-
2.3.6不合格率P
2.3.6.1概述
(1)计数型数据
X-R和X图均只适用于可通过测量得到数据的量值统计分析。
对生产中有许多项目只需要判断合格与否,如击穿、外观等。
在管理活动中,如量具合格与否,以及其他QM管理项目,行政管理项目都可利用计数型数据进行分析。
(2)不合格率p
1)p的概念
被检项目数量n,发现不合格数量为np,则p=
2)注意:
*区别不合格的百分数为p╳100
*一个零件上多个被检项目不合格,只能记为一个不合格数。
3)将检测结果分为子组时,应以能找出不合格数为原则,。
将不合格数与子组大小相比,得出pi。
4)确定要管理的特性。
选择统计分析的对象时,应将精力集中到对过程改进最有积极作用的特性上。
这时,应考虑:
*顾客需求(主要指内部顾客)
当前存在问题或有潜在问题的区域。
*浪费或性能不好,如:
过度超差、报废、返工、与目标不符等。
*特性间的相互关系,若几个特性趋势一致,只需描述一个特性。
2.3.6.2p图的绘制
(1)收集数据
1)选择子组容量、数量及分组频率。
*子组容量ni
一般ni=50~200或更多,子组容量应足够大,以使其内有若干不合格。
*分组频率
每个子组间隔时间,一般宜根据产品周期来确定分组频率,以便帮助发现问题及时采取控制措施。
间隔短,反应快。
但与子组容量要求可能有矛盾,时间太短可能没有足够数量的样品。
*子组数n
一般n≥25,应有足够长时间,否则看不清控制状态是否稳定。
2)计算p
(2)绘制p图
1)座标
纵座标p
-11-
横座标子组组别(如间隔小时、天为一子组)
2)描点绘图
p图只有一个
(3)计算控制限
1)过程不合格率均值p
对于n个子组p=Σpi
2)计算上、下控制限
UCLP=p+p(1-p)n
LCLP=p-p(1-p)n
(4)过程能力
1)p为过程能力,如p=0.0312
表明功能检验出的失效(或故障)率为3.12%
相应的合格率为96.88%
若这为100%检验的结果,不合格被剔除,顾客虽可以免于接收不合格品的风险,但3%的平均不合格率,则很浪费。
2)p反映了过程生产和可能预期的现阶段生产水平。
p不是被动的单值。
3)提高p的注意事项
*若过程处于统计控制状态,p则反映了变差的原因。
*注意区别变差的普通原因和特殊原因,对于前者必须采取管理措施。
*如需进一步追溯变差的可疑原因,则宜给X-p图。
*将过程定位在目标值上。
确定过程目标值时,可先作p图,求p。
(5)示例(见胶片图)
-12-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 培训资料