聚类主成分分析.docx
- 文档编号:9110876
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:12
- 大小:251.68KB
聚类主成分分析.docx
《聚类主成分分析.docx》由会员分享,可在线阅读,更多相关《聚类主成分分析.docx(12页珍藏版)》请在冰豆网上搜索。
聚类主成分分析
主成分-聚类分析法在管道风险评价中的应用
摘要:
管道在运行过程中面临着多种风险,对管道所面临的风险进行一定的统计分析可以更精确地分析得出不同风险段的不同风险因子对评价结果的影响程度。
本文按照管段实际情况选择有差异的10个风险指标X1(埋深),X2(壁厚),X3(人口密度),X4(公众态度),X5(上方活动),X6(阴保电流),X7(土壤腐蚀),X8(杂散电流),X9(敷设方式),X10(土体类型)建立风险评价流程,通过标准化,主成分分析和聚类分析,降低了管道风险指标间的相关性和赋权主观性,提取了管道风险指标的3个主成分因子,然后结合指标间的相关性,最终得出了管段的风险分类和排序。
这可以提高提高管道风险评价体系的可靠性和实用性,具有实际的意义。
关键词:
油气管道、风险评价、主成分分析、聚类分析
1问题背景
管道风险评价作为管道风险管理的基础,其目的是通过计算某段或整条管道系统的风险值对各个管段或整条管道进行风险排序,以识别高风险部位,确定那些最大可能导致管道事故和有利于事故预防的至关重要的因素,确定管段的优先次序,为维护活动经济性的决策提供依据,最终使管道的运行管理更加科学化。
主成分分析法从数据的内部结构出发,通过数学变化产生综合评价指标涉及的赋权,减弱了多指标综合评价体系中的主观性影响。
聚类分析是依据数据相似度,将大量数据点的集合分成若干类,使得每个类中的数据间最大程度地相似,而不同类中的数据最大程度地不同。
采用主成分-聚类分析法开展管道风险评价,在消除管道风险评价指标信息重叠和主观性的同时,实现依据风险指标对管道管段的排序、归类,为管道风险管理,维抢修物资、人员的配置提供科学依据。
2方法模型
2.1主成分分析
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
Fp=a1i*ZX1+a2i*ZX2+……+api*ZXp,其中a1i,a2i,……,api(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1,ZX2,……,ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:
本文指的数据标准化是指Z标准化。
A=(aij)p×m=(a1,a2,…am,),
Rai=λiai,
R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0。
主要步骤1.指标数据标准化(SAS软件自动执行);
2.指标之间的相关性判定;
3.确定主成分个数n;
4.主成分Fi表达式;
5.主成分Fi命名;
2.2聚类分析
聚类分析的目标就是在相似的基础上收集数据来分类。
聚类分析发展至今,有许多种不同的聚类方法,其中应用得最多、最成熟的方法为系统聚类法和K-means聚类法。
在此采用系统聚类法,其基本思想为:
首先将一定量的指标和变量各自视作一类,然后根据指标间的亲疏程度,合并相关性较高的类,之后考虑合并后的类与其他类之间的亲疏程度,再进行合并,以使得类别内数据的差异尽可能小,类别间数据的差异尽可能大。
3实际应用
本文选取某输气管道部分管段进行风险评价研究,管道直径660mm,最小壁厚7.1mm,最大操作压力为6.3MPa,全线长200km,埋深大部分超过1.5m,管道沿线有第三方工程施工,操作人员均经过培训。
根据综合评价方法模型,按照图1流程开展评价工作。
采用基于肯特评分法对风险因素X1(埋深),X2(壁厚),X3(人口密度),X4(公众态度),X5(上方活动),X6(阴保电流),X7(土壤腐蚀),X8(杂散电流),X9(敷设方式),X10(土体类型)进行评分(表1)。
表1管道风险因子量化评分结果
3.1评价指标标准化
为避免因各指标量纲的不同而缺乏可比性,首先按照下述公式对原始评价数据标准化(表2),标记为x1,x2,⋯⋯,x10。
表2管道风险因子量化评分标准化数据
3.2主成分提取与计算
从标准化后变量的相关系数矩阵(表3)可以看出,壁厚与公众态度、土体类型,上方活动与公众态度、敷设方式、土体类型等指标之间的相关系数绝对值较大,说明变量之间具有较强的相关性,适合主成分分析。
表3相关系数矩阵
特征根可以被视为表示主成分影响力大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此主成分个数的提取原则之一为主成分对应的特征值大于1。
根据表4列出的公共因子的特征根和累计方差贡献率,前3个主成分特征根均大于1,并且方差累计贡献率为72.1038182%(>70%),包含了原始指标大部分的信息量,将其作为反映原始指标的信息量可以认为是有效的,故提取风险因子个数为3,即原来的10个油气管道风险评价指标可以综合成3个公共因子。
表4特征根和方差贡献率
3.3主成分表达式的计算
表5各因素主成分特征向量
表6第一主成分、第二主成分、第三主成分特征向量
表6为提取的3个主成分在原指标上的特征向量。
主成分特征向量表示主成分和相应的原先变量的相关关系,由表6中可知,壁厚、公众态度、上方活动、土体类型在第一主成分上有较高比重,说明第一主成分基本反映了这些指标的信息;阴保电流和土壤腐蚀在第二主成分上有较高比重,说明第二主成分基本上反映了两个指标的信息;埋深在第三个主成分上有较高比重,说明第三主成分反映了该类指标的基本信息。
将得到的特征向量与标准化后的数据相乘,得出
主成分表达式:
F1=0.255407*x1+0.418994*x2-0.289083*x3+0.438373*x4-0.395960*x5+0.151172*x6+0.049177*x7+0.241727*x8-0.286954*x9-0.400801*x10
F2=0.146191*x1+0.187481*x2-0.430505*x3+0.106445*x4+0.280178*x5-0.487507*x6+0.453504*x7-0.279997*x8+0.364077*x9-0.118473*x10
F3=0.642729*x1+0.005015*x2+0.197820*x3+0.067108*x4+0.103812*x5-0.362715*x6-0.541355*x7+0.226085*x8+0.238092*x9+0.005639*x10
3.4风险管段得分及排名
表8反映了18个管段基于不同风险因素的排名。
管段的排名越靠前,说明该管段受该类风险的影响越大。
综合F=0.4349*F1+0.1774*F2+0.1088*F3
表7初始数据及第一、二、三主成分
表818个管段不同风险因素排名
3.5聚类分析
通过系统聚类法分析得到了各管段的聚类树状图(下图2)清晰反映了各管段之间的风险因素的相似性。
图中第15-18管段聚为一类,通过分析原始指标(表1可知,4个管段的10个评价指标中大部分指标完全一致,其余指标稍微有差异。
图2可变类平均距离聚类树状图
参考文献
[1]帅健.输油管道的风险评价[J].油气储运.2009.
[2]戴联双,张俊义等.管道风险评价方法与应用[J].油气储运,2010.
[3]油气管道风险因素的权重赋值方法研究[J].天然气工业,2007.
[4]高惠璇实用统计方法与SAS系统[M]北京大学出版社2002
[5]吴翊应用数理统计[M]国防科大出版1995
[6]姜扬.聚类和主成分回归在经济指标数据中的应用研究[D].吉林大学,2010.
附件SAS程序
datafengxian;
inputnumberx1-x10@@;
cards;
11.57.1280.0424.04.0430.090.0112.0459.0453.0
21.57.1280.0424.04.0431.092.0112.0459.0453.0
31.58.7280.0424.04.0431.092.0112.0459.0453.0
41.58.7280.0424.04.0431.092.0112.0459.0448.0
51.58.7280.0424.04.0431.090.0112.0455.0453.0
62.010.3279.0425.02.0431.090.0110.0458.0449.0
72.010.3277.0425.02.0431.092.0112.0458.0449.0
80.810.3277.0425.02.0431.092.0112.0454.0448.0
92.010.3277.0425.02.0431.092.0112.0454.0448.0
102.010.3277.0425.02.0431.092.0112.0458.0448.0
112.010.3277.0425.02.0431.092.0377.0456.0448.0
122.010.3279.0425.02.0431.092.0377.0454.0449.0
132.010.3279.0425.02.0431.090.0377.0456.0446.0
142.010.3279.0425.02.0431.090.0112.0454.0449.0
152.010.3279.0425.04.0431.092.0112.0458.0449.0
162.010.3279.0425.04.0430.092.0112.0458.0449.0
172.010.3274.0425.04.0430.092.0112.0458.0449.0
181.610.3279.0424.04.0430.092.0112.0458.0449.0
;
procprintdata=fengxian;
run;
optionsps=40ls=100;
procstandarddata=fengxianout=fengxian1mean=0std=1;
varx1-x10;
run;
procprint;
run;
procprincompdata=fengxianout=scoren=3;
Varx1-x10;
Run;
Procprintdata=score;
Run;
Procprincompdata=fengxianout=result1prefix=F;
VarX1-X10;
run;
Data1fengxian;
Setfengxian1;
F1=0.255407*x1+0.418994*x2-0.289083*x3+0.438373*x4-0.395960*x5+0.151172*x6+0.049177*x7+0.241727*x8-0.286954*x9-0.400801*x10;
F2=0.146191*x1+0.187481*x2-0.430505*x3+0.106445*x4+0.280178*x5-0.487507*x6+0.453504*x7-0.279997*x8+0.364077*x9-0.118473*x10;
F3=0.642729*x1+0.005015*x2+0.197820*x3+0.067108*x4+0.103812*x5-0.362715*x6-0.541355*x7+0.226085*x8+0.238092*x9+0.005639*x10;
Run;
Procprintdata=1fengxian;
VarxF1F2F3;
Run;
Procplotdata=score;
Plotprin2*prin1=’*’$管段;
Run;
procprincompdata=fengxian1prefix=zout=outfengxian;
varx1-x10;
run;
procclusterdata=fengxianmethod=flestdpseudoccc
outtree=fengxian2;
varx1-x10;
idnumber;
proctreedata=fengxian2horizontalgraphics;
title'使用可变类平均法的谱系聚类图';
run;
quit;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类主 成分 分析