层次聚类算法应用.docx
- 文档编号:12158662
- 上传时间:2023-04-17
- 格式:DOCX
- 页数:14
- 大小:42.81KB
层次聚类算法应用.docx
《层次聚类算法应用.docx》由会员分享,可在线阅读,更多相关《层次聚类算法应用.docx(14页珍藏版)》请在冰豆网上搜索。
层次聚类算法应用
安徽三联学院
题目:
层次聚类算法应用
姓名张翔
专业计算机科学与技术
班级计一系本科2班
指导教师张林
完成日期:
2011年11月16日
摘要
本文围绕层次聚类分析算法展开研究.首先根据样本间的相似性关系定义分类后类与类间的分离性,以及同一个类别内部的一致性,并进行计算,从而使得计算过程得到简化.利用层次聚类算法实现分层聚类.在基于电价区域划分的实际问题中,这里结合人类视觉感知理论,提出了获取最优聚类的条件,从而实现了最佳的分类.
本文的主要研究工作如下:
第一章:
说明了层次聚类分析的定义及研究方法,对层次聚类分析方法的有效性做出了细致的研究,并提出了基于相似矩阵的有效性函数.
第二章:
将层次聚类分析方法应用在电价区域的空间尺度划分问题中,进而实现了电价区域的划分.
关键词层次聚类分析;有效性;空间尺度
摘要2
目录错误!
未定义书签。
第1章层次聚类分析算法及其研究
1.1
层次聚类分析算法
1.2层次聚类分析算法的有效性研究
1.3本章小结
第2章层次聚类算法的应用
2.1多机系统分析意义6
2.2节点电价的特征类提取6
2.3基于尺度空间聚类的电价区域划分8
2.4本章小结13
结论14
第1章层次聚类分析算法及其研究
1.1层次聚类分析算法
层次聚类算法⑴,也称为树聚类算法,它的目标是对于具有"个样本的集合Xw肿,首先通过相似性函数计算样本间的相似性并构成相似性矩阵R=网,再根据样本间的相似性矩阵把样本集组成一个分层结构,产生一个从1到“的聚类序列.这个序列有着二叉树的形式,即每个树的结点有两个分支,从而使得聚类结果构成样本集X的系统树图比,…,乞,qS使得C}w眄且1 凝聚式算法和分裂式算法.凝聚式算法是以“自底向上”的方式进行的.首先将每个样本作为一个聚类,然后合并相似性最大的聚类为一个大的聚类,直到所有的聚类都被融合成一个大的聚类.它以"个聚类开始,以1个聚类结束,分裂式算法是以一种“自顶向下”的方式进行的.一开始它将整个样本看做一个大的聚类,然后,在算法进行的过程中考察所有可能的分裂方法把整个聚类分成若干个小的聚类.第1步分成2类,第2步分成3类,这样一直能够进行下去直到最后一步分成“类.在每一步中选择一个使得相异程度最小的分裂.运用这种方法,可以得到一个相反结构的系统树图,它以1个聚类开始,以"个聚类结束.与分裂式算法相比,由于凝聚式算法在计算上简单、快捷,而且得到相近的最终结果,所以绝大多数层次聚类方法都是凝聚式的,它们只是在聚类的相似性度量的定义上有所不同. 层次聚类算法是一个非常有用的聚类算法,它在迭代的过程中直到所有的数据都属于同一个簇才停止迭代,但是层次聚类也存在儿个缺点,如聚类的时空复杂度[勺高、聚类的簇效率底、误差较大等. 1.2层次聚类分析算法的有效性研究 针对如何从层次聚类算法得到样本集的多种聚类结果中获得用户最满意的聚类结果,在深入研究聚类有效性的基础上,通过模糊相似性关系刻画聚类的类内致密性和类间分离性,可以建立一个聚类的有效性函数.在人工和实际数据集上的实验都表明了该有效性函数具有良好的性能. 层次聚类算法,特别是凝聚式算法在计算上简单、快捷,而且能够得到相近的最终结果,所以层次聚类算法的应用较为广泛[习.虽然该类算法把数据集的多种分类结果都展现了出来,但是从算法所得到的各类分类结果中获得用户最满意的分类情况却成了一个问题.根据模糊集理论回,系统树结构的每一层是由阈值入决定的.因此,最优聚类结果的选取问题就是最优阈值的选取问题.对于最优阈值的选取问题,使用F-统计量是研究者们比较认可的方法.当然随着模糊数学研究的深入,近几年來也有新的解决方法,Nasibov和Ulusgay提出了一个对于噪声更为稳定的FJP(ftizzvjointpoints)算法.该算法的基本思想是根据样本点与样本点之间的距离计算模糊关系矩阵,对于某一aw(0,l],建立a-截集和等价类.此时,这些等价类决定了模糊聚类的每个截集.但并非对每个6Z€(0,1]都计算Q-截集,而是只计算影响聚类个数Q的对应的截集.最终的截集是由Q取值区间上的最大值确定的.FJP算法己被证明能成功检测团装数据集及流形状数据集,即使添加噪声点后FJP算法也能成功识别流形状数据集.如何衡量一个聚类结果的好坏,以及如何确定最优聚类个数,这些都是聚类有效性问题.关于模糊C均值算法聚类有效性问题的研究也己经有了很丰硕的成果,从1974年开始研究者们提出了许多有效性函数.这些有效性函数构建聚类有效性指标的定义应当是客观的.通常情况下,刻画聚类有效性有2个标准: 类内致密性和类间分离性.F-统计量也是从类内致密性和类间分离性2个方面考虑的.对于层次聚类算法的有效性研究,很多研究者还试图从模糊数学理论着手.范九伦和吴成茂对基于模糊集合定义的若干公式在聚类有效性方面的性质进行了讨论,并对分类性能进行实验,筛选出2有应用价值的公式.这里通过样本间的相似性关系定义类与类间的分离性以及同一个类别内部的一致性,从而使得计算过程得到简化. 1.2.1有效性函数的定义 字典上将类定义为许多相似或同事物的综合.这个定义包含2层含义: 第1 层,在同一个类内的样本相互之间具有相似或相同的属性,也就是说,聚类的致密性度量的值应该是极小化的,否则,如果属性不同的样本被划分到同一个类内,那么这个类的类内致密性度量的值就会较大;第2层是好的聚类的各个类别间的分离性⑺应该是很好的,如果本应属于同一个类的样本被分到不同类别内,那么类与类之间的重叠就会较大,也就是说,一个好的聚类结果得到的类别之间具有较大的离散性.本文将通过样本间的相似性度量给出类内致密性度量和类间离散性⑺度量的定义. 设样本集X通过某相似性度量得到的相似性矩阵为K呦,其通过凝聚式层次聚类算法得到的系统树图为H.对于此系统树图中的任何一层弘,设其中包含c个聚类,每个聚类中含有耳个样本,i=l,2,…c.本文将所有样本间的相似性的算术平均值叫做样本集的平均相似性向量几即7=丄±&•对于一个类,这里把类内所有样本间相似性的算术平均值叫做类内平均相似性向量-(0 r. 类是具有相似属性样本的集合,同一类内样本相互间的相似性差异相对较小.也就是说,每个样本与其他样本的相似性与类内平均相似性向量就会相对小.于是有下面的定义: 定义1(类内致密性度量)设是样本集X的层次聚类系统树图中某一层,并设其中包含c个聚类q,G,…,q每个聚类G中含有亿•个样本,i=样本集X的聚类结果的类内致密性度量定义为: 若要类与类间的分离性较好,各类的平均相似性向量与样本集平均相似性向量的差异必然要大•由此本文通过类内平均相似性向量与样本集平均相似性向量的距离來定义类间离散性度量. 定义2(类间离散性度量)设Hr是样本集X的层次聚类系统树图中某一层,并设其中包含C个聚类04…,每个聚类G中含有耳个样本」=12…C 样本集X的这种聚类结果的类间离散性度量定义为: (2-2) 对于一个好的聚类,同一个类内的样本越相似越好,而不同类别间的样本相 似性越小越好.于是类内致密性度量的值越小越好,而类间离散性度量的值越大越好. 定义3(新的有效性指标)建立新的有效性指标为: (2-3) 聚类结果对应的匕越大,聚类的结果越好. 1.3本章小结 层次聚类算法,也称为树聚类算法,它的目标是对于具有〃个样本的集合XwR呎,首先通过相似性函数计算样本间的相似性并构成相似性矩阵尺=5)塚,再根据样本间的相似性矩阵把样本集组成一个分层结构,产生一个从1到〃的聚类序列. 针对如何从层次聚类算法得到样本集的多种聚类结果中获得用户最满意的聚类结果,在深入研究聚类有效性的基础上,通过模糊相似性关系刻画聚类的类内致密性和类间分离性,可以建立一个新的聚类有效性函数.层次聚类算法,特别是凝聚式算法在计算上简单、快捷,而且能够得到相近的最终结果,所以层次聚类算法的应用较为广泛. 虽然该类算法把数据集的多种分类结果都展现了出来,但是从算法所得到的各类分类结果中获得用户最满意的分类情况却成了一个问题.因此可以建立一个新的基于相似性矩阵的有效性函数,使得聚类效果更好. 层次聚类算法的应用 2.1多机系统分析意义 在实际的电力市场运营中,准确、合理地划分电价区域是提供正确电价的前提和保证.为了实现准确的电价区域划分,这里以节点注入功率对阻塞线路传输功率的灵敏度系数作为节点电价的特征量,借助模拟人类视觉系统的尺度空间理论,提出了一种基于尺度空间层次聚类的电价区域划分方法,在无需事先设定任何区域划分信息的情况下实现了准确、合理的电价区域划分. 准确的电价区域划分是制定有效、简洁的区域电价的关键.不准确的电价区域划分[©将会造成市场电价的歪曲,导致阻塞发生频率的增加.目前,在实际运行的电力市场中,一般都基于系统运行人员的经验和判断來划分电价区域.然而由于输电网络的庞大和复杂,仅仅凭借人的经验制定的电价区域划分方案很难做到准确、合理.文献[11]介绍了输电网为辐射网络时,以阻塞线路为区域边界的电价区域划分方法.然而,实际的输电网却是环形网络,仅以阻塞线路为边界将无法实现输电网络的区域分割•提出了根据节点间电价的相似性来划分输电网络的思想,却没有给出具体的实现方法. 为了实现准确的电价区域〔叨划分,本文引入模拟人类视觉系统的尺度空间层次聚类算法,提出了一种新的电价区域划分方法.该方法通过提取节点注入功率对阻塞线路传输功率的灵敏度系数來表征节点电价的特征,形成节点的聚类样本;借助基于尺度空间的层次聚类算法实现了样本点集的不断融合,结合电价区域划分的实际问题,提出了获取最优聚类的条件,从而在无需事先设定任何区域划分信息的情况下实现准确、合理的电价区域划分. 2.2节点电价的特征量提取 电价区域划分的实质是按照节点电价的相似程度,即以节点电价作为节点聚类的特征量來实现对节点的汇集.然而直接釆用节点电价作为聚类的特征量却会带來以下问题: (1)输电网节点众多,节点电价的计算复杂; (2)节点电价随时间不断变化的特点会引起电价区域划分边界频繁变更,不利于市场的稳定.因此,直接采用节点电价作为聚类特征量在实际应用中并不理想.下面从节点电价求解的直流潮流模型出发,获得既能映射出节点电价的大小,乂较为稳定(不会随时变化)的特征量指标.基于直流潮流,系统调度的优化模型如下: nunerc(p)+cN( <$£H•PMg(4-1) /-P+P.v=0 式(4-1)中p为(N-l)xl维节点注入有功功率矢量(不包括平衡节点N);[人为平衡节点的注入有功功率;H为Lx(N-l)维矩阵,代表节点注入功率对线路传输功率的灵敏度系数,它只与输电网的电纳矩阵和节点一一线路关联矩阵有关;£为(N-l)xl维全1矢量;为厶xl维线路传输功率限值矢量;c(p)为(^-1)x1维节点成本函数矢量,5(%)为平衡节点的成本函数,它们可依据市场参与者的报价曲线推出;N为输电网的节点总数,厶为线路总数. 构建优化问题 (1)的Lagrange函数: L=eTc(p)+j(pQ-W•P+PQ(H・p-(4-2)由dL/dp=0,dL/dpN=0,pN=dcN(pN)/opN=几可以获得节点电价的计算公为: Pn=&nIPn)2Pn=^(4£) p=dc(p)/dp=A-e+Hl(.1 式中p”为平衡节点N的节点电价;(N-l)xl维节点电价矢量(不包括平衡节点N);为功率平衡等式约束的Lagrange乘子;厶xl维线路传输功率不等式约束的Lagrange乘子矢量. 当线路/阻塞时,线路功率的不等式约束成为有效约朿,其对应的Lagrange乘子"工0;当线路/不处于阻塞状态时,线路功率的不等式约束为无效约束,其对应的Lagrange乘子“=0.由式(4-3)可以看出,节点电价的大小与平衡节点的边际成本(即节点电价)、阻塞线路的影子价格(BPLagi-ange乘子)以及节点注入功率对线路传输功率的灵敏度系数有关.两节点7和丿•的电价之差为: P,-P产工叭-工^h,.=工",(/: -你)(4-4) /cn/cn/co 式中心、&分别为节点i和《/的节点电价;Q代表阻塞线路集合;/勺为矩阵“的第/行元素;他、切为矩阵H的第/行7列和丿•列元素. 从式(4-4)可见,节点间的电价差与节点注入功率对阻塞线路传输功率的灵敏度系数之差成比例.只要节点间的灵敏度系数相近,则无论阻塞线路影子价格的数值大小如何,节点间的电价始终会相近,虽然相近的程度会随着系统运行状态的变化及阻塞线路影子价格的不同而改变.因而,采用节点注入功率对阻塞线路传输功率的灵敏度系数作为节点电价的特征量來进行节点的聚类,可以很好地完成对电价相近节点的汇集.而且灵敏度系数不会随输电网运行状态的改变而变化,只要输电网的拓扑结构不变,灵敏度系数的数值将会保持不变.因此,采用该指标作为节点电价的特征量來进行节点的聚类,在一段时间内可以获得较为稳定的电价区域边界. 2.3基于尺度空间聚类的电价区域划分 2.3.1尺度空间理论 随着神经生理学的发展和计算机辅助解剖学的研究,人们己经提出了儿个相当精确的初级视觉系统计算模型.它们分别建模于视觉系统的不同层次、不同部分,尺度空间理论便是其中之一•它定量地描述出由视网膜侧向联接所造成的图像模糊化效应2】. 在人类的视觉过程中,眼睛将外部场景成像在视网膜上,大脑中形成的图像可视为一群空间中的光点集合.随着尺度的增加或分辨率的下降,图像逐渐模糊化,每个小光点将融合成光斑,直至当尺度充分大时,整个图像成为一个大光斑.在不同尺度下的图像形成了一个分层结构,大光斑由小光组成,每个光斑仅在一定的尺度范围内存在,当尺度小于此范围时,光斑分裂成数个小光斑,而当尺度大于此范围时,光斑将与其它光斑融合. 对于给定的d维空间的光点集%=(兀丘肥: /=1,2,..小),数学上光点可由Dirac广义函数5(x-兀)表示,即: (4-5) I0.兀严C S(x-xi)=<,xt)dx=1 [+8,X=X.Jy 于是,由光点集在空间形成的图像"(Q为: (4-6) 根据视觉前端系统的尺度空间理论,图像p(Q的多尺度可表示为P(x^)为〃⑴与高斯核的卷积,即: (4-7) I" P(Xb)=p(x)*g(x,b)石工Nf=l 式中ggb)为高斯函数,,高斯函数的参数b称为尺度函数,2加厂 由(XQ)构成的空间即为尺度空间. 在给定尺度下,光斑的中心F定义为P(X,b)关于b的一个极大值点,光斑则为/关于梯度系统dx]dt=y、pa,6的吸引域,记为b(x),即: E(x*)=RogRd: Innx(r,x0)=x*|(4-8) 其中x(t,x0)为梯度系统初值问题: z/r (4-9) —=VvP(x,0 x(0,xo)=xo 在给定尺度b下,验证点是否属于光斑B(H)可以通过求解上述方程來完成. 近年來,有学者将视觉前端系统的尺度空间理论引入聚类算法,将样本的聚 类过程比于人眼对事物的感知方式,提出了基于尺度空间的层次聚类算法,该方法具有无需设定初始划分,通过局部寻优即可确定聚类中心,且能够有效判定最优聚类中心和类别个数等一系列的有点,从而避免了划分聚类法,如R均值,模糊C均值聚类算法都需要设定初始划分、寻找全局最优聚类和难以确定聚类有效性的缺点,同时也克服了系统聚类法,如离差平法和法、最短距离法、最长距离法,难以准确度量样本间的相似度和难以合理选取最优聚类截取水平的缺点,为有效解决电价区域划分问题提供了一条新的途径. 2.3.2基于尺度空间层次聚类的电价区域划分 1.聚类样本 在划分电价区域前,根据输电网的实际运行情况,确定出在一段时间内可能出现的阻塞线路(这一步骤的具体实现可以在考虑市场中各种不确定因素的情况下通过采用MontCarlo模拟法來对输电网的阻塞情况进行概率分析,从而确定出最可能发生阻塞的线路,此处不再详述),将它们归入阻塞线路集合Q,针对这些阻塞线路,计算出每个节点电价的特征量,即节点注入功率的灵敏系数.然后,将他们映射到高位空间上,(空间位数为阻塞线路数),形成聚类的样本点集.通过对样本点的聚类,便可以按照节点电价的相似度,实现节点的汇集,从而完成电价区域的划分. 2.基于尺度空间的区域划分 将尺度空间理论引入到输电网节点的聚类之中,需要聚类的每个样本被视作空间中的一个光点,即光点集: i=\,…,N)式中忑=(九,…,打), =为节点i的注入功率对阻塞线路/传输功率的灵敏度系数,d为阻塞 线路总数. 随着尺度的增加,光点逐渐融合成光斑,每个光斑被视为一个样本的聚类,它由落在该光斑内的所有光点构成,并由相应的光斑中心表示.光斑逐渐融合的过程可类比为样本相互聚集融合,直到最后全部归并为一个大光斑,即所有的样本聚合成一个类,于是形成了随尺度空间变化的层次聚类树. 光斑中心或聚类中心为光点集关于b台的极大值点,它可以通过求解微分方程(4-9)來获得.运用Eule[数值微分方法来求解,并且微分方程(4-9)的解在各时刻t=nh(h为步长,/? >0,〃=0,1,…)处的值形成了序列x(n),p(x,b)采用对数坐标,于是聚类中心求取的迭代公式为: x(n+1)=x(n)+h・VvliiP(x(n)Q=n-ps尸齐if I& (4-10) N_卩5尸易||' /=! x(〃)+2旦 cr x(0)=x0 式中力一般取0.2,以便迭代过程可以获得较好的收敛特性. 综合上述样本的融合过程,基于尺度空间层次聚类的具体步骤如下: 1)置迭代次数i=设定充分小的初始尺度久,使每个样本成为一个聚 类,它为该类的中心; 2)对于尺度bi下的每个聚类中心,通过式(4-10)的迭代计算,求出尺度q下新的聚类中心.当两个类的聚类中心相同时,两个类便融合为一个新的类,两个类中的样本便归并到新的类中; 3)当存在两个及以上的类时,以一定的比例改变尺度大小,即£产匕,设z=/+l,重复步骤2); 4)直到只有一个类为止,生成完整的聚类树. 3.聚类的有效性 在样本点集的层次聚类过程中,生成了完整的聚类树.在不同尺度上,出现了不同的聚类,获得了不同大小的电价区域.在这众多的电价区域中,哪些电价区域是最优的,即节点聚类的有效性问题,将借助尺度空间层次聚类算法中的聚类有效性标准,并结合电价区域划分的特点来解决. I存活时间 每个类都是在一定的尺度范围内才会存在.当尺度超出此范围时,该类分裂或融合成其它类.依据WltkHl的心理实验结果,即在人的视觉系统中,那些在较大尺度范围内可观察的物体结构较之那些在较小尺度范围内可观察到的物体结构更容易被感知,故可以得出聚类的一个有效性检验标准: 存活时间,存活时间长的类优于存活时间短的类.类的存活时间是指类从产生到消亡的对数尺度范围,即: /=111-111(4-11) 式中6为该类产生的尺度,6为该类消亡的尺度(即该类与其它类融合为新类的尺度). II紧凑程度和孤立程度 直观上讲,同类样本间的距离越小,类与类的样本间距离越大,则聚类效果越好.基于此,提出了两个有效性检验标准: 紧凑程度和孤立程度.对于某一个类G來说,紧凑程度P和孤立程度s的定义如下: (4-12) (4-13) 式(4-⑵和(4-13)中£为类C,的聚类中心;x为样本点;工"TF/&表示在尺度J b样本点与所有聚类中心之间的距离;工訂心|”2表示在尺度b下所有样本点X 与第「个聚类中心之间的距离.对于一个好的聚类來说,类的紧凑程度和孤立程 度应该接近于1. 采用上面给出的3个聚类有效性标准,结合电价区域划分问题,完成最优聚 类的选取,从而获得输电网的电价区域.最优聚类的选取步骤如下: 第1步选取满足一定要求的聚类,形成有效聚类点集.从聚类树的顶结点 开始向下搜索,将具有以下条件的结点形成聚类点集C={C1? C2,-,Cj 1)类的紧凑程度和孤立程度大于一定阈值; 2)类中样本点(或节点数)多于一定个数; 3)类中样本点之间的距离小于一定数值,或类中节点间的电价差小于一定 阈值,即: 式中"为阻塞线路/影子价格的期望值;£为电价区内允许的最大电价差值;在实际的电力市场运营中,H取输电网在不同运行状态下线路影子价格的平均值;£应根据输电网的系统边际成本(即平衡节点的节点电价),由市场参与者和系统调度员共同协商确定. 第2步从有效聚类点集C={C1,C2,-,Cj中选取存活时间最长的聚类,获得最优聚类集合〃(其中每个子集代表一个电价区域),完成电价区域划分.最优聚类集合的选取过程如下: 1)初始化最优聚类集合〃为空集; 2)找出c中存活时间最长的聚类点集q,把q加入u中,并在c中删除结点、包含结点q的所有上层结点以及被结点q包含的所有下层结点.重复步骤2),直到C为空集. 2.4本章小结 以节点注入功率对阻塞线路传输功率的灵敏度系数作为节点电价聚类的特征量,不仅可以映射出节点电价的大小,而且不会随时变化,从而可以获得在一段时间内较为稳定且合理的电价区域划分.基于尺度空间层次聚类模拟了人类视觉的图像模糊化效应,随着尺度空间由小到大的逐步变化,在各样本点集的融合过程中生成聚类树.基于电价区域划分的实际问题,结合人类视觉感知理论,提出了获取最优聚类的条件,从而实现了最佳的分类.在实际应用过程中,可以进一步融入电力市场运营的专家知识,获得更为合理的聚类选取法则. 结论 关于层次聚类分析的应用,这里列举了电价区域划分的问题作为例子.在实际中,准确的电价区域划分是制定有效、简洁的电价区域的关键.但一般都基于系统运行人员的经验和判断来划分电价区域.然而由于输电网络的庞大和复杂,仅仅凭借人的经验制定的电价区域划分方案很难做到准确、合理.为了实现准确的电价区域划分,本文引入模拟人类视觉系统的尺度空间层次聚类算法,提出了一种新的电价区域划分方法.该方法通过提取节点注入功率对阻塞线路传输功率的灵敏度系数来表征节点电价的特征,形成节点的聚类样本;借助基于尺度空间的层次聚类算法实现了样本点集的不断融合,结合电价区域划分的实际问题,提出了获取最优聚类的条件,从而在无需事先设定任何区域划分信息的情况下实现准确、合理的电价区域划分.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 层次 算法 应用