几种多元统计分析方法及其在生活中的应用1.docx
- 文档编号:8845596
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:39
- 大小:39.97KB
几种多元统计分析方法及其在生活中的应用1.docx
《几种多元统计分析方法及其在生活中的应用1.docx》由会员分享,可在线阅读,更多相关《几种多元统计分析方法及其在生活中的应用1.docx(39页珍藏版)》请在冰豆网上搜索。
几种多元统计分析方法及其在生活中的应用1
第2章聚类分析及其应用实例
2.1聚类分析简介
聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统
计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性來进行
合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行
的[']。
聚类分析方法有很多,按不同的分类方式,有不同的分类。
按聚类方法的不
同可分为以下几种:
(1)系统聚类法:
对所在的指标进行分类,每一次将最相似的两个数据合并
成一类,合并之后和其他数据的距离会重新计算,这个步骤会不断重复下去直至
所有指标合并成一类,并类的过程可用一张谱系聚类图描述.
(2)调优法(动态聚类法):
所谓调优法,从表面意思就可以看出是在对n
个对象初步分类后,根据分类后的信息损失尽可能小的原则对分类进行择优调整,
直到分类合理为止.
(3)有序样品聚类法:
在很多实际问题中,所谓的样品都是相互独立的个体,
因此可以平等的划分。
但是有序样品聚类法的存在就是因为在另外一些实际问题
中,样品之间是存在着某种联系而在分类中是不允许打乱顺序的。
有序样品聚类
法开始时将所有样品归为一类,然后根据某种分类准则将其分为二类等等,一直
往下分类下去直至满足分类要求。
它的思想正好与系统聚类法的相反。
(4)模糊聚类法:
利用模糊聚集理论来处理分类问题,它对经济领域中具有
模糊特征的两态数据或多态数据具有明显的分类效果.
(5)图论聚类法:
在处理分类问题中独创性的引入了图论中最小支撑树的概
念。
(6)聚类预报法:
顾名思义,就是用聚类分析的方法来在各个领域中进行预
报。
在多元统计分析中,判别分析、回归分析等方法都可以用来做预报,但是在
一些异常数据面前,这些方法做的预报都不是很准确,方法也不好准确的实施,
而聚类预报则很好的解决了这一点。
可以预见,聚类预报法经过更深入的研究后,
一定会得到更加广泛的应用。
按聚类对象的不同,聚类分析可分为2型[对样品(CASES)聚类]与型[对
变量(VARIABLE)聚类],两种聚类在方法和步骤上都基本相同.
2.2聚类分析方法介绍
数学方法在实际应用中是否受欢迎,最主要的一点就是它能不能适用于大型
6
第2章聚类分析及.11;应用实例
计算的问题。
图论聚类法、基于等价关系的聚类方法和谱系聚类法在大型问题中
难以快速有效处理数据而应用甚少。
基于目标函数的聚类方法因其设计简单,在
实际生活中被广泛运用,其主要思想是将问题转换为带约束条件的非线性优化,
这样就可以运用完备的线性最优化知识解决问题,而且这种方法也易于在计算机
上实现。
而伴随着计算机技术的突飞猛进,基于目标函数的聚类方法必定会成为
研究的热点。
2.2.1谱系聚类方法
在待分析样本数较小时,通常采用谱系聚类方法(系统聚类法)。
谱系聚类法
是按距离准则来对样本进行分类的,例如我们要将样本集X中的《个样本划分为C
类。
那么算法的实现过程如下:
首先令这^个样本各自为一个类,此时,总的类数
为《;其次,计算这/7个类别之间的相互距离,合并距离最小的两个样本,这样总
得分类数就只有个;然后计算新形成的个类别之间的距离,同样合并最
小的两个类,使类别减少为n-2个,依此原则,继续合并;最后,当总的类别只
剩下C类时,停止计算,分类结束,此时的C类就是聚类的结果。
需要注意的是,
在此过程中,计算类与类之间的距离的方法有很多种,具体选择什么方法,需要
视具体情况而定。
计算类间距离的方法,后续也会有比较详细的介绍。
根据上述聚类原则,我们很快可以知道,对于样本集里的任意两个样本X々和
Xj’它们总是可以聚类到一个类别中去。
“
上述所介绍的,只是谱系聚类算法中的一种,这种算法一般称为聚集法,它
比较适合于类别比较多的时候,当类别较少时,用此种方法就显得计算量非常的
大,使得分类效率不高;另一种谱系聚类算法叫做分裂法,它与聚集法初始时将
所有样本卑独分成一类刚好相反,它是将所有样本当成一类,然后在将某些样本
分离出去,形成其他的类别,这样就节省了相当一部分的计算量。
在实际运用中,
具体选择哪种方法来聚类就得以具体情况为准。
上述算法中的分类仅仅依靠样本间的距离或者类间距离,因而,距离的计算
决定了分类结果。
距离的计算种类有:
闽可夫斯基距离(包括街区距离、欧氏距
离和切比雪夫距离等),也可以选择马氏距离、角度相似性函数或者Taniraoto测
度。
其中马氏距离定义
DI=-m)'C~'-m)
(2—1)
这里X为模式向量,w为均值向量,C为模式总体的协方差矩阵.马氏距离的优点
k
是排除了模式样本之间的相关性影响.比如,我们取一个模式特征向量,可能有九
7
第2章聚类分析及用实例
如果B类是由E和F两类合并而成的,则有
2.最长距离法[9】
与上述相似,两个聚类A和B间的最长距离定义为
=max{i/Jaee5}
(2—5)
同样地,如果B类是由E和F两类合并而成的,贝max
3.中间距离法[9]
如果B类是由E和F两类合并而成的,则A类和B类之间的距离为
(2-6)
它介于最长距离和最短距离之间.
4.重心法
上述定义的类间距离没有考虑每一类中包含的样本数目,如果E类中有个
样本,F类中有个样本,则E和F两类合并后共有+,.个样本.用”)
fP"'
(2-7)
Vn,+n,n,+n,(/:
.+,)—
5.类平均距离法[9]
如果采用类间所有距离的平均距离,则有
Da,B=Yj^Ih
(2-8)
VoA,heB
不难得到类平均距离的递推公式为
D,、b=
(2-9)
V+n,,-
由于定义类间距离的方法不同,使分类结果不太一致.实际问题中常用几种不
同地方法进行计算,比较其分类结果,选择一个比较切合实际的分类.对于上述五
种定义类间距离的方法,可采用统一的递推公式:
~^E^AJi+^F^AJ'七PD丨“1:
+7\D^J;-
(2-10)
由此,我们可以得到五种类间距离递推公式中的权系数,如表1所示,其中
9
第2章聚类分析及ji;应用实例
n,^n,+n,,即B类样本数目是E和F类样本的合并。
表2-1统一类间距离递推公式中的权系数
Table2-1TheWeightCoefficientinTheRecurrenceFormulaofDistanceBetweenthe
UnifiedClass
方法
a、:
a,,.
P7空间性质
最短距离法0.50HI缩
最长距离法0扩张
类间平均距离法nJriB/./"/}00
保持
重心法《/;/
-n,:
/1,,/nl0
保持
中间距离法0^
2.2.2基于等价关系的聚类方法
由离散数学中关于关系的描述我们知道,定义在集合Z=^[;c,,x,,上的关
系如果具有自反性、对称性和传递性则被称为等价关系.设义是一给定集合,
尤…,是它的子集,如果满足[9】:
X!
nXj二(j),V/,7=1,2,"<;,/半j
X^yjX^Kj^--KjX^=X
则集合尸=,,…,X」被称为集合的一个划分,而,被叫做这
个划分的块.若是集合上的等价关系,对于任意一个元素X,可以构造一
个X的子集,叫做X,对于的等价类,[x,],,=eX,\.
对于这种集合,它具有下列性质:
(1)x,e[x丄;
(2)如果Xye[x,\,则必有[xy.=[x,L;
(3)若X广[x^L,但生V.L,则必有k]r。
L=.
由此可知,集合Z上的等价关系7所构成的类,两两互不相交,而且覆盖整
个集合JT.我们得到如下定理:
集合X上的等价关系R所构成的类产生集合X的
10
个分量是反映同一特征A,而只有一个分量反映另一特征B,欧氏距离计算出來的
结果将绝大部分反应特征A,而弱化了特征B,而马氏距离去除了相关性后,据规
避了这个缺点。
通过式(我们可以看出,当C为对角阵时,各特征分量相互
独立,同时,我们还发现,欧氏距离其实就是协方差矩阵C等于单位矩阵I时的
一个特例。
可以看出,在这种条件下模式样本集的概率分布不仅各分量之间不相
关,而且其密度函数的等高线为圆(或者超球面),即各分量方向上的密度分布是
均匀的
需要指出的是,计算协方差矩阵是计算马氏距离的关键所在,但是我们只有
在模式集给定的情况下,才能计算出协方差矩阵,遗憾的是这个条件很难实现。
角度相似性函数定义为
‘士^^(2-2)
是模式向量;C与X之间的夹角余弦,也就是X的单位向量II与X的单位向量
*‘
‘
/IW‘
II之间的点积.夹角余弦的测度反映了几何上相似形的特征,它对于坐标系的
/KII
旋转及缩放时不变的,但对位移和一般的线性变换则并不具有不变性的性质.
Tanimoto测度是将夹角余弦度量进行细小的修改后得到的,主要用于具有{0,
1}二值特性的情况[”。
其具体定义为
共有的特征数目,
xlx,
=;Cf或;Cj.中占有的特征数目之总数一
不过,相似性测度函数的共同点都涉及到把两个相比较的向量X和X的分量
k
j
值组合起来,但怎样组合并无普遍有效的方法,对于具体的模式分类,需视情况
作适当的选择[8]。
在谱系聚类算法中,每次迭代中形成的聚类之间以及它们与各个样本之间的
距离,有多种不同的准则函数[7]。
1.最短距离法[9]
假设A和B是两个聚类,则两类间的最短距离定义为
j|aeA,beb]
(2—4)
式中,(力表示A类中的样本X。
和B类中的样本之间的距离.表示A类中所
有样本与B类中所有样本之间的最小距离.
8
第2章聚类分析及其应用实例
£(-^j)
=I广'n.
(2-14)
Jpr叫pr又J"
这里,七=—,■^J~~X^A.
Sk=\
S
4.指数相似系数
5
r".=—文e'si
(2-15)
Sk^\
这里,是第A个特征的方差,
=-^(‘k=\’2,…,S
(2-16)
“M
5.最大最小法
^min(x,x^J
r,
(2-17)
Jmax(x,x^J
/c=l
6.算术平均最小法
Emm(x,x^J
r=^
(2—18)
Zk=\
7.算术平均最小法
Emin(x,x^J
r,丨-
(2-19)
舍t(+)
L人--1
8.几何平均最小法
Emin(x,,,x^J
r,=^
(2-20)
ys^^
k=\
9.绝对值指数法
12
笫2苹聚类分析及K:
应用实例
一个划分,此划分叫做Z关于的商集,记做例如,同余关系i‘对整数集/
产生的商集就是模C的剩余类[9]:
[lL,..,[c-4.}
由上述讨论可知,在给定集合Z上定义一个等价关系,就决定集合;r的一种
划分.显然,这样的划分是硬分割,我们可以把这一概念推广到模糊关系上来[9]。
由于模糊等价关系及是论域与自己笛卡尔乘积jxl上的一个模糊集合,
而模糊集合的任何a(0SaS1)截集及都是XXX上的一个普通集合,即为X上的
普通等价关系,也就得到了关于X中对象元素的一种分类.当《由1下降为0时,
所得到的分类由粗变细,逐渐归并,从而形成一个动态的聚类谱系图.由此可见,
分类对象集Z上的模糊等价关系的建立是这种聚类分析方法中的一个关键性的
环节[9]。
为了建立分类对象集合X上的模糊等价关系瓦,通常需要首先计算各个分类
对象之间的相似性统计量,建立分类对象集合I上的模糊相似关系=k],
、LIJJfjxn
0 象的相似性统计量的方法有如下几种[9]。 1.夹角余弦法 ■S 广’J=广'. (2-11) Vk=\k=\ 2.数量积法 '1 i=j r,j=‘1 (2-12) Mtl I*] 这里,M是一个适当选取的正数,并且满足 M>max|^X丨k(2-13) 3.相关系数法 11 笫2苹聚类分析及;用实例 即合成的传递闭包: 巧==充。 瓦.,R: =R^or;,…… 这样下去,就必然存在一个自然数I使得巧*=R'。 紀这时,^便是一个模糊 等价关系了.在此基础上,我们就可以利用不同水平下的截集得到该水平上的聚类 结果,所有不同水平的聚类结果形成聚类的谱系图[9]。 2.2.3图论聚类方法 图论聚类方法最早是由Zahn提出来的,又称作最大(小)支撑树聚类算法. 后来经过人们加以改造从而可以实现模糊聚类分析.图G中一条长度为尺的路径 (Path)P是一系列连接的结点,P=〈x,,X2,".,Xa.+,〉,其中对 V/e(0,Ar),(x,,x,+|)eE;如果图G中没有一条非零长度的路径P= 且X,=Xh,,则称图G不包含环(Cycle);图G的支撑树》]是指由连接所有结点的 -1条边构成的无环图pr,r].显然,一个图中当且仅当任意两对结点之间 只有一条路径时才是树,通常在一个图G中可以构造多个支撑树[1,7;如 果我们给图中每条边e赋以权值,那么所谓的最小支撑树(MinimumSpanning Tree,MST)是指满足下列条件的支撑树: w(MST)=minj^w(e)| 对于一棵树如果移去一条边e,则生成两组连通的结点jc又和 A=X-A,我们定义y为共环边⑼, 0"=|e,.-|x,eA,Xj-eA,A=X-jj (2-26) 也就是说,f为图[X,G]中连接两组节点J和: 的一组边;森林是指不包含 环的非联通图,其中的每一个联通的部分被称为一棵树。 下面的定理给出了构造最小支撑树的充分必要条件.即: 是图G的最小支撑 树的充分必要条件是,对于所有的边其共环边y满足 14 第2帝聚类分析及其应用实例 "Z =e'=丨 (2'21) 10.绝对值倒数法 '1 i=j r=——M (2-22) y s 3Ii*j .i=l 这里,M是一个适当选取的数,使得SI. 在实际应用中,由于所获取的分类对象的数据比较复杂,往往不是[0,1]区间中 的数,因此首先需要把各个原始数据标准化.假设被分类的对象一共有n个,对于 每一维特征Xt共有《个原始数据,设为x;"x'2”…,x: p把它们叫做这一特征的各 个元素.为了把这些数据标准化,首先计算每一维特征的均值和方差[iG]: ^=-1‘ (2-23) H/=1 n/=1 下式(是求数据标准化值X;;的公式 X: (2-24) Sk 对上式(求出的值进行极值标准化,就能确保所有被标准化为[0,1]闭区间内 的值,极值标准化公式为: 5-: “ (2-25) max工Amin 上式中,是指x;;,x丨”中的最大值,而指最小值- 得到待分类对象集X上定义的模糊相似性关系足后,还要进一步改造成为模 糊等价关系足由前面有关模糊关系的介绍可知,模糊相似性关系足.满足自反性 和对称性,但一般而言并不满足传递性,也就是说,它并不是模糊等价关系.因此, 为了聚类我们必须采用传递闭包的性质,将这种模糊相似性关系足改造为模糊等 价关系民[9〗。 13 第2韋聚类分析及jl;应用实例 6"r\T={¢^),w{e) 在传统的图论聚类分析,首先把待分类的对象X=^[xi,x2,…,〃看作一 个全连接的无向图G=中的结点,然后给每一条边赋以权值,比如我们可以 用任意两个结点(X,,Xj)在特征空间的汉明距离定义边e丨J(1,j w{e,j)=||x,-XjII,x,,xjeX 然后,我们再对该组对象进行聚类分析,其具体步骤再次就不多讲. 下面,我们主要介绍模糊最大支撑树算法的具体步骤 步骤一: 建立分类对象集上的模糊相似关系,构造模糊图: (1)计算各个分类对象之间的相似性统计量r".,/,y=l,2,…,n,建立分类对象集 Z上的模糊相似关系瓦=h]; ‘、Ltj (2)将^^表示成由《个结点所构成的模糊图6二|^,五1,使G中的任意两个结点 与Xj之间都有一条边相连接,且赋该边的权值为r,j. 步骤二: 构造模糊图G上的最大模糊支撑树: ;: ' (1)找出图G中最大权值的边; (2)将存放在集合C中,将边上的新结点放入集合r中,若r中已含有所有 个结点时,转至(4); (3)检查r中每个结点与r外的结点组成的边的权值,找出其中最大者转至 (2); (4)结束,此时G中的边就构成了G的最大模糊支撑树! ;. 步骤三: 由最大模糊支撑树进行聚类分析: 选择某一个《值对炎,=j作截集, 将r■中小于《的边断开,使相连的各结点构成一类,当a由1下降到0 时,所得到的分类由细变粗,各结点所代表的分类对象逐渐归并,从而 形成一个动态聚类谱系图. 2.2.4基于目标函数的模糊聚类分析 15 第2章聚类分析及: U: 应用实例 实际中最常用的是基于目标函数的模糊聚类方法,即把聚类归结成一个带约 束的非线性规划问题,通过优化求解获得数据集的模糊划分和聚类.该方法具有设 计简单、解决问题的范围广、可转化为优化问题而借助经典数学非线性规划理论 求解以及易于在计算机上实现等诸多方面的优点,因而深受广大学者的喜欢,成 为最常用的一种聚类分析方法.伴随着计算机的应用和发展,基于目标函数的模糊 聚类算法成为新的研究热点 在基于目标函数的聚类算法中模糊C均值(FCM,Fuzzyc-Means)类型算法 的理论最为完善、应用最为广泛.模糊C均值类型的算法最早是从硬聚类目标函数 的优化中导出的.为了借助目标函数法求解聚类问题,人们利用均方逼近理论构造 了带约束的非线性规划函数,从此类内平均误差和(WGSS,Within-GroupsSumof SquaredError)J,成为聚类目标函数的普遍形式.为极小化该目标函数而采取的 Pikard迭代优化方案就是著名的硬C均值(HCM)算法和ISODATA(Iterative Self-OrganizingDataAnalysisTechniqueA)算法模糊划分概念提出后,Dunn 首先把WGSS函数J,扩展到J2——类内加权平均误差和函数,后来Bezdek又引入 一个参数m,把推广到一个目标函数的无限族,并给出了交替优化(AO, AlternativeOptimization)算法,即为人们所熟知的FCM算法从此,奠定了FCM 算法在模糊聚类中的地位.下面我们从以下几个方面来逐步介绍基于目标函数的 模糊聚类分析法['3]. (1)数据集的e划分 给定数据集;^=^^,1: ,...,1;1〔/'-为模式空间中《个模式的一组有限观测样 本集,X, …;eiT为观测样本&的特征矢量或模式矢量,对应特征 空间中的一个点,Xkj为特征矢量Xk的第_/维特征上的赋值.对给定样本集X的聚 类分析就是要产生i的C■划分 由上面有关聚类分析的数学模型可知,数据集I的C划分得到的C个子集 如果满足下式的条件,则称之为X的硬C划分 …uZc=jr~ X0Xk= (2-27) X, X,\ 如果用隶属函数、{CJ,P)表示了各类中样本与其典型样本的误差平方和. 利用/,Ji(7,P)也可以表示为 J人= 伙 1 k=\/=1 32) eMhc 聚类准则为寻求最佳对以使得在满足&条件下为最小. 解决这类优化问题最常用的方法是用迭代法求取的近似最小值 Dunn按照Ruspini定义的模糊划分的概念,把硬聚类的目标函数推广到模糊 聚类的情况.为了避免产生平凡解,保证这一推广有意义,Dunn对每一个样本与每 类原型间的距离用其隶属函数平方加权,从而把类内误差平方和目标函数扩展为 类内加权误差平方和目标函数 1 k=\/=1 \l-66) eMjc (3)模糊c均值聚类算法 为了优化聚类分析的目标函数,人们提出了现在相当流行和应用广泛的模糊c 均值(FCM,Fuzzyc-means)聚类算法.该算法是从硬c均值(HCM,Hardc-means) 聚类算法发展而来的HCM算法用于求解满足式中的尸)为最小时的分类结 果.以下给出FCM算法的具体步骤: 初始化: 给定聚类类别数C,2 始化聚类原型模式p(°),设置迭代计数器6=0; 步骤一: 用下面两式计算或更新划分矩阵t/(十 对于V/,A: 如果则有 「2"11_1 、CfAb) 必=\Lik (2-34) y=i\"jkJ 如果3/,r,使得¢¢)=0,则有 =1,且对y本r,ju-p=0 (2-35) 18 %2章聚类分析及其应用实例 步骤二: 用下式更新聚类原型模式矩阵 p产、、二过 ,/=1,.,C (2-36) 1("”广 k=\ 步骤三: 如果则算法停止并输出划分矩阵t/和聚类原型尸,否 则令6=Z)+l,转向步骤一.其中为某种合适的矩阵范数. 对于HCM算法的具体步骤,大家可以参照西安电子科技大学出版社出版的由 高新波著作的《模糊聚类分析及其应用一书》.FCM算法还具有另一种形式,即从 初始化模糊划分矩阵开始,先用上一公式计算聚类原型(中心)矩阵,然后用上 上公式更新模糊分类矩阵,直到满足停止准则为止["]. 由以上算法不难看出,整个计算过程就是反复修改聚类中心和分类矩阵的过 程,因此常称这种方法为动态聚类或者逐步聚类法.几经修补,该算法的收敛性已 经得以证明: FCM算法能从任意给定初始点开始沿一个迭代子序列收敛到其目标函 数的局部极小点或鞍点.对于满足下列条件的集合FCM算法可以收敛 到局部最优解,这样的被称作模糊聚类的解集["1: VUeM^^,J^(u\P') (2-37) \jp^r\j[u\p') (2-38 第2章聚类分析及其应用实例 U=[阵t/中的第/行为第/个子集的特征函数,而矩阵t/中的第A 歹J为样本相对于c个子集的隶属函数[“].则工的硬C划分空间为 =jt/ee{0,1},Va;J=|t/ee[0,4V/,A: ;文"r (2-30) 机 _ 当《=25,c=10时,大概有lOi8个不同的分类结果.对于模糊划分的情况,贝幡在 有无限多个分类结果.事实上,每个模糊划分矩阵都可以用若干个硬分类矩阵来表 示[["] (2)聚类目标函数 我们希望在众多可能的分类中寻求合理的分类结果,为此,就要确立合理的 聚类准则.在硬划分时,常使用的聚类准则是最小平方误差和['7]. 对应于上一节
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 方法 及其 在生活中 应用