书签分享收藏举报版权申诉 / 39

立即下载加入VIP,免费下载

当前位置：首页 > 经管营销 > 销售营销 > 几种多元统计分析方法及其在生活中的应用1.docx

几种多元统计分析方法及其在生活中的应用1.docx

文档编号：8845596
上传时间：2023-02-02
格式：DOCX
页数：39
大小：39.97KB

《几种多元统计分析方法及其在生活中的应用1.docx》由会员分享，可在线阅读，更多相关《几种多元统计分析方法及其在生活中的应用1.docx（39页珍藏版）》请在冰豆网上搜索。

几种多元统计分析方法及其在生活中的应用1.docx

几种多元统计分析方法及其在生活中的应用1

第2章聚类分析及其应用实例

2.1聚类分析简介

聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统

计分析方法，它们讨论的对象是大量的样品，要求能合理地按各自的特性來进行

合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行

的[']。

聚类分析方法有很多，按不同的分类方式，有不同的分类。

按聚类方法的不

同可分为以下几种：

（1）系统聚类法：

对所在的指标进行分类，每一次将最相似的两个数据合并

成一类，合并之后和其他数据的距离会重新计算，这个步骤会不断重复下去直至

所有指标合并成一类，并类的过程可用一张谱系聚类图描述.

（2）调优法（动态聚类法）：

所谓调优法，从表面意思就可以看出是在对n

个对象初步分类后，根据分类后的信息损失尽可能小的原则对分类进行择优调整，

直到分类合理为止.

（3）有序样品聚类法：

在很多实际问题中，所谓的样品都是相互独立的个体，

因此可以平等的划分。

但是有序样品聚类法的存在就是因为在另外一些实际问题

中，样品之间是存在着某种联系而在分类中是不允许打乱顺序的。

有序样品聚类

法开始时将所有样品归为一类，然后根据某种分类准则将其分为二类等等，一直

往下分类下去直至满足分类要求。

它的思想正好与系统聚类法的相反。

（4）模糊聚类法：

利用模糊聚集理论来处理分类问题，它对经济领域中具有

模糊特征的两态数据或多态数据具有明显的分类效果.

（5）图论聚类法：

在处理分类问题中独创性的引入了图论中最小支撑树的概

念。

（6）聚类预报法：

顾名思义，就是用聚类分析的方法来在各个领域中进行预

报。

在多元统计分析中，判别分析、回归分析等方法都可以用来做预报，但是在

一些异常数据面前，这些方法做的预报都不是很准确，方法也不好准确的实施，

而聚类预报则很好的解决了这一点。

可以预见，聚类预报法经过更深入的研究后，

一定会得到更加广泛的应用。

按聚类对象的不同，聚类分析可分为2型[对样品（CASES）聚类]与型[对

变量（VARIABLE）聚类]，两种聚类在方法和步骤上都基本相同.

2.2聚类分析方法介绍

数学方法在实际应用中是否受欢迎，最主要的一点就是它能不能适用于大型

6

第2章聚类分析及.11；应用实例

计算的问题。

图论聚类法、基于等价关系的聚类方法和谱系聚类法在大型问题中

难以快速有效处理数据而应用甚少。

基于目标函数的聚类方法因其设计简单，在

实际生活中被广泛运用，其主要思想是将问题转换为带约束条件的非线性优化，

这样就可以运用完备的线性最优化知识解决问题，而且这种方法也易于在计算机

上实现。

而伴随着计算机技术的突飞猛进，基于目标函数的聚类方法必定会成为

研究的热点。

2.2.1谱系聚类方法

在待分析样本数较小时，通常采用谱系聚类方法（系统聚类法）。

谱系聚类法

是按距离准则来对样本进行分类的，例如我们要将样本集X中的《个样本划分为C

类。

那么算法的实现过程如下：

首先令这^个样本各自为一个类，此时，总的类数

为《;其次，计算这/7个类别之间的相互距离，合并距离最小的两个样本，这样总

得分类数就只有个；然后计算新形成的个类别之间的距离，同样合并最

小的两个类，使类别减少为n-2个，依此原则，继续合并；最后，当总的类别只

剩下C类时，停止计算，分类结束，此时的C类就是聚类的结果。

需要注意的是，

在此过程中，计算类与类之间的距离的方法有很多种，具体选择什么方法，需要

视具体情况而定。

计算类间距离的方法，后续也会有比较详细的介绍。

根据上述聚类原则，我们很快可以知道，对于样本集里的任意两个样本X々和

Xj’它们总是可以聚类到一个类别中去。

“

上述所介绍的，只是谱系聚类算法中的一种，这种算法一般称为聚集法，它

比较适合于类别比较多的时候，当类别较少时，用此种方法就显得计算量非常的

大，使得分类效率不高；另一种谱系聚类算法叫做分裂法，它与聚集法初始时将

所有样本卑独分成一类刚好相反，它是将所有样本当成一类，然后在将某些样本

分离出去，形成其他的类别，这样就节省了相当一部分的计算量。

在实际运用中，

具体选择哪种方法来聚类就得以具体情况为准。

上述算法中的分类仅仅依靠样本间的距离或者类间距离，因而，距离的计算

决定了分类结果。

距离的计算种类有：

闽可夫斯基距离（包括街区距离、欧氏距

离和切比雪夫距离等），也可以选择马氏距离、角度相似性函数或者Taniraoto测

度。

其中马氏距离定义

DI=-m）'C~'-m）

（2—1）

这里X为模式向量，w为均值向量，C为模式总体的协方差矩阵.马氏距离的优点

k

是排除了模式样本之间的相关性影响.比如，我们取一个模式特征向量，可能有九

7

第2章聚类分析及用实例

如果B类是由E和F两类合并而成的，则有

2.最长距离法[9】

与上述相似，两个聚类A和B间的最长距离定义为

=max{i/Jaee5}

（2—5）

同样地，如果B类是由E和F两类合并而成的，贝max

3.中间距离法[9]

如果B类是由E和F两类合并而成的，则A类和B类之间的距离为

（2-6）

它介于最长距离和最短距离之间.

4.重心法

上述定义的类间距离没有考虑每一类中包含的样本数目，如果E类中有个

样本，F类中有个样本，则E和F两类合并后共有+,.个样本.用”）

fP"'

（2-7）

Vn,+n,n,+n,（/:

.+,）—

5.类平均距离法[9]

如果采用类间所有距离的平均距离，则有

Da,B=Yj^Ih

（2-8）

VoA,heB

不难得到类平均距离的递推公式为

D,、b=

（2-9）

V+n,,-

由于定义类间距离的方法不同，使分类结果不太一致.实际问题中常用几种不

同地方法进行计算，比较其分类结果，选择一个比较切合实际的分类.对于上述五

种定义类间距离的方法，可采用统一的递推公式：

~^E^AJi+^F^AJ'七PD丨“1:

+7\D^J；-

（2-10）

由此，我们可以得到五种类间距离递推公式中的权系数，如表1所示，其中

9

第2章聚类分析及ji；应用实例

n,^n,+n,,即B类样本数目是E和F类样本的合并。

表2-1统一类间距离递推公式中的权系数

Table2-1TheWeightCoefficientinTheRecurrenceFormulaofDistanceBetweenthe

UnifiedClass

方法

a、:

a,,.

P7空间性质

最短距离法0.50HI缩

最长距离法0扩张

类间平均距离法nJriB/./"/}00

保持

重心法《/;/

-n,:

/1,,/nl0

保持

中间距离法0^

2.2.2基于等价关系的聚类方法

由离散数学中关于关系的描述我们知道，定义在集合Z=^[;c,，x,,上的关

系如果具有自反性、对称性和传递性则被称为等价关系.设义是一给定集合，

尤…，是它的子集，如果满足[9】：

X!

nXj二（j），V/,7=1,2,"<;，/半j

X^yjX^Kj^--KjX^=X

则集合尸=,,…，X」被称为集合的一个划分，而，被叫做这

个划分的块.若是集合上的等价关系，对于任意一个元素X,可以构造一

个X的子集，叫做X,对于的等价类，[x,],,=eX,\.

对于这种集合，它具有下列性质：

（1）x,e[x丄；

（2）如果Xye[x,\，则必有[xy.=[x,L；

（3）若X广[x^L，但生V.L，则必有k]r。

L=.

由此可知，集合Z上的等价关系7所构成的类，两两互不相交，而且覆盖整

个集合JT.我们得到如下定理：

集合X上的等价关系R所构成的类产生集合X的

10

个分量是反映同一特征A，而只有一个分量反映另一特征B，欧氏距离计算出來的

结果将绝大部分反应特征A，而弱化了特征B，而马氏距离去除了相关性后，据规

避了这个缺点。

通过式（我们可以看出，当C为对角阵时，各特征分量相互

独立，同时，我们还发现，欧氏距离其实就是协方差矩阵C等于单位矩阵I时的

一个特例。

可以看出，在这种条件下模式样本集的概率分布不仅各分量之间不相

关，而且其密度函数的等高线为圆（或者超球面），即各分量方向上的密度分布是

均匀的

需要指出的是，计算协方差矩阵是计算马氏距离的关键所在，但是我们只有

在模式集给定的情况下，才能计算出协方差矩阵，遗憾的是这个条件很难实现。

角度相似性函数定义为

‘士^^（2-2）

是模式向量;C与X之间的夹角余弦，也就是X的单位向量II与X的单位向量

*‘

‘

/IW‘

II之间的点积.夹角余弦的测度反映了几何上相似形的特征，它对于坐标系的

/KII

旋转及缩放时不变的，但对位移和一般的线性变换则并不具有不变性的性质.

Tanimoto测度是将夹角余弦度量进行细小的修改后得到的，主要用于具有{0，

1}二值特性的情况[”。

其具体定义为

共有的特征数目，

xlx,

=；Cf或；Cj.中占有的特征数目之总数一

不过，相似性测度函数的共同点都涉及到把两个相比较的向量X和X的分量

k

j

值组合起来，但怎样组合并无普遍有效的方法，对于具体的模式分类，需视情况

作适当的选择[8]。

在谱系聚类算法中，每次迭代中形成的聚类之间以及它们与各个样本之间的

距离，有多种不同的准则函数[7]。

1.最短距离法[9]

假设A和B是两个聚类，则两类间的最短距离定义为

j|aeA,beb]

（2—4）

式中，（力表示A类中的样本X。

和B类中的样本之间的距离.表示A类中所

有样本与B类中所有样本之间的最小距离.

8

第2章聚类分析及其应用实例

￡（-^j）

=I广'n.

（2-14）

Jpr叫pr又J"

这里，七=—，■^J~~X^A.

Sk=\

S

4.指数相似系数

5

r".=—文e'si

（2-15）

Sk^\

这里，是第A个特征的方差，

=-^（‘k=\’2,…，S

（2-16）

“M

5.最大最小法

^min（x,x^J

r,

（2-17）

Jmax（x,x^J

/c=l

6.算术平均最小法

Emm（x,x^J

r=^

（2—18）

Zk=\

7.算术平均最小法

Emin（x,x^J

r,丨-

（2-19）

舍t（+）

L人--1

8.几何平均最小法

Emin（x,,,x^J

r,=^

（2-20）

ys^^

k=\

9.绝对值指数法

12

笫2苹聚类分析及K:

应用实例

一个划分，此划分叫做Z关于的商集，记做例如，同余关系i‘对整数集/

产生的商集就是模C的剩余类[9]:

[lL,..,[c-4.}

由上述讨论可知，在给定集合Z上定义一个等价关系，就决定集合;r的一种

划分.显然，这样的划分是硬分割，我们可以把这一概念推广到模糊关系上来[9]。

由于模糊等价关系及是论域与自己笛卡尔乘积jxl上的一个模糊集合，

而模糊集合的任何a（0SaS1）截集及都是XXX上的一个普通集合，即为X上的

普通等价关系，也就得到了关于X中对象元素的一种分类.当《由1下降为0时，

所得到的分类由粗变细，逐渐归并，从而形成一个动态的聚类谱系图.由此可见，

分类对象集Z上的模糊等价关系的建立是这种聚类分析方法中的一个关键性的

环节[9]。

为了建立分类对象集合X上的模糊等价关系瓦，通常需要首先计算各个分类

对象之间的相似性统计量，建立分类对象集合I上的模糊相似关系=k]，

、LIJJfjxn

0

象的相似性统计量的方法有如下几种[9]。

1.夹角余弦法

■S

广’J=广'.

（2-11）

Vk=\k=\

2.数量积法

'1

i=j

r,j=‘1

（2-12）

Mtl

I*]

这里，M是一个适当选取的正数，并且满足

M>max|^X丨k（2-13）

3.相关系数法

11

笫2苹聚类分析及;用实例

即合成的传递闭包：

巧==充。

瓦.，R:

=R^or；,……

这样下去，就必然存在一个自然数I使得巧*=R'。

紀这时，^便是一个模糊

等价关系了.在此基础上，我们就可以利用不同水平下的截集得到该水平上的聚类

结果，所有不同水平的聚类结果形成聚类的谱系图[9]。

2.2.3图论聚类方法

图论聚类方法最早是由Zahn提出来的，又称作最大（小）支撑树聚类算法.

后来经过人们加以改造从而可以实现模糊聚类分析.图G中一条长度为尺的路径

（Path）P是一系列连接的结点，P=〈x,，X2，".,Xa.+,〉，其中对

V/e（0,Ar）,（x,,x,+|）eE；如果图G中没有一条非零长度的路径P=

且X,=Xh,，则称图G不包含环（Cycle）;图G的支撑树》]是指由连接所有结点的

-1条边构成的无环图pr，r].显然，一个图中当且仅当任意两对结点之间

只有一条路径时才是树，通常在一个图G中可以构造多个支撑树[1,7；如

果我们给图中每条边e赋以权值，那么所谓的最小支撑树（MinimumSpanning

Tree,MST）是指满足下列条件的支撑树：

w（MST）=minj^w（e）|

对于一棵树如果移去一条边e,则生成两组连通的结点jc又和

A=X-A,我们定义y为共环边⑼，

0"=|e,.-|x,eA,Xj-eA,A=X-jj

（2-26）

也就是说，f为图[X,G]中连接两组节点J和：

的一组边；森林是指不包含

环的非联通图，其中的每一个联通的部分被称为一棵树。

下面的定理给出了构造最小支撑树的充分必要条件.即：

是图G的最小支撑

树的充分必要条件是，对于所有的边其共环边y满足

14

第2帝聚类分析及其应用实例

"Z

=e'=丨

（2'21）

10.绝对值倒数法

'1

i=j

r=——M

（2-22）

y

s

3Ii*j

.i=l

这里，M是一个适当选取的数，使得SI.

在实际应用中，由于所获取的分类对象的数据比较复杂，往往不是[0,1]区间中

的数，因此首先需要把各个原始数据标准化.假设被分类的对象一共有n个，对于

每一维特征Xt共有《个原始数据，设为x;"x'2”…，x:

p把它们叫做这一特征的各

个元素.为了把这些数据标准化，首先计算每一维特征的均值和方差[iG]:

^=-1‘

（2-23）

H/=1

n/=1

下式（是求数据标准化值X；；的公式

X：

（2-24）

Sk

对上式（求出的值进行极值标准化，就能确保所有被标准化为[0，1]闭区间内

的值，极值标准化公式为：

5-:

“

（2-25）

max工Amin

上式中，是指x;;，x丨”中的最大值，而指最小值-

得到待分类对象集X上定义的模糊相似性关系足后，还要进一步改造成为模

糊等价关系足由前面有关模糊关系的介绍可知，模糊相似性关系足.满足自反性

和对称性，但一般而言并不满足传递性，也就是说，它并不是模糊等价关系.因此，

为了聚类我们必须采用传递闭包的性质，将这种模糊相似性关系足改造为模糊等

价关系民[9〗。

13

第2韋聚类分析及jl;应用实例

6"r\T={￠^）,w{e）

在传统的图论聚类分析，首先把待分类的对象X=^[xi，x2,…，〃看作一

个全连接的无向图G=中的结点，然后给每一条边赋以权值，比如我们可以

用任意两个结点（X,,Xj）在特征空间的汉明距离定义边e丨J（1

w{e,j）=||x,-XjII,x,,xjeX

然后，我们再对该组对象进行聚类分析，其具体步骤再次就不多讲.

下面，我们主要介绍模糊最大支撑树算法的具体步骤

步骤一：

建立分类对象集上的模糊相似关系，构造模糊图：

（1）计算各个分类对象之间的相似性统计量r".,/,y=l,2,…，n,建立分类对象集

Z上的模糊相似关系瓦=h]；

‘、Ltj

（2）将^^表示成由《个结点所构成的模糊图6二|^，五1，使G中的任意两个结点

与Xj之间都有一条边相连接，且赋该边的权值为r,j.

步骤二：

构造模糊图G上的最大模糊支撑树：

；：

'

（1）找出图G中最大权值的边；

（2）将存放在集合C中，将边上的新结点放入集合r中，若r中已含有所有

个结点时，转至（4）;

（3）检查r中每个结点与r外的结点组成的边的权值，找出其中最大者转至

（2）；

（4）结束，此时G中的边就构成了G的最大模糊支撑树!

；.

步骤三：

由最大模糊支撑树进行聚类分析：

选择某一个《值对炎,=j作截集，

将r■中小于《的边断开，使相连的各结点构成一类，当a由1下降到0

时，所得到的分类由细变粗，各结点所代表的分类对象逐渐归并，从而

形成一个动态聚类谱系图.

2.2.4基于目标函数的模糊聚类分析

15

第2章聚类分析及：

U:

应用实例

实际中最常用的是基于目标函数的模糊聚类方法，即把聚类归结成一个带约

束的非线性规划问题，通过优化求解获得数据集的模糊划分和聚类.该方法具有设

计简单、解决问题的范围广、可转化为优化问题而借助经典数学非线性规划理论

求解以及易于在计算机上实现等诸多方面的优点，因而深受广大学者的喜欢，成

为最常用的一种聚类分析方法.伴随着计算机的应用和发展，基于目标函数的模糊

聚类算法成为新的研究热点

在基于目标函数的聚类算法中模糊C均值（FCM，Fuzzyc-Means）类型算法

的理论最为完善、应用最为广泛.模糊C均值类型的算法最早是从硬聚类目标函数

的优化中导出的.为了借助目标函数法求解聚类问题，人们利用均方逼近理论构造

了带约束的非线性规划函数，从此类内平均误差和（WGSS,Within-GroupsSumof

SquaredError）J,成为聚类目标函数的普遍形式.为极小化该目标函数而采取的

Pikard迭代优化方案就是著名的硬C均值（HCM）算法和ISODATA（Iterative

Self-OrganizingDataAnalysisTechniqueA）算法模糊划分概念提出后，Dunn

首先把WGSS函数J,扩展到J2——类内加权平均误差和函数，后来Bezdek又引入

一个参数m，把推广到一个目标函数的无限族，并给出了交替优化（AO,

AlternativeOptimization）算法，即为人们所熟知的FCM算法从此，奠定了FCM

算法在模糊聚类中的地位.下面我们从以下几个方面来逐步介绍基于目标函数的

模糊聚类分析法['3].

（1）数据集的e划分

给定数据集；^=^^,1:

，...,1；1〔/'-为模式空间中《个模式的一组有限观测样

本集，X,

…;eiT为观测样本&的特征矢量或模式矢量，对应特征

空间中的一个点，Xkj为特征矢量Xk的第_/维特征上的赋值.对给定样本集X的聚

类分析就是要产生i的C■划分

由上面有关聚类分析的数学模型可知，数据集I的C划分得到的C个子集

如果满足下式的条件，则称之为X的硬C划分

…uZc=jr~

X0Xk=

（2-27）

X,

X,\

如果用隶属函数、{CJ，P）表示了各类中样本与其典型样本的误差平方和.

利用/，Ji（7，P）也可以表示为

J人=

伙

1

k=\/=1

32）

eMhc

聚类准则为寻求最佳对以使得在满足&条件下为最小.

解决这类优化问题最常用的方法是用迭代法求取的近似最小值

Dunn按照Ruspini定义的模糊划分的概念，把硬聚类的目标函数推广到模糊

聚类的情况.为了避免产生平凡解，保证这一推广有意义，Dunn对每一个样本与每

类原型间的距离用其隶属函数平方加权，从而把类内误差平方和目标函数扩展为

类内加权误差平方和目标函数

1

k=\/=1

\l-66）

eMjc

（3）模糊c均值聚类算法

为了优化聚类分析的目标函数，人们提出了现在相当流行和应用广泛的模糊c

均值（FCM,Fuzzyc-means）聚类算法.该算法是从硬c均值（HCM,Hardc-means）

聚类算法发展而来的HCM算法用于求解满足式中的尸）为最小时的分类结

果.以下给出FCM算法的具体步骤:

初始化：

给定聚类类别数C，2

始化聚类原型模式p（°）,设置迭代计数器6=0;

步骤一：

用下面两式计算或更新划分矩阵t/（十

对于V/,A：

如果则有

「2"11_1

、CfAb）

必=\Lik

（2-34）

y=i\"jkJ

如果3/，r，使得￠￠）=0,则有

=1,且对y本r,ju-p=0

（2-35）

18

%2章聚类分析及其应用实例

步骤二：

用下式更新聚类原型模式矩阵

p产、、二过

，/=1,.,C

（2-36）

1（"”广

k=\

步骤三：

如果则算法停止并输出划分矩阵t/和聚类原型尸，否

则令6=Z）+l，转向步骤一.其中为某种合适的矩阵范数.

对于HCM算法的具体步骤，大家可以参照西安电子科技大学出版社出版的由

高新波著作的《模糊聚类分析及其应用一书》.FCM算法还具有另一种形式，即从

初始化模糊划分矩阵开始，先用上一公式计算聚类原型（中心）矩阵，然后用上

上公式更新模糊分类矩阵，直到满足停止准则为止["].

由以上算法不难看出，整个计算过程就是反复修改聚类中心和分类矩阵的过

程，因此常称这种方法为动态聚类或者逐步聚类法.几经修补，该算法的收敛性已

经得以证明：

FCM算法能从任意给定初始点开始沿一个迭代子序列收敛到其目标函

数的局部极小点或鞍点.对于满足下列条件的集合FCM算法可以收敛

到局部最优解，这样的被称作模糊聚类的解集["1:

VUeM^^,J^（u\P'）

（2-37）

\jp^r\j[u\p'）

（2-38

第2章聚类分析及其应用实例

U=[阵t/中的第/行为第/个子集的特征函数，而矩阵t/中的第A

歹J为样本相对于c个子集的隶属函数[“].则工的硬C划分空间为

=jt/ee{0,1}，Va;J=|t/ee[0,4V/，A：

;文"r

（2-30）

机

_

当《=25,c=10时，大概有lOi8个不同的分类结果.对于模糊划分的情况，贝幡在

有无限多个分类结果.事实上，每个模糊划分矩阵都可以用若干个硬分类矩阵来表

示[["]

（2）聚类目标函数

我们希望在众多可能的分类中寻求合理的分类结果，为此，就要确立合理的

聚类准则.在硬划分时，常使用的聚类准则是最小平方误差和['7].

对应于上一节

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 多元统计分析方法及其在生活中应用

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：几种多元统计分析方法及其在生活中的应用1.docx
链接地址：https://www.bdocx.com/doc/8845596.html

几种多元统计分析方法及其在生活中的应用1.docx

热门标签