MATLAB统计工具箱在聚类分析中的应用.docx
- 文档编号:6227829
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:16
- 大小:88.61KB
MATLAB统计工具箱在聚类分析中的应用.docx
《MATLAB统计工具箱在聚类分析中的应用.docx》由会员分享,可在线阅读,更多相关《MATLAB统计工具箱在聚类分析中的应用.docx(16页珍藏版)》请在冰豆网上搜索。
MATLAB统计工具箱在聚类分析中的应用
MATLAB统计工具箱在聚类分析中的应用
MATLAB统计工具箱提供给人们一个强有力的统计分析工具,是目前国际上流行的科学计算软件,具有强大的矩阵计算和数据可视化能力,可实现数据计算、图形处理、自动处理和信息处理等多种功能;同时,随着经济社会的飞速发展,大数据时代已经悄然来临,海量的数据分类、处理工作显得尤为繁杂,而聚类分析在解决这一繁杂工作的过程中起着不可替代的作用。
那么采取何种办法对样本点进行聚类,才能使得大量的样本按照各自特性进行合理分类,也是一个值得探究的问题。
在MATLAB统计工具箱中提供了许多聚类分析工具,k-means聚类就是其中一种,也叫k均值聚类,本文主要探讨k-means聚类方法,并将其运用于实例分析。
关键词,matlab统计工具箱,聚类分析,k-means聚类
1.1问题背景
聚类分析(ClusterAnalysis),是将一组研究对象分为相对同质的群组的统计分析技术,又称群分析或分类分析,通俗易懂的来说,它是根据“物以类聚”的道理,对某些指标或样品进行分类的一种多元统计分析方法。
也就是说,它们以大量的样品为讨论对象,在没有任何模式依循或可供参考的条件下,要求能够合理地按照各自的特性或属性来进行合理的分类,是在没有先验知识的情况下进行的。
也就是说聚类与分类的不同在于,聚类所要求划分的类是未知的,是将数据分类到不同的类或者簇这样的一个过程,所以在同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。
当今社会正处于大数据时代,在商业方面,聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理;在经济领域,其可以帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征;对住宅区进行聚类,确定自动提款机ATM的安放位置;对股票市场板块分析,找出最具活力的板块龙头股;还可用于企业信用等级分类等方面。
在生物学领域,其可推到动、植物的分类;也可对基因分类,获得对种群的认识;在数据挖掘领域,其可作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究;同时在保险行业、地理及因特网等方面有着巨大的作用。
传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、MATLAB等。
本文着重介绍MATLAB统计工具箱在聚类分析中的应用。
利用MATLAB统计工具箱中的k-means进行聚类分析,首先进行数据预处理,为衡量数据点间的相似度定义一个距离函数,再聚类或分组,评估输出。
可应用于诸多方面,为人们的生产生活带来方便。
1.2本文主要工作
首先建立聚类分析模型,1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;2)用linkage函数定义变量之间的连接;3)用cophenetic函数评价聚类信息;4)用cluster函数创建聚类。
然后通过模型对模拟数据及实际数据进行分析、聚类,最终通过计算错误率,对模型进行评价。
2.模型综述
2.1用k-means做聚类分析的算法解释
设被聚类对象的样本总数为
样本维数为
即有可测数据样本集
,其中
,i=1,2……n
则定义数据样本
和
之间的欧几里得距离
)
为了可视化,这里使用二维空间,一组模拟数据如图2.1所示:
图2.1模拟数据散点图
从样本点的大体形状可以看出它们大致可以聚为三个类,其中两个是密集一些的,剩下的那些松散一些。
现在我们要为这些样本点分组,以便于能区分出属于不同的簇的数据,如果按照分组把它们按照不同的形状画出来,就是下图这个样子:
图2.2聚类效果图
那么如何用计算机完成这个任务呢,本文采取matlab中的k-means算法对这种m维欧氏空间中的点进行聚类。
在进行k-means的具体步骤之前,首先我们要对进行聚类的数据做一个假设:
对于每一个类,我们可以选出一个中心点,使得该类中的所有的点到该中心点的距离比到其他类的中心的距离小。
当然实际情况中得到的数据并不能总是保证能满足这样的条件约束,但这通常已经是我们所能达到的最好的结果,而那些误差通常是固有存在的或者问题本身的不可分性造成的。
例如下图所示的两个正态分布,从两个分布中随机地抽取一些数据点出来,混杂到一起,现在要让我们将这些混杂在一起的数据点按照它们被生成的那个分布分开来:
图2.3正态分布分析图
我们可以看到,这两个分布它本身就有很大一部分重叠在一起了,比如,对于数据点2.5来说,它由两个分布产生的概率都是相等的,所以我们做的只能是一个猜测;稍微好一点的情况是2,一般我们会将它归类到左边的那个分布,因为概率相对来说大一些,然而此时它由右边的分布生成的概率仍然也是比较大的,也就是说我们仍然也有不小的几率会猜错。
而整个阴影部分是我们所能达到的最小的猜错的概率,诸如此类的问题,它来自于问题本身的不可分性,无法避免。
因此,我们把k-means所依赖的这个假设看作是合理的。
基于这样一个假设,我们再来导出k-means所要优化的目标函数:
设我们一共有n个数据点需要分为K个类,k-means要做的就是最小化
上述函数,其中
在数据点n被归类到clusterk的时候为1,否则为0。
直接寻找
和
来最小化
并不容易,不过我们可以采取迭代的办法:
先固定
,选择最优的
,很容易看出,只要将数据点归类到离他最近的那个中心就能保证
最小。
下一步则须固定
,再求最优的
。
将
对
求导并令其导数为零,很容易得到
达到最小的时
应该满
足:
也就是说
的值应当是所有clusterk中的数据点的平均值。
由于每一次迭代都是取到
的最小值,因此
只会不断地减小或者不变,而不会增加,这就保证了k-means最终会到达一个极小值。
虽然k-means并不能保证总是能得到全局最优解,但是对于这样的问题,像k-means这种复杂度的算法,这样的结果已经是很不错的了。
2.2k-means算法的具体步骤
选定K个中心
的初值。
这个过程通常是针对具体问题有一些启发式的选取方法,或者在大多数情况下采用随机选取的办法。
因为前面我们说过k-means并不能保证全局最优,而能否收敛到全局最优解其实和初值的选取有很大的关系,所以有时候我们会多次选取初值运行k-means,并取其中最好的一次结果。
1)将每个数据点归类到离它最近的那个中心点所代表的cluster中;
2)用公式
计算出每个cluster的新的中心点;
3)重复第二步,一直到迭代了最大的步数或者前后的
的值相差小于一个阈值为止。
结论
利用k-means进行聚类分析,当样本点为完全分离数据时,每一类聚类结果的错误率都为0,当样本点为重叠度较低数据时,cluster1和cluster3的错误率均为1%,cluster2的错误率为0;当样本点为重叠度较高数据时,cluster1的错误率为5%,cluster2的错误率为1%,cluster3的错误率为4%;从而证明在用k-means进行聚类分析时,在忽略问题本身的不可分性外,其对数据完全可分离数据和重叠度较低数据的聚类具有较好的效果。
同时,通过实例用k-means对有关iris(鸢尾属植物)的数据,从Sepal.length,Sepal.width,Petal.length,Petal.width四个方面对iris的聚类结果非常好,错误率为0,也就是说,对于类似于iris的这类数据,用k-means进行聚类分析,会给我们对数据分析带来极大的方便。
附录
Data=
0.53775.84041.0000
1.83394.11201.0000
-2.25885.10011.0000
0.86224.45551.0000
0.31885.30351.0000
-1.30774.39971.0000
-0.43365.49001.0000
0.34265.73941.0000
3.57846.71191.0000
2.76944.80591.0000
-1.34992.86161.0000
3.03494.16041.0000
0.72546.35461.0000
-0.06313.92781.0000
0.71475.96101.0000
-0.20505.12401.0000
-0.12416.43671.0000
1.48973.03911.0000
1.40904.80231.0000
1.41723.79221.0000
0.67157.90801.0000
-1.20755.82521.0000
0.71726.37901.0000
1.63023.94181.0000
0.48894.53141.0000
1.03474.72751.0000
0.72696.09841.0000
-0.30344.72211.0000
0.29395.70151.0000
-0.78732.94821.0000
0.88844.64621.0000
-1.14714.17641.0000
-1.06893.42291.0000
-0.80955.50801.0000
-2.94435.28201.0000
1.43845.03351.0000
0.32523.66631.0000
-0.75496.12751.0000
1.37035.35021.0000
-1.71154.70091.0000
-0.10225.02291.0000
-0.24144.73801.0000
0.31923.24981.0000
0.31294.71431.0000
-0.86494.16861.0000
-0.03014.02081.0000
-0.16493.84361.0000
0.62774.46641.0000
1.09332.99741.0000
1.10935.96421.0000
-0.86375.52011.0000
0.07744.98001.0000
-1.21414.96521.0000
-1.11354.20181.0000
-0.00686.01871.0000
1.53264.86681.0000
-0.76974.28551.0000
0.37146.35141.0000
-0.22564.77521.0000
1.11744.41101.0000
-1.08914.70621.0000
0.03264.15211.0000
0.55253.87991.0000
1.10067.52601.0000
1.54426.65551.0000
0.08595.30751.0000
-1.49163.74291.0000
-0.74234.13451.0000
-1.06164.82351.0000
2.35055.79141.0000
-0.61563.66801.0000
0.74812.67011.0000
-0.19243.55091.0000
0.88865.33351.0000
-0.76485.39141.0000
-1.40235.45171.0000
-1.42244.86971.0000
0.48825.18371.0000
-0.17744.52381.0000
-0.19615.86201.0000
1.41933.63831.0000
0.29165.45501.0000
0.19784.15131.0000
1.58774.66511.0000
-0.80455.55281.0000
0.69666.03911.0000
0.83513.88241.0000
-0.24376.26071.0000
0.21575.66011.0000
-1.16584.93211.0000
-1.14804.80481.0000
0.10494.78241.0000
0.72234.69691.0000
2.58555.02301.0000
-0.66695.05131.0000
0.18735.82611.0000
-0.08256.52701.0000
-1.93305.46691.0000
-0.43904.79031.0000
-1.79475.62521.0000
0.183210.07992.0000
-1.02989.05152.0000
0.949210.41152.0000
0.307110.67702.0000
0.135210.85772.0000
0.51529.30882.0000
0.261410.44942.0000
-0.941510.10062.0000
-0.162310.82612.0000
-0.146110.53622.0000
-0.532010.89792.0000
1.68219.86812.0000
-0.87579.85282.0000
-0.483811.00782.0000
-0.71207.87632.0000
-1.17429.49542.0000
-0.19228.72942.0000
-0.27419.61742.0000
1.530110.64872.0000
-0.249010.82572.0000
-1.06428.98512.0000
1.60359.52892.0000
1.234710.13702.0000
-0.22969.70812.0000
-1.506210.30182.0000
-0.444610.39992.0000
-0.15599.07002.0000
0.27619.82322.0000
-0.26127.86792.0000
0.443411.14542.0000
0.39199.37092.0000
-1.25078.79622.0000
-0.94809.74612.0000
-0.74118.57142.0000
-0.50789.97912.0000
-0.32069.43932.0000
0.012512.17782.0000
-3.029211.13852.0000
-0.45707.50312.0000
1.242410.44132.0000
-1.06678.60192.0000
0.93379.74492.0000
0.350310.16442.0000
-0.029010.74772.0000
0.18259.72702.0000
-1.565111.57632.0000
-0.08459.51912.0000
1.603910.32752.0000
0.098310.66472.0000
0.041410.08522.0000
-0.734210.88102.0000
-0.030810.32322.0000
0.23239.21592.0000
0.42648.19462.0000
-0.372811.85862.0000
-0.23659.39552.0000
2.023710.10342.0000
-2.258410.56322.0000
2.229410.11362.0000
0.33769.09532.0000
1.00019.53232.0000
-1.66429.87512.0000
-0.590011.47902.0000
-0.27819.13922.0000
0.422710.78472.0000
-1.670210.30862.0000
0.47169.76612.0000
-1.21288.94302.0000
0.06629.71592.0000
0.65249.91332.0000
0.32718.53062.0000
1.082610.19222.0000
1.00619.17772.0000
-0.65099.90582.0000
0.257110.33622.0000
-0.94449.09532.0000
-1.32189.71172.0000
0.924810.35012.0000
0.00008.16412.0000
-0.054911.03602.0000
0.911112.42452.0000
0.594610.95942.0000
0.35029.68422.0000
1.250310.42862.0000
0.92988.96402.0000
0.239811.87792.0000
-0.690410.94072.0000
-0.651610.78732.0000
1.19219.12412.0000
-1.611810.31992.0000
-0.02459.44172.0000
-1.94889.68862.0000
1.02059.43002.0000
0.86178.97432.0000
0.00129.09132.0000
-0.07089.79012.0000
-2.48638.30112.0000
0.581210.60762.0000
-2.19249.88222.0000
-2.319310.69922.0000
0.269614.92013.0000
0.494315.89853.0000
-1.483115.18373.0000
-1.020315.29083.0000
-0.447015.11293.0000
0.109715.44003.0000
1.128715.10173.0000
-0.290017.78733.0000
1.261613.83333.0000
0.475413.14573.0000
1.174113.85933.0000
0.126913.90673.0000
-0.656814.56643.0000
-1.481414.83153.0000
0.155514.78153.0000
0.818615.54133.0000
-0.292615.38933.0000
-0.540815.75123.0000
-0.308616.77833.0000
-1.096616.22313.0000
-0.493013.71673.0000
-0.180712.67103.0000
0.045815.90193.0000
-0.063813.16443.0000
0.611315.06683.0000
0.109315.03553.0000
1.814017.22723.0000
0.312014.93083.0000
1.804514.49273.0000
-0.723115.23583.0000
0.526515.24583.0000
-0.260315.07003.0000
0.600114.39143.0000
0.593913.77743.0000
-2.186015.31653.0000
-1.327013.65713.0000
-1.441013.96783.0000
0.401816.33123.0000
1.470214.58113.0000
-0.326814.85973.0000
0.812315.89983.0000
0.545514.69993.0000
-1.051616.02943.0000
0.397514.65493.0000
-0.751916.01283.0000
1.516315.62933.0000
-0.032614.78703.0000
1.636014.13433.0000
-0.425113.95693.0000
0.589414.72993.0000
-0.062814.56193.0000
-2.022014.59133.0000
-0.982115.98353.0000
0.612514.70233.0000
-0.054916.14373.0000
-1.118714.46843.0000
-0.626415.97263.0000
0.249514.47773.0000
-0.993015.17663.0000
0.975015.97073.0000
-0.640714.58603.0000
1.808914.56173.0000
-1.079917.00343.0000
0.199215.95103.0000
-1.521014.56803.0000
-0.723615.64893.0000
-0.593314.63993.0000
0.401315.70593.0000
0.942116.41583.0000
0.300513.39553.0000
-0.373116.02893.0000
0.815516.45803.0000
0.798915.04753.0000
0.120216.74633.0000
0.571215.15543.0000
0.412813.76293.0000
-0.987012.8065
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MATLAB 统计 工具箱 聚类分析 中的 应用