毕业设计论文基于聚类分析的图像分割的研究和应用.docx
- 文档编号:7702452
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:27
- 大小:386.77KB
毕业设计论文基于聚类分析的图像分割的研究和应用.docx
《毕业设计论文基于聚类分析的图像分割的研究和应用.docx》由会员分享,可在线阅读,更多相关《毕业设计论文基于聚类分析的图像分割的研究和应用.docx(27页珍藏版)》请在冰豆网上搜索。
毕业设计论文基于聚类分析的图像分割的研究和应用
本科毕业论文(设计)
题目:
学院:
信息工程学院
专业:
计算机科学与技术
姓名:
指导教师
2008年6月5日
基于聚类分析的图像分割的研究和应用
摘要
聚类分析是数据挖掘的重要研究内容之一,在识别数据的内在结构方面有极其重要的作用。
数据挖掘技术是近几年国内迅速开始发展起来的一门新技术,其研究涉及机器学习、神经网络、统计学多个学科领域的知识,其发展对未来社会的各个领域的作用将会越来越大。
图像分割是图像分析中的一个基本问题,随着技术的进步,图像使用的越来越多,对图像的分割也越来越引起人们的重视。
本文主要是通过数据挖掘中聚类分析算法对图像进行分割。
本文首先简要概述了本课题的背景、国内外动态;其次又详细介绍了数据挖掘的基本知识和聚类分析的各种算法;然后具体给出了如何利用聚类分析中的k-means算法在RGB和HSV颜色空间下实现图像分割;最后,通过图像分割系统在遥感中的应用,验证系统的有效性。
关键词数据挖掘聚类分析图像分割k-meansHSV
Theresearchandapplicationof
imagesegmentationbasedonclusteringanalysis
ABSTRACT
Clusteringanalysisisoneofthemostimportantdirectionsofresearchofdatamininganditplaysanimportantroleintheidentificationofdata'sintrinsicstructureaspect.Dataminingisanewtechnologywhichhasdevelopedrapidlyinrecentyears.Itsstudyinvolvesmachinelearning,neuralnetwork,statisticsandmanyothersubjectsanditsdevelopmenthasbeenmoreandmoresignificanttoeveryfieldofthesociety.Imagesegmentationisoneofthebasicproblemsofimageanalysis.Withthedevelopmentoftechnology,theimagewillbeusedmorewidelyandimageanalysiswillgetmoreandmorepeople’scloserattention.
Thispapermainlyusesclusteringanalysisofdataminingtoimplementimagesegmentation.Itfirstbrieflyoutlinesthetopic’sbackground,thedomesticandforeigntendencies.Next,itintroducesdetailedbasicacknowledgeofdataminingandeveryalgorithmofclusteringanalysis.Thenitrealizesthefunctionofimagesegmentationbyk-meansalgorithmunderthecolorfulspaceofRGBandHSV.Atlast,theapplicationoftheimagesegmentationsysteminremoteimagewillbeusedtotestitsvalidation.
KEYWORDSDataMiningClusteringAnalysisImageSegmentationK-meansHSV
1.前言
1.1研究的目的和意义
聚类分析研究有很长的历史,几十年来,其重要性及其研究方向的交叉特性得到人们的肯定。
聚类分析是数据挖掘研究方向的重要研究内容之一,在识别数据的内在结构方面有极其重要的作用。
数据挖掘技术是从上个世纪80年代开始发展起来的一门交叉学科,涉及到数据库、统计学、人工只能和机器学习多个领域。
计算机的应用普及产生了大量数据,数据挖掘就是利用上述学科的技术进行大量的数据处理。
数据挖掘的应用范围非常的广泛,从农业生产的预测到基因分类,从信用卡欺诈到税务稽查,数据挖掘技术对未来社会的各个领域将起到越来越大的作用。
图象分割是指将图像分解为各具特性的区域并提取出感兴趣目标的技术和过程,它是图像理解、模式识别和计算机视觉领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的关键步骤。
图象分割在工业自动化、在线产品检验、生产过程控制、文档图象处理、遥感和生物医学图象分析、图象编码、保安监视,以及军事、体育和农业工程等方面已得到广泛的应用。
图象分割是指在一幅彩色图像中分离出主要的色彩一致的区域,随着技术的进步,图像使用的越来越多,对图像的分割也越来越引起人们的重视。
据国外专家预测,在今后的5—10年内,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。
1.2国内外研究动态
1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出“在数据库中的知识发现”(KDD:
KnowledgeDiscoveryinDatabase)技术,1991、1993、1994年又相继举行了KDD专题讨论会。
1995年,在美国计算机年会(ACM)上,提出了数据挖掘(DM:
DataMining)的概念,即通过从数据库中抽取隐含的、未知的、具有潜在使用价值信息的过程。
由于数据库中的数据被形象地比喻为矿床,因此,数据挖掘一词很快流传开来。
由于它应用的普遍性及由此带来的高效益,新型的数据分析技术-数据挖掘成为一个具有广阔应用前景的热门研究方向。
KDD的研究吸引了大量的各个领域的专家和研究机构从事该领域的研究。
许多公司纷纷推出了自己的数据挖掘系统。
我国的数据挖掘研究开始于90年代中期,到90年代中后期,初步形成了知识发现和数据挖掘的基本框架。
自90年代中期一批研究成果(学术论文)逐渐发表在《计算机学报》、《计算机研究与发展》、《软件学报》、《人工智能与模式识别》等刊物上,研究重点也正在从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。
但是基本上还是以学术研究为主,实际应用上处于起步阶段。
目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。
与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。
目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,如清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。
北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究;华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘;我校数据仓库与数据挖掘课题组在数据仓库与数据挖掘相结合方面的研究取得了较大的进展,目前正积极推进研究成果在金融、统计、商业和制造业领域的应用。
因此,国内迫切需要对国外的数据挖掘技术记性剖析,在掌握核心技术的前提下才能真正超越。
1.3研究的主要内容和论文结构
本文主要内容就是利用聚类分析中的K-MEANS算法在RGB和HSV颜色空间下实现图像分割系统,并应用于遥感图像,其具体有下面几方面内容:
1、了解数据挖掘的概念,熟悉聚类分析的思想算法,特别掌握k-means算法的思想及句体实现。
2、基于数据挖掘聚类分析方法,完成RGB颜色空间下的图像分割系统。
3、研究RGB和HSV颜色空间的转换关系,实现RGB空间到HSV空间转换,从而实现HSV空间下的图像分割。
4、将图像分割系统应用于遥感图像分割,并对分割结果进行分析。
按照本文的主要内容,本文的论文结构如下:
第一章:
前言。
本章主要简单介绍了本论文的目的和意义、国内外研究动态和研究的主要内容。
第二章:
数据挖掘技术中的聚类分析技术。
本章主要介绍了数据挖掘概述和聚类分析各种算法。
第三章:
图像分割系统的实现。
本章首先介绍了图像分割系统的概念,然后又具体给出了系统的结构设计和程序流程设计,最后给出了具体结构的各模块设计实现。
第四章:
遥感图像在图像分割系统中的应用。
本章主要是将图像分割系统应用到遥感图像的聚类分析中,并在RGB、HSV两种颜色空间下进行图像分割,进行比较、总结。
第五章:
总结。
2.数据挖掘中的聚类分析技术
2.1数据挖掘概述
2.1.1数据挖掘基本概念
数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键数据。
简而言之,数据挖掘其实是一类深层次的数据分析方法。
从这个角度数据挖掘也可以描述为:
按企业制定的业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
2.1.2数据挖掘的分类
数据挖掘设计的科学领域和方法很多,有很多种分类方法。
根据挖掘任务,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模型发现、依赖关系或以来模型发现、异常和趋势发现等。
下面将具体介绍各种方法。
⑴关联分析(associationanalysis)
关联规则挖掘是由RakeshApwal等人首先提出的。
两个或两个以上变量的取值之间存在某种规律性,就称为关联。
数据关联是数据库中存在的一类重要的、可被发现的知识。
关联分为简单关联、时序关联和因果关联。
关联分析的目的是找出数据库中隐藏的关联网。
一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
⑵聚类分析(clustering)
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。
聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
⑶分类(classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。
分类是利用训练数据集通过一定的算法而求得分类规则。
分类可被用于规则描述和预测。
⑷预测(predication)
预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。
预测关心的是精度和不确定性,通常用预测方差来度量。
⑸时序模式(time-seriespattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。
与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
⑹偏差分析(deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。
偏差检验的基本方法就是寻找观察结果与参照之间的差别。
2.1.3数据挖掘过程
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。
数据挖掘的基本过程和主要步骤如图2.1所示:
图2.1
过程中各步骤的大体内容如下:
1.确定业务对象,清晰地定义出业务问题。
认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构不可预测,但要探索的问题应该是有预见的,为了数据挖掘而挖掘则带有盲目性,是不会成功的。
2.数据准备。
(1)数据选择。
搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
(2)数据预处理。
研究数据的质量,进行数据的集成、变换、归约、压缩等.为进一步的分析作准备,并确定将要进行的挖掘操作的类型。
(3)数据转换。
将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的这是数据挖掘成功的关键。
3.数据挖掘。
对所得到的经过转换的数据进行挖掘。
除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。
4.结果分析。
解释并评估结果。
其使用的分析方法一般应视挖掘操作而定,通常会用到可视化技术。
5.知识同化。
将分析所得到的知识集成到业务信息系统的组织结构中去。
2.1.4数据挖掘方法
⑴神经网络方法
神经网络由于本身良好的自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。
典型的神经网络模型主要分3大类:
以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。
神经网络方法的缺点是"黑箱"性,人们难以理解网络的学习和决策过程。
本文用到了Kohonen自组织神经网络,具体将在后面讲述。
⑵遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。
遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
⑶决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。
它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。
⑷粗集方法
粗集理论是一种研究不精确、不确定知识的数学工具。
粗集方法有几个优点:
不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。
粗集处理的对象是类似二维关系表的信息表。
⑸覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。
首先在正例集合中任选一个种子,到反例集合中逐个比较。
与字段取值构成的选择子相容则舍去,相反则保留。
按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。
⑹统计分析方法
在数据库字段项之间存在两种关系:
函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。
可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。
⑺模糊集方法
即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。
系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。
有人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型云模型,并形成了云理论。
2.2聚类分析算法介绍
聚类分析研究有很长的历史,几十年来,其重要性及与其他研究方向的交叉特性得到人们的肯定。
聚类是数据挖掘、模式识别等研究方向的重要研究内容之一,在识别数据的内在结构方面具有极其重要的作用,聚类主要应用于模式识别中的语音识别、字符识别等,机器学习中的聚类算法应用于图像分割和机器视觉,图像处理中聚类用于数据压缩和信息检索,聚类的另一个主要应用是数据挖掘(多关系数据挖掘)、时空数据库应用(GIS等)、序列和异类数据分析等,此外,聚类还应用于统计科学,值得一提的是,聚类分析对生物学、心理学、考古学、地质学、地理学以及市场营销等研究也都有重要作用。
2.2.1聚类概念
迄今为止,聚类还没有一个学术界公认的定义,这里给出EverittIs在1974年关于聚类所下的定义:
一个类簇内的实体是相似的,不同类簇的实体是不相似的;一个类簇是测试空间中点的会聚,同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离;类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域,它们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离。
聚类过程:
1)数据准备:
包括特征标准化和降维,
2)特征选择:
从最初的特征中选择最有效的特征,并将其存储于向量中,
3)特征提取:
通过对所选择的特征进行转换形成新的突出特征,
4)聚类(或分组):
首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量;
5)聚类结果评估:
是指对聚类结果进行评估,评估主要有3种:
外部有效性评估、内部有效性评估和相关性测试评估。
2.2.2聚类分析算法的类别
没有任何一种聚类技术(聚类算法)可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,根据数据在聚类中的积聚规则以及应用这些规则的方法,有多种聚类算法。
聚类算法有多种分类方法,聚类算法可以分为以下几大类:
分割聚类方法(PartitioningMethod)、层次聚类方法(HierarchicalMethod)、基于密度(Density-Based)的聚类方法、基于网格(Grid-Based)的聚类方法、基于模型(Model-Based)的聚类方法等等。
[1]基于划分的方法:
所谓基于划分的方法(PartitioningMethod)是指给定一个包含n个数据对象的数据集,以及要生成的簇的数目K,采用一个划分准则(称为相似度函数)将数据对象组织为K个划分(k<=n),每个划分代表一个簇,使同一个簇中的对象是“相似的”,而不同簇中的对象是“相异的”。
为了达到全局最优,基于划分的聚类会要求穷举所有可能的划分。
为了使该方法适用于大规模数据集,以及处理复杂形状的聚类,出现了若干基于划分方法的扩展方法。
该类方法的典型代表是K-Means方法,其次有K-Medoids方法,PAM方法,CLARA方法,CLARANS方法等。
[2]基于层次聚类的方法:
基于层次的聚类方法将数据对象在不同的阶段组成不同粒度的簇,在簇的分裂和合并过程中不断改善聚类的效果,以达到逐步求精的目的。
根据层次分解是自底向上还是自顶向下形成,层次的聚类方法可以进一步分为凝聚的(Agglomeration)和分裂的(Divisive)层次聚类。
·凝聚的层次聚类:
这种自底向上的策略首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。
绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。
·分裂的层次聚类:
这种自顶向下的策略与凝聚的层次聚类相反,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇.或者达到了某个终结条件,例如达到了某个希望的簇数目,或者两个最近的簇之间的距离超过了某个阈值。
例如,DIANA方法的处理过程中,所有的对象初始都放在一个簇中。
根据一些原则(如簇中最临近对象的最大欧氏距离),将该簇分裂。
簇的分裂过程反复进行,直到最终每个新的簇只包含一个对象。
四个广泛采用的簇间距离度量方法如下:
·最小距离:
·最大距离:
·平均值的距离:
·平均距离:
这里|p-p,|两个对象p和p,之间的距离,m是簇Ci的平均值,而ni是簇Ci中对象的数目。
[3]基于密度的方法
基于密度的聚类方法是为了发现任意形状的聚类结果而提出的。
这类方法将簇看作是数据空间中被低密度区域分割开的高密度对象区域。
DBSCAN(DensityBasedSpatialClusteringofApplicationswithNoise)就是一个基于密度的聚类算法。
该算法将具有足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。
它定义簇为密度相连的点的最大集合。
基于密度的聚类的基本想法涉及一些新的定义。
·给定对象半径内的区域称为该对象的ε-邻域。
·如果一个对象的ε-邻域至少包含最小数目MinPts个对象,则称该对象为核心对象。
·给定一个对象集合D,如果p是在q的ε-邻域内,而q是一个核心对象,我们说对象p从对象q出发是直接密度可达的。
·如果存在对象链
,
对
是从
关于ε和MinPts直接密度可达的,则对象p是从对象q关于ε和MinPts密度可达的(Density-Reachable)。
·如果对象集合D中存在一个对象O,使得对象p和q是从O关于ε和MinPts密度可达的,那么对象p和q是关于ε和MinPts密度相连的(Density-Connected)。
密度可达是直接密度可达的传递闭包,这种关系是非对称的。
只有核心对象之间是相互密度可达的。
然而,密度相连性是一个对称的关系。
一个基于密度的簇是基于密度可达性的最大的密度相连对象的集合。
不包含在任何簇中的对象被认为是“噪声”。
DBSCAN通过检查数据库中每个点的ε-邻域来寻找聚类。
如果一个点p的ε-邻域包含多于MinPts个点,则创建一个以p作为核心对象的新簇。
然后,DBSCAN反复地寻找从这些核心对象直接密度可达的对象。
这个过程可能涉及一些密度可达簇的合并。
当没有新的点可以被添加到任何簇时,该过程结束。
如果采用空间索引,DBSCAN的计算复杂度是O(nlogn),这里n是数据库中对象的数目。
否则,计算复杂度是O(n2),另外,该算法对用户定义的参数是敏感的。
尽管DBSCAN能根据给定输入参数ε和MinPts对对象进行聚类,但它仍将选择能产生可接受的聚类结果的参数值的责任留给了用户。
事实上,这也是许多其它聚类算法的共性问题。
对于实际中的高维数据集合而言,参数的设置通常是依靠经验,难以确定。
绝大多数算法对参数值是非常敏感的:
设置的细微不同可能导致差别很大的聚类结果。
而且,实际中的高维数据集合经常分布不均,全局密度参数不能刻画其内在的聚类结构。
[4]基于网格的方法
基于网格的聚类方法采用一个多分辨率的网格数据结构。
它将空间量化为有限数目的单元,这些单元形成了网格结构,所有的聚类操作都在网格上进行。
这种方法的主要优点是处理速度快,其处理时间独立于数据对象的数目,仅依赖于量化空间中每一维上的单元数目。
基于网格方法的有代表性的例子包括:
STING,它利用存储在网格单元中的统计信息;WaveCIuster,它用一种小波转换方法来聚类对象;CLIQUE,它是在高维数据空间中基于网格和密度的聚类方法。
STING(StatisticalInformationGrid)是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。
针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构:
高层的每个单元被划分为多个低一层的单元。
关于每个网格单元属性的统计信息(例如平均值、最大值和最小值)被预先计算和存储。
高层单元的统计参数可以很容易地从低层单元的计算得到。
当这些统计信息用于回答查询时,统计参数的使用可以按照自顶向下的基于网格的方法。
首先,在层次结构中选定一层作为查询处理的开始点。
通常,该层包含少量的单元。
对当前层次的每个单元,我们计算置信度区
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 基于 聚类分析 图像 分割 研究 应用