基于遗传算法的K-MEANS聚类挖掘算法的研究毕业论文Word格式.doc
- 文档编号:13076459
- 上传时间:2022-10-04
- 格式:DOC
- 页数:67
- 大小:858.50KB
基于遗传算法的K-MEANS聚类挖掘算法的研究毕业论文Word格式.doc
《基于遗传算法的K-MEANS聚类挖掘算法的研究毕业论文Word格式.doc》由会员分享,可在线阅读,更多相关《基于遗传算法的K-MEANS聚类挖掘算法的研究毕业论文Word格式.doc(67页珍藏版)》请在冰豆网上搜索。
最后,为了测试本文提出的聚类算法的性能,本文用k-means算法和改进的算法进行了三组实验,并对两种算法的聚类结果进行比较,实验结果表明本文算法能够有效地解决聚类问题。
关键词:
数据挖掘聚类分析遗传算法k-means算法改进的遗传k-means算法
RESEARCHOFK-MEANSCLUSTERINGINDATAMININGBASEDONGENETICALGORITHM
ABSTRACT
Dataminingisanewsubjectformedwiththedevelopmentoftheinformationtechnologyandisanewresearchpointintheinformationanddatabasetechnology.Thepurposeofdataminingistodiscoveryhiddenandusefulknowledgefromhugeamountsofdata,whichcansupportthesciencedecision.
Clusteranalysisisoneoftheimportantthemesindatamining.Clusteringisaunsupervisedclassifyingmethod,thegoalofclusteringistopartitiondatasetintosuchclustersthatobjectswithinaclusterhavehighsimilarityincomparisontooneanother,butareverydissimilartoobjectsinotherclusterswithoutanypriorknowledge.Asaclassicalmethodofclusteringanalysis,k-meanshasbeenwidelyusedincommerce,marketanalysis,biology,textclassificationandsoon.Howeverk-meanshastwoseveredefects—sensitivetoinitialdataandeasytogetintoalocaloptimum.Onthiscondition,improvingk-meansisaneffectivemethodtogetbetterclusteringresult.
Firstly,thedissertationdetailedlyintroduceclusteringanalysistechnology,andmostexistingclusteringalgorithmsareclassified,analysistheiradvantagesanddisadvantages.Onthebasis,thedissertationchoosesk-meansasresearchtarget.
Secondly,analyzinganimportantmethod—geneticalgorithmsindatamining.Onthisbasis,anewclusteringmethodofk-meansbasedonimprovedgeneticalgorithmisproposed.Thedissertationdiscussersandanalysesthenewalgorithmsindetailfromcodingmethod,fitnessfunction,selectionoperators,crossoveroperators,mutationoperators,k-meansoperatorsandotheraspects.
Finally,fortestingtheperformanceoftheproposedalgorithms,thedissertationgivesthreesimulationexperiments.Simulationresultsshowthatcomparingwithk-meansmethod,theproposedcangetabetterclusteringresult.
KEYWORDS:
DataminingClusteranalysisGeneticalgorithmk-meansIGKA
目录
第一章绪论 1
1.1课题研究背景与意义 1
1.1.1数据挖掘概述 1
1.1.2数据挖掘中聚类分析 5
1.1.3遗传算法与数据挖掘 5
1.2国内外研究现状 6
1.2.1数据挖掘的研究现状 6
1.2.2聚类分析研究现状 6
1.2.3遗传算法研究现状 6
1.2.4遗传聚类研究现状 7
1.3本课题主要研究内容 8
1.4本文章节安排 9
第二章聚类分析 10
2.1聚类分析的基本概念[30] 10
2.2数据挖掘对聚类算法的要求 10
2.3聚类分析中的数据结构和类型 11
2.3.1聚类分析中的数据结构 11
2.3.2聚类分析中的数据类型 12
2.4聚类分析中的相似度度量方法 15
2.4.1距离 16
2.4.2相似系数 17
2.5聚类分析中的聚类准则函数[34] 17
2.6聚类算法的分类及其典型算法 19
2.6.1基于划分的方法 19
2.6.2基于层次的方法 20
2.6.3基于密度的方法 20
2.6.4基于网格的方法 20
2.6.5基于模型的方法 21
2.6.6模糊聚类 21
2.7聚类分析在数据挖掘中的应用 21
2.8本章小结 22
第三章遗传算法的基本原理 23
3.1遗传算法的历史与发展 23
3.2遗传算法的基本术语[45] 24
3.3遗传算法的特点[46] 24
3.4遗传算法的基本要素 25
3.5遗传算法的描述及流程 27
3.5.1遗传算法的描述[47] 27
3.5.2遗传算法的执行过程 28
3.6遗传算法的应用 29
3.7本章小结 30
第四章一种改进的遗传K-MEANS聚类算法 31
4.1k-means算法的思想与流程 31
4.1.1k-means算法思想[49] 31
4.1.2k-means算法流程 32
4.2k-means算法的特点 33
4.3基于k-means的改进聚类算法 34
4.4聚类分析中的遗传算法 34
4.5改进的遗传k-means算法(IGKA) 35
4.5.1IGKA算法流程 35
4.5.2目标函数 37
4.5.3编码方法 38
4.5.4种群初始化 38
4.5.5适应度函数的设计 39
4.5.6选择操作 39
4.5.7交叉操作 40
4.5.8变异操作 41
4.5.9k-means优化操作(KMO) 42
4.5.10算法终止条件 42
4.6本章小结 42
第五章实验结果与比较分析 43
5.1实验平台 43
5.2实验结果和分析 43
5.2.1实验一 43
5.2.2实验二 45
5.2.3实验三 47
5.2.4结果分析 51
5.3本章小结 52
总结与展望 53
参考文献 55
致谢 58
攻读学位期间发表的学术论文 59
21
第一章绪论
1.1课题研究背景与意义
1.1.1数据挖掘概述
近年来,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,加上使用先进的数据采集工具,人们积累的数据知识越来越多[1]。
人们希望将这些数据转换成有用的信息和知识,以便更好地利用这些数据,用于决策。
目前的数据库系统已经可以高效地实现海量数据的录入、查询、统计等功能,可以忠实地完成作为记录者的任务,但是却无法发现隐藏在这些数据背后的有用信息和知识[2],如关系和规则,更不能根据现有数据预测未来的发展趋势。
由于缺乏挖掘数据背后隐藏的知识的有力手段,从而导致“数据爆炸但知识缺乏”的现象。
面对“被数据淹没,却饥饿于知识”的挑战,数据挖掘应运而生,并得以蓬勃发展,越来越显示出其强大的生命力[3][4][5]。
数据挖掘是一种能够智能地、自动地把数据转换成有用信息和知识的技术[6],它不但可以帮助人们从数据库,特别是数据仓库的相关数据中提取出感兴趣的知识、规律或更高层次的信息,而且也可以帮助人们从不同角度上去分析它们,从而更有效地利用数据。
它不仅可以用于描述过去数据的发展过程,而且还能进一步预测未来的发展趋势。
因此,数据挖掘正在成为一个崭新的、日益受到重视的热点研究领域。
1.数据挖掘的概念
数据挖掘(DataMining,DM)指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程[7]。
这个定义包括以下四个层次的含义:
(1)数据源必须是真实的、大量的、含噪声的;
(2)发现的是用户感兴趣的知识;
(3)发现的知识要可接受、可理解、可运用,最好能够用自然语言来表达发现结果;
(4)并不是要求发现放之四海皆准的知识,是有特定前提和约束条件、面向特定领域的。
2.数据挖掘的过程
数据挖掘是指一个指根据对数据分析建立对数据的特性以及数据之间关系描述的模式的过程。
从工程角度来讲,数据挖掘过程并不是线性的,为了得到好的结果需要经过多次反复地重复挖掘步骤。
目前人们对整个数据挖掘过程并没有给出非常清楚的划分,一般来说主要有以下几个步骤[8],见图1-1。
图1-1数据挖掘的过程
Fig.1-1TheProcessofdatamining
(1)确定业务对象。
明确应用领域,清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。
在这个步骤中,数据挖掘人员必须和领域专家以及最终用户紧密协作,明确实际工作对数据挖掘的要求。
后续的数据准备和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 遗传 算法 MEANS 挖掘 研究 毕业论文