神经网络在数据挖掘中的应用.docx
- 文档编号:25531663
- 上传时间:2023-06-09
- 格式:DOCX
- 页数:9
- 大小:68.58KB
神经网络在数据挖掘中的应用.docx
《神经网络在数据挖掘中的应用.docx》由会员分享,可在线阅读,更多相关《神经网络在数据挖掘中的应用.docx(9页珍藏版)》请在冰豆网上搜索。
神经网络在数据挖掘中的应用
神经网络在数据挖掘中的应用
神经网络在数据挖掘中的应用
摘要:
给出了数据挖掘方法的研究现状,通过分析当前一些数据挖掘方法的局限性,介绍一种基于关系数据库的数据挖掘方法——神经网络方法,目前,在数据挖掘中最常用的神经网络是BP网络。
在本文最后,也提出了神经网络方法在数据挖掘中存在的一些问题.
关键词:
BP算法;神经网络;数据挖掘
1.引言
在“数据爆炸但知识贫乏”的网络时代,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。
数据挖掘技术应运而生。
并显示出强大的生命力。
和传统的数据分析不同的是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
所得到的信息具有先未知,有效性和实用性三个特征。
它是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。
数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来。
数据挖掘在自身发展的过程中,吸收了数理统计、数据库和人工智能中的大量技术。
作为近年来来一门处理数据的新兴技术,数据挖掘的目标主要是为了帮助决策者寻找数据间潜在的关联(Relation),特征(Pattern)、趋势(Trend)等,发现被忽略的要素,对预测未来和决策行为十分有用。
数据挖掘技术在商业方面应用较早,目前已经成为电子商务中的关键技术。
并且由于数据挖掘在开发信息资源方面的优越性,已逐步推广到保险、医疗、制造业和电信等各个行业的应用。
数据挖掘(DataMining)是数据库中知识发现的核心,形成了一种全新的应用领域。
数据挖掘是从大量的、有噪声的、随机的数据中,识别有效的、新颖的、有潜在应用价值及完全可理解模式的非凡过程。
从而对科学研究、商业决策和企业管理提供帮助。
数据挖掘是一个高级的处理过程,它从数据集中识别出以模式来表示的知识。
它的核心技术是人工智能、机器学习、统计等,但一个DM系统不是多项技术的简单组合,而是一个完整的整体,它还需要其它辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表述这一系列的高级处理过程。
所谓高级处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋式上升过程。
最后将分析结果呈现在用户面前。
根据功能,整个DM系统可以大致分为三级结构。
神经网络具有自适应和学习功能,网络不断检验预测结果与实际情况是否相符。
把与实际情况不符合的输入输出数据对作为新的样本,神经网络对新样本进行动态学习并动态改变网络结构和参数,这样使网络适应环境或预测对象本身结构和参数的变化,从而使预测网络模型有更强的适应性,从而得到更符合实际情况的知识和规则,辅助决策者进行更好地决策。
而在ANN的实现过程中,又往往需要大量的数据来产生充足的训练和测试样本模式集,以便有效地训练和评估ANN的性能,这一点正好是建立在数据仓库和大型数据库上的数据挖掘工具所能提供的。
由于ANN和DM两者的优势互补,将神经网络用于数据挖掘具有现实意义和实用价值。
神经网络是模拟人脑内部结构,在模拟推理、自动学习等方面接近人脑的自组织和并行处理的数学模型。
其优点之一是,不依赖于对象,通过学习将输入、输出以权值的方式编码,把它们联系起来。
神经网络在数据挖掘中的优势是:
噪声数据的强承受能力,对数据分类的高准确性,以及可用各种算法进行规则提取。
因此,常常借助神经网络来进行数据挖掘。
2.数据挖掘
数据挖掘(DataMining).又称数据库中的知识发现(KnowledgeDiscoveryinDatabase.KDD).是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式.它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。
数据挖掘是进行数据查询.它能够找出过去数据之间的潜在联系.从而促进信息的传递。
数据挖掘工具能够对将来的趋势和行为进行预测.从而很好地支持人们的决策。
域的研究与交流提供了广阔的舞台。
由于数据挖掘可以为企业构筑竞争优势,为社会带来巨大的经济效益,一些国际知名公司也纷纷加入数据挖掘的行列,研究开发相关的软件和工具。
美国的
IBM公司于1996年研制了智能挖掘机,用来提供数据挖掘解决方案;SPSS股份公司开发了基于决策树的数据挖掘软件——一sPsScHAID;思维机器公司在1997年开发了Darwin这一数据挖掘套件,还有Oracle公司、SAS公司和Mapinfo公司等都开发了相关的产品。
此外,在Internet上还有不少KDD电子出版物,其中以半月刊KnowledgeDiscoveryNuggets最为权威,另一份在线周刊为Ds(决策支持),1997年开始出版。
自由论坛DMEmailClub可以通过电子邮件讨论数据挖掘和知识发现的热点问题。
数据挖掘是数据库和信息决策领域的最前沿的研究方向之一,已引起了国内外学术界的广泛关注。
在我国已经开始进行数据挖掘技术的研究,但还没有看到数据挖掘技术在我国成功应用的大型案例。
数据挖掘的分类
数据挖掘涉及的学科领域和方法很多,因此分类的方法也有多种。
按挖掘对象分:
有关数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库和万维网(WEB)等。
按挖掘方法分:
粗略分为机器学习方法、统计学方法、神经网络方法和数据库方法等。
机器学习可细分为归纳分析(决策树和规则归纳等)、基于范例学习、遗传算法等。
统计方法可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别和非参数判别等)、聚类分析(系统聚类和动态聚类等)、探索性分析(主成分分析法和相关分析法)等;神经网络可细分为前馈式神经网络(BP算法)、自组织神经网络(自组织特征映射、竞争学习等)等。
按挖掘任务分:
可分为关联规则发现、分类、聚类、时间序列预测模型发现和序贯模式发现等。
数据挖掘的技术方法
(1)分析方法
数据挖掘中大量采用统计分析方法,如描述统计、概率论、回归分析、时间序列分析、多元分析等。
回归分析是用于了解自变量和因变量之间的关系,并用这些关系来进行分析和预测。
时间序列分析,即利用时间序列模型进行分析。
多元分析是对多维随机变量进行分析的技术,其主要有主成分分析、因子分析、判别分析、聚类分析及典型相关分析等。
(2)决策树
决策树主要是基于数据的属性值进行归纳分类,常用于分类的层次方法有“If—Then”规则。
决策树方法的最大优点就是可理解性,比较直观它与神经网络最大的区别是,决策树可以解释如何得出结果的决策过程。
其缺点是处理复杂性的数据时,分支数非常多,管理起来难度很大。
同时,还存在数据的缺值处理问题。
其算法有ID3、C4.5、CART和CHAID等,目前出现的两种新算法SLIQ和SPRINT,可以由非常大的训练集进行决策树归纳,可以处理分类属性和连续性属性。
(3)神经网络
一种模仿人脑思考结构的数据分析模式,由输入变量或数值中自我学习并根据学习经验所得的知识不断调整参数,以期得到资料的模式。
是建立在自学习的数学模型基础之上,它可以对大量复杂的数据进行分析,并能完成对人脑或计算机来说极为复杂的模式抽取及趋势分析。
其实神经网络的处理过程主要是通过网络的学习功能找到一个恰当的连接加权值来得到最佳结果。
比较典型的学习方法是回溯法。
通过将输出结果同一些已知值进行一系列比较,加权值不断调整,得到一个新的输出值,再经过不断的学习过程,最后该神经网络得到一个稳定的结果。
3.神经网络
人工神经网络(ANN)是由大量并行分布式处理单元组成的简单处理单元.它有通过调整连接强度而从经验知识进行学习的能力并可将这些知识进行运算.是模拟人脑的一种技术系统。
神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神经庀和神经网络的特点,通过简化、归纳,提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络本身的结构来表达输入和输出的关联知识。
人工神经网络是由大量简单的神经元按某种方式连接形成的智能仿生网络,它以简单非线性神经元作为处理单元,通过广泛连接构成大规模分布式并行处理非线性动力学系统方式,它不依赖于精确数学模型,而显示出自适应!
自学习功能。
1943年,法国心理学家W.S.McCuloch和W.Pitts在分析综合神经元基本特征的基础上提出了第一个神经元数学模型,开创了人类自然科学技术史上的一门新兴科学ANN的研究。
从1943年到现在,神经网络已经发展成为
一门多学科领域的边缘交叉学科。
1986年,Rumelhart和Hinton提出了误差后向传播神经网络BP(ErrorBackPropagationNeuralNet.work)。
BP神经网络是由输入层节点、隐含层节点和输出层节点组成。
对于输入的信号,是由对应的每个训练样本度量的属性组成的,每个属性分别输入到输入层的各个单元中;这些单元加权输出到隐含层的各个“类神经元”中;该隐含层的加权输出可以输入到另一个隐含层,如此下去;最后一个隐含层的加权输出作为构成输出层的单元的输入。
输出层发布给定样本的网络预测。
误差后向传播是通过迭代处理一组训练样本,将每个样本的网络预测与实际知道的类标号比较,进行学习,得出误差信号。
将误差信号进行反馈,对于每个训练样本,修改权值,使得网络预测和实际类之间的均方误差最小。
这种修改是“后向”进行的,即由输出层,经由每个隐含层,到第一隐含层。
BP神经网络对应着一定的输入和输出,由事物的属性转换成相应的数据作为输入数据,输出数据则对应着相应的事物主题,隐含的神经网络决定着分类规则。
4.神经网络在数据挖掘中的应用
起初.神经网络在数据挖掘中的应用未被看好,其主要原因是神经网络具有结构复杂、可解释性差、训练时间长等缺陷。
但其对噪声数据的高承受能力和低错误率的优点,以及各种网络训练算法的陆续提出与优化,尤其是各种网络剪枝算法和规则提取算法的不断提出与完善,使得神经网络在数据挖掘中的应用越来越为广大使用者所青睐。
神经网络方法
神经网络方法用于分类、聚类、特征挖掘、预测和模式识别。
神经网络方法模仿动物的脑神经元结构,以M—P模型和Hebb学习规则为基础。
在本质上是一个分布式矩阵结构,通过对训练数据的挖掘,逐步计算(包括反复迭代或累加计算)神经网络连接的权值。
神经网络模型大致可分为以下三种:
(1)前馈式网络:
以感知机、反向传播模型和函数型网络为代表,主要用于预测和模式识别等领域;
(2)反馈式网络:
以Hopfield(人名)离散模型和连续模型为代表,主要用于联想记忆和优化计算;
(3)自组织网络:
以自适应共振理论:
(AdaptiveResonanceTheory,ART)模型和Kohonen(人名)模型为代表,主要用于聚类分析。
4.2BP算法
目前,提出的神经网络模型不下30种.其中反向传递网(BP网)是当前应用最为广泛的一种网络。
BP网络不仅有输入层节点,输出层节点.而且有隐含层节点(可以是一层或多层)。
对于输入信号,要先前向传播到隐节点,经过作用函数后,再把隐节点的输出信息传播到输出节点,最后输出结果。
BP算法的学习过程由正向传播和反向传播组成。
若在输出层得不到预期的输出,将误差信号沿原来的连接通路返回.通过修改各层神经元的权值,使误差信号最小。
BP分类的过程可以分为训练和分类两个阶段.具体过程如下:
(1)根据网络要求对输入进行预处理;
(2)采用BP网络对已预处理的输入进行学习;
(3)用训练好的BP网络对待识样本进行模式分类。
BP网络可以对应一定的输入输出,输入模式(输入数据)类似于事物的特性.输出模式类似于事物的主题.隐含的神经网络决定着分类规则。
BP网络分类由学习和分类两个模块组成,BP网络的学习将需要一定的时间.待网络训练完毕。
则能较快地完成分类工作。
5.结束语
虽然神经网络方法用于数据挖掘时,能够处理多变量和非线性数据,用户参与少,挖掘层次深,但仍存在如下一些问题:
1)数据质量.由于许多数据是动态的、有冗余或不完整,致使产生的规则存在不真实和异常等问题。
2)非数值型数据的处理.合理量化此类数据往往凭人们主观经验而定,这将影响挖掘结果.
3)学习样本的大小.对于数据量较小的数据库,可能出现错误的结果,这时就可把这些数据作为新样本补充到学习样本中去。
4)激励函数的选取.激励函数是对多个输人进行处理产生输出的功能模块,它将关系到结果是否有价值和真实.对于数据库中模糊知识的发现,往往先对输出状态进行编码,采用符号函数作为激励函数。
5)神经网络的训练速度问题.构造神经网络时要求对其训练许多遍,这意味着获得精确的神经网络需要花费许多时间。
参考文献
[1]张尧庭,谢邦昌,朱世武.数据采掘入门及应用[M].北京:
中国统计出版社,2001.
[2]黄解军,潘和平,万幼川.数据挖掘技术的应用研究[J].计算机工程与应用,2003,2
[3]夏幼明,解敏,周雯.数据挖掘方法分析与评价[J].云南师范大学学报,2003,3.
[4]林筑英,林建勤.数据挖掘技术及其所面临的问题[J].贵州师范大学学报,2003,8.
[5]闪四清,陈茵,程雁.数据挖掘[M].北京:
清华大学出版社,2003.
[6]党建武.神经网络技术及应用[M].北京:
中国铁道出版社,1999.
[7]胡守仁.神经网络应用技术[M].北京:
国防科技大学出版社,1998.
[8]陈京民.数据仓库与数据挖掘[M].北京:
电子工业出版社,2002.
[9]刘同明等著.数据挖掘技术及其应用[M].国防工业出版社.2001—09
[10]陈守余等著.人工神经网络模拟实现与应用[M].中国地质大学出版社,
2000—09
[11].陈京民等著数据仓库与数据挖掘技术[M].电子工业出版社,2002—08
[12]宋擒豹等.神经网络数据挖掘方法中的数据准备问题⋯.计算机工程
与应用,2000;36(12):
102~104
[13]HLuSetiono,HLiu.EffectiveDataMiningUsingNeuralNetwork[J],
IEEETransactionsonKnowledgeandDataEngineering,1996:
8(6):
957~961
[14]GTowell,JWShavlik.Theextractionofrefinedrulesfromknowledge—based
neuralnetworks[J].MachineLearning,1993;13:
71—1O1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 神经网络 数据 挖掘 中的 应用