数据挖掘模型-Models-of-DM.ppt
- 文档编号:153224
- 上传时间:2022-10-04
- 格式:PPT
- 页数:178
- 大小:3.81MB
数据挖掘模型-Models-of-DM.ppt
《数据挖掘模型-Models-of-DM.ppt》由会员分享,可在线阅读,更多相关《数据挖掘模型-Models-of-DM.ppt(178页珍藏版)》请在冰豆网上搜索。
1,数据挖掘,2,分类和预测,3,分类,对离散数据的分类称为分类,对数值数据的分类称为预测。
分类要解决的问题是为一个事件或对象归类,即确定一个特定的对象属于哪一类。
分类函数或分类模型(分类器)分类模型是通过那些已知历史数据训练出来的。
这里用于建立模型的数据称为训练集,通常是已经掌握的历史数据。
在训练集中每个对象都赋予一个类别的标记,不同的类别具有不同的标记。
分类就是通过分析训练集中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据对象进行分类。
4,分类规则实例,低风险,If收入¥40,000而且工作时间5年then低风险,5,分类数据,ThedatausedtobuildaclassificationmodelconsistsofAsetofrecords.Eachrecordhasthesamenumberoffields.Onefieldintheserecordcontainsindicatorsofclasseswhichrecordsbelongto.Thisfieldiscalledtargetfield.Otherfieldsarecalledindependentfieldswhichdescribetheindividualobjectsrepresentedbytherecords.,6,决策表实例,7,决策树,arewidelyusedindatamining.weredevelopedinmachinelearningandstatistics.areusedtobuildclassificationandpredictionmodels.arewidelyavailable.,新数据,分类,8,使用决策树进行分类,决策树一个树形的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一个分类决策树生成算法分成两个步骤树的生成开始,数据都在根节点递归的进行数据分片树的修剪:
去掉一些可能是噪音或者异常的数据决策树使用:
对未知数据进行分割按照决策树上采用的分割属性逐层往下,直到叶子节点,9,决策树算法,基本算法(贪心算法)自上而下分而治之的方法开始时所有的实例都在根节点属性都是分类型(如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量(如信息增益)停止分割的条件一个节点上的实例都属于同一个类别;没有属性可以再用于对数据进行分割,10,属性选择的统计度量,信息增益Informationgain(ID3/C4.5)所有属性假设都是分类型字段经过修改之后可以适用于数值型字段基尼指数Giniindex(IBMIntelligentMiner)能够适用于分类和数值字段其他,11,信息增益度度量(ID3/C4.5),任意样本分类的期望信息:
I(s1,s2,sm)=Pilog2(pi)(i=1.m)其中,数据集为S,m为S的分类数目,PiCi为某分类标号,Pi为任意样本属于Ci的概率,si为分类Ci上的样本数由A划分为子集的熵:
E(A)=j(|s1j|+|smj|)/|s|*I(s1j,smj)A为属性,具有V个不同的取值信息增益:
Gain(A)=I(s1,s2,sm)E(A),12,训练集,13,使用信息增益进行属性选择,ClassP:
buys_computer=“yes”ClassN:
buys_computer=“no”I(p,n)=I(9,5)=0.940Computetheentropyforage:
HenceSimilarly,0.694,14,分枝,15,决策树,16,决策树在犯罪分析中的应用,17,犯罪潜在风险决策树,18,19,典型的银行卡顾客分类树,20,基尼指数(GiniIndex),集合T包含n个类别的记录,那么其Gini指数就是pj类别j出现的频率如果集合T分成两部分N1andN2。
那么这个分割的Gini就是提供最小Ginisplit就被选择作为分割的标准.,21,过拟合问题,剪枝,避免过拟合决策树泛化,22,PruningTree,目的:
消除决策树的过拟合(OverFitting)问题实质:
消除训练集中的异常和噪声两种方法:
先剪枝法(Public算法)后剪枝法(Sprint算法),23,误分类率,24,决策树算法的可伸缩性,ID3、C4.5等算法对规模较小,可以一次放入内存的训练样本集很有效,但实际上数以百万计样本的超大型训练集是常见的,大多数情况下无法把训练样本集全部放入内存,导致这些算法的有效性降低。
因此需要增加可伸缩的方法以节省空间。
IBM的研究人员运用一些特殊数据结构,例如属性表和类表,在1996年提出了一种快速的、可伸缩的SLIQ算法,可以处理离散属性和连续属性。
SLIQ算法首先把训练样本集划分成若干子集,使每一个子样本集都能放入内存,然后对每个子样本集分别构造一棵决策树,再把这些决策树综合,得到最终决策树。
SLIQ算法可以处理大规模的训练样本集,具有较好的伸缩性。
与传统决策树算法相比,减少了运行时间。
SLIQ算法在执行过程中需要随时修改类表,类表常驻内存,而类表的大小会随着训练样本集的增大而增大,因此SLIQ算法对内存容量有一定的要求。
25,常用的决策树算法,ID3,C4.5,C5.0CARTCHAID,26,CART算法,CART算法采用一种二分递归分割的方法,每次都把当前样本集分割为两个子样本集,使生成的决策树的非叶结点都有两个分枝,因此CART算法生成的决策树是结构简单的二叉树。
这种算法选择分枝属性A的判别函数如下:
式中pL和pR分别是属性A的左右分枝的样本数占总体的比例,p(iL)和p(iR)分别表示属性A的左右分枝中样本子集属于类别i的比例,m为分类类别数。
使(A)最大的属性A作为分枝的属性,因为这需要满足下面的条件:
左右分枝样本的数量差不多。
左右分枝的样本集尽量不要属于同一类。
此外,CART算法也使用后剪枝。
在决策树生成过程中,考虑到多展开一层就会有更多信息被发现,CART算法运行到不能再长出分枝为止,从而得到一棵最大的决策树。
然后CART对生成的决策树进行剪枝。
剪枝算法使用独立于训练样本集的测试样本集对子树的分类错误进行计算,找出分类错误最小的子树作为最终的分类模型。
27,神经网络,28,神经网络的组成,神经网络是由许多人工神经元通过一定的互联方式组成。
这些神经元的结构比较简单,但它们复杂的连接(拓扑结构)会形成功能很强的网络。
如下图所示,神经元一般有多个输入x1,xn,这些输入通过组合函数加权求和,然后再利用神经元的激活函数f产生输出y。
神经元之间的连接强度用权值w表示。
神经元的输入和输出之间的关系用函数表示:
其中是神经元的偏置,在网络初始化时赋予小的随机数。
激活函数(activationfunction)常用Sigmoid函数(还有线性函数和双曲正切函数等)。
29,典型的多层前馈神经网络,不同层次神经元之间的连接强度用相应的权wij、wjk表示,这些权在网络初始化时被赋予很小的随机数,例如-0.5到0.5或-1.0到1.0之间的值。
整个信息的处理是单向的,网络没有环形结构。
输入xi直接提供给输入层的神经元,对于输入层的神经元i,它的输出Oi等于输入Ii:
Oi=Ii。
这些神经元的加权和同时提供隐层的神经元,隐层神经元的输出构成输出层神经元的输入,输出层的神经元给定样本的分类或预测。
隐层神经元j的输入是其输入的线性组合:
用激活函数Sigmoid函数作用于隐层的神经元j,j的输出Oj用下式计算:
输出层神经元的输入和输出与隐层神经元的情况类似。
隐层和输出层的非线性激活关系使神经网络可以近似任何函数。
30,BP神经网络的训练
(1),分析业务问题。
选择训练样本集,对其输入值和输出值进行预处理。
依靠经验确定网络的拓扑结构,并对神经元的权值和偏置进行初始化。
利用反向传播等算法训练网络,不断调整网络权值减少预测误差,获得网络的最佳权。
用测试集检验网络的分类或预测质量。
预测未知样本的分类。
BP神经网络是一种监督学习方法,使用反向传播的学习算法:
通过迭代处理一组训练样本,把每个样本的网络输出值Tk与实际值Ok比较,然后按一定的方式调整网络权和神经元的偏置,使得实际值和网络输出值之间的误差平方和最小:
式中sample为样本集。
这种网络权的调整“后向”进行,即由输出层,经由隐层,多次重复训练,直到满足误差要求。
31,BP神经网络的训练
(2),为使ERR最小,可以利用最优化理论的梯度下降法更新网络权值。
通常有两种方法更新权和偏置:
一种是每训练一个样本就更新权和偏置,另一种是在处理训练集中的所有样本之后再更新权和偏置。
这实际上是以wij和wjk为变量的多元函数ERR的最小化问题。
利用梯度下降法,权的更新方式如下:
式中,是学习率,,这个参数可避免陷入局部最小。
学习率太小,会使网络学习速度慢,而太大的学习率可能使学习过程振荡。
通常在网络训练的初期学习率设置大一些,随着训练误差的减少,学习率可逐渐变小。
32,神经网络的应用
(1),在财务方面,神经网络可用来协助投资公司预测普通股的表现、公司的债券等级或公司破产的可能性。
VISA国际公司用神经网络来帮助侦测信用卡欺诈,它监控所有VISA交易并且注意持卡人消费形态的改变。
33,神经网络的应用
(2),股票拐点趋势预测:
利用历史价格数据预测中短期(从2到10或15天)的价格走势。
34,贝叶斯分类器,35,贝叶斯定理,假设X和Y在分类中可以分别表示样本的属性集和类别。
P(X,Y)表示它们的联合概率,p(X|Y)和p(Y|X)表示条件概率,其中是后验概率,而称为Y的先验概率。
X和Y的联合概率和条件概率满足下列关系:
变换后得到,36,朴素贝叶斯分类器,对于属性集,如果之间相互独立,即,有朴素贝叶斯分类器:
其中是常数,先验概率可以通过训练集中每类样本所占的比例估计。
给定,如果要估计测试样本X的分类,由朴素贝叶斯分类器得到y类的后验概率:
只要找出使最大的类别y即可。
37,贝叶斯分类器在供电电容生产中的应用
(1),假设某段时期内某电脑主板制造商所用的供电电容是由三家电容生产厂提供的。
对制造商在这段时期内的业务数据进行抽样,得到下表。
因为三家电容工厂的供电电容在电脑主板生产商的仓库中是均匀混合的,并无明显的区别标志。
现在电脑主板生产商想通过对数据进行分析,解决下面两个问题:
(1)随机地从仓库中取一只供电电容是次品的概率。
(2)从仓库中随机地取一只供电电容,若已知取到的是一只次品,想分析此次品来自哪家工厂的可能性最大。
38,贝叶斯分类器在供电电容生产中的应用
(2),39,贝叶斯分类器在垃圾邮件处理中的应用,贝叶斯分类器是对邮件的内容进行分析,不仅考虑关键词在垃圾邮件中出现的概率,也考虑关键词在正常邮件中的概率。
当一封新的邮件到达时,这封邮件的内容将被分解成字串。
依据数据库中这些词的概率通过公式进行计算,用贝叶斯定理计算出的垃圾邮件可能性高于某个阈值时就判定这封邮件是垃圾邮件。
贝叶斯过滤防范有一定的智能性,通过一定的学习方法可以对数据库词的概率进行更新,可以适应垃圾邮件的变化情况。
40,K-最近邻分类遗传算法粗糙集理论模糊理论,其他分类方法,41,聚类Clustering,42,聚类,-DefinitionofclusteringClusteringisaprocessofpartitioningasetofobjectssuchascustomersintogroupsinwhichtheobjectsinthesamegrouparesimilartoeachotherandtheobjectsindifferentgroups
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 模型 Models of DM
![提示](https://static.bdocx.com/images/bang_tan.gif)