数据挖掘学习方法Word下载.docx
- 文档编号:20174311
- 上传时间:2023-01-17
- 格式:DOCX
- 页数:18
- 大小:34.84KB
数据挖掘学习方法Word下载.docx
《数据挖掘学习方法Word下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘学习方法Word下载.docx(18页珍藏版)》请在冰豆网上搜索。
3)顺序扫描c搜集dt的意外(即由dt无法确定的例子);
4)组合w与已发现的意外,形成新的w;
5)重复2)到4),直到无例外为止。
启发式标准:
只跟本身与其子树有关,采取信息理论用熵来量度。
熵是选择事件时选择自由度的量度,其计算方法为:
p=freq(cj,s)/|s|;
info(s)=-sum(p*log(p));
sum()函数是求j从1到n的和。
gain(x)=info(x)-infox(x);
infox(x)=sum((|ti|/|t|)*info(x);
为保证生成的决策树最小,id3算法在生成子树时,选取使生成的子树的熵(即gain(s))最小的特征来生成子树。
id3算法对数据的要求:
1)所有属性必须为离散量;
2)所有的训练例的所有属性必须有一个明确的值;
3)相同的因素必须得到相同的结论且训练例必须唯一。
1.3c4.5算法
由于id3算法在实际应用中存在一些问题,于是quilan提出了c4.5算法,严格上说c4.5只能是id3的一个改进算法。
c4.5算法继承了id3算法的优点,并在以下几方面对id3算法进行了改进:
1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)在树构造过程中进行剪枝;
3)能够完成对连续属性的离散化处理;
4)能够对不完整数据进行处理。
c4.5算法有如下优点:
产生的分类规则易于理解,准确率较高。
c4.5算法有如下缺点:
在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
此外,c4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
分类决策树算法:
c4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是id3算法。
分类决策树算法是从大量事例中进行提取分类规则的自上而下的决策树。
决策树的各部分是:
根:
学习的事例集;
枝:
分类的判定条件;
叶:
分好的各个类。
1.3.1c4.5对id3算法的改进
1)熵的改进,加上了子树的信息。
split_infox(x)=-sum((|t|/|ti|)*log(|ti|/|t|));
gainratio(x)=gain(x)/split_infox(x);
2)在输入数据上的改进
①因素属性的值可以是连续量,c4.5对其排序并分成不同的集合后按照id3算法当作离散量进行处理,但结论属性的值必须是离散值。
②训练例的因素属性值可以是不确定的,以?
表示,但结论必须是确定的。
3)对已生成的决策树进行裁剪,减小生成树的规模。
2thek-meansalgorithm(k平均算法)
k-meansalgorithm是一个聚类算法,把n个对象根据它们的属性分为k个分割,k&
lt;
n。
它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。
它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。
假设有k个群组si,i=1,2,...,k。
μi是群组si内所有元素xj的重心,或叫中心点。
k平均聚类发明于1956年,该算法最常见的形式是采用被称为劳埃德算法(lloydalgorithm)的迭代式改进探索法。
劳埃德算法首先把输入点分成k个初始化分组,可以是随机的或者使用一些启发式数据。
然后计算每组的中心点,根据中心点的位臵把对象分到离它最近的中心,重新确定分组。
继续重复不断地计算中心并重新分组,直到收敛,即对象不再改变分组(中心点位臵不再改变)。
劳埃德算法和k平均通常是紧密联系的,但是在实际应用中,劳埃德算法是解决k平均问题的启发式法则,对于某些起始点和重心的组合,劳埃德算法可能实际上收敛于错误的结果。
(上面函数中存在的不同的最优解)
虽然存在变异,但是劳埃德算法仍旧保持流行,因为它在实际中收敛非常快。
实际上,观察发现迭代次数远远少于点的数量。
然而最近,davidarthur和sergeivassilvitskii提出存在特定的点集使得k平均算法花费超多项式时间达到收敛。
近似的k平均算法已经被设计用于原始数据子集的计算。
从算法的表现上来说,它并不保证一定得到全局最优解,最终解的质量很大程度上取决于初始化的分组。
由于该算法的速度很快,因此常用的一种方法是多次运行k平均算法,选择最优解。
k平均算法的一个缺点是,分组的数目k是一个输入参数,不合适的k可能返回较差的结果。
另外,算法还假设均方误差是计算群组分散度的最佳参数。
3svm(支持向量机)
支持向量机,英文为supportvectormachine,简称sv机(论文中一般简称svm)。
它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。
支持向量机属于一般化线性分类器。
它们也可以被认为是提克洛夫规范化(tikhonovregularization)方法的一个特例。
这种分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。
因此支持向量机也被称为最大边缘区分类器。
在统计计算中,最大期望(em)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(latentvariable)。
最大期望经常用在机器学习和计算机视觉的数据集聚(dataclustering)领域。
最大期望算法经过两个步骤交替进行计算,第一步是计算期望(e),也就是将隐藏变量像能够观测到的一样包含在内从而计算最大似然的期望值;
另外一步是最大化(m),也就是最大化在e步上找到的最大似然的期望值从而计算参数的最大似然估计。
m步上找到的参数然后用于另外一个e步计算,这个过程不断交替进行。
vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。
其原理也从线性可分说起,然后扩展到线性不可分的情况。
甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机(supportvectormachine,简称svm)。
支持向量机的提出有很深的理论背景。
支持向量机方法是在近年来提出的一种新方法,但是进展很快,已经被广泛应用在各个领域之中。
svm的主要思想可以概括为两点:
(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;
(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个
样本空间的期望风险以某个概率满足一定上界。
在学习这种方法时,首先要弄清楚这种方法考虑问题的特点,这就要从线性可分的最简单情况讨论起,在没有弄懂其原理之前,不要急于学习线性不可分等较复杂的情况,支持向量机在设计时,需要用到条件极值问题的求解,因此需用拉格朗日乘子理论,但对多数人来说,以前学到的或常用的是约束条件为等式表示的方式,但在此要用到以不等式作为必须满足的条件,此时只要了解拉格朗日理论的有关结论就行。
支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。
在分开数据的超平面的两边建有两个互相平行的超平面。
分隔超平面使两个平行超平面的距离最大化。
假定平行超平面间的距离或差距越大,分类器的总误差越小。
一个极好的指南是c.j.cburges的《模式识别支持向量机指南》。
vanderwalt和barnard将支持向量机和其他分类器进行了比较。
有很多个分类器(超平面)可以把数据分开,但是只有一个能够达到最大分割。
我们通常希望分类的过程是一个机器学习的过程。
这些数据点并不需要是中的点,而可以是任意(统计学符号)中或者(计算机科学符号)的点。
我们希望能够把这些点通过一个n-1维的超平面分开,通常这个被称为线性分类器。
有很多分类器都符合这个要求,但是我们还希望找到分类最佳的平面,即使得属于两个不同类的数据点间隔最大的那个面,该面亦称为最大间隔超平面。
如果我们能够找到这个面,那么这个分类器就称为最大间隔分类器。
设样本属于两个类,用该样本训练svm得到的最大间隔超平面。
在超平面上的样本点也称为支持向量。
svm的优势:
由于支持向量机方法是建立在统计学习理论的vc维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(generalizatinability)。
支持向量机方法的几个主要优点是:
?
可以解决小样本情况下的机器学习问题;
可以提高泛化性能;
可以解决高维问题;
可以解决非线性问题;
可以避免神经网络结构选择和局部极小点问题。
4贝叶斯(bayes)分类器
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
目前研究较多的贝叶斯
分类器主要有四种,分别是:
naivebayes、tan、ban和gbn。
贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点间若存在着一条弧,则表示这两结点相对应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的。
网络中任意一个结点x均有一个相应的条件概率表(conditionalprobabilitytable,cpt),用以表示结点x在其父结点取各可能值时的条件概率。
若结点x无父结点,则x的cpt为其先验概率分布。
贝叶斯网络的结构及各结点的cpt定义了网络中各变量的概率分布。
贝叶斯分类器是用于分类的贝叶斯网络。
该网络中应包含类结点c,其中c的取值来自于类集合(c1,c2,...,cm),还包含一组结点x=(x1,x2,...,xn),表示用于分类的特征。
对于贝叶斯网络分类器,若某一待分类的样本d,其分类特征向量为x=(x1,x2,...,xn),则样本d属于类别ci的概率为p(c=ci|x=x)=p(c=ci|x1=x1,x2=x2,...,xn=xn),(i=1,2,...,m)。
而由贝叶斯公式可得:
p(c=ci|x=x)=p(x=x|c=ci)p(c=ci)/p(x=x)其中,p(c=ci)可由领域专家的经验得到,称为先验概率;
而p(x=x|c=ci)和p(x=x)的计算则较困难;
p(c=ci|x=x)称为后验概率。
应用贝叶斯网络分类器进行分类主要分成两阶段。
第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器;
第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。
这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至可以是np完全问题(世界七大数学难题之一),因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。
根据对特征值间不同关联程度的假设,可以得出各种贝叶斯分类器,naivebayes、tan、ban、gbn就是其中较典型、研究较深入的贝叶斯分类器。
4.1朴素贝叶斯(naivebayes)分类器
分类是将一个未知样本分到几个预先已知类的过程。
数据分类问题的解决是一个两步过程:
第一步,建立模型,描述预先的数据集或概念集。
通过分析由属性/特征描述的样本(或实例,对象等)来构造模型。
假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性确定。
为建立模型而被分析的数据元组形成训练数据集,该步也称作有指导的学习。
4.1.1决策树模型和朴素贝叶斯模型的比较
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(decisiontreemodel)和朴素贝叶斯模型(naivebayesianmodel,nbc)。
决策树模型通过构造树来解决分类问题。
首先利用训练数据集来构造一棵决策树,一旦树建立起来,它就可为未知样本产生一个分类。
在分类问题中使用决策树模型有很多的优点,决策树便于使用,而且高效;
根据决策树可以很容易地构造出规则,而规则通常易于解释和理解;
决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小;
决策树模型的另外一大优点就是可以对有许多属性的数据集构造决策树。
决策树模型也有一些缺点,比如处理缺失数据时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关性等。
和决策树模型相比,朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
同时,nbc模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
理论上,nbc模型与其他分类方法相比具有最小的误差率。
但是实际上并非总是如此,这是因为nbc模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给nbc模型的正确分类带来了一定影响。
在属性个数比较多或者属性之间相关性较大时,nbc模型的分类效率比不上决策树模型。
而在属性相关性较小时,nbc模型的性能最为良好。
朴素贝叶斯模型:
vmap=argmax{p(vj|a1,a2...an)}
vj属于v集合,其中j=1,2,…,n,即共有n类;
篇二:
机器学习与数据挖掘复习
机器学习与数据挖掘复习
第一章:
introduction
1.什么是数据挖掘:
数据挖掘时从大量的数据中取出令人感兴趣的知识(令人感兴趣的知识:
有效地、新颖的、潜在有用的和最终可以理解的)。
2.数据挖掘的分类(从一般功能上的分类):
a)描述型数据挖掘(模式):
聚类,summarization,关联规则,序列发现。
b)预测型数据挖掘(值):
分类,回归,时间序列分析,预测。
3.kdd(数据库中的知识发现)的概念:
kdd是一个选择和提取数据的过程,它能自动地发现新的、精确的、有用的模式以及现实世界现象的模型。
数据挖掘是kdd过程的一个主要的组成部分。
4.用数据挖掘解决实际问题的大概步骤:
a)对数据进行kdd过程的处理来获取知识。
b)用知识指导行动。
c)评估得到的结果:
好的话就循环使用,不好的话分析、得到问题然后改进。
5.kdd过程中的角色问题:
6.整个kdd过程:
a)合并多个数据源的数据。
b)对数据进行选择和预处理。
c)进行数据挖掘过程得到模式或者模型。
d)对模型进行解释和评价得到知识。
第二章数据和数据预处理
1.什么是数据:
数据是数据对象和它的属性的集合。
一个属性是一个对象的性质或特性。
属性的集合描述了一个对象。
2.属性的类型:
a)标称(nominal):
它的值仅仅是不同的名字,只是提供足够的信息来区分对象。
例如邮政编码、id、性别。
b)序数:
序数属性的值提供足够的信息确定对象的序。
例如硬度、成绩、街道号码。
c)区间:
对于区间属性,值之间的差是有意义的,即存在测量单位。
例如日历日期、温度。
d)比率:
对于比率变量,差和比率都是有意义的。
例如绝对温度、年龄、质量、长度。
3.用值的个数描述属性:
a)离散的:
离散属性具有有限惑无限可数个值,这样的属性可以是分类的。
b)连续的:
连续属性是取实数值的属性。
4.非对称属性:
对于非对称属性,出现非零属性值才是最重要的。
5.数据集的类型:
a)记录型数据:
每一个数据对象都是有固定数目的属性组成的。
数据矩阵:
如果一个数据集中的所有数据对象都具有相同的数值属性集,则数据对象可以看做是多维空间中的点,其中每个位代表描述对象的一个不同属性。
文档数据:
每个文档看成是一个向量。
事务数据:
每一个事务涉及一个项的集合。
b)图数据:
可以表示数据对象间的关系或者是数据对象本身就是用图形表示。
c)有序数据:
属性在时间或者空间上有关系。
时态数据:
记录型数据的扩展,但是每个记录都有一个时间。
序列数据:
由数据构成的序列,没有时间,但表述了一个时间的先后顺序。
时间序列数据:
每个记录都是一个时间序列。
空间数据:
属性和空间位置有关。
6.噪声和离群点的区别:
噪声是对原始值产生了修改;
离群点是具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值不寻常的属性值。
7.如何处理噪声数据:
a)分箱(binning):
分享方法通过考察数据的近邻来光滑有序数据的值。
b)回归:
可以用一个函数你和数据来光滑数据。
c)聚类:
将数据划分为不同的类,落在类之外的视为离群点。
d)把计算机分析的结果让人检查看是否有问题。
8.数据预处理中的主要任务:
a)数据清洗:
填补缺值、去除噪声、解决数据不一致、解决冗余。
b)数据集成:
将不同数据源的数据放在一个地方。
c)数据转换:
平滑处理、数据聚合、数据泛化、归一化、属性特征构造。
d)数据约减:
减少数据量,但仍需从少量的数据中得到原有或接近原有的结果。
e)数据离散化对给定连续值划分为若干小区间,每个区间用一个值表示。
9.相关分析两类方法:
对于数值属性可以通过计算两属性之间的相关系数。
对于分类数据两属性之间的相关联系可以通过卡方来计算。
10.对数据归一化处理的三大类方法:
a)最小-最大规范化:
b)z-score规范化:
c)小数定标规范化:
11.属性约减的方法:
a)回归:
拟合函数。
b)直方图:
将数据划分为一定的区间,存储时只用存储其平均值。
(等宽度、等深度、
v-optimal:
取最优化分、maxdiff:
根据值间距离来划分)。
将数据聚为不同的类,存储类中最有代表性的数据,例如中心点。
d)抽样:
从数据中抽取一个样本,要能代表原来的数据。
12.数据离散化的方法:
a)数值型:
i.直方图:
自上而下的划分。
ii.聚类的分析。
iii.基于熵的离散化。
iv.
v.卡方分析。
自然划分的方法。
b)分类型数据:
i.模式集。
ii.属性集。
iii.
iv.通过只可以得到层次的关系。
根据不同属性的取值自动生成。
13.计算二进制属性的相似性用smc和jaccard系数(也可以不用于二进制属性,也可用于连续和计数属性),cosine相似性用来测文档和文档之间的距离。
第三章概念学习
1.概念的概念:
a)概念是定义在一个大集合上的事物或对象的子集。
b)概念是定义在一个大集合上的二值函数。
2.概念学习的概念:
a)概念学习就是从数据里提取出此概念的定义。
b)概念学习可看成从给定的数据(输入、输出)中拟合出一个二值函数。
3.概念学习的三种算法:
a)find-s:
找到一个最具体的假设
i.把h中的每个h初始化成最具体的假设。
ii.它对所有否定样本都不处理。
iii.它保证能收敛到一个最具体的假设。
iv.缺点:
找到一个假设,但是并没有表示他是唯一的,有可能有其他假设存在;
不一定最具体的假设就是最好的;
不能适应噪声的问题;
假设不止一个,然而此算法只能找到一个。
b)候选-删除算法:
输出与训练样例一致的所有假设的集合。
(使s更一般、使g更具
体)。
它也不适应噪声问题。
c)
列表后消除算法:
列出所有的版本空间成员,然后把不合适的找出。
他要先将所有的假设找出来,然而这并不都是可以实现的。
第四章决策树
1.决策数学系的概念:
决策树学习是一个简单的逼近方法,学习一个离散型函数。
学习函数被用一个决策树来表示;
同时,决策树能被描述为if-then规则。
2.决策树分类的基本步骤:
a)从数据归纳产生出一棵树。
b)用模型对新数据进行分类。
3.决策树学习过程:
a)生成根节点:
对每一个属性进行评估,得到一个最好的属性作为根。
b)根属性有几个值就产生几个分支,将数据计划成若干部分。
c)重复上述过程。
4.不纯度计算方法:
a)giniindex:
b)entropy:
c)classificationerror:
5.决策树优点:
a)
b)
d)构造速度较快,节约。
分类速度快。
树小时容易解释。
分类精度和别的方法差不多在一些简单的数据集上。
6.如何解决过拟合现象:
a)预裁剪:
在树充分长成前停下来。
停止的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 学习方法