数据挖掘CHAPTER3数据预处理.docx
- 文档编号:5701531
- 上传时间:2022-12-31
- 格式:DOCX
- 页数:28
- 大小:207.10KB
数据挖掘CHAPTER3数据预处理.docx
《数据挖掘CHAPTER3数据预处理.docx》由会员分享,可在线阅读,更多相关《数据挖掘CHAPTER3数据预处理.docx(28页珍藏版)》请在冰豆网上搜索。
数据挖掘CHAPTER3数据预处理
第三章数据预处理
当今现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰,因为数据库太大,常常多达数千兆,甚至更多。
“如何预处理数据,提高数据质量,从而提高挖掘结果的质量?
”你可能会问。
“怎样预处理数据,使得挖掘过程更加有效、更加容易?
”
有大量数据预处理技术。
数据清理可以去掉数据中的噪音,纠正不一致。
数据集成将数据由多个源合并成一致的数据存储,如数据仓库或数据方。
数据变换(如规范化)也可以使用。
例如,规范化可以改进涉及距离度量的挖掘算法的精度和有效性。
数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。
这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。
本章,你将学习数据预处理的方法。
这些方法包括:
数据清理、数据集成和转换、数据归约。
本章还讨论数据离散化和概念分层,它们是数据归约的一种替换形式。
概念分层可以进一步用于多抽象层挖掘。
你将学习如何由给定的数据自动地产生概念分层。
3.1为什么要预处理数据?
想象你是AllElectronics的经理,负责分析涉及你部门的公司数据。
你立即着手进行这项工作。
你仔细地研究和审查公司的数据库或数据仓库,找出应当包含在你的分析中的属性或维,如item,price和units_sold。
啊!
你注意到,许多元组在一些属性上没有值。
对于你的分析,你希望知道每种销售商品是否通过广告降价销售,但你又发现这些信息根本未记录。
此外,你的数据库系统用户已经报告一些错误、不寻常的值和某些事务记录中的不一致性。
换言之,你希望使用数据挖掘技术分析的数据是不完整的(有些感兴趣的属性缺少属性值,或仅包含聚集数据),含噪音的(包含错误,或存在偏离期望的局外者),并且是不一致的(例如,用于商品分类的部门编码存在差异)。
欢迎来到现实世界!
存在不完整的、含噪音的和不一致的数据是大型的、现实世界数据库或数据仓库的共同特点。
不完整数据的出现可能有多种原因。
有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可用的。
其它数据没有包含在内,可能只是因为输入时认为是不重要的。
相关数据没有记录是由于理解错误,或者因为设备故障。
此外,记录历史或修改的数据可能被忽略。
与其它数据不一致的数据可以删除。
遗漏的数据,特别是某些属性上缺少值的元组可能需要推导出来。
数据含噪音(具有不正确的属性值)可能有多种原因。
收集数据的设备可能出故障;人的或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出现。
这些可能是由于技术的限制,如用于数据传输同步的缓冲区大小的限制。
不正确的数据也可能是由命名或所用的数据代码不一致而导致的。
重复元组也需要数据清理。
数据清理例程通过填写遗漏的值,平滑噪音数据,识别、删除局外者,并解决不一致来“清理”数据。
脏数据造成挖掘过程陷入困惑,导致不可靠的输出。
尽管大部分挖掘例程都有一些过程,处理不完整或噪音数据,但它们并非总是强壮的。
相反,它们更致力于避免数据过分适合所建的模型。
这样,一个有用的预处理步骤是使用某些清理例程清理你的数据。
3.2节讨论清理数据的方法。
回到你在AllElectronics的任务,假定你想在你的分析中包含来自多个数据源的数据。
这涉及集成多个数据库、数据方或文件,即数据集成。
代表同一概念的属性在不同的数据库中可能具有不同的名字,这又导致不一致性和冗余。
例如,关于顾客标识符的属性在一种数据存储中为customer_id,而在另一种为cust_id。
命名的不一致还可能出现在属性值中。
例如,同名的人可能在一个数据库中登记为Bill,在第二个数据库中登记为William,而在第三个数据库中登记为“B”。
此外,你可能会觉察到,有些属性可能是由其它属性导出的(例如,年收入)。
含大量冗余数据可能降低知识发现过程的性能或使之陷入困惑。
显然,除数据清理之外,必须采取步骤,避免数据集成时的冗余。
通常,在为数据仓库准备数据时,数据清理和集成将作为预处理步骤进行。
还可以再次进行数据清理,检测和移去可能由集成导致的冗余。
回到你的数据,如果你决定要使用诸如神经网络、最临近分类或聚类这样的基于距离的挖掘算法进行你的分析。
如果要分析的数据已规格化,即按比例映射到一个特定的区间[0.0,1.0],这种方法能得到较好的结果。
例如,你的顾客数据包含年龄和年薪属性。
年薪属性的取值范围可能比年龄更大。
这样,如果属性未规格化,在年薪上距离度量所取的权重一般要超过在年龄度量上所取的权重。
此外,对于你的分析,得到每个地区的销售额这样的聚集信息可能有用的。
这种信息不在你的数据仓库的任何预计算的数据方中。
你很快意识到,数据变换操作,如规格化和聚集,是导向挖掘过程成功的预处理过程。
数据集成和数据变换将在3.3节讨论。
随着你进一步考虑数据,你想知道“我所选择用于数据分析的数据集太大了——它肯定降低挖掘过程的速度。
有没有办法使我能够‘压缩’我的数据集,而又不损害数据挖掘的结果?
”数据归约得到数据集的压缩表示,它小得多,但能够产生同样的(或几乎同样的)分析结果。
有许多数据归约策略,包括数据聚集(例如,建立数据方)、维归约(例如,通过相关分析,去掉不相关的属性)、数据压缩(例如,使用诸如最短编码或小波等编码方案)和数字归约(例如,使用聚类或参数模型等较短的表示“替换”数据)。
泛化也可以“归约”数据。
泛化用较高层的概念替换较低层的概念;例如,用地区或省/州替换城市。
概念分层将概念组织在不同的抽象层。
数据归约是3.4节的主题。
由于概念分层对于多抽象层上的数据挖掘是非常有用的,我们另用一节来讨论这种重要数据结构的产生。
3.5节讨论概念分层的产生,通过数据离散化进行数据归约。
图3.1总结了这里讨论的数据预处理步骤。
注意,上面的分类不是互斥的。
例如,冗余数据的删除既是数据清理,也是数据归约。
图3.1数据预处理的形式
概言之,现实世界的数据一般是脏的、不完整的和不一致的。
数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。
由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。
检测数据异常、尽早地调整数据,并归约待分析的数据,将在决策制定时得到高回报。
3.2数据清理
现实世界的数据一般是脏的、不完整的和不一致的。
数据清理例程试图填充遗漏的值,识别局外者、消除噪音,并纠正数据中的不一致。
本节,我们将研究数据清理的基本方法。
3.2.1遗漏值
想象你要分析AllElectronics的销售和顾客数据。
你注意到许多元组的一些属性,如顾客的收入,没有记录值。
你怎样才能为该属性填上遗漏的值?
让我们看看下面的方法,
1.忽略元组:
当类标号缺少时通常这样做(假定挖掘任务涉及分类或描述)。
除非元组有多个属性缺少值,否则该方法不是很有效。
当每个属性缺少值的百分比很高时,它的性能非常差。
2.人工填写遗漏值:
一般地说,该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。
3.使用一个全局常量填充遗漏值:
将遗漏的属性值用同一个常数(如“Unknown”或–)替换。
如果遗漏值都用“Unknown”替换,挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“Unknown”。
因此,尽管该方法简单,我们并不推荐它。
4.使用属性的平均值填充遗漏值:
例如,假定AllElectronics顾客的平均收入为$28,000,则使用该值替换income中的遗漏值。
5.使用与给定元组属同一类的所有样本的平均值:
例如,如果将顾客按credit_risk分类,则用具有相同信用度的顾客的平均收入替换income中的遗漏值。
6.使用最可能的值填充遗漏值:
可以用回归、使用贝叶斯形式化方法或判定树归纳等基于推导的工具确定。
例如,利用你的数据集中其他顾客的属性,你可以构造一棵判定树,来预测income的遗漏值。
判定树将在第7章详细讨论。
方法3到6使数据倾斜,填入的值可能不正确。
然而,方法6是最常用的方法。
与其它方法相比,它使用现存数据的最多信息来推测遗漏值。
在估计income的遗漏值时,通过考虑其它属性的值,有更大的机会保持income和其它属性之间的联系。
3.2.2噪音数据
“什么是噪音?
”噪音是测量变量的随机错误或偏差。
给定一个数值属性,例如price,我们怎样才能平滑数据,去掉噪音?
让我们看看下面的数据平滑技术。
1.分箱:
分箱方法通过考察“邻居”(即,周围的值)来平滑存储数据的值。
存储的值被分布到一些“桶”或箱中。
由于分箱方法导致值相邻,因此它进行局部平滑。
图3.2图示了一些分箱技术。
在该例中,price数据首先被划分并存入等深的箱中(深度3)。
对于按平均值平滑,箱中每一个值被箱中的平均值替换。
例如,箱1中的值4,8和15的平均值是9;这样,该箱中的每一个值被替换为9。
类似地,可以使用按中值平滑。
此时,箱中的每一个值被箱中的中值替换。
对于按边界平滑,箱中的最大和最小值同样被视为边界。
箱中的每一个值被最近的边界值替换。
一般来说,宽度越大,平滑效果越大。
箱也可以是等宽的,每个箱值的区间范围是个常量。
分箱也可以作为一种离散化技术使用,将在3.5节和第6章进一步讨论。
price的排序后数据(元):
4,8,15,21,21,24,25,28,34
划分为(等深的)箱:
箱1:
4,8,15
箱2:
21,21,24
箱3:
25,28,34
用平均值平滑:
箱1:
9,9,9
箱2:
22,22,22
箱3:
29,29,29
用边界平滑:
箱1:
4,4,15
箱2:
21,21,24
箱3:
25,25,34
图3.2数据平滑的分箱方法
2.聚类:
局外者可以被聚类检测。
聚类将类似的值组织成群或“聚类”。
直观地,落在聚类集合之外的值被视为局外者(图3.3)。
第9章将研究聚类。
图3.3局外者可以被聚类检测
3.计算机和人工检查结合:
可以通过计算机和人工检查结合的办法来识别局外者。
例如,在一种应用中,使用信息理论度量,帮助识别手写体字符数据库中的局外者。
度量值反映被判断的字符与已知的符号相比的“差异”程度。
局外者模式可能是提供信息的(例如,识别有用的数据例外,如字符“0”或“7”的不同版本)或者是“垃圾”(例如,错误的字符)。
其差异程度大于某个阈值的模式输出到一个表中。
人可以审查表中的模式,识别真正的垃圾。
这比人工地搜索整个数据库快得多。
在其后的数据挖掘应用时,垃圾模式将由数据库中清除掉。
4.回归:
可以通过让数据适合一个函数(如回归函数)来平滑数据。
线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。
多线性回归是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面。
使用回归,找出适合数据的数学方程式,能够帮助消除噪音。
回归将在3.4.4小节以及第7章讨论。
许多数据平滑的方法也是涉及离散化的数据归约方法。
例如,上面介绍的分箱技术减少了每个属性的不同值的数量。
对于基于逻辑的数据挖掘方法(如判定树归纳),这充当了一种形式的数据归约。
概念分层是一种数据离散化形式,也可以用于数据平滑。
例如,price的概念分层可以把price的值映射到inexpensive、moderately_priced和expensive,从而减少了挖掘过程所处理的值的数量。
数据离散化将在3.5节讨论。
有些分类方法,如神经网络,有内置的数据平滑机制。
分类是第7章的课题。
3.2.3不一致数据
对于有些事务,所记录的数据可能存在不一致。
有些数据不一致可以使用其它材料人工地加以更正。
例如,数据输入是的错误可以使用纸上的记录加以更正。
这可以与用来帮助纠正编码不一致的例程一块使用。
知识工程工具也可以用来检测违反限制的数据。
例如,知道属性间的函数依赖,可以查找违反函数依赖的值。
由于数据集成,也可能产生不一致:
一个给定的属性在不同的数据库中可能具有不同的名字。
也可能存在冗余。
数据集成和冗余数据删除在3.3.1小节讨论.
3.3数据集成和变换
数据挖掘经常需要数据集成——由多个数据存储合并数据。
数据还可能需要转换成适于挖掘的形式。
本节介绍数据集成和数据变换。
3.3.1数据集成
数据分析任务多半涉及数据集成。
数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储,如数据仓库中。
这些源可能包括多个数据库、数据方或一般文件。
在数据集成时,有许多问题需要考虑。
模式集成可能是有技巧的。
来自多个信息源的现实世界的实体如何才能“匹配”?
这涉及实体识别问题。
例如,数据分析者或计算机如何才能确信一个数据库中的customer_id和另一个数据库中的cust_number指的是同一实体?
通常,数据库和数据仓库有元数据——关于数据的数据。
这种元数据可以帮助避免模式集成中的错误。
冗余是另一个重要问题。
一个属性是冗余的,如果它能由另一个表“导出”;如年薪。
属性或维命名的不一致也可能导致数据集中的冗余。
有些冗余可以被相关分析检测到。
例如,给定两个属性,根据可用的数据,这种分析可以度量一个属性能在多大程度上蕴涵另一个。
属性A和B之间的相关性可用下式度量:
(3.1)
其中,n是元组个数,
和
分别是A和B的平均值,
和
分别是A和B的标准差。
如果(3.1)式的值大于0,则A和B是正相关的,意味A的值随B的值增加而增加。
该值越大,一个属性蕴涵另一个的可能性越大。
因此,一个很大的值表明A(或B)可以作为冗余而被去掉。
如果结果值等于0,则A和B是独立的,它们之间不相关。
如果结果值小于0,则A和B是负相关的,一个值随另一个减少而增加。
这表明每一个属性都阻止另一个出现。
(3.1)式可以用来检测上面的customer_id和cust_number的相关性。
相关分析在6.5.2小节进一步讨论。
除了检测属性间的冗余外,“重复”也应当在元组级进行检测。
重复是指对于同一数据,存在两个或多个相同的元组。
数据集成的第三个重要问题是数据值冲突的检测与处理。
例如,对于现实世界的同一实体,来自不同数据源的属性值可能不同。
这可能是因为表示、比例或编码不同。
例如,重量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。
不同旅馆的价格不仅可能涉及不同的货币,而且可能涉及不同的服务(如免费早餐)和税。
数据这种语义上的异种性,是数据集成的巨大挑战。
仔细将多个数据源中的数据集成起来,能够减少或避免结果数据集中数据的冗余和不一致性。
这有助于提高其后挖掘的精度和速度。
3.3.2数据变换
数据变换将数据转换成适合于挖掘的形式。
数据变换可能涉及如下内容:
⏹平滑:
去掉数据中的噪音。
这种技术包括分箱、聚类和回归。
⏹聚集:
对数据进行汇总和聚集。
例如,可以聚集日销售数据,计算月和年销售额。
通常,这一步用来为多粒度数据分析构造数据方。
⏹数据泛化:
使用概念分层,用高层次概念替换低层次“原始”数据。
例如,分类的属性,如street,可以泛化为较高层的概念,如city或country。
类似地,数值属性,如age,可以映射到较高层概念,如young,middle-age和senior。
⏹规范化:
将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0到1.0或0.0到1.0。
⏹属性构造(或特征构造):
可以构造新的属性并添加到属性集中,以帮助挖掘过程。
平滑是一种数据清理形式,已在3.2.2小节讨论。
聚集和泛化也是一种数据归约形式,并分别将在3.4和3.5小节讨论.本节,我们讨论规范化和属性构造。
通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。
对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。
如果使用神经网络后向传播算法进行分类挖掘(第7章),对于训练样本属性输入值规范化将有助于加快学习阶段的速度。
对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性(例如,income)与具有较小初始值域的属性(例如,二进位属性)相比,权重过大。
有许多数据规范化的方法,我们将学习三种:
最小-最大规范化、z-score规范化和按小数定标规范化。
最小-最大规范化对原始数据进行线性变换。
假定
和
分别为属性A的最小和最大值。
最小-最大规范化通过计算
(3.2)
将A的值v映射到区间[
]中的v’。
最小-最大规范化保持原始数据值之间的关系。
如果今后的输入落在A的原数据区之外,该方法将面临“越界”错误。
例3.1假定属性income的最小与最大值分别为$12,000和$98,000。
我们想映射income到区间[0.0,0.1]。
根据最小-最大规范化,income值$73,600将变换为:
。
在z-score规范化(或零-均值规范化)中,属性A的值基于A的平均值和标准差规范化。
A的值v被规范化为v’,由下式计算:
(3.3)
其中,
和
分别为属性A的平均值和标准差。
当属性A的最大和最小值未知,或局外者左右了最大-最小规范化时,该方法是有用的。
例3.2假定属性income的平均值和标准差分别为$54,000和$16,000。
使用z-score规范化,值$73,600被转换为
。
小数定标规范化通过移动属性A的小数点位置进行规范化。
小数点的移动位数依赖于A的最大绝对值。
A的值v被规范化为v’,由下式计算:
(3,4)
其中,j是使得Max(|v’|)<1的最小整数。
例3.3假定A的值由-986到917。
A的最大绝对值为986。
为使用小数定标规范化,我们用1,000(即,j=3)除每个值。
这样,-986被规范化为-0.986。
注意,规范化将原来的数据改变很多,特别是上述的后两种方法。
有必要保留规范化参数(如平均值和标准差,如果使用z-score规范化),以便将来的数据可以用一致的方式规范化。
属性构造是由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解。
例如,我们可能根据属性height和width添加属性area。
属性结构可以帮助平缓使用判定树算法分类的分裂问题。
那里,沿着导出判定树的一条路径重复地测试一个属性。
属性构造操作符的例子包括二进位属性的and和名字属性的product。
通过组合属性,属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现是有用的。
3.4数据归约
假定你由AllElectronics数据仓库选择了数据,用于分析。
数据集将非常大!
在海量数据上进行复杂的数据分析和挖掘将需要很长时间,使得这种分析不现实或不可行。
数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保持原数据的完整性。
这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。
数据归约的策略如下:
1.数据方聚集:
聚集操作用于数据方中的数据。
2.维归约:
可以检测并删除不相关、弱相关或冗余的属性或维。
3.数据压缩:
使用编码机制压缩数据集。
4.数值压缩:
用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。
5.离散化和概念分层产生:
属性的原始值用区间值或较高层的概念替换。
概念分层允许挖掘多个抽象层上的数据,是数据挖掘的一种强有力的工具。
我们将概念分层的自动产生推迟到3.5节,那里整整一节讨论该课题。
策略1至4在本节的剩余部分讨论。
用于数据压缩的时间不应当超过或“抵消”在归约后数据上挖掘节省的时间。
3.4.1数据方聚集
想象你已经为你的分析收集了数据。
这些数据由AllElectronics1997到1999年每季度的销售数据组成。
然而,你感兴趣的是年销售(每年的总和),而不是每季度的总和。
可以对这种数据再聚集,使得结果数据汇总每年的总销售,而不是每季度的总销售。
该聚集如图3.4所示。
结果数据量小得多,并不丢失分析任务所需的信息。
图3.4AllElectronics1997年到1999年的销售数据。
左部销售数据按季度显示,右部数据聚集以提供年销售额
数据方已在第2章讨论。
为完整起见,我们在这简略回顾一下。
数据方存放多维聚集信息。
例如,图3.5所示数据方用于AllElectronics所有分部每类商品年销售多维数据分析。
每个单元存放一个聚集值,对应于多维空间的一个数据点。
每个属性可能存在概念分层,允许在多个抽象层进行数据分析。
例如,branch的分层允许分部按它们的地址聚集成地区。
数据方提供对预计算的汇总数据进行快速访问,因此它适合联机数据分析和数据挖掘。
创建在最低层的数据方称为基本方体。
最高层抽象的数据方称为顶点方体。
对于图3.5的销售数据,顶点方体将给出一个汇总值——所有商品类型、所有分部三年的总销售额。
对不同层创建的数据方称为方体,因此“数据方”可以看作方体的格。
每个较高层的抽象将进一步减少结果数据。
基本方体应当对应于感兴趣的实体,如sales或customer。
换言之,最低层对于分析应当是有用的。
由于数据方提供了对预计算的汇总数据的快速访问,在响应关于聚集信息的查询时应当使用它们。
当响应OLAP查询或数据挖掘查询时,应当使用与给定任务相关的最小方体。
该问题也已在第2章讨论过。
图3.5AllElectronics销售数据方
3.4.2维归约
用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关,是冗余的。
例如,如果分析任务是按顾客听到广告后,是否愿意在AllElectronics买流行的新款CD将顾客分类,与属性age,music_taste不同,诸如顾客的电话号码等属性多半是不相关的。
尽管领域专家可以挑选出有用的属性,但这可能是一项困难而费时的任务,特别是当数据的行为不清楚的时候更是如此。
遗漏相关属性或留下不相关属性是有害的,会导致所用的挖掘算法无所适从。
这可能导致发现的模式质量很差。
此外,不相关或冗余的属性增加了数据量,可能会减慢挖掘进程。
维归约通过删除不相关的属性(或维)减少数据量。
通常使用属性子集选择方法。
属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。
在压缩的属性集上挖掘还有其它的优点。
它减少了出现在发现模式上的属性的数目,使得模式更易于理解。
“如何找出原属性的一个‘好的’子集?
”d个属性有2d个可能的子集。
穷举搜索找出属性的最佳子集可能是不现实的,特别是当d和数据类的数目增加时。
因此,对于属性子集选择,通常使用压缩搜索空间的启发式算法。
通常,这些算法是贪心算法,在搜索属性空间时,总是做看上去是最佳的选择。
它们的策略是做局部最优选择,期望由此导致全局最优解。
在实践中,这种贪心方法是有效的,并可以逼近最优解。
“最好的”(或“最差的”)属性使用统计测试来选择。
这种测试假定属性是相互独立的。
也可以使用一些其它属性估计度量,如使用信息增益度量建立分类判定树。
属性子集选择的基本启发式方法包括以下技术,其中一些图示在图3.6中。
1.逐步向前选择:
该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中。
在其后的每一次迭代,将原属性集剩下的属性中的最好的属性添加到该集合中。
2.逐步向后删除:
该过程由整个属性集开始。
在每一步,删除掉尚在属性集中的最坏属性。
3.向前选择和向后删除的结合:
向前选择和向后删除方法可以结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
方法1到3的结束条件可以有多种。
过程可以使用一个阈值来确定是否停止属性选择过程。
▪判定树归纳:
判定树算法,如ID3和C4.5最初是用于分类的。
判定树归纳构造一个类似于流程图的结构,其每个内部(非树叶)结点表示一个属性上的测试,每个分枝对应于测试的一个输
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 CHAPTER3 预处理