数据挖掘复习111Word格式文档下载.docx
- 文档编号:22855998
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:10
- 大小:77.95KB
数据挖掘复习111Word格式文档下载.docx
《数据挖掘复习111Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习111Word格式文档下载.docx(10页珍藏版)》请在冰豆网上搜索。
(bookp105)(P3-3)
数据清理,数据集成与变换,数据归约。
7.什么是数据清理(datacleaning)?
(bookP109)(P3-5)
现实世界的数据一般是脏的、不完整的和不一致的,数据清理例程试图填充空缺的值,识别孤立点,消除噪声,并纠正数据中的不一致。
8.数据清理(datacleaning)的内容包括哪些?
(bookP109-112小节标题)((P3-5-6))
填充缺失值,平滑噪音数据,纠正不一致的数据
9.什么是数据集成(dataintegration)?
(bookP1123.3.1)(P3-8)
将数据由多个源合并成一致的数据存储。
10.什么是数据归约(datareduction)?
(bookP116)(P3-10)
一种用于得到数据集归约表示的技术,它小得多,但仍接近于保持原数据的完整性。
11.将下列缩略语(acronym)复原
OLAP——on-lineanalyticalprocessing
DM——datamining
KDD——knowledgediscoveryindatabases
OLTP——on-linetransactionprocessing
DBMS——databasemanagementsystem
DWT——discretewavelettransform
12.什么是数据挖掘(datamining)?
答案1:
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
答案2:
(bookP5)(P1-6)数据挖掘就是从大量数据中提取或“挖掘”知识。
13.什么是关联规则(associationrule)?
(bookP23)(P1-14)
关联规则是形如XY,即“A1∪…∪Am”“B1∪…∪Bn”的规则(其中A1(i∈{1,…,m}),Bj(j∈{1,…,n})的属性值对。
14.什么是置信度(confidence)?
(p6-4-5)
置信度是条件概率P(Y|X);
即,包含X的事务也包含Y的概率。
更形式地,置信度定义为
confidence(X⇒Y)=P(Y|X)
15.什么是支持度(support)?
支持度表示满足规则的样本百分比。
支持度是概率P(X∪Y),其中,X∪Y表示同时包含X和Y的事务;
即,项集X和Y的并。
更形式地,支持度定义为
support(X⇒Y)=P(X∪Y)
16.数据仓库(datawarehouse)的主要特征是什么?
(bookp40)(P2-3-4)
(1)面向主题的(subject-oriented):
数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。
(2)集成的(integrated):
构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录,集成在一起。
(3)时变的(time-variant):
数据存储从历史的角度提供信息数据仓库的关键结构,隐式地或显式地包含时间元素。
(4)非易失的(nonvolatile):
数据仓库总是物理地分离存放数据;
这些数据源于操作环境下的应用数据。
由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。
它只需要两种数据访问:
数据的初始化装入和数据访问。
17.什么是数据集市(datamart)?
(bookP15)
答案:
数据集市是数据仓库的一个部门子集。
它聚焦在选定的主题上,是部门范围的。
18.数据库中的知识发现(knowledgediscoveryindatabases)过程由哪几个步骤组成?
(bookp7)(P1-6)
数据清理:
消除噪声或不一致数据。
数据集成:
将多种数据源组合在一起。
数据选择:
从数据库中检索与分析任务相关的数据。
数据变换:
数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作。
数据挖掘:
基本步骤,使用智能方法提取数据模式。
模式评估:
根据某种兴趣度度量,识别表示知识的真正有趣的模式。
知识表示:
使用可视化和知识表示技术,向用户提供挖掘的知识。
19.典型的数据挖掘系统有哪几个主要成分?
(bookp7-9)(1-7-8)
数据库、数据仓库或其他数据库,数据库或数据仓库服务器,知识库,数据挖掘引擎,模式评估模块,图形用户界面。
20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?
(bookP64)(P2-20)
规划,需求分析,问题分析,仓库设计,数据集成和测试,部署数据仓库。
21-22.deleted
23.数据清理时,对空缺值有哪些处理方法?
(bookP1094-9)(3-5-6)
忽略元组
人工填写空缺值
使用一个常量填充空缺值
使用属性的平均值填充空缺值
使用与给定元组属同一类的所有样本的平均值
使用最可能的值填充空缺值。
24.什么是数据变换(datatransformation)?
包括哪些内容?
(bookP114)(3-8-9)
数据变换是把数据转换成适用于挖掘的形式。
所涉及的内容包括:
平滑:
去掉数据中的噪声。
包括分箱、聚类和回归。
属于数据清理。
聚集:
对数据进行汇总和聚集。
属于数据归约。
数据概化:
使用概念分层,用高层次概念替换低层次原始数据。
规范化:
将属性数据按比例缩放,使之落入一个小的特定区间。
属性构造:
构造新属性,加入到给定的属性集合中,为数据挖掘过程提供帮助。
25.数据归约(datareduction)的策略包括哪些?
(bookP116-117)(3-10)
数据立方体聚集,维归约,数据压缩,数值压缩,离散化和概念分层产生。
26.提高数据挖掘算法效率有哪几种思路?
共有三种思路:
(1)减少数据库扫描次数,这种技术对效率会有巨大提高。
(2)利用采样技术,对要挖掘的数据集合进行选择。
(3)采用并行数据挖掘。
因为大规模的数据库经常分布在若干网络节点上,并行挖掘技术显然能提高效率。
这对于在Internet上的海量数据挖掘研究具有重要的意义。
27.(P115P3-9例3.1)假定属性income的最小值与最大值分别为¥12000和¥98000,如映射income到区间[0.0,1.0],根据min-max规范化,income值¥73600将变为0.716。
计算过程:
(73600-12000)/(98000-12000)*(1.0-0.0)+0.0=0.716
28.(P115P3-9例3.2)假定属性income的平均值和标准差分别为¥54000和¥16000。
使用Z-score规范化,值¥73600被转换为1.225。
(73600-54000)/16000=1.225
29.(P116P3-9例3.3)假定A的值由-986到917。
A的最大绝对值为986,使用小数定标规范化,-986被规范化为-0.986。
30.从结构角度来看,有三种数据仓库模型(datawarehousemodel)________________。
企业仓库,数据集市,虚拟仓库
31.什么是离散小波变换(discretewavelettransform)?
(bookP121)(P3-13)
离散小波变换是一种线性信号处理技术,当用于数据向量D时,将它转换成数值上不同的小波系数的向量D’。
两个向量具有相同的长度。
32.与数据挖掘类似的术语有:
(bookP5)(P1-6)
数据库中知识挖掘,知识提取,数据/模式分析,数据考古,数据捕捞。
33.解释下列术语(bookP7)(P1-6)
34.翻译下列术语
DataMining数据挖掘
Datawarehousing数据仓库
DataMart数据集市
drill-down下钻
roll-up上卷
OLAP联机分析处理
Datacube数据立方体
Associationrule关联规则
Datacleaning数据清理
Dataintegration数据集成
Datatransformation数据变换
Datareduction数据归约
35.可以对按季度汇总的销售数据进行______,来观察按月汇总的数据。
(bookP15)(P1-12)
A上卷B下钻C切片D切块
36.可以对按城市汇总的销售数据进行______,来观察按国家总的数据。
37.通过不太详细的数据得到更详细的数据,称为________。
(bookP60)(P2-16)
A上卷B下钻C细化D维规约
38.三层数据仓库结构中,从底层到顶层分别是_________________。
(bookP65)(P2-21)
仓库数据库服务器,OLAP服务器,客户
39.已知事务数据库D,假定最小支持度为2,使用Apriori算法求所有的频繁项集和它们的支持度。
(bookP232-234)(P6-6-8)
解:
1)在算法的第一次迭代,每个项都是候选1-项集的集合C1的成员。
算法简单地扫描所有的事务,对每个项的出现次数计数。
2)由最小事务支持计数为2(即min_sup=2/9=22%),可以确定频繁1-项集的集合L1。
它由具有最小支持度的候选1-项集组成。
3)为发现频繁2-项集的集合L2,算法使用L1╳L1产生候选2-项集的集合C2。
C2由
个2-项集组成。
4)下一步,扫描D中事务,计算C2中每个候选项集的支持计数,如图1的第二行的中间表所示。
5)确定频繁2-项集的集合L2,它由具有最小支持度的C2中的候选2-项集组成。
6)候选3-项集的集合C3的产生详细地列在图2中。
首先,令C3=L2╳L2={{I1,I2,13},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}}。
根据Apriori性质,频繁项集的所有子集必须是频繁的,我们可以确定后4个候选不可能是频繁的。
因此,我们把它们由C3删除,这样,在此后扫描D确定L3时就不必再求它们的计数值。
注意,Apriori算法使用逐层搜索技术,给定k-项集,我们只需要检查它们的(k-1)-子集是否频繁。
7)扫描D中事务,以确定L3,它由具有最小支持度的C3中的候选3-项集组成(图1)。
8)算法使用L3╳L3产生候选4-项集的集合C4。
尽管连接产生结果{{I1,I2,I3,I5}},这个项集被剪去,因为它的子集{I2,13,15}不是频繁的。
这样,C4=Ø
(空集),因此算法终止,找出了所有的频繁项集。
图2
40.什么是聚类(clustering)?
它与分类(classification)有什么不同?
(bookP335)
聚类就是将数据对象分组成为多个类或簇(cluster),在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
它与分类不同的是,它要划分的类是未知的。
41.什么是区间标度变量?
(bookP339)
区间标度变量是一个粗略线性标度的连续度量。
42.大体上,主要的聚类算法可以划分为哪几类?
(bookP346-348)
(1)划分方法(partitioningmethod):
给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个聚簇,并且k≤n。
(2)层次的方法(hierarchicalmethod):
层次的方法对给定数据对象集合进行层次的分解。
根据层次的分解如何形成,层次的方法可以分为凝聚的和分裂的。
(3)基于密度的方法(density-basedmethod):
绝大多数划分方法基于对象之间的距离进行聚类。
这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。
(4)基子网格的方法(grid-basedmethod):
基于网格的方法把对象空间量化为有限数目的单元,形成了一个网格结构。
所有的聚类操作都在这个网格结构(即量化的空间)上进行。
(5)基于模型的方法(model-basedmethod):
基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 复习 111
![提示](https://static.bdocx.com/images/bang_tan.gif)