每章习题.docx
- 文档编号:23388429
- 上传时间:2023-05-16
- 格式:DOCX
- 页数:15
- 大小:28.57KB
每章习题.docx
《每章习题.docx》由会员分享,可在线阅读,更多相关《每章习题.docx(15页珍藏版)》请在冰豆网上搜索。
每章习题
每章习题
第一章
1、数据挖掘是从大量数据中()或()知识。
2、数据挖掘的知识发现由哪些步骤组成?
3、数据挖掘系统具有哪些主要成分?
4、数据库管理系统的概念?
5、什么是事务数据库?
6、什么是面向对象数据库?
第二章
1、数据库的主要特征;
2、什么是数据方?
3、数据仓库模型有哪些?
4、什么是概念分层?
5、从结构的角度看,有三种数据仓库模型:
()数据集市、()
6、OLAP服务器实现包括哪些?
第三章
1、数据变换将数据转换成适合于挖掘的形式,数据变换可能涉及哪些内容?
2、数据归约的策略?
3、多元回归是()的扩充,响应变量是多维特征向量的线性函数。
4、数据归约技术有哪些表示?
5、什么是数据集成?
6、数据域处理的概念?
第四章
1、定义数据挖掘任务或查询需要哪些原语?
2、模式分层的概念;`x
3、兴趣度度量评估模式的性质:
简洁性、()、()和新颖性;
4、为什么有一个数据挖掘查询语言很重要?
5、数据挖掘GUI可能包含哪些成分?
6、基于不同的结构设计应选哪些耦合模式可以将DM系统与DB/DW系统集成?
第五章
1、概念描述的概念;
2、大型数据库的概念描述和数据仓库的联机分析处理有何不同?
3、什么是数据泛化?
4、对于面向属性归纳,现在数据已经准备好,如何进行面向属性归纳?
5、对基本方法稍加扩充,概念描述挖掘可以增量地、()、或分布地进行。
6、概念描述的属性相关分析执行步骤;
第六章
1、如何由大型数据库挖掘关联规则?
2、购物篮分析只是关联规则挖掘的一种形式,还有其他哪些方法?
3、怎样能够提高Apriori的有效性?
4、对于购物篮分析中经常用()
5、对于具有递减支持度的多层关联规则挖掘,有许多可用的搜索策略如:
6、挖掘多维关联规则的技术可以根据量化属性的处理分为哪三类。
第七章
1、分类和预测方法可以根据哪些标准进行比较和评估?
2、分类和预测包括哪些广泛的应用()、()、()、()。
3、什么叫做判定树?
4、广义线性模型的常见形式包括()、()。
5、如何设计神经网络拓扑?
6、贝叶斯定理公式
第八章
1、聚类的典型应用是什么?
2、数据挖掘对聚类的典型要求?
3、聚类分析中的两个数据类型是什么?
4、满足对距离函数的四点数学要求。
5、描述凝聚的和分裂的两种层次聚类方法。
6、基于模型的聚类方法有哪两个()、()。
第九章
1、名词解释空间分类
2、什么是多媒体数据库?
3、基于小波的特征标识的相似检索方法是怎样的?
4、多媒体数据中可以挖掘的三种关联()、()、()。
5、四种主要的变化成分用于特化时序数据是哪些?
6、许多有关序列模式挖掘的研究主要针对()模式。
第十章
1、电信数据分析中可视化工具的使用有()可视化()可视化()可视化。
2、零售业中的几个数据挖掘的例子是什么?
3、商用数据挖掘系统的例子有哪些请简单介绍。
4、数据可视化和数据挖掘的相同和不同之处有哪些?
5、查询应答机制可以根据它们反应方式的不同分为哪两类()、()。
6、数据挖掘整个生命周期应包含哪几个阶段请简单介绍。
习题答案
第一章
(1)提取挖掘
(2)数据清理(消除噪音或不一致数据)
数据集成(多种数据源可以组合在一起)
数据选择(从数据库中提取与分析任务相关的数据)
数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)
数据挖掘(基本步骤,使用智能方法提取数据模式)
模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式;)
(3)数据库、数据仓库、或其它信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面
(4)数据库管理系统(DBMS),由一组内部相关的数据,称作数据库,和一组管理和存取数据的软件程序组成。
软件程序涉及如下机制:
数据库结构定义,数据存储,并行、共享或分布的数据访问,面对系统瘫痪或未授权的访问,确保数据的一致性和安全性。
(5)事务数据库由一个文件组成,其中每个记录代表一个事务。
通常,一个事务包含一个唯一的事务标识号(trans_ID),和一个组成事务的项的列表。
(6)面向对象数据库基于面向对象程序设计范例。
用一般术语,每个实体被看作一个对象。
对于AllElectronics例子,对象可以是每个雇员、顾客、商品。
第二章
(1)面向主题的集成的时变的非易失的
(2)数据方允许以多维对数据建模和观察。
它由维和事实定义。
维是透视或关于一个组织想要记录的实体。
每一个维都有一个表与之相关联。
该表称为维表,它进一步描述维。
(3)星形模式雪花模式事实星座模式
(4)一个概念分层定义一个映射序列,将低层概念到更一般的高层概念。
(5)企业结构虚拟仓库
(6)关系OLAP(ROLAP)服务器多维OLAP(MOLAP)服务器混合OLAP(HOLAP)服务器特殊的SQL服务器
第三章
(1)平滑:
去掉数据中的噪音。
这种技术包括分箱、聚类和回归。
聚集:
对数据进行汇总和聚集。
数据泛化:
使用概念分层,用高层次概念替换低层次“原始”数据。
规范化:
将属性数据按比例缩放,使之落入一个小的特定区间;属性构造(或特征构造):
可以构造新的属性并添加到属性集中,以帮助挖掘过程。
(2)数据方聚集:
聚集操作用于数据方中的数据。
维归约:
可以检测并删除不相关、弱相关或冗余的属性或维。
数据压缩:
使用编码机制压缩数据集。
数值压缩:
用替代的、较小的数据表示替换或估计数据。
离散化和概念分层产生:
属性的原始值用区间值或较高层的概念替换。
(3)线性回归
(4)数据归约技术,如数据方聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示,而使得信息内容的损失最小。
(5)数据集成将来自不同数据源的数据整合成一致的数据存储。
元数据、相关分析、数据冲突检测和语义异种性的解决都有助于数据集成。
(6)数据预处理对于建立数据仓库和数据挖掘都是一个重要的问题,因为现实世界中的数据多半是不完整的、有噪音的和不一致的。
数据预处理包括数据清理、数据集成、数据变换和数据归约。
第四章
(1)任务相关的数据要挖掘什么类型的知识背景知识兴趣度度量发现模式的提供和可视化
(2)模式分层:
模式分层(或更严格地,模式定义的分层)是数据库模式属性间的全序或偏序。
模式分层可以形式地表示属性间的语义联系。
通常,一个模式分层指定了数据仓库的一个维。
(3)确定性实用性
(4)关系查询语言的标准化为关系数据库系统的发展和进化提供了基础。
它促进了信息交换和技术转换,推动了关系数据库技术的商品化和广泛接受。
数据库系统最近的标准化活动,如涉及SQL-3的工作,进一步说明具有一种标准的数据库语言对于数据库系统的成功开发和商品化的重要性。
因此,具有一个好的数据挖掘查询语言将有助于数据挖掘系统平台开发标准化。
(5)数据收集和数据查询编辑:
该部分允许用户说明任务相关的数据集,编写数据挖掘查询。
它类似于关系查询说明所用的GUI。
发现模式的表示:
该成分允许以各种形式显示发现的模式,包括表、图、图表、曲线或其它可视化技术。
分层结构说明和操纵:
该成分允许说明概念分层,或者由用户手动地,或者自动地(基于手头数据的分析)说明。
此外,该成分还应当允许用户修改概念分层,或根据给定的数据分布,自动地对概念分层进行调整。
数据挖掘原语的操作:
该成分允许动态地调整数据挖掘阈值,选择、显示和修改概念分层。
它还可能允许修改先前的数据挖掘查询或条件。
交互的多层挖掘:
该成分应当允许在发现的模式上进行上卷、下钻操作。
其它各种信息:
这部分可能包含联机帮助手册、索引查找、调试和其它交互图形机制。
(6)基于不同的结构设计,用以下耦合模式可以将DM系统与DB/DW系统集成:
不耦合、松散耦合、半紧密耦合和紧密耦合。
第五章
(1)概念通常指数据的汇集,如frequent_buyers,graduate_students等。
作为一种数据挖掘任务,概念描述不是数据的简单枚举。
概念描述产生数据的特征和比较描述。
当被描述的概念涉及对象类时,有时也称概念描述为类描述。
(2)复杂的数据类型和聚集:
数据仓库和OLAP工具基于多维数据模型,将数据看作数据方形式,由维(或属性)和度量(聚集函数)组成。
然而,对于这些系统的大部分商品化版本,维和度量的数据类型都是很有限的。
许多当前的OLAP系统限制维必须是非数值数据。
类似地,在当前的OLAP系统中,度量(如count(),sum(),avg())也仅用于数值数据。
相反,对于概念形成,数据库属性可以是各种各样的数据类型,包括数值的、非数值的、空间的、文本的或图象的。
此外,数据库中属性的聚集也可能包括复杂的数据类型,如非数值数据的集合,空间区域的合并,图象的合成,文本的集成,和对象指针分组等。
这样,由于可能的维和度量类型的限制,OLAP只表现为一种简单的数据分析模型。
需要时,数据库中的概念描述可以处理具有复杂数据类型的属性和它们的聚集。
用户控制与自动处理:
数据仓库中的联机分析处理纯是用户控制的过程。
维的选择和诸如下钻、上卷、切块和切片等OLAP操作的使用都由用户指挥和控制。
尽管在大部分OLAP系统中,用户控制的界面是相当友好的,但用户确实需要对每个维的作用有透彻的理解。
此外,为了找到一个满意的描述,用户需要使用一长串OLAP操作。
相反,数据挖掘系统中的概念描述努力成为更自动化的过程,帮助用户确定哪些维(或属性)应当包含在分析中,给定的数据应当泛化到什么程度,以便产生有趣的数据汇总。
(3)数据泛化是一个过程,它将大的、任务相关的数据集从较低的概念层抽象到较高的概念层。
大的数据集有效的、灵活的泛化方法可以分为两类:
(1)数据方(或OLAP)方法,和
(2)面向属性归纳方法。
(4)可以用两种方法之一在初始关系上进行:
属性删除,属性泛化。
属性删除基于如下规则:
如果初始工作关系的某个属性有大量不同的值,但是
(1)在此属性上没有泛化操作符(例如,对该属性没有定义概念分层),或者
(2)它的较高层概念用其它属性表示,则该属性应当从工作关系中删除。
属性泛化基于如下规则:
如果初始工作关系的某个属性有大量不同的值,并且该属性上存在泛化操作符,则应当选择该泛化操作符,并将它用于该属性
(5)并行地
(6)数据收集使用保守的AOI进行预相关分析使用选定的相关分析度量删除不相关和弱相关属性使用AOI产生概念描述
第六章
(1)则的挖掘是一个两步的过程:
找出所有频繁项集:
根据定义,这些项集出现的频繁性至少和预定义的最小支持计数一样;频繁项集产生强关联规则:
根据定义,这些规则必须满足最小支持度和最小置信度
(2)根据规则中所处理的值类型根据规则中涉及的数据维根据规则集所涉及的抽象层根据关联挖掘的各种扩充
(3)提高Apriori的有效性旨在提高原算法的效率:
于散列的技术(散列项集计数):
一种基于散列的技术可以用于压缩候选k-项集Ck(k>1)。
事务压缩(压缩进一步迭代扫描的事务数):
不包含任何k-项集的事务不可能包含任何(k+1)-项集。
这样,这种事务在其后的考虑时,可以加上标记或删除,因为为产生j-项集(j>k),扫描数据库时不再需要它们。
划分(为找候选项集划分数据):
可以使用划分技术,它只需要两次数据库扫描,以挖掘频繁项集
(4)冰山查询
(5)逐层独立层交叉用单项过滤层交叉用k-项集过滤
(6)第一种方法,使用预定义的概念分层对量化属性离散化。
这种离散化在挖掘之前进行。
例如,income的概念分层可以用于以区间值,如“0...20K”、“21...30K”、“31...40K”等,替换属性的原来的数值值。
这里,离散化是静态的、预确定的。
离散化的数值属性具有区间值,可以象分类属性一样处理(每个区间看作一类)。
我们称这种方法为使用量化属性的静态离散化挖掘多维关联规则。
第二种方法,根据数据的分布,将量化属性离散化到“箱”。
这些箱可能在挖掘过程中进一步组合。
离散化的过程是动态的,以满足某种挖掘标准,如最大化所挖掘的规则的置信度。
由于该策略将数值属性的值处理成量,而不是预定义的区间或分类,由这种方法挖掘的关联规则称为量化关联规则。
第三种方法,量化属性离散化,以紧扣区间数据的语义。
这种动态离散化过程考虑数据点之间的距离。
因此,这种量化关联规则称作基于距离的关联规则。
第七章
(1)预测的准确率:
这涉及模型正确地预测新的或先前未见过的数据的类标号的能力。
速度:
这涉及产生和使用模型的计算花费。
强壮性:
这涉及给定噪音数据或具有遗漏值的数据,模型正确预测的能力。
可规模性:
这涉及给定大量数据,有效地构造模型的能力。
可解释性:
这涉及学习模型提供的理解和洞察的层次。
(2)信誉证实医疗诊断性能预测选择购物
(3)判定树是一个类似于流程图的树结构;其中,每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。
树的最顶层结点是根结点。
一棵典型的判定树如图7.2所示。
它表示概念buys_computer,即,它预测AllElectronics的顾客是否可能购买计算机。
内部结点用矩形表示,而树叶用椭圆表示
(4)对数回归泊松回归
(5)在开始训练之前,用户必须说明输入层的单元数、隐藏层数(如果多于一层)、每一隐藏层的单元数和输出层的单元数,以确定网络拓扑。
对训练样本中每个属性的值进行规格化将有助于加快学习过程。
通常,对输入值规格化,使得它们落入0.0和1.0之间。
离散值属性可以重新编码,使得每个域值一个输入单元。
对于“最好的”隐藏层单元数,没有明确的规则。
网络设计是一个实验过程,并可能影响结果训练网络的准确性。
权的初值也可能影响结果的准确性。
一旦网络经过训练,并且其准确率不能被接受,则通常用不同的网络拓扑或使用不同的初始权值,重复训练过程。
(6)
第八章
(1)、在商业上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。
在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。
聚类在地球观测数据库中相似地区的确定,汽车保险持有者的分组,及根据房子的类型,价值,和地理位置对一个城市中房屋的分组上也可以发挥作用。
聚类也能用于对Web上的文档进行分类,以发现信息。
作为一个数据挖掘的功能,聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇作进一步的分析。
此外,聚类分析可以作为其他算法(如分类等)的预处理步骤,这些算法再在生成的簇上进行处理。
(2)、可伸缩性:
许多聚类算法在小于200个数据对象的小数据集合上工作得很好;但是,一个大规模数据库可能包含几百万个对象,在这样的大数据集合样本上进行聚类可能会导致有偏的结果。
我们需要具有高度可伸缩性的聚类算法。
处理不同类型属性的能力:
许多算法被设计用来聚类数值类型的数据。
但是,应用可能要求聚类其他类型的数据,如二元类型(binary),分类/标称类型(categorical/nominal),序数型(ordinal)数据,或者这些数据类型的混合。
发现任意形状的聚类:
许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。
基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。
但是,一个簇可能是任意形状的。
提出能发现任意形状簇的算法是很重要的。
用于决定输入参数的领域知识最小化:
许多聚类算法在聚类分析中要求用户输入一定的参数,例如希望产生的簇的数目。
聚类结果对于输入参数十分敏感。
参数通常很难确定,特别是对于包含高维对象的数据集来说。
这样不仅加重了用户的负担,也使得聚类的质量难以控制。
处理“噪声”数据的能力:
绝大多数现实中的数据库都包含了孤立点,缺失,或者错误的数据。
一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。
对于输入记录的顺序不敏感:
一些聚类算法对于输入数据的顺序是敏感的。
例如,同一个数据集合,当以不同的顺序交给同一个算法时,可能生成差别很大的聚类结果。
开发对数据输入顺序不敏感的算法具有重要的意义。
高维度(highdimensionality):
一个数据库或者数据仓库可能包含若干维或者属性。
许多聚类算法擅长处理低维的数据,可能只涉及两到三维。
人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。
在高维空间中聚类数据对象是非常有挑战性的,特别是考虑到这样的数据可能分布非常稀疏,而且高度偏斜。
基于约束的聚类:
现实世界的应用可能需要在各种约束条件下进行聚类。
假设你的工作是在一个城市中为给定数目的自动提款机选择安放位置,为了作出决定,你可以对住宅区进行聚类,同时考虑如城市的河流和公路网,每个地区的客户要求等情况。
要找到既满足特定的约束,又具有良好聚类特性的数据分组是一项具有挑战性的任务。
可解释性和可用性:
用户希望聚类结果是可解释的,可理解的,和可用的。
也就是说,聚类可能需要和特定的语义解释和应用相联系。
应用目标如何影响聚类方法的选择也是一个重要的研究课题。
(3)、数据矩阵相异度矩阵
(4)、
d(i,j)≥0:
距离是一个非负的数值。
d(i,i)=0:
一个对象与自身的距离是0。
d(i,j)=d(j,i):
距离函数具有对称性。
d(i,j)≤d(i,h)+d(h,j):
从对象I到对象j的直接距离不会大于途径任何其他对象的距离。
(5)、凝聚的层次聚类:
这种自底向上的策略首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。
绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。
分裂的层次聚类:
这种自顶向下的策略与凝聚的层次聚类不同,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终结条件,例如达到了某个希望的簇数目,或者两个最近的簇之间的距离超过了某个阈值。
(6)、统计学方法神经网络方法
第九章
(1)、空间分类指分析空间对象导出与一定空间特征有关的分类模式
(2)、"多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据,图象数据,视频数据,序列数据,以及超文本数据,包含文本,文本标记(textmarkup),和链接(linkage)。
由于音频视频设备,CD-ROMs,和因特网的流行和普及,多媒体数据库系统变的日益常见。
典型的多媒体数据库系统包括NASA'sEOS(地球观测系统),各种图象和音频视频数据库,人类基因数据库,和因特网数据库。
(3)、本方法使用了图象的小波系数作为起特征标识。
小波可以在一个唯一统一的框架内表示形状,结构和位置等信息。
这将改进效率并减少对多个特征搜索的需要(与第二种方法不同)。
然而,由于此方法对整个图象只计算一个特征标识,它可能无法识别出虽包含相同对象但对象位置或尺寸不同的图象。
(4)图象内容和非图象内容特征间的关联
与空间关系无关的图象内容的关联
与空间关系有关的图象内容的关联
(5)、
1:
长期或趋势变化:
它用于反映一般变化方向,其时序图是在较长时间间隔上的数据变化。
这种变化反映为一种趋势曲线,或趋势线
2:
循环运动或循环变化:
主要指循环性,即趋势线或曲线在长期时间内呈摆动迹象,它可以是也可以不是周期性的。
即在等时间间隔之间,循环不需要沿着同样的模式演进。
3:
季节性运动或季节性变化:
它反映的是每年都重复出现的事件,如情人节前巧克力和鲜花会的销量突然上升,或在圣诞节节前储藏商品的销售会突然增加。
换句话说,季节性运动是指同一或近似同一的模式,在连续几年的有关月份期间重复出现。
4:
非规则或随机变化:
它反映的是随机或偶然事件零星时序变化,如劳工需求,洪水,或企业内发生的人事变动等
(6)、符号
第十章
(1)、OLAP链接关联
(2)、基于数据挖掘的数据仓库的设计与构造
销售,顾客,产品,时间,和地区的多维分析
顾客保持力——顾客忠诚分析
(3)、IntelligentMiner这是IBM公司的数据挖掘产品,它提供了很多数据挖掘算法,包括:
关联,分类,回归,预测模型,偏离检测,序列模式分析和聚类。
它也提供一个应用工具集,包括:
神经网络算法,统计方法,数据准备模型和数据可视化工具。
IntelligentMiner的特色有两点:
一是它的数据挖掘算法可伸缩,二是它与IBMDB/2关系数据库系统紧密地结合在一起。
EnterpriseMiner是SAS公司开发的产品,提供多种数据挖掘算法,包括:
回归,分类和统计分析包。
它的特色是具有多种统计分析工具,这得益于SAS公司在统计分析市场多年的经验和历史。
MineSet是由SGI(SiliconGraphicsInc.)公司开发的,它也提供了多种数据挖掘算法,包括:
关联和分类,高级统计和可视化工具。
特色是它具有的强大的图形工具,包括:
规则可视化工具,树可视化工具,地图可视化工具,多维数据分散可视化工具,它们用于实现数据和数据挖掘结果的可视化功能。
Clementine是由ISL(IntegralSolutionsLtd.)公司开发的,它为终端用户和开发者提供了一个集成的数据挖掘开发环境,系统集成了多种数据挖掘算法,如:
规则归纳,神经网络,分类和可视化工具。
特色是它具有面向对象的扩展的模块接口,该接口使用户算法和工具可以加到Clementine的可视化编程环境中。
Clementine已经被SPSS公司收购。
DBMiner是由DBMinerTechnology公司开发的,它提供多种数据挖掘方法包括:
发现驱动的OLAP分析,关联,分类,聚类。
DBMiner的特色是它的基于数据立方体的联机分析挖掘,它包含多种有效的频繁模式挖掘功能和集成的可视化分类方法,附录B对该系统做了更加详细的介绍。
(4)、可视化数据挖掘用数据或知识可视化技术从大的数据集中发现隐含的和有用的知识。
人们的视觉系统是由眼睛和人脑控制的,后者可看作一个强有力且高度并行的处理和推理引擎,它带有一个大的知识库。
可视化数据挖掘把这些强大的组件有效地组合起来,使它成为一个吸引人的有效的工具,用来对数据的属性,模式,簇,孤立点进行综合分析可视化数据挖掘可看作是由数据可视化和数据挖掘两个学科融合而成的。
它和计算机图形,多媒体系统,人机接口,模式识别,高性能处理都紧密相关。
(5)、直接查询应答智能(或协同)查询应答
(6)、创新者:
研究者开始认识到需要找到解决某个问题的方法时,新的技术就开始出现了。
早期接受者:
当关于这项技术提出的方法越来越多的时候,人们对它的兴趣就相应增长了。
停滞:
一种技术被作为主流技术广泛接受之前必须碰到的障碍或挑战
早期多数接受者:
这种技术成熟并被广泛接受和应用。
后期多数接受者:
这种技术被广泛接受,但由于初始的问题,人们对它的兴趣减小,它或者变得不重要,或者被其他需求取代。
落后:
因为过时,这种技术开始消失。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 每章 习题