数据挖掘概念课后习题答案范文.docx
- 文档编号:11395893
- 上传时间:2023-02-28
- 格式:DOCX
- 页数:17
- 大小:641.83KB
数据挖掘概念课后习题答案范文.docx
《数据挖掘概念课后习题答案范文.docx》由会员分享,可在线阅读,更多相关《数据挖掘概念课后习题答案范文.docx(17页珍藏版)》请在冰豆网上搜索。
数据挖掘概念课后习题答案范文
第1章
1.6定义下列数据挖掘功能:
特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
�特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:
Gradepointaversge)的信息,还有所修的课程的最大数量。
�区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA的学生的75%是四年级计算机科学专业的学生,而具有低GPA的学生的65%不是。
�关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:
major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]
其中,X是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
�分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
它们的相似性是他们都是预测的工具:
分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。
�聚类分析的数据对象不考虑已知的类标号。
对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。
形成的每一簇可以被看作一个对象类。
聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
�数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析
1.9列举并描述说明数据挖掘任务的五种原语。
五种原语是:
�任务相关数据:
这种原语指明给定挖掘所处理的数据。
它包括指明数据库、数据库表、或数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。
�挖掘的数据类型:
这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关联、分类、聚类、或演化分析。
同样,用户的要求可能更特殊,并可能提供所发现的模式必须匹配的模版。
这些模版或超模式(也被称为超规则)能被用来指导发现过程。
�背景知识:
这种原语允许用户指定已有的关于挖掘领域的知识。
这样的知识能被用来指导知识发现过程,并且评估发现的模式。
关于数据中关系的概念分层和用户信念是背景知识的形式。
�模式兴趣度度量:
这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且被用来指导挖掘过程,也可评估发现的模式。
这样就允许用户限制在挖掘过程返回的不感兴趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式。
兴趣度测量能被指定为简易性、确定性、适用性、和新颖性的特征。
�发现模式的可视化:
这种原语述及发现的模式应该被显示出来。
为了使数据挖掘能有效地将知识传给用户,数据挖掘系统应该能将发现的各种形式的模式展示出来,正如规则、表格、饼或条形图、决策树、立方体或其它视觉的表示。
1.41.13描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:
不耦合、松散耦合、半紧耦合和紧密耦合。
你认为哪种方法最流行,为什么?
解答:
数据挖掘系统和数据库或数据仓库系统的集成的层次的差别如下
�不耦合:
数据挖掘系统用像平面文件这样的原始资料获得被挖掘的原始数据集,因为没有数据库系统或数据仓库系统的任何功能被作为处理过程的一部分执行。
因此,这种构架是一种糟糕的设计。
�松散耦合:
数据挖掘系统不与数据库或数据仓库集成,除了使用被挖掘的初始数据集的源数据和存储挖掘结果。
这样,这种构架能得到数据库和数据仓库提供的灵活、高效、和特征的优点。
但是,在大量的数据集中,由松散耦合得到高可测性和良好的性能是非常困难的,因为许多这种系统是基于内存的。
�半紧密耦合:
一些数据挖掘原语,如聚合、分类、或统计功能的预计算,可在数据库或数据仓库系统有效的执行,以便数据挖掘系统在挖掘-查询过程的应用。
另外,一些经常用到的中间挖掘结果能被预计算并存储到数据库或数据仓库系统中,从而增强了数据挖掘系统的性能。
�紧密耦合:
数据库或数据仓库系统被完全整合成数据挖掘系统的一部份,并且因此提供了优化的数据查询处理。
这样的话,数据挖掘子系统被视为一个信息系统的功能组件。
这是一中高度期望的结构,因为它有利于数据挖掘功能、高系统性能和集成信息处理环境的有效实现。
从以上提供的体系结构的描述看,紧密耦合是最优的,没有值得顾虑的技术和执行问题。
但紧密耦合系统所需的大量技术基础结构仍然在发展变化,其实现并非易事。
因此,目前最流行的体系结构仍是半紧密耦
合,因为它是松散耦合和紧密耦合的折中。
第2章数据预处理
2.2假设给定的数据集的值已经分组为区间。
区间和对应的频率如下。
年龄
频率
1~5
200
5~15
450
15~20
300
20~50
1500
50~80
700
80~110
44
计算数据的近似中位数值。
2.4假定用于分析的数据包含属性age。
数据元组的age值(以递增序)是:
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)该数据的均值是什么?
中位数是什么?
(b)该数据的众数是什么?
讨论数据的峰(即双峰、三峰等)。
(c)数据的中列数是什么?
(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?
(e)给出数据的五数概括。
(f)画出数据的盒图。
(g)分位数—分位数图与分位数图的不同之处是什么?
(g)分位数—分位数图与分位数图的不同之处是什么?
分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。
这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。
但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。
两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。
一条线(y=x)可画到图中,以增加图像的信息。
落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。
反之,对落在该线以下的点则低。
2.7使用习题2.4给出的age数据回答下列问题:
(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3。
解释你的步骤。
评述对于给定的数据,该技术的效果。
(b)如何确定数据中的离群点?
(c)对于数据光滑,还有哪些其他方法?
答:
(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3。
解释你的步骤。
评述对于给定的数据,该技术的效果。
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
�步骤1:
对数据排序。
(因为数据已被排序,所以此时不需要该步骤。
)
�步骤2:
将数据划分到大小为3的等频箱中。
箱1:
13,15,16箱2:
16,19,20箱3:
20,21,22
箱4:
22,25,25箱5:
25,25,30箱6:
33,33,35
箱7:
35,35,35箱8:
36,40,45箱9:
46,52,70
�步骤3:
计算每个等频箱的算数均值。
�步骤4:
用各箱计算出的算数均值替换每箱中的每个值。
箱1:
44/3,44/3,44/3箱2:
55/3,55/3,55/3箱3:
21,21,21
箱4:
24,24,24箱5:
80/3,80/3,80/3箱6:
101/3,101/3,101/3
箱7:
35,35,35箱8:
121/3,121/3,121/3箱9:
56,56,56
(b)如何确定数据中的离群点?
聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。
落到簇的集外的值可以被视为离群点。
作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。
这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。
(c)对于数据光滑,还有哪些其他方法?
其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。
作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。
除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。
分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。
2.12如下规范化方法的值域是什么?
(a)min-max规范化。
(b)z-score规范化。
(c)小数定标规范化。
答:
(a)min-max规范化。
值域是[new_min,new_max]。
(b)(b)z-score规化。
值域是[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能的数据集的值域是(-∞,+∞)。
(c)小数定标规范化
值域是(-1.0,1.0)。
2.12使用习题2.4给出的age数据,回答以下问题:
(a)使用min-max规范化将age值35变换到[0.0,1.0]区间。
(b)使用z-score规范化变换age值35,其中age的标准差为12.94岁。
(c)使用小数定标规范化变换age值35。
(d)对于给定的数据,你愿意使用哪种方法?
陈述你的理由
2.14假设12个销售价格记录组已经排序如下:
5,10,11,13,15,35,50,55,72,92,204,215。
使用如下每种方法将其划分成三个箱。
(a)等频(等深)划分。
(b)等宽划分。
(c)聚类。
答:
2.15使用习题2.4给出的age数据,
(a)画出一个等宽为10的等宽直方图;
(b)为如下每种抽样技术勾画例子:
SRSWOR,SRSWR,聚类抽样,分层抽样。
使用大小为5的样本和层“青年”,“中年”和“老年”。
解答:
(b)为如下每种抽样技术勾画例子:
SRSWOR,SRSWR,聚类抽样,分层
抽样。
使用大小为5的样本和层“青年”,“中年”和“老年”。
元组:
第3章数据仓库与OLAP技术概述
3.4假定BigUniversity的数据仓库包含如下4个维:
student(student_name,area_id,major,status,university),course(course_name,department),semester(semester,year)和instructor(dept,rank);2个度量:
count和avg_grade。
在最低概念层,度量avg_grade存放学生的实际课程成绩。
在较高概念层,avg_grade存放给定组合的平均成绩。
(a)为该数据仓库画出雪花形模式图。
(b)(b)由基本方体[student,course,semester,instructor]开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。
(c)如果每维有5层(包括all),如“student 解答: a)为该数据仓库画出雪花形模式图。 雪花模式如图所示。 b)由基本方体[student,course,semester,instructor]开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。 这些特殊的联机分析处理(OLAP)操作有: i.沿课程(course)维从course_id“上卷”到department。 ii.沿学生(student)维从student_id“上卷”到university。 iii.取department=“CS”和university=“BigUniversity”,沿课程(course)维和学生(student)维切片。 iv.沿学生(student)维从university下钻到student_name。 c)如果每维有5层(包括all),如“student 这个立方体将包含54=625个方体 3.2 3.3 第四章数据立方体计算与数据泛化 4.3题4.12考虑下面的多特征立方体查询: 按{item,region,month}的所有子集分组,对每组找出2004年的最小货架寿命,并对价格低于100美元、货架寿命在最小货架寿命的1.25~1.5倍之间的元组找出总销售额部分。 a)画出该查询的多特征立方体图。 b)用扩充的SQL表示该查询。 c)这是一个分布式多特征立方体吗? 为什么? 解答: (a)画出该查询的多特征立方体图。 R0→R1(≥1.25*min(shelf)and≤1.5*min(shelf))(b)用扩充的SQL表示该查询。 Selectitem,region,month,Min(shelf),SUM(R1) FromPurchase Whereyear=2004 cubebyitem,region,month: R1 suchthatR1.shelf≥1.25*MIN(Shelf)and(R1.Shelf≤1.5*MIN(Shelf)and R1.Price<100 (c)这是一个分布式多特征立方体吗? 为什么? 这不是一个分布多特征立方体,因为在“suchthat”语句中采用了“≤”条件。 第五章 5.3数据库有5个事物。 设min_sup=60%,min_conf=80。 TID购买的商品T100{M,O,N,K,E,Y} T200{D,O,N,K,E,Y}T300{M,A,K,E} T400{M,U,C,K,Y} T500{C,O,O,K,I,E} a)分别使用Apriori和FP增长算法找出所有的频繁项集。 比较两种挖 掘过程的效率。 b)列举所有与下面的的元规则匹配的强关联规则(给出支持度s和置信度c),其中,X是代表顾客的变量,item是表示项的变量(如“A”、“B”等): ∀x∈transaction,buys(X,item1)∧buys(X,item2)⇒buys(X,item3)[s,c] 解答: (a)分别使用Apriori和FP增长算法找出所有的频繁项集。 比较两种挖掘过程的效率。 Apriori算法: 由于只有5次购买事件,所以绝对支持度是5×min_sup=3。 效率比较: Apriori算法的计算过程必须对数据库作多次扫描,而FP-增长算 法在构造过程中只需扫描一次数据库,再加上初始时为确定支持度递减排序的一次扫描,共计只需两次扫描。 由于在Apriori算法中的自身连接过程产生候选项集,候选项集产生的计算代价非常高,而FP-增长算法不需产生任何候选项。 (b)列举所有与下面的的元规则匹配的强关联规则(给出支持度s和置信度c),其中,X是代表顾客的变量,item是表示项的变量(如“A”、“B”等): ∀x∈transaction,buys(X,“K”)∧buys(X,“O”)⇒buys(X,“E”)[s=0.6,c=1] ∀x∈transaction,buys(X,“E”)∧buys(X,“E”)⇒buys(X,“K”)[s=0.6,c=1] 或也可表示为 K,O→E[s(support)=0.6或60%,c(confidence)=1或100%]E,O→K[s(support)=0.6或60%,c(confidence)=1或100%] 第六章 6.11下表由雇员数据库的训练数据组成。 数据已泛化。 例如,age“31…35”表示年龄在31~35之间。 对于给定的行,count表示department,status,age和salary在该行具有给定值的元 a)如何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)的count? b)使用修改过的算法,构造给定数据的决策树。 c)给定一个数据元组,它的属性department,age和salary的值分别为“systems”,“26…30”,和“46K…50K”。 该元组status的朴素贝叶斯分类是什么? d)为给定的数据设计一个多层前馈神经网络。 标记输入和输出层节点。 e)使用上面得到的多层前馈神经网络,给定训练实例(sales,senior,31…35,46K…50K),给出后向传播算法一次迭代后的权重值。 指出你使用的初始权重和偏倚以及学习率。 解答: (a)如何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)的count? (b)使用修改过的算法,构造给定数据的决策树。 (c)给定一个数据元组,它的属性department,age和salary的值分别为“systems”,“26…30”,和“46K…50K”。 该元组status的朴素贝叶斯分类是什么? 解一: 设元组的各个属性之间相互独立,所以先求每个属性的类条件概率: P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;P(26-30|junior)=(40+3+6)/113=49/113; P(46K-50K|junior)=(20+3)/113=23/113; ∵X=(department=system,age=26…30,salary=46K…50K); ∴P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-50K|junior) =23×49×23/1133=25921/=0.01796; P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;P(26-30|senior)=(0)/53=0; P(46K-50K|senior)=(30+10)/52=40/52; ∵X=(department=system,age=26…30,salary=46K…50K); ∴P(X|senior)=P(systems|senior)P(26-30|senior)P(46K-50K|senior)=0; ∵P(junior)=113/165=0.68; ∵P(senior)=52/165=0.32; ∴P(X|junior)P(junior)=0.01796×0.68=0.>0=0=P(X|senior)P(senior); 所以: 朴素贝叶斯分类器将X分到junior类。 解二: 设元组的各属性之间不独立,其联合概率不能写成份量相乘的形式。 所以已知: X=(department=system,age=26…30,salary=46K…50K),元组总数为: 30+40+40+20+5+3+3+10+4+4+6=165。 先验概率: 当status=senior时,元组总数为: 30+5+3+10+4=52,P(senior)=52/165=0.32; 当status=junior时,元组总数为: 40+40+20+3+4+6=113,P(junior)=113/165=0.68; 因为status=senior状态没有对应的age=26…30区间,所以: P(X|senior)=0; 因为status=junior状态对应的partment=systems、age=26…30区间的总元组数为: 3,所以: P(X|junior)=3/113; 因为: P(X|junior)P(junior)=3/113×113/165=0.018>0=P(X|senior)P(senior); 所以: 朴素贝叶斯分类器将X分到junior类。 (d)为给定的数据设计一个多层前馈神经网络。 标记输入和输出层节点。 (e)使用上面得到的多层前馈神经网络,给定训练实例(sales,senior,31…35,46K…50K),给出后向传播算法一次迭代后的权重值。 指出你使用的初始权重和偏倚以及学习率。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 课后 习题 答案 范文