数据挖掘概念与技术第三版部分习题答案.docx
- 文档编号:29376188
- 上传时间:2023-07-22
- 格式:DOCX
- 页数:31
- 大小:949.72KB
数据挖掘概念与技术第三版部分习题答案.docx
《数据挖掘概念与技术第三版部分习题答案.docx》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术第三版部分习题答案.docx(31页珍藏版)》请在冰豆网上搜索。
数据挖掘概念与技术第三版部分习题答案
1。
4数据仓库和数据库有何不同?
有哪些相似之处?
答:
区别:
数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。
它用表组织数据,采用ER数据模型.
相似:
它们都为数据挖掘提供了源数据,都是数据的组合.
翻译结果重试
抱歉,系统响应超时,请稍后再试
∙支持中文、英文免费在线翻译
∙支持网页翻译,在输入框输入网页地址即可
∙提供一键清空、复制功能、支持双语对照查看,使您体验更加流畅
1。
3定义下列数据挖掘功能:
特征化、区分、关联和相关分析、预测聚类和演变分析.使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
答:
特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:
Gradepointaversge)的信息,
还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA的学生的75%是四年级计算机科学专业的学生,而具有低GPA的学生的65%不是。
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为:
major(X,“computing science”)⇒owns(X,“personalcomputer")
[support=12%, confidence=98%]其中,X 是一个表示学生的变量。
这个规则指出正在学习的学生,12%
(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
它们的相似性是他们都是预测的工具:
分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值.
聚类分析的数据对象不考虑已知的类标号.对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。
形成的每一簇可以被看作一个对象类。
聚类也便于分类法组织形式,将观测组织成类分
层结构,把类似的事件组织在一起。
数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析
2.3假设给定的数据集的值已经分组为区间。
区间和对应的频率如下.
―――――――――――――――――――――――――――――――――――――
年龄 频率
―――――――――――――――――――――――――――――――――――――
1~5 200
5~15 450
15~20 300
20~50 1500
50~80 700
80~110 44
―――――――――――――――――――――――――――――――――――――
计算数据的近似中位数值.
解答:
先判定中位数区间:
N=200+450+300+1500+700+44=3194;N/2=1597
∵200+450+300=950<1597<2450=950+1500;
∴20~50 对应中位数区间。
∴median=32.97岁.
2.2假定用于分析的数据包含属性age。
数据元组的age 值(以递增序)是:
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.
答:
(a)该数据的均值是什么?
中位数是什么?
均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27
=29.96
中位数应是第14个,即x14=25=Q2。
(b)该数据的众数是什么?
讨论数据的峰(即双峰、三峰等)。
这个数集的众数有两个:
25和35,发生在同样最高的频率处,因此是双峰众数.
(c) 数据的中列数是什么?
数据的中列数是最大数和最小数的均值。
即:
midrange=(70+13)/2=41。
5。
(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?
数据集的第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7处.所以:
Q1=20。
而第三个四分位数应发生在75%处,即在3×(N+1)/4=21 处.所以:
Q3=35
(e)给出数据的五数概括。
一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。
它给出了分布形状良好的汇总+并且这些数据是:
13、20、25、35、70。
(f)画出数据的盒图。
(g) 分位数—分位数图与分位数图的不同之处是什么?
分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。
这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。
但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数.两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。
一条线(y=x)可画到图中+以增加图像的信息.落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高.反之,对落在该线以下的点则低。
2.4假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:
(a)计算年龄和脂肪百分比的均值、中位数和标准差.
年龄均值=(23+23+27+27+39+41+47+49+50+ 52+54+54+56+57+58+58+60+61)/18=836/18=46.44,
中位数=(50+52)/2=51,
标准差=方差的平方根=开根号(1/n[∑(Xi)2-1/n(∑Xi)2])=开根号1/18[2970.44]=12。
85。
脂肪百分比均值=28.78,中位数=30。
7,标准差= 8.99。
(b)绘制年龄和脂肪百分比的盒图
(c)根据这两个属性,绘制散布图,各q-q图
q—q图 散布图
(d)根据z-score规范化来规范化这两个属性(P46)
(e)计算相关系数(皮尔逊积矩系数)。
这两个变量是正相关还是负相关?
ra,b=∑(ai-A)(bi-B)/NσAσB=(∑(aibi)-NAB)/NσAσB=(∑(aibi)-18*46。
44*28。
78)/18*12.85*8。
99=0。
82
相关系数是0.82。
变量呈正相关.
3。
3使用习题2.4给出的age 数据回答下列问题:
(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3。
解释你的步骤。
评述对于给定的数据,该技术的效果。
(b) 如何确定数据中的离群点?
(c) 对于数据光滑,还有哪些其他方法?
解答:
(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。
解释你的步骤。
评述对于给定的数据,该技术的效果。
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
步骤1:
对数据排序。
(因为数据已被排序,所以此时不需要该步骤。
)
步骤2:
将数据划分到大小为3的等频箱中。
箱1:
13,15,16 箱2:
16,19,20 箱3:
20,21,22
箱4:
22,25,25 箱5:
25,25,30 箱6:
33,33,35
箱7:
35,35,35 箱8:
36,40,45 箱9:
46,52,70
步骤3:
计算每个等频箱的算数均值。
步骤4:
用各箱计算出的算数均值替换每箱中的每个值。
箱1:
44/3,44/3,44/3箱2:
55/3,55/3,55/3 箱3:
21,21,21
箱4:
24,24,24箱5:
80/3 ,80/3, 80/3箱6:
101/3,101/3,101/3
箱7:
35,35,35 箱8:
121/3,121/3,121/3 箱9:
56,56,56
(b)如何确定数据中的离群点?
聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。
落到簇的集外的值可以被视为离群点。
作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。
这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。
(c)对于数据光滑,还有哪些其他方法?
其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。
作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。
除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。
分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。
3。
5如下规范化方法的值域是什么?
答:
(a)min—max规范化。
值域是[new_min,new_max]。
(b) z-score 规范化。
值域是[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能的数据集的值域是(-∞,+∞).
(c) 小数定标规范化.
值域是(-1。
0,1.0)。
3。
7使用习题 2。
4 给出的age数据,回答以下问题:
(a)使用min-max规范化将age值35变换到[0.0,1。
0]区间。
(b)使用z-score规范化变换age值35,其中age的标准差为12。
94岁。
(c) 使用小数定标规范化变换 age值35。
(d)对于给定的数据,你愿意使用哪种方法?
陈述你的理由.
解答:
3.9假设 12个销售价格记录组已经排序如下:
5,10,11,13,15,35,
50,55,72,92,204,215。
使用如下每种方法将其划分成三个箱。
(a) 等频(等深)划分。
(b) 等宽划分。
(c)聚类.解答:
(a)等频(等深)划分。
bin1
5,10,11,13
bin1
15,35,50,55
bin1 72,91,204,215
(b)等宽划分。
每个区间的宽度是:
(215-5)/3=70
bin1
5,10,11,13,15,35,50,55,72
bin1
91
bin1
204,215
(c) 聚类。
我们可以使用一种简单的聚类技术:
用 2 个最大的间隙将数据分成 3个箱。
bin1
5,10,11,13,15
bin1
35,50,55,72,91
bin1
204,215
3。
11使用习题 2.4给出的age数据,
(a) 画出一个等宽为10的等宽直方图;
(b) 为如下每种抽样技术勾画例子:
SRSWOR,SRSWR,聚类抽样,分层抽样。
使用大小为5 的样本和层“青年”,“中年"和“老年”。
解答:
(a)画出一个等宽为 10的等宽直方图;
8
7
6
5
4
3
2
1
0
15ﻩ25 ﻩ354555 65
(b)为如下每种抽样技术勾画例子:
SRSWOR,SRSWR ,聚类抽样,分层抽样.使用大小为5的样本和层“青年”,“中年"和“老年”。
元组:
T1
13
T10
22
T19
35
T2
15
T11
25
T20
35
T3
16
T12
25
T 21
35
T4
16
T13
25
T22
36
T5
19
T14
25
T23
40
T6
20
T15
30
T24
45
T7
20
T16
33
T25
46
T8
21
T 17
33
T26
52
T9
22
T18
35
T27
70
SRSWOR 和 SRSWR:
不是同次的随机抽样结果可以不同,但前者因无放回
所以不能有相同的元组。
SRSWOR
(n=5)
SRSWR
(n=5)
T4
16
T7
20
T6
20
T7
20
T 10
22
T 20
35
T11
25
T21
35
T26
52
T25
46
聚类抽样:
设起始聚类共有6 类,可抽其中的m类。
Sample1
Sample2
Sample3
Sample4
Sample5
Sample6
T 1
13
T6
20
T 11
25
T16
33
T 21
35
T 26
52
T2
15
T7
20
T12
25
T17
33
T22
36
T 27
70
T3
16
T8
21
T 13
25
T18
35
T 23
40
T 4
16
T9
22
T14
25
T19
35
T24
45
T5
19
T10
22
T15
30
T 20
35
T25
46
Sample2Sample5
T6
20
T21
35
T7
20
T22
36
T 8
21
T23
40
T9
22
T24
45
T 10
22
T25
46
T1
13
young
T10
22
young
T 19
35
middleage
T2
15
young
T11
25
young
T 20
35
middleage
T3
16
young
T12
25
young
T 21
35
middleage
T4
16
young
T 13
25
young
T22
36
middleage
T5
19
young
T14
25
young
T23
40
middleage
T6
20
young
T15
30
middleage
T 24
45
middleage
T7
20
young
T 16
33
middle age
T25
46
middleage
T8
21
young
T17
33
middleage
T26
52
middleage
T9
22
young
T18
35
middleage
T27
70
senior
T4
16
young
T12
25
young
T 17
33
middleage
T 25
46
middleage
T27
70
Senior
4.3假定数据仓库包含三维:
time,doctor和patient;和两个度量:
count和charge;其中,charge是医生对病人一次诊治的收费。
(a)列举三种流行的数据仓库建模模式
答:
三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。
(b)使用(a)列举的模式之一,画出上面的数据仓库的模式图
数据仓库的星形模型
(C)由基本方体[day,doctor,patient]开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP操作?
沿课程(course)维从course_id“上卷”到department。
●沿时间(time)维从day“上卷”到 year。
●取time=2004,对维 time作“切片"操作
●沿病人(patient)维从个别病人“上卷”到全部病人。
(d)为得到同样结果,写一个SQL查询。
假定数据存放在关系数据库中,其模式为
fee(day,month,year,doctor,hospital,patient,count,charge)。
答:
SQL查询语句如下:
select doctor,SUM(charge)
fromfee
whereyear=2004
groupby doctor
4.4 假定BigUniversity的数据仓库包含如下4 个维:
student(student_name,
area_id,major, status, university) , course(course_name, department),semester(semester,year)和instructor(dept, rank);2 个度量:
count 和avg_grade。
在最低概念层,度量 avg_grade 存放学生的实际课程成绩。
在较高概念层,avg_grade 存放给定组合的平均成绩。
(a) 为该数据仓库画出雪花形模式图。
(b)由基本方体[student,course,semester,instructor] 开 始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP 操作.
(c) 如果每维有5 层(包括all),如“student〈major〈status〈university<all”,该立方体包含多少方体?
解答:
a) 为该数据仓库画出雪花形模式图。
雪花模式如图所示。
b) 由基本方体[student,course,semester, instructor]开 始, 为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。
这些特殊的联机分析处理(OLAP)操作有:
i.沿课程(course)维从 course_id“上卷"到department。
ii.沿学生(student)维从student_id“上卷”到university 。
iii.ﻩ取department=“CS"和 university=“BigUniversity”,沿课程
(course)维和学生(student)维切片.
iv.沿学生(student)维从university下钻到student_name。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 第三 部分 习题 答案