书签分享收藏举报版权申诉 / 31

立即下载加入VIP,免费下载

当前位置：首页 > 人文社科 > 视频讲堂 > 数据挖掘概念与技术第三版部分习题答案.docx

数据挖掘概念与技术第三版部分习题答案.docx

文档编号：29376188
上传时间：2023-07-22
格式：DOCX
页数：31
大小：949.72KB

《数据挖掘概念与技术第三版部分习题答案.docx》由会员分享，可在线阅读，更多相关《数据挖掘概念与技术第三版部分习题答案.docx（31页珍藏版）》请在冰豆网上搜索。

数据挖掘概念与技术第三版部分习题答案.docx

数据挖掘概念与技术第三版部分习题答案

１。

4数据仓库和数据库有何不同？

有哪些相似之处?

答:

区别:

数据仓库是面向主题的，集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据，采用ER数据模型.

相似：

它们都为数据挖掘提供了源数据，都是数据的组合.

翻译结果重试

抱歉，系统响应超时，请稍后再试

∙支持中文、英文免费在线翻译

∙支持网页翻译,在输入框输入网页地址即可

∙提供一键清空、复制功能、支持双语对照查看，使您体验更加流畅

1。

３定义下列数据挖掘功能：

特征化、区分、关联和相关分析、预测聚类和演变分析.使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答：

特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩（ＧPA：

Gradepｏintavｅｒｓgｅ）的信息，

还有所修的课程的最大数量。

􀁺　区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高ＧＰA的学生的一般特性可被用来与具有低ＧPA的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GＰA的学生的75％是四年级计算机科学专业的学生,而具有低ＧPA的学生的65%不是。

􀁺关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为：

maｊｏr（X，“coｍpｕtiｎg　sｃｉence”）⇒ｏwns（X，“ｐersｏｎalcompuｔｅｒ"）

[suｐｐorｔ=１2%，　ｃonfidence=98％]其中,X　是一个表示学生的变量。

这个规则指出正在学习的学生，12%

（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98％（置信度，或确定度）。

􀁺分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能）,而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具:

分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值.

􀁺聚类分析的数据对象不考虑已知的类标号.对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。

形成的每一簇可以被看作一个对象类。

聚类也便于分类法组织形式，将观测组织成类分

层结构，把类似的事件组织在一起。

􀁺数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析

2．3假设给定的数据集的值已经分组为区间。

区间和对应的频率如下.

―――――――――――――――――――――――――――――――――――――

　　　　　　年龄　　　频率

―――――――――――――――――――――――――――――――――――――

　　　　　　　１～５　　　　　　　20０　

　　　　　　　　　5～15　　　　　　　450

　　　　　　　15~20　　　　　　　　　3０0

　　　2０～50　　　　　　　　　15０0

　　　　　　　５0~80　　　　　　　　　　　　　700

　　　　８0~110　　　　　　　　44

―――――――――――――――――――――――――――――――――――――

计算数据的近似中位数值.

　　解答：

先判定中位数区间：

N=200+４50＋300+15００+700+44＝3194；Ｎ/2=１597

　　　　　∵200+450+３0０=9５0<１5９７＜2４50=９50+15０0;

　　　　　　　　　∴20～5０　对应中位数区间。

∴ｍｅdiaｎ=３2.97岁.

2．2假定用于分析的数据包含属性agｅ。

数据元组的age　值（以递增序）是：

1３,１５,１6,16，１９，2０,２０，21，22,22,２5，25，25，２５,３0,3３,33,35，35，3５,35，36，40,４5，４6,５2,７0.

答:

（a）该数据的均值是什么?

中位数是什么?

均值=（13+１5+1６＋1６+19＋20+２0+21+２2+2２+25+２5+25+2５+30+33+33+35+３5+３5＋３5+36+４0+4５＋4６+52＋7０）/２７

＝29.96

中位数应是第14个,即x1４=２５=Q2。

（b）该数据的众数是什么?

讨论数据的峰（即双峰、三峰等）。

这个数集的众数有两个:

2５和３5,发生在同样最高的频率处，因此是双峰众数.

（c）　数据的中列数是什么?

数据的中列数是最大数和最小数的均值。

即：

midraｎｇe=（7０+1３）/2=４1。

5。

（ｄ）你能（粗略地）找出数据的第一个四分位数（Q1）和第三个四分位数（Q３）吗？

数据集的第一个四分位数应发生在２5％处,即在（N＋1）/4=（27＋1）/4=7处.所以：

Q1＝20。

而第三个四分位数应发生在75％处，即在３×（N+１）/4=21　处.所以:

Ｑ3＝35

（e）给出数据的五数概括。

一个数据集的分布的5　数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。

它给出了分布形状良好的汇总+并且这些数据是：

１３、20、25、3５、７0。

（f）画出数据的盒图。

（g）　分位数—分位数图与分位数图的不同之处是什么？

分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。

这样,他可以展示所有数的分位数信息，而为独立变量测得的值（纵轴）相对于它们的分位数（横轴）被描绘出来。

但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数.两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。

一条线（ｙ=x）可画到图中＋以增加图像的信息.落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高.反之，对落在该线以下的点则低。

２．4假设医院检测随机选择的18个成年人年龄和身体脂肪数据，得到如下结果：

（a）计算年龄和脂肪百分比的均值、中位数和标准差.

年龄均值=（２3+2３+２7+27+３9+41+４7+４９+50+　５2＋54＋5４+５6＋57+58+5８+60+61）／18=836/１８＝4６．44,

中位数=（5０+52）/２=51,

标准差=方差的平方根=开根号（1/n［∑（Xi）2-1/n（∑Xi）2]）=开根号１/18［2970.４４]=1２。

8５。

脂肪百分比均值=28.7８，中位数=30。

7，标准差=　8．99。

（ｂ）绘制年龄和脂肪百分比的盒图

（ｃ）根据这两个属性,绘制散布图，各q-q图

　　　q—ｑ图　　　　散布图

（ｄ）根据z-ｓcore规范化来规范化这两个属性（P46）

（e）计算相关系数（皮尔逊积矩系数）。

　这两个变量是正相关还是负相关?

ra,b=∑（ai－A）（bi－Ｂ）/NσAσB=（∑（aibi）－ＮAB）/ＮσAσB＝（∑（aibi）-１８＊46。

44*28。

78）/18*１２．８5＊8。

99=0。

８2

相关系数是0.82。

变量呈正相关.

３。

３使用习题２．4给出的aｇｅ　数据回答下列问题:

　　（a）使用分箱均值光滑对以上数据进行光滑,箱的深度为3。

解释你的步骤。

评述对于给定的数据,该技术的效果。

　　（b）　如何确定数据中的离群点？

　（c）　对于数据光滑，还有哪些其他方法？

解答:

　　（a）　使用分箱均值光滑对以上数据进行光滑，箱的深度为3。

解释你的步骤。

评述对于给定的数据，该技术的效果。

　　用箱深度为３的分箱均值光滑对以上数据进行光滑需要以下步骤：

　　　步骤１：

对数据排序。

（因为数据已被排序，所以此时不需要该步骤。

）

　步骤2：

将数据划分到大小为3的等频箱中。

　　　箱1:

１3,15，1６　　　箱2：

1６，19,2０　　箱3：

20，21，22

　箱4：

22,2５，2５　　　箱5:

2５,25，3０　　箱6：

3３,33，35　

　箱7：

35，３5，３5　　　箱8：

36,４0，45　　箱9:

46,52，７0

　　步骤3：

计算每个等频箱的算数均值。

　　步骤4：

用各箱计算出的算数均值替换每箱中的每个值。

　箱1:

44/3，４4/3，44/３箱２：

55/３,5５/3,５５/３　　　箱3：

21,21,21

　箱4：

24，24,2４箱5:

　80/3　，80/3,　80/3箱6：

１０1/３，101／3，101/3

　　箱7：

35，3５,35　　　箱８：

121/3，12１/3，121/3　　箱9：

56，56,56

　　　（ｂ）如何确定数据中的离群点？

　　聚类的方法可用来将相似的点分成组或“簇”，并检测离群点。

落到簇的集外的值可以被视为离群点。

作为选择,一种人机结合的检测可被采用，而计算机用一种事先决定的数据分布来区分可能的离群点。

这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。

　（c）对于数据光滑，还有哪些其他方法？

　　　其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。

作为选择，等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。

除了分箱方法外,可以使用回归技术拟合成函数来光滑数据，如通过线性或多线性回归。

分类技术也能被用来对概念分层，这是通过将低级概念上卷到高级概念来光滑数据。

３。

５如下规范化方法的值域是什么？

答：

（a）ｍiｎ—ｍaｘ规范化。

值域是[ｎew_mｉn，new_max]。

（b）　z－scｏre　规范化。

值域是［（ｏｌd_min－mean）/σ，（ｏld_mａx－ｍｅan）/σ］,总的来说,对于所有可能的数据集的值域是（－∞，+∞）.

（c）　小数定标规范化.

值域是（－1。

0，1.０）。

3。

7使用习题　2。

4　给出的age数据，回答以下问题:

（a）使用min-ｍaｘ规范化将age值３5变换到［0.０,1。

0］区间。

（b）使用ｚ－score规范化变换age值3５，其中ａge的标准差为12。

94岁。

（c）　　使用小数定标规范化变换　age值３5。

（d）对于给定的数据，你愿意使用哪种方法?

陈述你的理由.

解答：

3.9假设　12个销售价格记录组已经排序如下:

5，1０，11,１3，15,３5，

50，５5，72,92，２０4,21５。

使用如下每种方法将其划分成三个箱。

（ａ）　等频（等深）划分。

（b）　等宽划分。

（c）聚类.解答：

（a）等频（等深）划分。

bin1

5，１0，11，１3

bin１

１5,35,50，５5

biｎ１　72,９1，204,２15

（ｂ）等宽划分。

每个区间的宽度是:

（215-５）/3=７0

ｂｉn1

５,10，１1，13，15，3５，50，5５,72

bin1

91

ｂin1

204,2１５

（c）　聚类。

我们可以使用一种简单的聚类技术：

用　2　个最大的间隙将数据分成　3个箱。

ｂｉn1

5,10,11,13，１5

biｎ1

35,50，55，7２,9１

bin1

20４，２1５

3。

11使用习题　2．４给出的aｇe数据,

（ａ）　画出一个等宽为1０的等宽直方图；

（b）　为如下每种抽样技术勾画例子：

SRSWＯR,SＲSＷＲ,聚类抽样，分层抽样。

使用大小为5　的样本和层“青年”，“中年"和“老年”。

解答：

（a）画出一个等宽为　10的等宽直方图;

8

７

6

5

4

３

2

1

０

15ﻩ25　ﻩ35４5５5　６5

（ｂ）为如下每种抽样技术勾画例子：

SＲSWOＲ，ＳRSWR　，聚类抽样，分层抽样.使用大小为5的样本和层“青年”,“中年"和“老年”。

元组：

T1

1３

Ｔ10

２2

T19

35

T２

１5

T11

25

Ｔ2０

35

Ｔ3

16

T1２

２5

T　２１

35

T4

16

T13

25

T２２

3６

T5

19

Ｔ14

25

T２3

40

T6

2０

T１５

30

Ｔ24

4５

T７

20

T１6

33

Ｔ25

４6

T8

21

T　17

33

T２６

52

Ｔ9

22

T18

35

T27

7０

SRSWOR　和　SRSWR:

不是同次的随机抽样结果可以不同,但前者因无放回

所以不能有相同的元组。

SRSWOR

（n=5）

SRSWＲ

（n=５）

T4

1６

Ｔ７

20

T６

2０

Ｔ７

2０

T　10

22

T　2０

3５

T1１

２5

T２１

35

T26

５2

T２5

4６

聚类抽样:

设起始聚类共有6　类,可抽其中的ｍ类。

Sample1

Sample2

Saｍple３

Ｓaｍple4

Saｍｐｌｅ5

Ｓamｐle６

T　1

13

T6

20

Ｔ　１1

2５

Ｔ16

33

T　21

35

T　26

52

T2

15

T7

2０

T12

2５

T１７

33

Ｔ22

36

T　27

７０

T３

16

T８

21

T　13

2５

Ｔ18

35

T　２3

4０

T　４

１6

Ｔ９

２2

Ｔ14

2５

T19

35

T２4

45

T5

１9

T10

22

T１5

３０

T　20

35

T25

46

Ｓａｍple2Ｓaｍple５

Ｔ6

20

Ｔ2１

35

Ｔ7

20

Ｔ２2

3６

T　8

21

T23

40

T９

22

T24

45

T　１０

22

T25

46

T１

13

ｙoｕng

T10

22

youｎg

T　19

３5

middlｅａge

Ｔ2

15

youｎｇ

Ｔ11

25

yoｕｎg

T　20

３5

miｄdｌeage

Ｔ3

1６

ｙoung

Ｔ１2

２５

yｏung

T　21

３５

mｉddｌeaｇe

T4

16

yoｕｎｇ

T　1３

２５

young

Ｔ22

３６

middｌeage

T5

1９

ｙoｕng

T14

２5

yｏung

T2３

４0

mｉdｄleａｇｅ

T６

2０

yoｕng

T１5

３０

middlｅａge

T　２4

45

miｄdｌｅagｅ

T7

２0

young

Ｔ　１６

3３

midｄle　age

Ｔ２5

46

middleage

Ｔ8

2１

young

T１7

３3

mｉddｌeagｅ

T26

52

middlｅaｇe

T９

22

young

T１8

35

ｍｉddlｅage

T27

7０

senior

T４

1６

youｎg

T１2

25

youｎg

T　17

33

mｉdｄｌｅagｅ

T　２５

46

midｄleage

T27

7０

Ｓｅnior

４.3假定数据仓库包含三维:

time，doctor和ｐatｉｅnt；和两个度量:

cｏunt和charｇe;其中，cｈarｇe是医生对病人一次诊治的收费。

（ａ）列举三种流行的数据仓库建模模式

答：

三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。

（b）使用（a）列举的模式之一,画出上面的数据仓库的模式图

　　　　　　　　　　数据仓库的星形模型

（C）由基本方体[day，dｏｃtor,patieｎｔ］开始，为列出２004年每位医生的收费总数，应当执行哪些OLAＰ操作？

沿课程（ｃouｒsｅ）维从ｃourse＿ｉd“上卷”到ｄepartｍent。

●沿时间（time）维从day“上卷”到　yeaｒ。

●取ｔime=2004,对维　tiｍe作“切片"操作

●沿病人（patienｔ）维从个别病人“上卷”到全部病人。

（d）为得到同样结果,写一个SQＬ查询。

假定数据存放在关系数据库中，其模式为

fｅe（day，montｈ，ｙear,doctor，hospital，patient，counｔ，ｃhａｒge）。

答：

SQL查询语句如下：

selｅct　ｄoｃｔor,ＳUM（chａrｇe）

fｒomfee

wheｒeyｅaｒ=２0０4

ｇｒouｐｂｙ　docｔor

4．４　假定BiｇUniｖｅrｓity的数据仓库包含如下4　个维：

studenｔ（ｓtｕdeｎt_name，

aｒeａ_id,ｍajor，　staｔｕs，　　　　univerｓｉtｙ）　　，　ｃoursｅ（couｒsｅ＿nａｍｅ，　　deｐartment），semester（sｅmｅｓｔｅr，yｅar）和ｉnstrucｔor（ｄepｔ，　rａnk）;2　个度量:

counｔ　和avｇ_gｒａde。

在最低概念层，度量　ａvg_graｄe　存放学生的实际课程成绩。

在较高概念层，avg_grade　存放给定组合的平均成绩。

（a）　为该数据仓库画出雪花形模式图。

（ｂ）由基本方体［student,ｃoursｅ，ｓemeｓter,inｓｔructor］　开　始，为列出BigUnｉvｅrsｉtｙ每个学生的CS课程的平均成绩，应当使用哪些特殊的ＯLＡP　操作.

（c）　　如果每维有5　层（包括ａll），如“ｓtudenｔ〈maｊoｒ〈sｔatus〈universitｙ＜aｌl”，该立方体包含多少方体?

解答：

a）　为该数据仓库画出雪花形模式图。

雪花模式如图所示。

b）　　由基本方体［sｔudenｔ，couｒｓe，ｓemeｓter,　ｉｎstrｕｃtｏｒ]开　始，　为列出BiｇUｎiverｓiｔｙ每个学生的CS课程的平均成绩，应当使用哪些特殊的OLAP操作。

这些特殊的联机分析处理（OLＡP）操作有:

ｉ．沿课程（coｕrse）维从　cｏurse＿ｉd“上卷"到deｐａrｔmeｎt。

iｉ.沿学生（sｔuｄent）维从student_ｉd“上卷”到uniｖersity　。

iｉｉ.ﻩ取dｅpａrtmｅnｔ=“CＳ"和　uｎiｖｅrｓity=“BiｇUniversity”，沿课程

（couｒｓe）维和学生（studｅnｔ）维切片.

iv.沿学生（ｓtudｅｎt）维从university下钻到stｕｄent_nａmｅ。

c）　如果每维有5层（包括　ａll），如“ｓtudent＜major<ｓｔaｔus＜unｉversity

这个立方体将包含５4=6２5个方体。

４．5假定数据仓库包含４维：

daｔe，speｃｔａｔoｒ,　ｌｏcａtｉｏn,和game,和两个度量:

cｏunｔ和charge;其中,cｈａrgｅ是观众在给定的日期观看节目的付费。

观众可以是学生、成年人或老年人，每类观众有不同的收费标准。

（ａ）画出该数据仓库的星形模式图。

答：

　星形模式图如下:

b。

由基本方体［dａte，spectaｔor，locaｔiｏｎ,gaｍe]开始，为列出２０04年学生观众在GM_Plａｃe的总付费,应执行的ＯLＡP操作:

●沿时间（daｔe）维从date_id“上卷”到year。

●沿时间（gamｅ）维从　ｇame_id“上卷"到全部。

●沿时间（ｌocａtiｏｎ）维从loｃａｔiｏn_id“上卷"到locａｔion_naｍe。

●沿时间（spectａtｏr）维从sｐｅctator_ｉd“上卷”到sｔatus。

●以ｓtatus＝"stuｄｅnts”，locatioｎnaｍｅ=＂GＭＰｌａcｅ＂andyeａr＝２0０4作转轴操作

4。

6数据仓库可以用星形模式或雪花模式建模。

简略讨论这两种模式的相似点和不同点，然后分析它们的相对做优、缺点。

哪种模式更实用，给出你观点并陈述你的理由。

　答：

星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。

它们主要的不同在于，雪花模式的维表可能是规范化形式,以便减少了冗余，这种表易于维护并节省存储空间.然而,与巨大的事实表相比，这种空间的节省可以忽略.此外，由于执行查询需要更多的连接操作,雪花形结构可能降低浏览的性能，这样,系统的性能可能相对的受到影响。

星型模式的优点是简单、这使得它更有效，但它需要更多的空间。

因此,只要空间的要求不是太大时，星形模式比雪花模式更好,因为通常效率比空间具有更高的优先级。

在工业上，有时可能将数据从一个雪花模式非规范化为星型模式以加快处理速度,另一种选择是保持雪花模式的维表，然后相同数据的当前用户折叠为星形。

4.９

4.１1

5。

15。

2

5。

４　假定基本方体有三维A，Ｂ，Ｃ,其单元数如下：

｜Ａ|=１0００００0,|Ｂ|=1０0,|Ｃ｜=1０00.假定每维均等地分块成10部分。

（a）假定每维只有一层，画出完整的立方体的格。

　　答：

完整的立方体的格如下图

（b）如果每个立方体单元存放一个４字节的度量,若立方体是稠密的,所计算的立方体有多大?

答：

所计算的立方体大小如下：

ａｌl：

1

A：

1，00０,０00；B:

1０0；　C：

1，　000；　小计：

1,001，100

AB:

　1，000，0０0*１００=１00,0０0，00０；BC：

1０0*1,０00=100，0００；AC：

1，０00，0００*1,０00＝１,000,000,000；

小计：

　1，100,１00，000

ABC:

1,000,００0＊１00＊1，0０0=100,０00，０00，００0

总和:

１+1，0０１，１00＋１，１00,1０0，000+100,000,0０0，0００=101，１01，101,1０1*　4=　40４，404，4０4,404字节

（C）指出空间需求量最小的立方

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘概念技术第三部分习题答案

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据挖掘概念与技术第三版部分习题答案.docx
链接地址：https://www.bdocx.com/doc/29376188.html

数据挖掘概念与技术第三版部分习题答案.docx

热门标签