数据挖掘导论习题答案中文版汇编.docx
- 文档编号:27158745
- 上传时间:2023-06-27
- 格式:DOCX
- 页数:169
- 大小:1.96MB
数据挖掘导论习题答案中文版汇编.docx
《数据挖掘导论习题答案中文版汇编.docx》由会员分享,可在线阅读,更多相关《数据挖掘导论习题答案中文版汇编.docx(169页珍藏版)》请在冰豆网上搜索。
数据挖掘导论习题答案中文版汇编
月生活费人数(频率)百分比
Beadwrks公司还组织各国的“芝自制饰品店”定期进行作品交流,体现东方女性聪慧的作品曾在其他国家大受欢迎;同样,自各国作品也曾无数次启发过中国姑娘们的灵感,这里更是创作的源泉。
(4)牌子响
(3)优惠多
3、消费“多样化”
随着社会经济、文化的飞跃发展,人们正从温饱型步入小康型,崇尚人性和时尚,不断塑造个性和魅力的现代文化价值观念,已成为人们的追求目标。
因此,顺应时代的饰品文化显示出强大的发展势头和越来越广的市场,从事饰品销售是有着广阔的市场空间。
手工艺品,它运用不同的材料,通过不同的方式,经过自己亲手动手制作。
看着自己亲自完成的作品时,感觉很不同哦。
不论是01年的丝带编织风铃,02年的管织幸运星,03年的十字绣,04年的星座手链,还是今年风靡一时的针织围巾等这些手工艺品都是陪伴女生长大的象征。
为此,这些多样化的作品制作对我们这一创业项目的今后的操作具有很大的启发作用。
4.WWW。
google。
com。
cn。
大学生政策2004年3月23日
图1-1大学生月生活费分布介绍数据挖掘
教师的解决方案手册
陈甘美华Pang-Ning
Michael教授
VipinKumar
版权所有
2006年PearsonAddison-Wesley。
保留所有权利。
内容。
三
1
介绍
1.讨论是否执行下列每项活动的是一种数据miningtask。
(a)把客户的公司根据他们的性别。
否。
这是一种简单的数据库查询。
(b)把客户的公司根据他们的盈利能力。
第这是一种会计计算、应用程序的门限值。
然而,预测盈利的一种新的客户将数据挖掘。
(c)计算的总销售公司。
否。
这又是简单的会计工作。
(d)排序的学生数据库基于学生的身份证号码。
第再次,这是一种简单的数据库查询。
(e)预测结果丢(公平)的一对骰子。
否。
既然死是公正的,这是一种概率的计算。
如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。
然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。
(f)预测未来股价的公司使用。
historicalrecords
是的。
我们将试图创建的模型,可以预测未来的持续价值的股票价格。
这是一例的 2第1章介绍
领域的数据挖掘预测模型。
我们可以使用回归分析。
这一建模,尽管研究人员在许多领域已经开发了多种技术来预测时间序列。
(g)监控在患者心率异常。
是的。
我们将构建一种型号的正常行为的心率和提高报警当寻常心的行为发生。
这将涉及领域的数据挖掘被称为异常检测。
这也可以看作是一种分类的问题如果我们的例子两个正常和不正常的心的行为。
(h)监测地震波地震活动。
是的。
在这种情况下,我们将构建模型的不同类型的地震波的行为与地震活动和提高报警时,这些不同类型的地震活动。
这一例子说明,在区域的数据挖掘已知的分级。
(i)解压的频率的声音波形。
否。
这是信号处理。
2.假设您是作为一种数据挖掘咨询顾问的互联网搜索引擎公司。
介绍如何将数据挖掘可以帮助该公司的具体的例子,说明技术,如群集、分类、关联规则挖掘和异常检测可以被应用。
下面的示例将可能的答案。
•群集可以组的结果与类似的主题和现在的他们的用户以更精简的形式,例如,报告了10个最常见的词集。
•分类可以将结果以预定义的类别如“体育”、“政治”等。
•连续的关联分析可以检测到这种特定的查询按照某些其他的查询使用的概率很高,从而更有效的高速缓存。
•异常检测技术可以发现不寻常的模式的用户流量,例如,一主题已突然变得更 受欢迎。
广告策略可以调整,以利用这种事态发展。
3
3.对于下面的每个数据集说明数据是否privacyis一项重要的问题。
(a)普查数据的收集从1900年—1950年。
无
(b)IP地址和访问次数的Web用户访问你的网站。
单击“是”
(c)图像从地球轨道运行的卫星。
无
(d)名字和地址的人从电话通讯簿。
无
(e)姓名和电子邮件地址收集网。
无
2
数据
1.在最初的例子第2章、统计师说:
“是的,字段2和3基本上是相同的。
"您能告诉我从三条线的样本数据所显示的为什么她说吗?
7对所显示的值。
虽然它可以是危险的结论从这样的小样本,两个字似乎包含基本相同的信息。
2.分类以下属性为Binary、离散或连续的。
还将其归为质量(名义或序数)或数量(时间间隔或比例)。
某些情况下可能会有多个解释,简要说明你的理由如果您认为可能有某些含糊不清之处。
例如:
年龄。
答:
独立的、定量的、比率
(a)时间在上午或下午。
Binary、定性、序号
(b)亮度计测量光度计。
持续不断的、定量的、比率
(c)亮度测量人的判决。
离散的、定性的、序号
(d)角度以度为单位0◦和360◦。
持续不断的、定量的、比率
(e)铜牌、银牌和金牌颁发的奖项在奥运会上。
离散的、定性的、序号
(f)高度海平面以上。
持续不断的、定量的、间隔/比例(取决于海一级被认为是一种任意的来源)。
(g)多的病人在医院里。
离散的、定量的、比率
(h)ISBN号的书籍。
(查找格式在Web上的)离散的、定性的、名义上的(ISBN号码没有订单信息,虽然)
第2章数据
(i)可以通过指示灯的以下值:
不透明、半透明、透明。
离散的、定性的、序号
(j)军衔。
离散的、定性的、序号
(k)中心的距离园区。
持续不断的、定量的、间隔/比例(取决于)
(l)密度的物质以克每立方厘米。
离散的、定量的、比率
(m)检查涂层的编号。
(当你参加活动,你可以常常giveyour衣的人将为您提供的号码,您可以使用要求您的外套当你离开。
)离散的、定性的、名义
3.您接触的营销总监,当地一家公司,他认为他已设计出一种简易的方法来衡量客户的满意度。
他解释了他的计划:
“它是如此的简单,我不相信没有人想过。
我只是保持跟踪客户投诉的每个产品。
我读的是数据挖掘的图书,计数率的属性,因此,我国的产品满意度必须是比特性。
但当我的产品都是基于我的新的客户满意度测量和显示出他们对我的老板,他告诉我,我忽略了很明显的,我的措施是毫无价值的。
我认为他是疯了,因为我们最畅销的产品,最满意的,因为它的投诉最多。
你可以帮我把他直吗?
”
(a)谁是谁的营销总监或老板吗?
如果您的回答,,hisboss你将如何修复措施的满意度?
老板是正确的。
一种更好的衡量标准是由
投诉的产品
满意地注意到产品)= ”。
总数销售的产品
(b)你能说什么关于属性的类型的原始productsatisfaction属性?
没有什么可以说的属性类型的原始度量。
例如,两个产品具有相同的客户满意度的级别会有不同的投诉数目和反之亦然。
4.几个月后,你会再次接触相同的营销directoras行使3。
这一次,他已经设计出一种更好的方法来衡量在多大程度上对客户更喜欢一种产品在其他类似的产品。
他解释说,“当我们开发新的产品,我们通常要创建几个变量和评估这一客户的喜欢。
我们的标准程序,以使我们的测试主体所有的 产品变化在一段时间,然后让他们排的变型产品。
然而,我们的测试科目有很优柔寡断的,尤其是当有两个以上的产品。
结果,测试永远需要的。
我建议,我们执行的比较成对的然后使用这些比较获得的排名。
因此,如果我们有三个产品的变化,我们的客户比较不同1和2、2和3,和最后3和1。
我们的测试时间与我的新程序是第三,什么是旧的程序,但雇员在测试的抱怨说他们无法拿出排名的结果。
和我的老板想要的最新的产品的评价,昨天。
我还要提到的是他的人了老产品的评价办法。
您能帮助我吗?
”
(a)是营销总监的麻烦吗?
将他的方法工作的生成顺序排列的变型产品的客户的首选项?
解释一下。
是的,营销总监是有麻烦了。
客户可能会不稳定的排名。
例如,客户可能更喜欢1,2,2,3,但3到1。
(b)有什么方法可以修复的营销总监的做法?
更普遍的是,你能说什么来创建顺序测量基于规模的成对比较的吗?
解决方案之一:
三个项目,只做前两个比较。
一种更通用的解决方案:
将选择的客户之一,订购产品,但仍然只允许配对比较的。
总的创建顺序测量基于规模的成对比较是很困难的,因为可能的矛盾之处。
(c)对于原来的产品评估计划的整体排名eachproduct变化中发现的计算其平均在所有测试的科目。
评论你是否认为这是一种合理的办法。
有什么其他的办法可能您考虑吗?
第一,存在的问题是分摊比额表是不可能有时间间隔或比例分摊比额表。
但实际上,平均可能不够好。
更重要的是,少数几个极端的评级可能会导致在总的评级,是一种误导。
因此,中值或修剪指(请参阅第3章)可能是更好的选择。
5.您能想到的情况的识别号码将usefulfor预测吗?
例如:
学生ID是一种良好的“调头预警”功能的毕业日期。
6.一名教育心理学家想要使用关联分析方法来分析。
testresults测试包括100个问题有四个可能的答案。
第2章数据
(a)你将如何将此类数据转换成适合于associationanalysis吗?
关联规则分析工程使用binary属性,因此您必须将原始数据转化为Binary格式如下所示:
Q1 = A
Q1 = B
Q1 = C
Q1 = D
...
Q100 = A
Q100 = B
Q100 = C
Q100 = D
1
0
0
0
...
1
0
0
0
0
0
1
0
...
0
1
0
0
(b)特别是,什么类型的属性将您和howmany,他们有吗?
400不对称的二元属性。
7.以下哪一项的数量很可能会表现出更多的时间自动关联:
雨量或每日的温度吗?
为什么?
一种功能显示的空间自动关联如果位置更接近每个其他的更多的类似的值的功能比位置更远的地方。
这是更为常见的物理关闭位置有类似的温度比类似的降雨量降雨量以来可以非常本地化;,即降雨量可更改突然从一处向另一处。
因此,每日温度显示了更多的空间自相关性然后每天的降雨量。
8.讨论为什么有的文档的列表是一种数据集hasasymmetric离散或连续的非对称性的特点。
Ijth的 项的文档的列表的次数,长期 j 出现在 我的文档”。
大多数文档所包含的只是一小部分的所有可能的条件,因此,零条目并没有很大的意义,不论是在描述或比较文档。
因此,文档的矩阵有不对称的离散特性。
如果我们应用了TFIDF正常化的条件和归档到二级缓存的规范1、然后这将会创建一个文档矩阵与连续的功能。
然而,功能仍然是不对称的,因为这些变化并不创建非零的条目中的所有条目,以前是0,因此,零条目仍没有很大的意义。
9.许多科学依赖于观察而不是(或除了)设计实验。
比较的数据质量问题的参与观测的科学与实验科学和数据挖掘。
观测科学的问题,不能够完全控制数据的质量,他们获得的。
例如,直到地球轨道运行的卫星,测量,海洋表面的温度依赖的测量船。
同样的,天气的测量往往采取从站位于城镇或城市。
因此,有必要与所提供的数据,而不是数据从精心设计的实验。
在这种意义上说,数据分析的科学观测类似的数据挖掘。
10.讨论之间的差值的精度测量和termssingle和双精度,因为它们是用来在计算机科学中,通常为代表的浮点数字,需要32位和64位的分别。
精度的浮点数字的最大精度。
更明确地规定,精度通常表示的有效数字的位数来表示的值。
因此,单精度数只能代表值与多达32位、≈9位小数位数的精确。
然而,往往的精度值使用32位(64bits)是远远少于32位数(64位)。
11.提供至少两个优点与数据存储在文本文件中insteadofabinary格式。
(1)文本文件可以很容易的检查键入的文件或查看它的文本编辑器。
(2)文本文件是更便携的binary文件、两个跨越多个系统和方案。
(3)文本文件可以更方便地进行修改,例如,使用文本编辑器或perl。
12.区分噪音和异常值。
请务必考虑。
followingquestions
(a)噪音是以往任何时候都更加令人感兴趣的或需要?
异常值®没有任何的定义。
是的。
(请参阅第10章。
)
(b)可以噪音对象异常值?
是的。
随机的数据失真通常负责为离群值。
(c)有噪音的对象总是异常值?
第随机的失真会导致对象或值更象是正常的。
(d)都是异常值总是发出噪音的对象吗?
第往往离群值仅仅是类的对象,是不同于正常的对象。
(e)可以使噪声典型值不寻常的一种,或反之亦然?
是的。
13.考虑的问题是找出 K 近邻的数据对象。
程序员在设计算法2.1来执行这项任务。
算法2.1 算法查找 K 最接近的邻居。
1:
for i =1 的数据对象
2:
查找距离的 对象的所有其他对象。
3:
排序这些距离递减的顺序。
(跟踪对象所关联的每个距离)。
4:
返回的 关联对象的第一次 K的 距离,经过排序的列表。
5:
结束。
(a)描述了可能出现的问题与此算法如果有重复的对象的数据集。
假设距离函数将仅返回的距离为0的对象是相同的。
有几个问题。
第一,重复的对象在最近的邻居列表将取决于细节的算法和对象的顺序数据集。
第二,如果有足够的重复的、最近的邻居列表中可能包含重复的记录。
第三,对象可能不是自己的最接近的邻居。
(b)您将如何解决此问题?
有多个方法这取决于具体情况。
一种方法是只保留某个对象的每个组对象重复。
在这种情况下,每个邻居都可以是单一的对象或一组对象重复。
14.以下属性用于衡量成员对一群亚洲象:
重量、高度、象牙的长度、中继线的长度, 和 耳区。
基于这些测量值,什么种类的相似性测量从2.4节您会使用比较或组这些大象?
证明您的答案和解释的任何特殊情况。
这些属性中的所有数字,但可以具有完全不同的值的范围内,取决于所使用的比额表对它们进行测量。
此外,该特性没有不对称和规模的属性问题。
这后者的两个事实消除了余弦和相关措施。
欧几里德距离、应用进行标准化后的属性要有平均的0和标准偏差为1,将是适当的。
15.你是给定一组 m 对象分为 K的 群体,其中的 组的大小 美。
如果我们的目标是要获得的样本大小 n (假定采样与更换。 ) (a)我们随机选择 n * mi/m 元素的每个组。 (b)我们随机选择 n个 元素中的数据集,而该组对象所属的。 第一计划是保证获得相同数量的对象从每个组,而第二个方案,对象的数量从每个组将会有所不同。 更具体地说,第二个计划只guarantes,平均来说,对象的数目从每组 n * mi/m。 16.考虑文档的列表,其中 tfij 是频率的 ith word(词)在 文档jth和 m 的文档的数量。 考虑变量的变换,由定义 ”(2.1) 在 dfi 的文档中的 词出现在 文档的频率 。 这种转变称为 逆向文档频率 变换。 (a)什么是影响这一转变的如果长期发生在某个文档吗? 在每个文档吗? 条款中所发生的每个文档都有0个重量,而那些出现在某个文档的最大重量,即登录m。 (b)可能是什么目的,这种转型? 这一正常化的反映意见,条款中出现的每个文档没有任何权力来区分不同的文档,同时那些相对较少。 17.假设,我们应用的平方根转换的比例属性 x 以获得新的属性 x∗。 作为一部分的分析,您确定的时间间隔(a、b) x∗ 具有线性关系的另一种属性 y。 (一)什么是相应的时间间隔(a、b)在 x? (a2,b2)(b)给出的公式与 y 以 x。 在该时间间隔内, y = x2。 18.此练习进行比较和对比某些相似性和距离的措施。 (一)为Binary数据、L1距离与海宁的距离;即位数不同的两个二元矢量。 Jaccard相似性是衡量之间的相似性两个binary引导程序。 计算Hamming距离和Jaccard相类似,以下两个二元矢量。 X =0101010001 y =010******* Hammingdistance=数量的不同位数=3 Jaccard相似度=1/匹配函数数量的位数-0匹配)=2/5=0.4 (b)哪种办法,雅卡尔或Hamming距离、更多的是类似于整合匹配系数,哪种方法更多的类似于余弦的措施吗? 解释一下。 (注: 海宁的措施是一种距离,而其他的三个措施都是相似的,但不要让这种混淆你。 ) 在海宁的距离是类似于SMC。 事实上,SMC=Hammingdistance/的位数。 Jaccard措施是类似于余弦测量由于忽略匹配的0比0握手言和。 (c)假设您是如何比较两个类似的生物都是differentspecies数方面的基因他们的份额。 介绍了测量,海宁或Jaccard、您认为更适合用于比较的遗传组成的两个生物。 解释一下。 (假设每个动物的二元向量中的每个属性是1如果某一特定基因存在于生物体和0否则。 ) 雅卡尔是更适当的作一比较的遗传组成的两个生物体;因为我们要了解很多基因的这两个生物的份额。 (d)如果您想要比较的遗传组成的两个生物体的相同的物种,例如两个人类,您将使用的Hamming距离,Jaccard系数、或不同程度的相似性或距离吗? 解释一下。 (注意,两人共享 > 99.9%的遗传因子相同。 ) 两人共享 >99.9%的相同基因。 如果我们想要比较的遗传组成的两个人,我们应把重点放在它们之间的分歧。 因此,Hamming距离更适合这种情况。 19.对于下面的引导程序、 x 和 y,计算出所示的相似性或距离的措施。 (a)X =(1、1、1、1)、 y =(2”、“2”、“2”、“2)余弦、关联、欧几里德的cos(x,y)=1、更正(x,y)=0/0(未定义)、欧几里德(x,y)=2 (b)X =(0、1、0、1)、 y =(1、0、1、0)余弦、关联、欧几里德,雅卡尔cos(x,y)=0、更正(x,y)=-1、 欧几里德(x,y)=2、雅卡尔(x,y)=0 (c)X =(0、-1、0、1)、 y =(1、0、——1、0)余弦、关联、欧几里德的cos(x,y)=0、更正(x,y)=0、欧几里德(x,y)=2 (d)X =(1、1、0、1、0、1)、 y =(1、1、1、0、0、1)余弦、关联、雅卡尔cos(x,y)=0.75、更正(x,y)=0.25的Jaccard(x,y)=0.6 (e)X =(2-1”、“0”、“2”、“0、—3), y =(-1、1-1、0、0、-1)余弦、关联的cos(x,y)=0、更正(x,y)=0 20.在这里,我们深入探讨和余弦的相互关系的措施。 (a)什么是值的范围,均可用于测量角度的余弦值? [1、1]。 许多倍的数据只有积极的条目。 在这种情况下该值的范围是[0,1]。 (b)如果两个对象具有角度的余弦值的测量1、他们是相同的吗? 解释一下。 不一定。 所有我们知道的是,属性数值相差恒定的因素。 (c)是一种什么样的关系的角度的余弦值为测量的相关性,如果有条提示: 查看统计的措施,例如平均值和标准偏差的情况下,余弦和关联是相同的和不同的。 ) 对于两个向量 x 和 y 的值为0、更正(x, y)=cos(x、 y)。 (d)图2.1(a)显示了这种关系的角度的余弦值为测量的Euclideandistance100000随机生成点已标准化的有L2的长度为1。 何总的意见可以使之间关系的欧几里德距离和余弦相似性当引导程序具有L2规范1? 因为所有的100000点落在曲线上,有一种功能关系欧几里德距离和余弦相似性的标准化数据。 更具体地说,是一种逆向的关系 余弦相似性和欧几里德距离。 例如,如果两个数据点都是相同的,它们的余弦相似性是一种和他们的欧几里德距离为零,但如果两个数据点都有很高的欧几里德距离、他们的余弦值是接近于零。 注意的是,所有的样例数据点是从积极的象限,即仅有积极的价值。 这意味着所有的余弦(和关联值将是积极的。 (e)图2.1(b)显示了这种关系的关联到欧几里德10万distancefor随机生成的点都已标准化,有的意思是0,标准差为1。 何总的意见可以使之间关系的欧几里德距离和关联当引导程序已经标准化的意思0、标准偏差为1? 同先前的答覆,但与关联取代余弦。 (f)源之间的数学关系余弦相似性和欧几里德距离每个数据对象都有L2的长度为1。 让 x 和 y 是两个向量的每个引导程序已有L2的长度为1。 对于这种媒介的差异仅仅是 n 次的总和,其方形的属性值和两者之间的媒介是他们点的产品除以 n。 (g)源之间的数学关系的关联和Euclideandistance在每个数据点都已进行了标准化,减去它的意思和除以其标准偏差。 让 x 和 y 是两个向量的每个向量的平均值为0,标准偏差为1。 对于这种媒介的差异(标准偏差的平方)是 n 次的总和,其方形的属性值和两者之间的媒介是他们点的产品除以 n。 更正(x,y)) 21.显示设置的不同度量的 D(A,B)= (A - B)的 大小+(B - A) 符合指标定理给出第70页上。 A 和 B 是设置和 A - B 的差值。 (一)关系辗转相除(b)之间的关系欧几里德距离和角度的余弦值测量距离和关联。 图2.1。 图为演习20日。 第1条)。 这是因为一组是大于或等于0, d(x,y)≥0。 B、A) 焊接钢管.--∩ C) 因为 大小(A ∩ B)≤ 大小(B)和 大小(B ∩ C)≤ 大小(B)、 DA、BDBCCBB 22.讨论您可能如何映射关联值的时间间隔[1]对的时间间隔[0、1]。 注意类型的转换,可以使用取决于应用程序的,您所想到的。 因此,考虑两个应用程序: 群集时间序列和预测行为的一次系列一。 对于时间序列的群集、时间序列具有较高的正相关关系应放在一起。 为此,以下的转变将是适当的: 对于预测的行为的一种时间序列从另一,有必要考虑强烈的负面影响,以及强烈的积极的、相互关联的。 在这种情况下,下面的转换、 sim =|更正|可能是适当的。 请注意,这一假定您只想要预测的规模,而不是方向。 23.给定的一种相似性测量值的时间间隔[0、1]介绍两个waysto转换这一相似性值的差异值在时间间隔[0,∞]。 和 d =-logs。 24.近距离通常定义对之间的对象。 (a)定义了两个方法,你可能定义的接近在海湾小组的对象。 两个例子如下: (一)基于轮换的感应,即最小成对的相似性或成对的最大差异,或(ii)在欧几里德空间计算质心(意味着所有的点请参阅第8.2节)然后计算的总和或平均值的点的距离的中点。 (b)您如何定义两点之间的距离的点的集合在欧几里德空间吗? 一种方法是计算距离质心之间的两个点集的。 (c)您如何定义接近两个数据集对象? (作出任何假设的数据对象,但一近距离测量的定义任何一对对象。 ) 一种方法是计算得到的平均成对近距离的对象的一组对象中的对象组。 其他的办法都是采取最小或最大距离。 请注意,凝聚力的群集相关的概念接近的一组对象之间的分离的群集相关的概念接近,两个组的对象。 (请参阅8.4节。 )此外,靠近两个群集是一种重要的概念在种种机遇的分层结构的群集。 (请参阅第8.2节)。 25.你是给定的一组点 的 欧几里德空间,以及远距离
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 导论 习题 答案 中文版 汇编