数据挖掘复习题和答案.docx
- 文档编号:28235994
- 上传时间:2023-07-09
- 格式:DOCX
- 页数:18
- 大小:1.12MB
数据挖掘复习题和答案.docx
《数据挖掘复习题和答案.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习题和答案.docx(18页珍藏版)》请在冰豆网上搜索。
数据挖掘复习题和答案
一、考虑表中二元分类问题得训练样本集
1.整个训练样本集关于类属性得熵就是多少?
2.关于这些训练集中a1,a2得信息增益就是多少?
3.对于连续属性a3,计算所有可能得划分得信息增益.
4.根据信息增益,a1,a2,a3哪个就是最佳划分?
5.根据分类错误率,a1,a2哪具最佳?
6.根据gini指标,a1,a2哪个最佳?
答1、
P(+)=4/9andP(−) =5/9
−4/9 log2(4/9)− 5/9log2(5/9)=0、9911、
答2:
(估计不考)
答3:
答4:
According toinformationgain,a1producesthebest split、
答5:
Forattributea1:
errorrate =2/9、
Forattributea2:
error rate =4/9、
Therefore,according toerror rate,a1producesthebestsplit、
答6:
二、考虑如下二元分类问题得数据集
1.计算a、b信息增益,决策树归纳算法会选用哪个属性
2.计算a、bgini指标,决策树归纳会用哪个属性?
这个答案没问题
3.从图4-13可以瞧出熵与gini指标在[0,0、5]都就是单调递增,而[0、5,1]之间单调递减。
有没有可能信息增益与gini指标增益支持不同得属性?
解释您得理由
Yes,even thoughthese measureshavesimilarrangeandmonotonous
behavior,theirrespective gains,Δ,whicharescaled differences ofthe
measures,donotnecessarilybehaveinthesame way, as illustratedby
theresultsin parts(a) and(b)、
贝叶斯分类
1.P(A=1|−)=2/5= 0、4,P(B=1|−) =2/5=0、4,
P(C=1|−)=1,P(A =0|−) =3/5= 0、6,
P(B= 0|−)=3/5=0、6,P(C= 0|−)= 0;P(A=1|+)=3/5=0、6,
P(B=1|+)= 1/5 =0、2,P(C=1|+) =2/5 = 0、4,
P(A= 0|+)=2/5=0、4,P(B =0|+)= 4/5=0、8,
P(C=0|+) =3/5=0、6、
2.
3.P(A=0|+)=(2+ 2)/(5+4)=4/9,
P(A=0|−)=(3+2)/(5+ 4) = 5/9,
P(B =1|+)=(1+2)/(5+4)=3/9,
P(B =1|−)=(2+2)/(5 +4)=4/9,
P(C =0|+)=(3+ 2)/(5 +4)= 5/9,
P(C=0|−)=(0+2)/(5+4)=2/9、
4.Let P(A=0,B=1, C= 0)=K
5.当得条件概率之一就是零,则估计为使用m-估计概率得方法得条件概率就是更好得,因为我们不希望整个表达式变为零。
1.P(A=1|+) =0、6,P(B=1|+)=0、4,P(C= 1|+) =0、8,P(A =
1|−)= 0、4,P(B=1|−)=0、4, and P(C=1|−)=0、2
2、
LetR:
(A=1,B=1,C = 1)be the testrecord、 Todetermineits
class, weneedtoputeP(+|R)andP(−|R)、Using Bayes theorem,P(+|R)= P(R|+)P(+)/P(R)andP(−|R)=P(R|−)P(−)/P(R)、
SinceP(+)= P(−) =0、5andP(R)isconstant,Rcanbeclassifiedby
paringP(+|R)andP(−|R)、
Forthis question,
P(R|+) =P(A = 1|+)×P(B=1|+) ×P(C=1|+)=0、192
P(R|−)= P(A= 1|−)×P(B=1|−)× P(C= 1|−)=0、032
SinceP(R|+)islarger,therecordisassignedto(+) class、
3、
P(A = 1)=0、5,P(B= 1) =0、4andP(A=1,B=1)= P(A)×
P(B)=0、2、Therefore,AandBare independent、
4、
P(A =1) =0、5,P(B=0)=0、6,andP(A=1,B=0)=P(A=1)×P(B= 0)= 0、3、Aand Barestillindependent、
5、
pareP(A = 1,B= 1|+)=0、2againstP(A=1|+)=0、6and
P(B = 1|Class=+)=0、4、Sincethe productbetweenP(A=1|+)
and P(A =1|−)arenot thesameasP(A = 1,B = 1|+), AandBare
notconditionally independentgiventheclass、
三、使用下表中得相似度矩阵进行单链与全链层次聚类。
绘制树状况显示结果,树状图应该清楚地显示合并得次序。
Thereareno apparentrelationships betweens1, s2,c1,andc2、
ﻬ
A2:
Percentage offrequent itemsets=16/32=50、0%(includingthenull
set)、
A4:
ﻩFalse alarmrate istheratioofI tothe total numberofitemsets、Since
the countofI=5,therefore thefalsealarm rateis5/32 =15、6%、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 复习题 答案