数据挖掘复习题和答案.docx
- 文档编号:25610798
- 上传时间:2023-06-10
- 格式:DOCX
- 页数:18
- 大小:1.14MB
数据挖掘复习题和答案.docx
《数据挖掘复习题和答案.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习题和答案.docx(18页珍藏版)》请在冰豆网上搜索。
数据挖掘复习题和答案
(
一、考虑表中二元分类问题的训练样本集
1.整个训练样本集关于类属性的熵是多少
2.关于这些训练集中a1,a2的信息增益是多少
3.对于连续属性a3,计算所有可能的划分的信息增益。
4.根据信息增益,a1,a2,a3哪个是最佳划分
5.~
6.根据分类错误率,a1,a2哪具最佳
7.根据gini指标,a1,a2哪个最佳
答1.
P(+)=4/9andP(−)=5/9
−4/9log(4/9)−5/9log(5/9)=.
<
答2:
(估计不考)
答3:
}
'
答4:
Accordingtoinformationgain,aproducesthebestsplit.
答5:
<
Forattributea:
errorrate=2/9.
Forattributea:
errorrate=4/9.
Therefore,accordingtoerrorrate,aproducesthebestsplit.
答6:
'
二、考虑如下二元分类问题的数据集
1.计算信息增益,决策树归纳算法会选用哪个属性
《
2.计算gini指标,决策树归纳会用哪个属性
这个答案没问题
3.从图4-13可以看出熵和gini指标在[0,]都是单调递增,而[,1]之间单调递减。
有没有可能信息增益和gini指标增益支持不同的属性解释你的理由
Yes,eventhoughthesemeasureshavesimilarrangeandmonotonous
%
behavior,theirrespectivegains,Δ,whicharescaleddifferencesofthe
measures,donotnecessarilybehaveinthesameway,asillustratedby
theresultsinparts(a)and(b).
贝叶斯分类
1.P(A=1|−)=2/5=,P(B=1|−)=2/5=,
P(C=1|−)=1,P(A=0|−)=3/5=,
P(B=0|−)=3/5=,P(C=0|−)=0;P(A=1|+)=3/5=,
P(B=1|+)=1/5=,P(C=1|+)=2/5=,
P(A=0|+)=2/5=,P(B=0|+)=4/5=,
P(C=0|+)=3/5=.
2.
3.P(A=0|+)=(2+2)/(5+4)=4/9,
P(A=0|−)=(3+2)/(5+4)=5/9,
#
P(B=1|+)=(1+2)/(5+4)=3/9,
P(B=1|−)=(2+2)/(5+4)=4/9,
P(C=0|+)=(3+2)/(5+4)=5/9,
P(C=0|−)=(0+2)/(5+4)=2/9.
4.LetP(A=0,B=1,C=0)=K
5.当的条件概率之一是零,则估计为使用m-估计概率的方法的条件概率是更好的,因为我们不希望整个表达式变为零。
》
1.P(A=1|+)=,P(B=1|+)=,P(C=1|+)=,P(A=
1|−)=,P(B=1|−)=,andP(C=1|−)=
2.
LetR:
(A=1,B=1,C=1)bethetestrecord.Todetermineits
class,weneedtocomputeP(+|R)andP(−|R).UsingBayestheorem,P(+|R)=P(R|+)P(+)/P(R)andP(−|R)=P(R|−)P(−)/P(R).
SinceP(+)=P(−)=andP(R)isconstant,Rcanbeclassifiedby
、
comparingP(+|R)andP(−|R).
Forthisquestion,
P(R|+)=P(A=1|+)×P(B=1|+)×P(C=1|+)=
P(R|−)=P(A=1|−)×P(B=1|−)×P(C=1|−)=
SinceP(R|+)islarger,therecordisassignedto(+)class.
3.
P(A=1)=,P(B=1)=andP(A=1,B=1)=P(A)×
P(B)=.Therefore,AandBareindependent.
\
4.
P(A=1)=,P(B=0)=,andP(A=1,B=0)=P(A=1)×P(B=0)=.AandBarestillindependent.
5.
CompareP(A=1,B=1|+)=againstP(A=1|+)=and
P(B=1|Class=+)=.SincetheproductbetweenP(A=1|+)
andP(A=1|−)arenotthesameasP(A=1,B=1|+),AandBare
notconditionallyindependentgiventheclass.
·
三、使用下表中的相似度矩阵进行单链和全链层次聚类。
绘制树状况显示结果,树状图应该清楚地显示合并的次序。
【
Therearenoapparentrelationshipsbetweens,s,c,andc.
A2:
Percentageoffrequentitemsets=16/32=%(includingthenull
set).
A4:
FalsealarmrateistheratioofItothetotalnumberofitemsets.Since
thecountofI=5,thereforethefalsealarmrateis5/32=%.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 复习题 答案