原《数据挖掘》习题Word文件下载.docx
- 文档编号:17373583
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:15
- 大小:66.13KB
原《数据挖掘》习题Word文件下载.docx
《原《数据挖掘》习题Word文件下载.docx》由会员分享,可在线阅读,更多相关《原《数据挖掘》习题Word文件下载.docx(15页珍藏版)》请在冰豆网上搜索。
观众可以是学生、成年人或老人,每类观众有不同的收费标准。
画出该数据仓库的星形模式图
10、(ch5)
数据库有4个事物。
设min_sup=60%,min_conf=80%
TID
日期
购买的物品
T100
99/10/15
{K,A,D,B}
T200
{D,A,C,E,B}
T300
99/10/19
{C,A,B,E}
T400
99/10/22
{B,A,D}
a)使用Apriori算法找出最大得频繁项集
b)列出所有强关联规则(带支持度s和置信度c)
11.(参P229)
假定希望分析爱喝咖啡和爱喝茶得人之间得关系。
收集一组人关于饮料偏爱的信息,汇总如下:
咖啡
不喝咖啡
汇总
茶
150
50
200
不喝茶
650
800
1000
若支持度和置信度阈值分别为10%,50%,评估关联规则{茶}——>
{咖啡}。
(负相关)
12.(ch5,参P224)
有如下事务数据集。
试挖掘频繁项集。
(最小支持度为2)
项
1
{a,b}
2
{bcd}
3
{acde}
4
{ade}
5
{abc}
6
{abcd}
7
{a}
8
9
{abd}
10
{bce}
结果:
后缀
频繁项集
e
{e},{de},{ade},{ce},{ae}
d
{d},{cd},{bcd},{acd},{bd},{abd},{ad}
c
{c},{bc},{abc}{ac}
b
{b}{ab}
a
13.(ch5,参P256,17)
假定有一个购物篮数据集,包含100个事务和20个项。
如果项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%。
令最小支持度阈值和最小置信度阈值分别为10%和60%。
1)计算关联{a}——>
{b}的置信度。
根据置信度度量,这条规则是有趣的么?
(这条规则是否是强关联规则?
)(80%,是)
2){a}——>
{b}是否有趣?
(负相关,无趣)
11.求出下表的强关联规则(ch5)
ID
P1
P2
P3
P4
bread
cheese
butter
water
milk
noodle
orange
meat
beer
fish
softdrink
frozenmeal
12、(ch6)
下表给出某门课程若干学生期中和期末考试成绩
期中725081749486598365338881
期末846377789075497977527490
绘数据图。
X和Y看上去具有线性联系吗?
13.(ch6)
下表是对是否购买计算机的调查表,请根据ID3算法画出是否购买计算机的决策树。
计数
年龄
收入
学生
信誉
归类:
买计算机?
64
青
高
否
良
不买
优
128
中
买
60
老
低
是
132
32
63
14.预测拖欠银行贷款的贷款者(参P94)
有房
婚姻状况
年收入
拖欠贷款
单身
125K
已婚
100K
70K
120K
离异
95K
60K
220K
85K
75K
90K
一客户信息如下:
X=(有房=否,婚姻状况=已婚,年收入=120K)
用贝叶斯分类法,预测记录的拖欠贷款类别。
(否)
可能的分裂点
熵
65
0.82647
70
72.5
0.76355
75
80
0.68966
85
87.5
0.87549
90
92.5
0.84644
95
97.5
0.5
100
110
120
122.5
125
172.5
220
原数据集合修正为:
125K(>
97.5)
100K(>
70K(<
=97.5)
120K(>
95K(<
60K(<
220K(>
85K(<
75K(<
90K(<
P(是)=0.3p(否)=0.7
所以,他可能不拖欠贷款
最佳分裂点:
15.(CH6,参P122)
考虑如下二元分类问题的训练样本:
顾客ID
性别
车型
衬衣尺码
类
男
家用
小
C0
运动
大
加大
女
豪华
11
C1
12
13
14
15
16
17
18
19
20
1)计算整个训练样本集得GINI指标(0.5)
2)计算属性顾客ID的GINI指标(0)
3)计算属性性别的GINI指标(0.5)
4)那个属性更好?
性别、车型还是衬衣尺码?
(车型,因为其GINI指标最低)
16.(CH6,参P122)
实例标号
a1
a2
a3
目标类
T
+
F
_
-
1)整个训练样本集关于类属性得熵是多少?
(0.9911)
2)关于这些训练样本,a1和a2的信息增益是多少?
(0.2294,0.0072)
3)对于连续属性a3,计算所有可能的划分的信息增益
2.0是最佳分裂点。
4)根据信息增益,那个是最佳划分?
(在a1,a2,a3中)(a1)
5)根据GINI指标,那个是最佳划分?
17.考虑如下二元分类问题得数据集(CH6,参P123)
A
B
类标号
1)计算按照属性A、B划分时得信息增益。
决策树归纳算法将会选择那个属性?
(GA=0.2813.GB=0.2565A)
2)计算按照属性A、B划分时的GINI指标。
(不纯度降低:
0.1371,0.1633,(B)
18.已知下表:
(CH6,参P124)
A
B
C
实例数
+
—
T
5
0
F
20
25
试建立一颗两层的决策树
19.(CH6,参,P139)贝叶斯分类
考虑两队之间的足球比赛:
对0和1.假设65%的比赛队0胜出,剩余得比赛队1获胜。
队0获胜得比赛中只有30%是在队1的主场,而对1取胜的比赛中75%是主场获胜。
如果下一场比赛在队1的主场进行,哪一支球队最有可能胜出呢?
(队1)
x:
东道主(0,1)y:
胜利者(0,1)
队0取胜得概率:
p(y=0)=0.65
队1取胜得概率:
p(y=1)=0.35
对1取胜的比赛中75%是主场获胜:
队1获胜时作为东道主的概率:
p(x=1|y=1)=0.75
队0获胜得比赛中只有30%是在队1的主场:
即队0取胜时队1作为东道主得概率:
P(x=1|y=0)=0.3
比较P(y=1|x=1)和P(y=0|x=1)
P(y=1|x=1)>
P(y=0|x=1)所以,队1可能取胜。
20.(ch6,参P195,8)
考虑下列数据集:
实例
C
1)估计条件概率P(A=1|+),P(B=1|+),P(C=1|+),P(A=1|-),P(B=1|-),P(C=1|-)
(0.6,0.4,0.8,0.4,0.4,0.2)
2)根据1)中的条件概率,使用朴素贝叶斯分类方法预测测试样本(A=1,B=1,C=1)得类标号。
(+)
3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。
(独立)
14、(ch7)
假设数据集D含有9个数据对象(用2维空间的点表示):
A1(3,2),A2(3,9),A3(8,6),B1(9,5),B2(2,4),B3(3,10),C1(2,6),C2(9,6),C3(2,2)
采用k-均值方法进行聚类,距离函数采用欧几里德距离,取k=3,假设初始的三个簇质心为A1,B1,和C1,求:
(1)第一次循环结束时的三个簇的质心。
(2)最后求得的三个簇。
A2
A3
B2
B3
C2
C3
A1
√49
√41
√5
√64
√52
√1
B1
√2
√50
√74
√58
√10
√36
√4
√17
√16
第一次循环结束时:
(A1,C3)质心为(2.5,2)或(3,2)
(B1,A3,C2),质心为:
(8.7,5.7)或(9,6)
(C1,A2,B2,B3),质心为:
(2.7,8.3)或(3,8)
平方误差E=28
第二次循环
3,2
√45
9,6
√53
√65
3,7
√25
√26
√40
√9
√37
第二次循环结束时:
(A1,B2,C3)质心为(2.3,2.7)或(2,3)
(A3,B1,C2),质心为:
(A2,B3,C1),质心为:
(2.5,7.25)或(3,7)
平方误差E=21
第三次循环
2,3
√1
第三次循环结束时:
(A1,B2,C3)质心为(2.3,2.7)或(2,3)不变
(8.7,5.7)或(9,6)不变
(2.5,7.25)或(3,7)不变
平方误差E=21不变
15.(ch7)
已知四个点的坐标如下:
点
X坐标
Y坐标
其欧几里德距离矩阵:
2.8
3.2
1.4
5.1
试进行单链、全链聚类,并画出树形图。
答案:
单链:
P2,p3
P2,p3,p4
P2,p3——P2,P3,P4——p2,p2,p4,p1
全链:
第一步同单链
或:
P2,p3——P2,P3,P1——p2,p2,p1,p4
16.请将下列属性分类:
(ch7)
1)用AM和PM表示的时间(序数变量)
2)按度测出得0和360之间的角度(区间标度变量)
3)奥运会上授予得铜牌、银牌和金牌(序数)
4)学生的性别(二元)
5)用如下值表示得透光能力:
不透明、半透明、透明(序数)
6)外套寄存号码(当你出席一个活动时,你常常可以将你的外套交给某个人,然后他给你一个号码,你可以在离开时来取)(名义)
17.计算下表表示的混淆矩阵得熵和纯度
簇
娱乐
财经
国外
都市
国内
体育
合计
#1
676
693
#2
27
89
333
827
253
33
1562
#3
326
465
105
29
949
354
555
341
943
273
738
3204
18.已知四个点的相异度矩阵:
0.2
0.35
0.3
0.45
0.4
0.1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘 数据 挖掘 习题