原数据挖掘习题Word文档格式.docx
- 文档编号:21123978
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:17
- 大小:32.27KB
原数据挖掘习题Word文档格式.docx
《原数据挖掘习题Word文档格式.docx》由会员分享,可在线阅读,更多相关《原数据挖掘习题Word文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
{D,A,C,E,B}
T300
99/10/19
{C,A,B,E}
T400
99/10/22
{B,A,D}
a)利用Apriori算法我由最大得频繁项集
b)列由所有强关联规那么(带支持度s和置信度c)
11.(参P229)
假定希望分析爱喝咖啡和爱喝茶得人之间得关系。
搜集一组
人关于饮料偏爱的信息,汇总如下:
咖用
不喝咖
啡
汇总
茶
150
50
200
不喝茶
650
800
1000
50%,评估关联规
(最小支持度为2)
假设支持度和置信度阈值别离为10%
那么{茶}——>
{咖啡}。
(负相关)
12.(ch5,参P224)
有如下事务数据集。
试挖掘频繁项集。
项
1
{a,b}
2
{bcd}
3
{acde}
4
{ade}
5
{abc}
6
{abcd}
7
{a}
8
9
{abd}
10
{bce}
结果:
后缀
频繁项集
e
{e},{de},{ade},{ce},{ae}
d
{d},{cd},{bcd},{acd},{bd},{abd},{ad}
c
{c},{bc},{abc}{ac}
b
{b}{ab}
a
13.(ch5,参P256,17)
假定有一个购物篮数据集,包括100个事务和20个项。
若
是项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%o令最小支持度阈值和最小置信度阈值别离为10%和60%。
1)计算关联{a}——>
{b}的置信度。
依照置信度气宇,这条规那么是有趣的么?
(这条规那么是不是是强关联规那么?
)(80%,是)
2){a}——>
{b}是不是有趣?
(负相关,无趣)
11.求生下表的强关联规那么(ch5)
ID
P1
P2
P3
P4
bread
cheese
butter
water
milk
noodle
orange
meat
beer
fish
softdrink
frozenmeal
12、(ch6)
下表给由某门课程假设干学生期中和期末考试成绩
期中725081749486598365338881
期末846377789075497977527490
绘数据图。
X和Y看上去具有线性联系吗?
13、(ch6)
下表是对是不是购买运算机的调查表,请依照ID3算法画由是不是购买运算机的决策树。
计
数
年龄
收
入
学生
信誉
归类:
买
计算
机?
64
青
高
否
良
不买
优
128
中
60
老
买1
低
是
132
32
买J
63
(参P94)
有房
婚姻状
况
年收入
拖欠贷
款
单身
125K
已婚
100K
70K
120K
离异
95K
60K
220K
85K
75K
90K
一客户信息如下:
X=(有房=否,婚姻状况=已婚,年收入
=120K)
用贝叶斯分类法,预测记录的拖欠贷款类别。
(否)
可能的分裂
年收入嫡
点
6065
70
7580
85
90
95
100110
120
125
220
原数据集合修正为:
125K(>
100K(>
70K(<
=
120K(>
95K(<
60K(<
220K(>
85K(<
75K(<
90K(<
P(是尸p(否尸
p(是|X)p(X1是)p(是)p(否|X)p(X|否)p(否)
p(X)p(X)
120|是)
120|否)
p(X|是)p(有房否|是)p(婚姻状况已婚|是)p(年收入
100%*0*00
p(X|是)p(有房否|否)p(婚姻状况已婚|否)p(年收入
4/7*4/7*4/718.66%
因此,他可能不拖欠贷款
最正确割裂点:
15.(CH6,参P122)
考虑如下二元分类问题的训练样本:
顾客ID
性别
车型
衬衣尺
码
类
男
家用
小
C0
男1
运动
大
加大
女
豪华
11
C1
12
13
14
15
16
17
18
19
20
1)计算整个训练样本集得GINI指标()
2)计算属性顾客ID的GINI指标(0)
3)计算属性性别的GINI指标()
4)那个属性更好?
性别、车型仍是衬衣尺码?
(车型,因
为其GINI指标最低)
16.(CH6,参P122)
实例
a1
a2
a3
目标
T
+
F
・
1)整个训练样本集关于类属性得嫡是多少?
()
2)关于这些训练样本,al和a2的信息增益是多少?
(,)
3)关于持续属性a3,计算所有可能的划分的信息增益
03
Clasalabel
Splitpoint
Ent-ropy
infoGain
L0
2.0
0.8484
0.1437
-
25
0.9^85
O.Oi^26
4.01
0.0183
0.0728
风。
5.0
—
帛石
0,9839
0.0072
,:
。
十
氏5
0.9728
©
83
7.0
7.5
aS889
0.1022
是最正确割裂点。
4)依照信息增益,那个是最正确划分?
(在a1,a2,a3中)(al)
5)依照GINI指标,那个是最正确划分?
(在a1,a2,a3中)
(al)
17.考虑如下二元分类问题得数据集(CH6,参P123)
A
B
1)计算依照属性A、B划分时得信息增益。
决策树归纳算法将会选择那个属性?
(GA=)
2)计算依照属性A、B划分时的GINI指标。
(不纯度降低:
,(B)
18.已知下表:
(CH6,参P124)
C
实例数
试成立一颗两层的决策树
19.(CH6,参,P139)贝叶斯分类
考虑两队之间的足球竞赛:
对。
和1.假设65%的竞赛队0
胜由,剩余得竞赛队1获胜。
队。
获胜得竞赛中只有30%
是在队1的主场,而对1取胜的竞赛中75%是主场获胜。
若是下一场竞赛在队1的主场进行,哪一支球队最有可能胜
由呢?
(队1)
x:
东道主(0,1)y:
成功者(0,1)
队0取胜得概率:
p(y=0)=
队1取胜得概率:
p(y=1)=
对1取胜的竞赛中75%是主场获胜:
队1获胜时作为东道
主的概率:
p(x=1|y=1)=
时队1作为东道主得概率:
P(x=1|y=0)=
比较P(y=1|x=1)和P(y=0|x=1)
「p(x1|y1)p(y1)0.750.350.2625
p(y1|x1)-
P(x1)p(x1)p(x1)
,、,0|、,1、p(x1|y0)p(y0)0.30.650.195
p(y01xI)
p(x1)p(x1)p(x1)
P(y=1|x=1)>
P(y=0|x=1)因止匕,队1可能取胜。
20.(ch6,参P195,8)
考虑以下数据集:
1)估量条件概率P(A=1|+),P(B=1|+),P(C=1|+),P(A=1|-),
P(B=1|-),P(C=1|-)
,,,,,
2)依照1)中的条件概率,利用朴素贝叶斯分类方式预测测
试样本(A=1,B=1,C=1)得类标号。
(+)
3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。
(独立)
14、(ch7)
假设数据集D含有9个数据对象(用2维空间的点表示):
A1(3,2),A2(3,9),A3(8,6),B1(9,5),B2(2,4),B3(3,10),C1(2,6),
C2(9,6),C3(2,2)
采纳k-均值方式进行聚类,距离函数采纳欧几里德距离,取
k=3,假设初始的三个簇质心为A1,B1,和C1,求:
(1)第一次循环终止时的三个簇的质心。
(2)最后求得的三个簇。
A2
A3
B2
B3
C2
C3
A1
V49
V41
V5
52
B1
V52
V2
74
58
V10
V36
V17
49
V16
第一次循环终止时:
(A1,C3)质心为(,2)或(3,2)
(B1,A3,C2),质心为:
,或(9,6)
第二次循环
A1A2
3,20,49
V
9,6,45
3,7,25
第二次循环终止时:
(C1,A2,B2,B3),质心为:
平方误差E=28
A3B1B2B3
V41V45V64
V1165
V26V40V9
(A1,B2,C3)质心为(,)
(,)或(3,8)
C1C2C3
V17V521
49065
23726
或(2,3)
(A3,B1,C2),质心为:
或(9,6)
(A2,B3,C1),质心为:
(,)或(3,7)
平方误差E=21
第三次循环
A1A2A3
2,3V2V37V45
9,6451
3,7426
9581
23737
第三次循环终止时:
(A1,B2,C3)质心为(,)或(2,3)不变
(A3,B1,C2),质心为:
,或(9,6)不变
(,)或(3,7)不变
平方误差E=21不变
15.(ch7)
已知四个点的坐标如下:
X坐标
Y坐标
其欧几里德距离矩阵:
试进行单链、全链聚类,并画由树形图
答案:
单链:
P2,p3
P2,p3,p4
P2,p3——P2,P3,P4——p2,p2,p4,p1
全链:
第一步同单链
或:
P2,p3——P2,P3,P1——p2,p2,p1,p4
16.请将以下属性分类:
(ch7)
1)用AM和PM表示的时刻(序数变量)2)按度测由得0和360之间的角度(区间标度变量)
3)奥运会上授予得铜牌、银牌和金牌(序数)
4)学生的性别(二元)
5)用如下值表示得透光能力:
不透明、半透明、透明(序数)
6)外衣寄放号码(当你由席一个活动时,你常常能够将你的外衣交给某个人,然后他给你一个号码,你能够在离开时来取)(名义)
17.计算下表表示的混淆矩阵得嫡和纯度
簇
娱乐
财经
国外
都市
国内
体育
合计
#1
676
693
#2
27
89
333
827
253
33
1562
#3
326
465
105
29
949
354
555
341
943
273
738
3204
而
EnkrtanW
Financial
际庵口
Mi/tro
Natiood
Sports
Total
Entrap:
」
Purity
--
n
J
神
0.3
起
加
出
娜
岫
(
期
04
55
湖
MJ
汨
32M
圃
18.已知四个点的相异度矩阵:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 习题