智能信息处理习题课.ppt
- 文档编号:1085177
- 上传时间:2022-10-16
- 格式:PPT
- 页数:54
- 大小:2.74MB
智能信息处理习题课.ppt
《智能信息处理习题课.ppt》由会员分享,可在线阅读,更多相关《智能信息处理习题课.ppt(54页珍藏版)》请在冰豆网上搜索。
智能信息处理,习题答疑,习题:
2.4,假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:
(a)计算age和%fat的均值、中位数和标准差。
(b)绘制age和%fat的盒图。
(c)绘制基于这两个变量的散点图和q-q图。
习题:
2.4,(a)计算age和%fat的均值、中位数和标准差。
变量age的均值为46.44,中位数为51,标准差为12.85;变量%fat的均值为28.78,中位数为30.7,标准差为8.99。
习题:
2.4,(b)绘制age和%fat的盒图。
Matlab(StatisticsToolbox)中的boxplot(x)命令,习题:
2.4,(c)绘制基于这两个变量的散点图和q-q图。
Matlab(StatisticsToolbox)plot(age,fat,o)qqplot(age,fat),习题:
2.8,假设我们有如下二维数据集(a)把该数据看做二维数据点。
给定一个新数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于与查询点的相似性对数据库的点排位。
(b)规格化该数据集,使得每个数据点的范数等于1.在变换后的数据上使用欧几里得距离对诸数据点排位。
习题:
2.8,(a)把该数据看做二维数据点。
给定一个新数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于与查询点的相似性对数据库的点排位。
欧几里得距离:
曼哈顿距离:
上确界距离:
余弦相似性:
习题:
2.8,(a)把该数据看做二维数据点。
给定一个新数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于与查询点的相似性对数据库的点排位。
习题:
2.8,(a)把该数据看做二维数据点。
给定一个新数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于与查询点的相似性对数据库的点排位。
所以,排序分别为:
欧几里得距离:
x1,x4,x3,x5,x2曼哈顿距离:
x1,x4,x3,x5,x2上确界距离:
x1,x4,x3,x5,x2(x2=x6,x3=x4)余弦相似性:
x1,x3,x4,x2,x5,习题:
2.8,(b)规格化该数据集,使得每个数据点的范数等于1.在变换后的数据上使用欧几里得距离对诸数据点排位。
归一化后的数据:
习题:
2.8,(b)规格化该数据集,使得每个数据点的范数等于1.在变换后的数据上使用欧几里得距离对诸数据点排位。
重新计算欧几里得距离排序为:
x1,x3,x4,x2,x5,习题:
3.3,在习题2.2中,属性age包括以下值(以递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)使用深度为3的箱,用箱均值光滑以上数据。
说明你的步骤,讨论这种技术对给定数据的效果。
(b)如何确定该数据中的离群点?
(c)还有什么其他方法来光滑数据?
习题:
3.3,在习题2.2中,属性age包括以下值(以递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)使用深度为3的箱,用箱均值光滑以上数据。
说明你的步骤,讨论这种技术对给定数据的效果。
对以上数据进行箱深度为3的箱均值光滑,需要一下步骤:
第一步:
对所有数据按从小到大排序(也可以从大到小)第二步:
将数据划分到大小为3的等频的箱中箱1:
13,15,16箱2:
16,19,20箱3:
20,21,22箱4:
22,25,25箱5:
25,25,30箱6:
33,33,35箱7:
35,35,35箱8:
36,40,45箱9:
46,52,70第三步:
计算每个箱的均值第四步:
将想汇总每一个值都替换为箱中的均值箱1:
44/3,44/3,44/3箱2:
55/3,55/3,55/3箱3:
21,21,21箱4:
24,24,24箱5:
80/3,80/3,80/3箱6:
101/3,101/3,101/3箱7:
35,35,35箱8:
121/3,121/3,121/3箱9:
56,56,56,习题:
3.3,在习题2.2中,属性age包括以下值(以递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(b)如何确定该数据中的离群点?
聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。
落到簇的集外的值可以被视为离群点。
作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。
这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。
(c)还有什么其他方法来光滑数据?
其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。
作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。
除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。
分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。
习题:
3.7,使用喜帖3.3中给出的age数据,回答一下问题。
(a)使用最小-最大规范化将age值35变换到0.0,1.0区间。
(b)使用z分数规范化变换age值35,其中age的标准差为12.94岁。
(c)使用小数定标规范化变换age值35。
(d)之处对于给定的数据,你愿意使用哪种方法。
陈述你的理由。
习题:
3.7,使用喜帖3.3中给出的age数据,回答一下问题。
(a)使用最小-最大规范化将age值35变换到0.0,1.0区间。
(b)使用z分数规范化变换age值35,其中age的标准差为12.94岁。
(c)使用小数定标规范化变换age值35。
(d)之处对于给定的数据,你愿意使用哪种方法。
陈述你的理由。
最小-最大规范化:
z分数规范化:
小数定标规范化:
习题:
3.7,使用喜帖3.3中给出的age数据,回答一下问题。
(a)使用最小-最大规范化将age值35变换到0.0,1.0区间。
(b)使用z分数规范化变换age值35,其中age的标准差为12.94岁。
(c)使用小数定标规范化变换age值35。
(d)之处对于给定的数据,你愿意使用哪种方法。
陈述你的理由。
最小-最大规范化:
习题:
3.7,使用喜帖3.3中给出的age数据,回答一下问题。
(a)使用最小-最大规范化将age值35变换到0.0,1.0区间。
(b)使用z分数规范化变换age值35,其中age的标准差为12.94岁。
(c)使用小数定标规范化变换age值35。
(d)之处对于给定的数据,你愿意使用哪种方法。
陈述你的理由。
z分数规范化:
习题:
3.7,使用喜帖3.3中给出的age数据,回答一下问题。
(a)使用最小-最大规范化将age值35变换到0.0,1.0区间。
(b)使用z分数规范化变换age值35,其中age的标准差为12.94岁。
(c)使用小数定标规范化变换age值35。
(d)之处对于给定的数据,你愿意使用哪种方法。
陈述你的理由。
小数定标规范化:
由于最大的绝对值为70,所以j=2则,习题:
3.7,使用喜帖3.3中给出的age数据,回答一下问题。
(a)使用最小-最大规范化将age值35变换到0.0,1.0区间。
(b)使用z分数规范化变换age值35,其中age的标准差为12.94岁。
(c)使用小数定标规范化变换age值35。
(d)之处对于给定的数据,你愿意使用哪种方法。
陈述你的理由。
(d)小数定标规范化:
保持数据的分布和直观解释,同时针对该题还可以挖掘特殊的age数据组;最小最大规范化:
当出现除遇到“出界失误”以外的一个落在最大值和最小值以外的点值时,会出现意外结果。
Z分数规范化:
Z分数规范化将数值转化成表示与平均值的距离的度量(基于标准差),没有小数定标规范化直观。
习题:
3.12,(a)简略描述ChiMerge如何工作。
(b)取鸢尾花数据集作为待离散化的数据集合,使用ChiMerge方法,对四个数值属性分别进行离散化。
分裂点、最终区间。
习题:
3.12,(a)简略描述ChiMerge如何工作。
(b)取鸢尾花数据集作为待离散化的数据集合,使用ChiMerge方法,对四个数值属性分别进行离散化。
分裂点、最终区间。
(a)伪代码:
开始将数据按升序排列为每一个不同的数值分配一个单独的间隔当没有达到终止条件时开始计算每对相邻间隔的开方值用最小的开方值合并这两个区间结束结束,习题:
3.12,(b)取鸢尾花数据集作为待离散化的数据集合,使用ChiMerge方法,对四个数值属性分别进行离散化。
分裂点、最终区间。
习题:
6.6,数据库有5个事务。
设min_sup=60%,min_conf=80%。
(a)分别使用Apriori算法和FP-growth算法找出频繁项集。
比较两种挖掘过程的有效性。
(b)列举所有与下面的原规则匹配的强关联规则(给出支持度s和置信度c),其中,X是代表顾客的变量(如“A”,“B”等):
习题:
6.6,数据库有5个事务。
设min_sup=60%,min_conf=80%。
(a)分别使用Apriori算法和FP-growth算法找出频繁项集。
比较两种挖掘过程的有效性。
Apriori算法:
由于只有5个购买事件,所以绝对支持度是5*min_sup=3.第一步:
扫描所有事物,对每个候选计数,生成C1,习题:
6.6,绝对支持度是3。
第一步:
扫描所有事物,对每个候选计数,生成C1,C1=,习题:
6.6,绝对支持度是3。
第二步:
通过候选的支持度计数与最小支持度技术比较,确定L1,L1=,C1=,习题:
6.6,绝对支持度是3。
第三步:
连接和剪枝,由L1产生候选C2,L1=,C2=,习题:
6.6,绝对支持度是3。
第四步:
通过候选的支持度计数与最小支持度技术比较,确定L2,C2=,L2=,习题:
6.6,绝对支持度是3。
第五步:
连接和剪枝,由L2产生候选C3,C3=,L2=,习题:
6.6,绝对支持度是3。
第六步:
通过候选的支持度计数与最小支持度技术比较,确定L3,L3=,C3=,习题:
6.6,绝对支持度是3。
第七步:
连接和剪枝,由L3产生候选C4。
因为C4=,因此算法终止。
C4=,L3=,终止,习题:
6.6,Apriori算法找出的所有频繁项集:
L3=,L2=,L1=,习题:
6.6,数据库有5个事务。
设min_sup=60%,min_conf=80%。
(a)分别使用Apriori算法和FP-growth算法找出频繁项集。
比较两种挖掘过程的有效性。
FP-growth算法:
数据库的都成扫描与Apriori算法相同,得到L1。
再按支持度计数的递减序排序,得到L=(K:
5),(E:
4),(M:
3),(O:
3),(Y:
3).扫描每个事物,按以上L的排序,从根节点开始,得到FP-树。
习题:
6.6,FP-growth算法:
数据库的都成扫描与Apriori算法相同,得到L1。
再按支持度计数的递减序排序,得到L=(K:
5),(E:
4),(M:
3),(O:
3),(Y:
3).扫描每个事物,按以上L的排序,从根节点开始,得到FP-树。
习题:
6.6,FP-growth算法:
习题:
6.6,数据库有5个事务。
设min_sup=60%,min_conf=80%。
(a)分别使用Apriori算法和FP-growth算法找出频繁项集。
比较两种挖掘过程的有效性。
效率比较:
Apriori算法的计算过程必须对数据库作多次扫描,而FP-增长算法在构造过程中只需扫描一次数据库,再加上初始时为确定支持度递减排序的一次扫描,共计只需两次扫描。
由于在Apriori算法中的自身连接过程产生候选项集,候选项集产生的计算代价非常高,而FP-增长算法不需产生任何候选项。
习题:
6.6,数据库有5个事务。
设min_sup=60%,min_conf=80%。
(b)列举所有与下面的原规则匹配的强关联规则(给出支持度s和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智能 信息处理 习题