第六章-K近邻PPT课件下载推荐.pptx
- 文档编号:15596114
- 上传时间:2022-11-07
- 格式:PPTX
- 页数:87
- 大小:2.72MB
第六章-K近邻PPT课件下载推荐.pptx
《第六章-K近邻PPT课件下载推荐.pptx》由会员分享,可在线阅读,更多相关《第六章-K近邻PPT课件下载推荐.pptx(87页珍藏版)》请在冰豆网上搜索。
K-NN是一种基于实例的学习。
k-近邻算法是所有的机器学习算法中最简单的方法之一。
形式化描述预测准则:
寻找训练数据中最近的K个样本形式化描述这个算法需要:
参数K:
寻找的近邻个数距离函数:
计算样本之间的相似度常见的度量方式三维空间中的欧氏距离l欧氏距离欧氏距离(Euclideandistance)最常使用在二维欧式平面中,两点p=(p1,p2)和q=(q1,q2)的距离为一般的,n维空间中的距离常见的度量方式一般的,n维空间中的两点的曼哈顿距离是l曼哈顿距离(曼哈顿距离(ManhattanDistance)常见的度量方式l闵可夫斯基距离(MinkowskiDistance)闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。
之间的闵式距离定义为:
和m取1或2时的闵氏距离是最为常用的,m=2即为欧氏距离,而m=1时则为曼哈顿距离。
当m取无穷时的极限情况下,可以得到切比雪夫距离。
两个n维变量常见的度量方式l夹角余弦(Cosinesimilarity)几何中,夹角余弦可用来衡量两个向量方向的差异;
机器学习中,借用这一概念来衡量样本向量之间的差异。
两个n维样本点的夹角余弦为:
夹角余弦取值范围为-1,1。
余弦越大表示两个向量的夹角越小,余弦越小表示两向量的夹角越大。
当两个向量的方向重合时余弦取最大值1,当两个向量的方向完全相反余弦取最小值-1。
常见的度量方式lHammingdistance(汉明距离)两个等长字符串s1与s2的汉明距离为:
将其中一个变为另外一个所需要作的最小字符替换次数。
1011101and1001001is2.2173896and2233796is3.例如:
左右字符串之间的汉明距离分别是:
汉明距离在包括信息论、编码理论、密码学等领域都有应用。
比如在信息编码过程中,为了增强容错性,应使得编码间的最小汉明距离尽可能大。
K-NN:
特征归一化Note:
特征应该在同一尺度距离度量会被数值较大的维度主导,既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。
例如:
代替by(零均值,单位方差):
第m维特征的均值:
第m维特征的方差K-NN:
特征权重l根据维度的重要性来赋予不同的权重l使用先验知识来决定哪些维度的特征比较重要l可以使用交叉验证法学习权重Wk(本课没有涉及)那么样本之间的权重又如何呢?
K的选择l理论上,如果有无穷多的样本,k越大,分类效果越好.l这是不可能实现的,实际中样本个数总是有限的pk=1最近样本的类别pk=N样本个数最多的类别两种极端情况:
K的选择lk=1最常用,效果也较好,但是却对“噪声”敏感任何浅蓝色区域内的样本都会被错分为蓝色类别。
任何浅蓝色区域内的样本都会被正确分类为红色类别。
1NN3NN噪声样本1NN可视化l维诺图(VoronoiDiagram)可以用来可视化维诺图基于一组特定点将平面分割成不同区域,而每一区域又仅包含唯一的特定点,并且该区域内任意位置到该特定点的距离比到其它的特定点都要更近。
决策边界K的选择小K对每个类别都创建了许多小的分类区域对“噪声敏感”非平滑的决策边界,(可能导致过拟合)大K创建了少数大范围的区域,通常产生更平滑的决策边界可以降低噪声样本的影响(注意过于平滑的决策边界可能导致欠拟合)留出法方法:
直接将数据集划分为两个互斥的集合,训练集合和测试集合,模型在验证集上的表现就是对模型泛化能力的一种估计。
例如:
训练集(80%)验证集(20%)注意:
训练测试集的划分要尽可能保持数据分布的一致性,避免因为数据划分过程引入额外的偏差而对最终结果产生影响。
缺点与改进:
使用留出法得到的估计往往不够稳定可靠。
K折交叉验证留一法总结:
距离度量&
K的选择l如何选择距离度量方式?
欧氏距离(Euclidean)最为常用具体问题具体分析例如:
对于一个复杂的问题,不同维度上也可以使用不同的度量方式最好是奇数1-NN在实践中经常表现不错一个有趣的理论性质是k0.001在n维空间中,我们必须查询大小(0.001)1/d1的区域由于空间的急剧扩张,样本变得非常稀疏,为了找到最近的5个样本,需要查询的空间越来越接近于1,此时的邻居已经不在查询点附近。
邻居之间相似性很低,分类效果也就很差,所以无法用来分类。
维数灾难的几个表现http:
/特别适合多分类问题训练数据无限和足够大的K,K-NN方法效果会相当好!
l缺点:
对噪声敏感(小K)即使在测试时间时,也需要存储所有训练数据查询时间慢:
每个查询O(nd)复杂度在高维度上,距离的概念是违反直觉的!
高维空间表现不佳(维度诅咒)也叫:
记忆/实例学习懒惰学习降低复杂度提出了各种精确和近似的方法来降低复杂性降低计算复杂性的方法:
ANN、BBF算法、LSH(局部敏感哈希局部敏感哈希)、RandomizedK-dtreesk-d树、球树、M树、VP树、MVP树下面介绍最常用的最近邻搜索算法:
k-d树K-d树20世纪70年代由JonBentley发明,k维空间中划分的一种数据结构,主要应用于多维空间范围搜索和最近邻搜索Kd-树是K-dimensiontree的缩写,名称原来是指“3-D树,4-d树等”,其中k是尺寸的数量思想:
树的每个节点划分仅使用1个维比较。
用于存储空间数据。
最邻居搜索。
范围查询。
快速查找!
3DK-d树K-d树构造
(1)yabcghedixfK-d树构造
(2)yxabcghedis1s1xfK-d树构造(3)yxabcghedis1s2ys1s2xfK-d树构造(4)yxabcghedis1s2ys3xs1s2s3xfK-d树构造(5)yxabcghedis1s2ys3xs1s2s3axfK-d树构造(6)yxabcghedis1s2ys3xs1s2s3abxfK-d树构造(7)yxabcghedis1s2ys3xs4ys1s2s3s4abxfK-d树构造(8)yxabcghedis1s2ys3xs4ys5xs1s2s3s4s5abxfK-d树构造(9)yxabcghedis1s2ys3xs4ys5xs1s2s3s4s5abdxfK-d树构造(10)yxabcghedis1s2ys3xs4ys5xs1s2s3s4s5abdexfK-d树构造(11)yxabcghedis1s2ys3xs4ys5xs1s2s3s4s5abdegxfgihs6cfs4ds5es2as3bs1yxs1s2yys6s3xs4ys5xabdegxK-d树构造(12)gihs6fs4ds5es2as3bs1s7cyxs1s2yys6s3xs4ys7ys5xabdegxK-d树构造(13)gihs6fs4ds5es2as3bs1s7cyxs1s2yys6s3xs4ys7ys5xabdegcxK-d树构造(14)gihs6fs4ds5es2as3bs1s7cyxs1s2yys6s3xs4ys7ys5xabdegcfxK-d树构造(15)gis8hs6fs4ds5es2as3bs1s7cyxs1s2yys6s3xs4ys7ys8ys5xabdegcfxK-d树构造(16)gis8hs6fs4ds5es2as3bs1s7cyxs1s2yys6s3xs4ys7ys8ys5xabdegcfhxK-d树构造(17)gis8hs6fs4ds5es2as3bs1s7cys2yys6s3xs4ys7ys8ys5xabdegcfhixk-dtreecellxs1K-d树构造(18)Anodehas5fieldsaxis(splittingaxis)value(splittingvalue)left(leftsubtree)right(rightsubtree)point(holdsapointifleftandrightchildrenarenull)构造策略K-D树的构造策略与二维的情况类似在根节点,根据各个维度的分布情况,选择与x1-坐标轴垂直的超平面将样本分成大小近似相等的两个子集在其他子节点中根据当前子集的分布情况,选择x2-坐标轴进行划分循环这个过程,直到无法划分,存储数据为叶子结点。
中位数,区间中点问题问题1:
每次对子空间的划分时,怎样确定在哪个维度上进行划分?
问题问题2:
在某个维度上进行划分时,怎样确保在这一维度上的划分得到的:
在某个维度上进行划分时,怎样确保在这一维度上的划分得到的两个子集合的数量尽量相等,即左子树和右子树中的结点个数尽量相等?
两个子集合的数量尽量相等,即左子树和右子树中的结点个数尽量相等?
当前最大区间长度的维度,最大方差,交替选择K-d树划分xyabcghediadgbeichfacbdfehgixyf123456789001001011abcdefghi根据不同维度的排序结果,不断的进行划分abdegcfhiy构造k-d的时间复杂度为O(dnlogn)存储复杂度为O(dn)对样本在每个维度上进行排序根据每个维度的大小进行划分k-d树最临近查询xs1s2yys6s3xs4ys7ys8ys5xabdegcfhi查询点yabgheis1s2s3s4ds5s7cs8xfs6r怎样确保查询到最近节点最邻近查找的算法描述
(1)将查询数据Q从根节点开始,按照Q与各个节点的比较结果向下遍历,直到到达叶子节点为止。
到达叶子节点时,计算Q与叶子节点上保存的数据之间的距离,记录为当前最小距离。
(2)进行回溯操作,该操作的目的是找离查询点Q更近的数据点,即在未访问过的分支里,是否还有离Q更近的点,它们的距离小于当前最小距离。
下面用一个简单的例子来演示基于Kd-Tree的最近邻查找的过程。
k-d树最临近查询
(1)yxs1s2yys6s3xs4ys7ys8ys5xabdegcfhixgis8hs6fs4ds5es2as3bs1s7c查询点gis8hs6fs4ds5es2as3bs1s7ck-d树最临近查询
(2)yxs1s2yys6s3xs4ys7ys8ys5xabdegcfhix查询点gis8hs6fs4ds5es2as3bs1s7ck-d树最临近查询(3)yxs1s2yys6s3xs4ys7ys8ys5xabdegcfhix查询点k-d树最临近查询(4)yxabgheis1s2yys6s3xs4ys7ys8ys5xs1s2s3s4ds5s6s7cs8abdegcfhixfr查询点k-d树最临近查询NNS(5)yxabgheis1s2yys6s3xs4ys7ys8ys5xs1s2s3s4ds5s6s7cs8abdecfhixfrg查询点k-d树最临近查询(6)yxs1s2yys6s3xs4ys7ys8ys5xabdecfhixgris8hs6fs4ds5es2as3bs1s7cg查询点k-d树最临近查询(7)yxabgheis1s2yys6s3xs4ys7ys8ys5xs1s2s3s4ds5s7cs8abdecfhixfs6gr查询点k-d树最临近查询(8)eyxabgheis1s2yys6s3xs4ys
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 近邻