相似度测度总结汇总.docx
- 文档编号:30804637
- 上传时间:2024-01-29
- 格式:DOCX
- 页数:38
- 大小:2.42MB
相似度测度总结汇总.docx
《相似度测度总结汇总.docx》由会员分享,可在线阅读,更多相关《相似度测度总结汇总.docx(38页珍藏版)》请在冰豆网上搜索。
1相似度文献总结
相似度有两种基本类别:
(1)客观相似度,即对象之间的相似度是对象的多维特征之间的某种函数关系,比如对象之间的欧氏距离;
(2)主观相似度,即相似度是人对研究对象的认知关系,换句话说,相似度是主观认知的结果,它取决于人及其所处的环境,主观相似度符合人眼视觉需求,带有一定的模糊性[13]。
1.1客观相似度
客观相似度可分为距离测度、相似测度、匹配测度。
它们都是衡量两对象客观上的相近程度。
客观相似度满足下面的公理,假设对象A与B的相似度判别为,有:
(1)自相似度是一个常量:
所有对象的自相似度是一个常数,通常为1,即
(2)极大性:
所有对象的自相似度均大于它与其他对象间的相似度,即
。
(3)对称性:
两个对象间的相似度是对称的,即。
(4)唯一性:
,当且仅当。
1.1.1距离测度
这类测度以两个矢量矢端的距离为基础,因此距离测度值是两矢量各相应分量之差的函数。
设表示两个矢量,计算二者之间距离测度的具体方式有多种,最常用的有:
1.1.1.1欧氏距离:
EuclideanDistance-basedSimilarity
最初用于计算欧几里德空间中两个点的距离,假设x,y是n维空间的两个点,它们之间的欧几里德距离是:
(1.1)
当x,y是两个直方图时,该方法可称为直方图匹配法。
可以看出,当n=2时,欧几里德距离就是平面上两个点的距离。
当用欧几里德距离表示相似度,一般采用以下公式进行转换:
距离越小,相似度越大。
(1.2)
范围:
[0,1],值越大,说明d越小,也就是距离越近,则相似度越大。
说明:
由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。
欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析。
优点:
简单,应用广泛
缺点:
没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果
1.1.1.2曼哈顿距离,绝对值距离(街坊距离或Manhattan距离):
原理:
曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果。
同欧式距离相似,都是用于多维数据空间距离的测度
范围:
[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大。
说明:
比欧式距离计算量少,性能相对高。
(1.3)
1.1.1.3切氏(Chebyshev)距离(棋盘距离/切比雪夫距离):
切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么从棋盘中A格(x1,y1)走到B格(x2,y2)最少需要走几步?
(1.3)
1.1.1.4明氏(Minkowski)距离/闵可夫斯基距离:
(1.4)
可以看出,(1.1)、(1.2)、(1.3)式实际上是(1.4)式当的特殊情况。
在实际中较多地使用欧氏距离。
显然,在观测量的量纲取定的条件下,两个矢量越相似,距离就越小,反之亦然。
值得注意的是,在使用上述距离测度描述具体对象时,量纲选取不同会改变某特征的判断依据,即改变该特征对判断贡献的大小,严重的可造成错误分类。
这是因为改变特征矢量某分量的量纲,进行比较的两个矢量的相应的两个分量的数值也将改变。
若变小,则其相应的特征在距离测度中“影响作用比重”将变小,即根据其判断分类的作用变小,反之将增大,这样便不能很好地反映事实。
马氏(Mahalanobis)距离是不受量纲影响的。
1.1.1.5马氏距离(Mahalanobis):
马氏距离定义如下:
设n维矢量和是矢量集中的两个矢量,它们的马氏距离d定义为
(1.5)
式中,。
V的含义是这个矢量集的协方差矩阵的统计量。
适用场合:
1)度量两个服从同一分布并且协方差矩阵为C的随机变量的差异程度
2)度量与某一类的均值向量的差异程度,判别样本的归属,此时为类均值向量。
优点:
1)独立于分量量纲
2)排除了样本之间的相关性影响
缺点:
不同的特征不能差别对待,可能夸大弱特征
1.1.1.6汉明距离(HammingDistance)
在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。
换句话说,它就是将一个字符串变换成另一个字符串所需要替换的字符个数。
例如:
1011101与1001001之间的汉明距离是2。
2143896与2233796之间的汉明距离是3。
“toned”与“roses”之间的汉明距离是3。
1.1.1.7巴氏距离(Bhattacharyya)
巴氏距离常用于计算直方图间相似度,定义如下:
(1.6)
其中,x、y为归一化数据向量。
Bhattacharyya系数取值在0~1之间,越靠近1,表示两个模型之间相似度越高。
如果,x、y向量未归一化,则巴氏系数的计算定义为:
(1.7)
1.1.1.8Hausdorff距离:
Hausdorff距离(Hausdorffdistance,HD)是一种定义于两个点集上的最大最小距离,是描述两组点集之间的相似程度的一种量度,x、y之间的Hausdorff距离定义为:
(1.8)
式中,为x到y的有向Hausdorff距离;为y到x的有向Hausdorff距离;为某种定义在点集x、y上的距离范数。
常用的是欧几里得范数。
如果定义(表示空间中的任意点)则Hausdorff距离可定义为,这里称分别为点集y和点集x在空间中的变化距离。
由于Hausdorff距离是度量两个点集之间最不匹配点的距离,因此它对远离中心的噪声、漏检点都非常敏感,而这一点,在提取图像特征点集特征时使不可避免的。
为了克服这个缺点,需要对Hausdorff距离的定义进行扩展。
1.1.1.9改进的部分Hausdorff距离:
为获得准确的匹配结果,Sim提出了改进的部分Hausdorff距离(LTS-HD),它是用距离序列的线性组合来定义的:
(1.9)
式中,,p为x内点的个数,为一个属于[0,1]的百分数。
把点集x中的所有点到点集y的距离按由小到大的顺序排列,将序号为1~k的k个距离求和,再求平均。
所以,该匹配方法不仅能消除远离中心的错误匹配点的影响,而且对零均值高斯噪声的消除能力明显。
因袭,采用LTS-HD用于图像特征点集的匹配,力求在所有可能的变换空间中寻找图像特征点集之间的最优变换,以便通过使LTS-HD最小化来获得最优匹配结果。
设g为变换空间T(通常由旋转矩阵R、平移变换向量t、尺度c等变换组成)中的一个变换,则最优匹配变换g0满足
(1.10)
1.1.1.10相关度距离
常用于计算直方图间相似度,定义如下:
(1.8)
1.1.1.11卡方系数
常用于计算直方图间相似度,定义如下:
(1.9)
(备注:
引自《基于混合图结构的图像相似度的研究_庄小芳》,2013年福建师范大学硕士学位论文第一章,2.2节)
1.1.1.12(未命名)
常用于计算直方图间相似度,定义如下:
(1.11)
其中,N表示图像颜色样点空间,比起前面几个计算公式,该式在给出图像相似度的计算中更为直接,操作也更加简便。
(备注:
引自《基于混合图结构的图像相似度的研究_庄小芳》,2013年福建师范大学硕士学位论文第一章,2.2节)
1.1.1.13直方图相交距离
直方图相交距离是常用于颜色特征相似性度量的一种方法,常用于计算直方图间相似度。
如果有两幅图像,则它们的相交距离定义式如下:
(1.12)
1.1.2相似测度
这类测度是以两矢量的方向是否相近作为考虑的基础,矢量长度并不重要,同样设。
1.1.2.1角度相似系数(夹角余弦)
原理:
多维空间两点与所设定的点形成夹角的余弦值。
范围:
[-1,1],值越大,说明夹角越大,两点相距就越远,相似度就越小。
说明:
在数学表达中,如果对两个项的属性进行了数据中心化,计算出来的余弦相似度和皮尔森相似度是一样的,所以皮尔森相似度值也是数据中心化后的余弦相似度。
定义:
矢量之间的相似度可用它们的夹角余弦来度量。
两个矢量x和y的夹角余弦定义如下:
(1.6)
与欧几里德距离类似,基于余弦相似度的计算方法也是把特征点作为n-维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个特征点之间的相似度值就是两条直线(向量)间夹角的余弦值。
因为连接代表特征点与原点的直线都会相交于原点,夹角越小代表两个特征越相似,夹角越大代表两个特征的相似度越小。
同时在三角系数中,角的余弦值是在[-1,1]之间的,0度角的余弦值是1,180角的余弦值是-1。
借助三维坐标系来看下欧氏距离和余弦相似度的区别:
从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上的差异,而不是位置。
如果保持A点的位置不变,B点朝原方向远离坐标轴原点,那么这个时候余弦相似度cos是保持不变的,因为夹角不变,而A、B两点的距离显然在发生改变,这就是欧氏距离和余弦相似度的不同之处。
应用:
Cosine相似度被广泛应用于计算文档数据的相似度及数据挖掘类工作:
特点:
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。
相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。
它对于坐标系的旋转和尺度的缩放是不变的(因矢量的长度已规格化),但对一般的线性变换和坐标系的平移不具有不变性。
1.1.2.2调整余弦相似度——AdjustedCosineSimilarity
在余弦相似度的介绍中说到:
余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。
因此没法衡量每个维数值的差异,会导致这样一个情况:
比如用户对内容评分,5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看X似乎不喜欢这两个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,
需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现实。
应用:
调整余弦相似度和弦相似度,皮尔逊相关系数在推荐系统中应用较多。
在基于项目的推荐中GroupLens有篇论文结果表明调整余弦相似度性能要由于余弦相似度和皮尔逊相关系数。
1.1.2.3相关系数
它实际上是数据中心化后的矢量夹角余弦。
(1.7)
此处将,视作两个数据集的样本,和分别是这两个数据集的平均矢量。
相关系数对于坐标系的平移、旋转和尺度缩放是不变的。
(备注:
该节引自项德良【SAR图像相似度评估技术研究】,2012年国防科大硕士论文1.2节。
)
1.1.2.4指数相似系数
指数相似系数定义如下:
(1.8)
式中,为相应分量的方差,n为矢量维数。
它不受量纲变化的影响。
从函数的构造上看属于距离方式(类似于马氏距离),但从测度值和相似关系看属于相似测度。
(备注:
该节引自项德良【SAR图像相似度评估技术研究】,2012年国防科大硕士论文1.2节。
)
1.1.2.5对数似然相似度
TedDunning在1993年提出一种对数似然比的概念,主要应用于自然文本语言库中两个词的搭配关系问题。
它是基于这样一种思想,即统计假设可以确定一个空间的很多子空间,而这个空间是被统计模型的位置参数所描述。
似然比检验假设模型是已知的,但是模型的参数是未知的。
二项分布的对数似然比
对于二项分布的情况,似然函数为
(1.1)
式中:
——的统计模型,——试验结果的参数。
——给定模型的参数。
假设二项分布有相同的基本参数集合,那么对数似然比就是
(1.2)
式中:
——当取得某值时,统计模型的最大值。
当时,分母取得最大值。
当时,分子取得最大值。
所以对数似然比简化为
(1.3)
式中:
——二项分布,——实验重复的次数,——某事发生的概率,——该事件发生的次数,。
两边取对数可以将对数似然比的公式变形为:
(1.4)
由于二项分布的对数似然比能够合理的描述两个事物的相似模型,所以常用对数似然比来计算两个事物(用户或物品)的相似度。
对数似然相似度基于两个用户共同评估过的物品数目,但在给定物品总数和每个用户评价的情况下,其最终结果衡量的是两个用户有这么多共同物品的“不可能性”,它是一种不考虑具体偏好值的方法。
比如在用户—物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。
备注:
引自张明敏,张功萱《对数似然相似度算法的MapReduce并行化实现》《计算机工程与设计》2015,36卷,第5期。
1.1.2.6Levenshtein距离,又称编辑距离
两个字符串(链)的相似度可以用Levenshtein距离(Levenshteindistance)表示,该距离定义为将一个串变为另一个串所需的最小操作步数,可能的操作有删除、插入、替换[SchlesingerandHlavac,2002]。
还可以给字符串元素变换赋一个变换代价,从而使计算得到的相似度(距离)更灵活,更敏感。
同样的原理也可以用在图相似度的计算上。
下定义可能的结点和弧的变换(删除、插入、替换、重新标注)集合,再给每种变换赋一个变换代价。
任一变换序列的代价用单个步骤代价的组合表示(类似代价步骤的和)。
将一个图变为另一个图的所有变换集合中具有最小代价值的那个集合就定义了这两幅图间的距离[Niemann,1990]。
用途:
常用于字符串距离,类似可用于计算图的距离
备注:
引用于《图像处理、分析与机器视觉(第三版)》MilanSonka,VaclavHlavac,RogerBoyle著,艾海舟,苏延超译P298,9.5.2图的相似度
1.1.2.7统计相关系数--皮尔逊相关系数(PearsonCorrelationCoefficient)
皮尔逊相关也称积差相关(积矩相关),即相关分析中的相关系数,分别对基于自身总体标准化后计算余弦向量的标准夹角。
是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。
皮尔逊相关系数一般用来反映两个变量线性相关程度,它的取值在[-1,+1]之间。
相关系数的绝对值越大,相关性越强。
假设有两个变量,那么;两个变量间的皮尔逊相关系数可以通过以下公式计算:
公式一:
公式二:
公式三:
公式四:
以上列出四个公式等价,其中E是数学期望,cov表示方差,N表示变量取值的个数。
适用范围:
当两个变量对的标准差都不为0时,相关系数才有定义,皮尔逊系数适用于:
(1)两个变量之间是线性关系,都是连续数据
(2)两个变量的总体是正态分布,或接近正态的单峰分布
(3)两个变量的观测值是成对的,每对观测值之间互相独立
特点:
(1)当两个变量的线性关系增强时,相关系数趋于1或-1;
(2)当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;
(3)如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;
(4)如果相关系数等于0,表明它们之间不存在线性相关关系。
1.1.2.8统计相关系数--斯皮尔曼相关(Spearman秩相关)系数--SpearmanCorrelation
(1)简介
在统计学中,斯皮尔曼等级相关系数以CharlesSpearman命名,并经常用希腊字母表示其值。
斯皮尔曼等级相关系数用来估计两个变量之间的相关性,其中变量间的相关性可以用单调函数来描述。
如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同),两个变量之间的可以达到+1或-1。
假设两个随机变量分别为(也可以看做是两个集合),它们的元素个数均为N,两个随机变量取的第个值分别用表示。
对进行排序(同为升序或降序),得到两个元素排行集合,其中元素分别为在中的排行以及在中的排行。
将集合中的元素对应相减得到一个排行差分集合d,其中,。
随机变量之间的斯皮尔曼等级相关系数可由或d计算得到,其计算方式如下:
公式一:
由排行差分集合d计算而得():
公式二:
由排行集合计算而得(斯皮尔曼等级相关系数同时也被认为是经过排行的两个随机变量的皮尔逊相关系数,以下实际是计算的皮尔逊相关系数):
以下是一个计算集合中元素排行的例子(仅适用于斯皮尔曼等级相关系数的计算)
变量
元素的位置(依降序排列)
变量的排行()
1
5
4
0.2
4
5
1.3
3
(2+3)/2=2.5
1.3
2
(2+3)/2=2.5
10
1
1
这里需要注意:
当变量的两个值相同时,它们的排行是通过对它们的位置进行平均得到的。
(2)适用范围
斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的整体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。
原理:
Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数。
(3)取值范围:
{-1.0,1.0},当一致时为1.0,不一致时为-1.0。
(4)说明:
计算非常慢,有大量排序。
针对推荐系统中的数据集来讲,用Spearman秩相关系数作为相似度量是不合适的。
一般用于学术研究或者是小规模的计算。
(5)Spearman相关系数的特点:
Spearman相关是根据等级资料研究两个变量间相关关系的方法。
它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”
1,Spearman相关系数对原始变量的分布不做要求,属于非参数统计方法。
因此它的适用范围比Pearson相关系数要广的多。
即使原始数据是等级资料也可以计算Spearman相关系数。
对于服从Pearson相关系数的数据也可以计算Spearman相关系数,
2,统计效能比Pearson相关系数要低一些(不容易检测出两者事实上存在的相关关系)。
3,spearman只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。
注:
spearman与pearson:
1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。
4.只要在X和Y具有单调的函数关系的关系,那么X和Y就是完全Spearman相关的,这与Pearson相关性不同,后者只有在变量之间具有线性关系时才是完全相关的。
1.1.2.9统计相关系数--KendallRank(肯德尔等级)相关系数
(1)简介
在统计学中,肯德尔相关系数是以MauriceKendall命名的,并经常用希腊字母(tau)表示其值。
肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。
一个肯德尔检验是一个无参假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。
肯德尔相关系数的取值范围在-1到1之间,当为1时,表示两个随机变量拥有一致的等级相关性,当为-1时,表示两个随机变量拥有完全相反的等级相关性,当为0时,表示两个随机变量是相互独立的。
假设两个随机变量分别为(也可以看做是两个集合),它们的元素个数均为N,两个随机变量取的第个值分别用表示。
中的对应元素组成一个元素对集合,其包含的元素为。
当集合中任意两个元素与的排行相同时(也就是说当出现情况1或2时;情况1:
情况2:
),这两个元素就被认为是一致的。
当出现情况3或4时(情况3:
情况4:
),这两个元素就被认为是不一致的。
当出现情况5或6时(情况5:
情况6:
),这两个元素既不是一致也不是不一致的。
这里有三个公式计算肯德尔相关系数的值:
公式一:
其中C表示XY中拥有一致性的元素对数(两个元素为一对),D表示XY中拥有不一致性的元素对数。
注意:
这一公式仅适用于集合X与Y中不存在相同元素的情况(集合中各个元素唯一)
公式二:
注意:
这一公式适用于集合X或Y中存在相同元素的情况(当然,如果X或Y中均不存在相同的元素时,公式二便等同于公式一)。
其中C、D与公式一相同;
N1、N2分别是针对集合X、Y计算的,现在以计算N1为例,给出N1的由来(N2的计算可以类推):
将X中的相同元素分别组合成小集合,s表示集合X中拥有的小集合数(例如X包含元素:
1234332,那么这里得到的s则为2,因为只有2、3有相同的元素),表示第i个小集合所包含的元素数。
N2在集合Y的基础上计算而得。
公式三:
注意:
这一公式中没有再考虑集合、或者中存在相同元素给最后的统计值带来的影响。
公式三的这一计算形式仅适用于用表格表示的随机变量X、Y之间相关系数的计算(下面会介绍),参数M稍后会做介绍。
以上都是围绕用集合表示的随机变量而计算肯德尔相关系数的,下面所讲的则是围绕用表格表示的随机变量而计算肯德尔相关系数的。
通常人们会将两个随机变量的取值制作成一个表格,例如有10个样本,对每个样本进行两项指标些事(指标的取值均为1到3)。
根据样本的指标取值,得到以下二维表格(表1):
表1
1
2
3
Sum
1
1
2
0
3
2
1
2
1
4
3
0
1
2
3
sum
2
5
3
10
由表1可以得到的可以以集合的形式表示为:
得到的集合形式后就可以使用以上的公式一或公式二计算的肯德尔相关系数了(注意公式一、公式二的适用条件)
当然如果给定的集合形式,那么也是很容易得到它们的表格形式的。
这里需要注意的是:
公式二也可以用来计算表格形式表示的二维变量的肯德尔相关系是,不过它一般用来计算由正方形表格表示的二维变量的肯德尔相关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相似 测度 总结 汇总