基于概念间边权重的概念相似性计算方法.docx
- 文档编号:23791818
- 上传时间:2023-05-20
- 格式:DOCX
- 页数:10
- 大小:21.80KB
基于概念间边权重的概念相似性计算方法.docx
《基于概念间边权重的概念相似性计算方法.docx》由会员分享,可在线阅读,更多相关《基于概念间边权重的概念相似性计算方法.docx(10页珍藏版)》请在冰豆网上搜索。
基于概念间边权重的概念相似性计算方法
基于概念间边权重的概念相似性计算方法
基于概念间边权重的概念相似性计算方法
文章编号:
1001-9081(2012)01-0202-04doi:
10.3724/sp.j.1087.2012.00202
摘要:
介绍了传统的基于距离的相似度计算方法,针对其在距离计算中包含语义信息不充足的现状,提出了一种改进的使用wordnet的基于概念之间边的权重的相似性度量方法。
该方法综合考虑了概念在词库中所处层次的深度和密度,即概念的语义丰富程度,设计了一种通用的概念语义相似性计算方法,该方法简化了传统语义相似性算法,并解决了语义相似性计算领域的相关问题。
实验结果表明,所提方法在rubenstein数据集上与人工判断有着0.9109的相关性,与其他经典的相似性计算方法相比有着更高的准确性。
关键词:
概念相似度计算;wordnet;边权重;语义信息
中图分类号:
tp393.08文献标志码:
a
abstract:
thetraditionaldistance-basedsimilaritycalculationmethodwasdescribed.concerningthatthemethodofdistancecalculationdoesnotcontainsufficientsemanticinformation,thispaperproposedanimprovedmethodwhichusedwordnetandedgeweightinginformationbetweentheconceptstomeasurethesimilarity.itconsideredthelevelofdepthanddensityofconceptsincorpus,i.e.thesemanticrichnessofconcept.usingthismethod,theauthorscansolvethesemanticsimilaritycalculationissuesandmakethecalculationofsimilarityamongconceptseasy.theexperimentalresultsshowthat,theproposedmethodhasa0.9109correlationwiththebenchmarkdataset-rubensteinconceptpairs.comparedwiththeclassicalmethod,theproposedmethodhashigheraccuracy.
keywords:
conceptsimilaritycalculation;wordnet;edgeweight;semanticinformation
0引言
词与词之间的相似性研究多年来一直是自然语言处理和信息检索的一部分,是正确理解文本内容的关键,在计算机语言学和人工智能及应用中语义相似性问题都比较普遍,比如词义消歧、文档分类或聚类、词语拼写纠错、自动翻译、本体学习和信息检索等。
语义相似性是比较词语之间的匹配程度也可以理解成分类学上的接近程度,比如两个概念含有共同的父概念,那么它们的相似性就比较高。
但是词语之间的互联不仅仅是这种分类上的父子关系还有很多语义上的关联,这样本文引入了语义相关性的概念,语义相关性是概念之间通过某种联系而产生关联,本文用方法识别出这种关联使这种关联能被计算理解这样就达到了使用语义信息。
在概念之间进行语义相关的计算都是在已经存在并建好的知识库中进行的,比如wordnet[1],wordnet是由普林斯顿大学认知语言实验室开发的一个词库。
在近几十年间很多语义相似性的算法被提出,这些方法主要可以分为以下几类:
1)基于距离度量的相似性算法;
2)基于信息量的相似性算法;
3)基于向量空间的相似性算法;
4)综合以上几种方法的计算方法。
文献[2]提出一种计算词之间的最短路径的算法,通过这个最短路径来衡量两个概念之间的相似性;wu等[3]引入最小共同父概念来表示两个概念的共性的多少;leacock等[4]提出的算法都是从路径长度以及概念的深度上考虑概念之间的相似性;li等[5]则以非线性函数的形式对最短路径和最小共同父概念组合进行计算;al-mubaid等[6]提出了一种结合最短路径长度和最小上层父概念深度的基于簇的方法,它为每一个层次上分支结构到根节点的部分定义一个簇,使得低层次上的概念对的相似度比高层次上的相似性高;lin等[7]提出的基于信息量的计算方法,考虑了两个概念间在知识库中的共享信息和两个概念分别带有语义信息的比率。
本文提出一种基于wordnet[1]并采用概念之间边的权重的相似性算法,概念之间的边的权重能反映概念在词库中的语义关系,一个概念越靠近叶子节点、含有的子概念越少,就说明含有的语义信息就越丰富[8-9]。
在计算语义相似性时,两个概念距离越短则它们之间的相似性就越高[2]。
本文在已有的距离相似性算法的基础上引入概念之间边的权重,去衡量概念在层次树中的语义丰富性,通过rubenstein原始数据集[10]进行实验,表明该方法在计算语义相似性问题上较其他一些算法和人工判断有更高的一致性。
1距离度量相似性算法
假设词语组成的结构是一种像树形一样的层次结构,每个节点代表一个词语或概念,rada[2]是指代文献2吧?
原来指文献1?
请明确。
证明了在连通不同的两个概念c1和c2之间的最短边数是衡量这两个概念之间距离的尺度。
对于两个词语w1和w2之间的距离的度量可按以下三条规则进行度量[2]:
1)w1和w2是同一是“同一”?
还是“统一”?
请明确。
个概念,则它们之间的距离为0;
2)w1和w2不是同一概念但是它们所属的词义中包含有相同的词的时候则它们的距离为1;
3)w1和w2既不属于同一概念也没有在所属词义中包含相同的词则计算它们之间的最短路径的距离。
基于距离的相似性算法最大的优点是它们计算词语之间的相似性只基于某种词库或某一本体,这样就对不同领域有更好的适应性。
但是该方法最大的问题,就是太过依赖词库或本体的完整程度、均匀性和覆盖面[11],如果词库不完整或是没有覆盖足够多知识,就容易导致计算结果不正确或不符合程序的要求。
而且,这种方法在计算距离的时候是根据词库的分类来计算,这容易忽略其他因素对距离度量的影响,而且这种分类关系不能作为语义相似性的度量[12]。
2基于概念间边权重的相似性计算方法
充分利用距离相似性算法的优势,针对上述方法存在的缺点,本文改进了li等的方法[5],采用给边加上一定权重的方式来改进算法,因为在不加权重以前边的默认权重都为1,由于没有完全考虑到概念节点所处的位置对语义相似性的影响,容易导致计算结果不精确。
概念节点间边权重的影响因素很多,包括节点所处词库网络的密度、节点在词库网络中的深度、连接节点之间链接的类型和连接边的强度[13],文献[8]的结果表明连接节点之间链接的类型和连接边的强度对相似性计算的影响不大,所以在此基础上本文主要考虑前两种因素对概念间边权重的影响。
2.1边的权重计算
在考虑概念所在层次深度和概念含有的子概念的个数情况下,计算出来的边权与路径的长度只存在较小的偏差,但是这样却能体现边权信息对词语准确度的影响,实验结果也显示出用此方法计算出来的边权信息能较大程度地拟合人工判断的结果。
例如boy和person与boy和animal两对概念在词库中的距离是相同的都是4,可是显然前者的相似性更高,在引入本文方法后boy和person的距离为1.20,boy和animal的距离为1.93,可以很好地区分两者之间的相似性。
首先是概念所处位置的密度,本文采用了概念的子节点个数与所有节点的个数的比重来衡量概念的密度。
一个概念所含有的子概念个数越多说明这个概念越抽象,则该概念所连的边的权重应该要取小一些的值[14];相反如果概念的子概念个数很少,则说明该概念是一个很具体的概念,所以对它所连接的边应该赋予高一些的权限。
由式
(1)表示了概念所处的位置的密度因子对权重的影响:
density(c1,c2)=1-ln(hypo(c)+1)ln(maxwn)
(1)请补充对数log的底?
若没有,请说明原因。
其中:
c的取值是在c1和c2中取层次比较低的那个进行计算;hypo(c)表示概念c的子孙节点的个数,并且不考虑重复的概念节点;maxwn表示整个词库中的词语的个数,本文采用的是wordnet中所有名词的个数。
概念的深度因子对概念所连边的影响也很重要,本文在考虑深度因子的时候主要是针对其在词库中所处的层次的高低,越低的层次上的概念因为概念比较具体所以对其边所赋的权也就越大;相反在高层则概念的权相对较小,这两处表达的意思相同,是否表达错误,请核实。
由式
(2)来表示深度因子:
depth(c1,c2)=ln(max{depth(c1),depth(c2)})lnd
(2)log的底是多少,请补充。
其中:
depth(c)表示概念c在词库中的深度;d表示整个词库的深度,在wordnet中词库的最大深度为16。
在考虑了深度因子和密度因子对概念之间边的权重的影响之后,本文可以把两部分结合起来计算概念之间的权重,如式(3)所示:
weight(c1,c2)=t×density(c1,c2)+(1-t)×depth(c1,c2)(3)
其中t的取值范围在[0,1]。
当t=0时只考虑了概念的深度对概念之间权重的影响;t=1时则只考虑了概念的密度对概念之间权重的影响。
2.2改进的相似性计算方法
本文的相似性计算公式仍采用文献[5]的公式原型,在路径的计算上考虑上文的概念之间的边权重信息。
通过计算最短路径上概念之间边的权重,综合路径上概念的密度和深度等因素的影响,使得源概念对之间的语义相似性计算更加精确。
sim(c1,c2)=e-a∑w1,w2{path(c1,c2)-lcs(c1,c2)}weight(w1,w2)×eblcs(c1,c2)-e-blcs(c1,c2)eblcs(c1,c2)+e-blcs(c1,c2)(4)
式(4)中,对于blcs(c1,c2)未予交代,是否有必要补充说明一下,请核实。
“b×lcs(c1,c2)”
其中:
path(c1,c2)表示连接c1和c2取不同的词义的时候描述的最短路径上的概念;lcs(c1,c2)指的是概念c1和c2的最近公共祖先概念节点;weight(w1,w2)则表示词义概念w1和w2之间的边的权重,且a≥0,b>0。
2.3语义相似性计算算法描述
输入两个概念a和b。
输出两个概念之间的语义相似性。
第一步找出概念a和概念b在词库wordnet中所处的位置。
第二步判断概念a和概念b是否是相同概念,相同则跳转到第五步,如果多义词中包含有相同的概念词语做一标记。
第三步计算概念a和概念b之间的语义距离,取其多义词中最短路径作为两个概念之间的路径,记为path(a,b),并保存两个概念相交的概念节点记为lcs。
第四步遍历path(a,b)中相邻的两个概念节点,按式
(1)和式
(2)计算两个概念的密度density和深度depth,然后把density和depth代入式(3)计算边的权重并累加到weight变量中。
第五步如果是相同概念则其weight等于0,lcs等于两个概念中任意一个,如果是两个概念中含有相同概念词汇则weight等于1;否则weight取第四步计算出来的结果。
第六步计算lcs在词库中所处层次h,然后把h和weight代入式(4)计算出概念a和b之间的相似性。
3实验结果与分析
本文的实验通过计算出来的结果之间的相关系数来衡量算法的性能,相关系数是变量之间相关程度的指标,用r表示,r的取值范围为[-1,1]。
|r|值越大,误差就越小,变量之间的线性相关程度越高;|r|值越接近0,误差就越大,变量之间的线性相关程度越低。
本文采用皮(尔生)氏积矩相关系数来计算两个结果之间的相关性,计算公式如式(5)所示:
rxy=∑ni=1(xi-)(yi-)∑ni=1(xi-)2∑ni=1(yi-)2(5)
其中:
指的是数列x的平均值,则指的是数列y的平均值,xi表示x数列中的第i个数,yi表示y数列中的第i个数。
3.1实验方案
本文的相似性计算采用rubenstein数据集[10],并利用wordnet2.0作为实验的词库,实验过程中首先实现了前文提到的距离相似度算法,为了进行比较,对文献[7]的基于信息量的相似性度量算法与本文提出的方法进行了比较,如表2~3所示。
3.2概念间的语义相似性计算
根据上述边权算法和相似性算法,并基于wordnet词库丰富的词语来进行相似性计算。
在实验中,深度和密度对概念相似性影响相当,所以取两项的权重因子t=0.5,经过多次尝试,可以验证在a=0.3,b=0.4,取定的情况下相似性算法与人工判断最接近,相关度为0.9109。
表1列出了rubenstein和m&c进行的实验做出的结果以及各项词语的指标,其中length值的是概念对的最小距离长度,depth指的是概念对的最小上层父概念的在整个词库中所处的层次。
本文的实验是基于rubenstein[10]所做的实验结果即rgrating,并以此来估计算法的性能。
表1中的mcrating表示的是millerandcharles(m&c)进行的人工实验结果,m&c数据集是rubenstein的一个子集,两者的相关度为0.97[15]。
表1中的rgrating表示什么,是否需要交代一下,请核实。
实验过程分为两个阶段:
边权计算和概念间的相似性计算。
本文使用m&c选取的30对概念,这些概念都进行了人工打分,打分区间在[0,4]。
很多研究者都只采用了这30对词组而忽略其他词组来进行研究,大量的实验表明furnace和stove存在意义上的相似可是两者语义距离却很远导致其不是很好的测试数据[8],所以本文不考虑这组数据并选取了m&c数据集的其中27组作为本文的实验数据集。
表2列出了本文方法与前述方法的计算结果,由表2数据可以发现本文方法与li方法[5]比较接近且本文方法与人工判断的数据拟合得比较好。
本文的方法是在文献[5]的基础上的改进,不同的方法对相似度的判断都有不同的结果和准确性,在rada等[2]刚提出距离相似度度量的时候,他的方法在当时是较准确的,随着技术的不断创新和存储结构的不断优化新的方法不断提出,计算结果的准确性也越来越高。
li提出的假设,把resnik[16]对m&c数据集的测试出来的相关系数作为相似性算法研究的上界,也即0.9583[5]。
表3列出了各种方法与人工结果的相关系数,本文方法与人工结果有较高的相关性。
4结语
本文在li等[5]提出的非线性方程相似度计算方法的基础上,改进了其中距离度量的标准,采用了基于边权信息的计算方法。
传统的基于距离的度量方法,因为没有考虑到概念所处位置的语义信息,所以在距离相同的时候概念的相似度会惊人地相似,而考虑了概念所处位置的语义信息后则把概念的这些语义相关性充分地体现了出来。
本文的实验结果与rubenstein源数据集的相关系数为0.9109,表明该方法与人工判断的数据有较好的相关性。
但是算法还有很大的提升空间,正如li所说的,当真正的非线性函数被发现,则算法的性能会有很大的提升。
由于本文的方法只考虑了一部分信息,一个概念的语义信息还有很多比如连接类型和连接强度等因素,这些信息都会影响相似性判断的准确性,所以在以后的研究过程中需要加入更多的语义相关信息使相似判断更加准确。
参考文献:
[1]
fellbaumc.wordnet:
anelectroniclexicaldatabase[m].cambridge,ma:
mitpress,1998.
[2]
radar,milih,bichnelle,etal.developmentandapplicationofametriconsemanticnets[j].ieeetransactionsonsystems,man,andcybernetics,1989,9
(1):
17-30.
[3]
wuz,palmerm.verbsemanticsandlexicalselection[c]//proceedingsofthe32ndannualmeetingoftheassociationforcomputationallinguistics.stroudsburg:
associationforcomputationallinguistics,1994:
133-138.
[4]
leacockc,chodorowm.combininglocalcontextandwordnetsimilarityforwordsenseidentification[m]//wordnet:
anelectroniclexicaldatabase.cambridge,ma:
mitpress,1998:
265-283.
[5]
liy,bandarza,mcleand.anapproachformeasuringse-manticsimilaritybetweenwordsusingmultipleinformationsources[j].ieeetransactionsonknowledgeanddataengineering,2003,15(4):
871-882.
[6]
al-mubaidh,nguyenha.acluster-basedapproachforsemanticsimilarityinthebiomedicaldomain[c]//proceedingsoftheieeeengineeringinmedicineandbiologysociety.newyork:
ieeepress,2006:
2713-2717.
[7]
lind.aninformation-theoreticdefinitionofsimilarity[c]//proceedingsofthe15thinternationalconferenceonmachinelearning.sanfrancisco:
morgankaufmann,1998:
296-304.
[8]
jiangj,conrathd.semanticsimilaritybasedoncorpusstatisticsandlexicaltaxonomy[c]//proceedingsoftheinternationalconferenceonresearchincomputationallinguistics.cambridge,ma:
mitpress,1997:
19-33.
[9]
secon,vealet,hayesj.anintrinsicinformationcontentmetricforsemanticsimilarityinwordnet[c]//proceedingsofthe16theuropeanconferenceonartificialintelligence.amsterdam:
iospress,2004:
1089-1090.
[10]
rubensteinh,goodenoughjb.contextualcorrelatesofsynonymy[j].communicationsoftheacm,1965,8(10):
627-633.
[11]
cimianop.ontologylearningandpopulationfromtext:
algo-rithms,evaluationandapplications[m].newyork:
springer-verlag,2006.
[12]
bollegalad,matsuoy,lshizukam.websim:
aweb-basedsemanticsimilaritymeasure[c]//proceedingsofthe21stannualconferenceofthejapanesesocietyforartificialintelligence.berlin:
springer-verlag,2007:
757-766.
[13]
sussnam.wordsensedisambiguationforfree-textindexingusingamassivesemanticnetwork[c]//proceedingsofthesecondinternationalconferenceoninformationandknowledgemanagement.newyork:
acmpress,1993:
67-74.
[14]
richardsonr,smeatonaf.usingwordnetinaknowledge-basedapproachtoinformationretrieval[r].dublin:
dublincityuniversity,1995.
[15]
millerg,charleswg.contextualcorrelatesofsemanticsimilarity[j].languageandcognitiveprocesses,1991,16
(1):
1-28.
[16]
resnikp.usinginformationcontenttoevaluatesemanticsimilarityinataxonomy[c]//proceedingsofthe14thinternationaljointconferenceonartificialintelligence.sanfrancisco:
morgankaufmannpublishers,1995:
448-453.
收稿日期:
2011-06-20;修回日期:
2011-08-21。
基金项目:
国家自然科学基金资助项目(61103114);重庆市高等教育教学改革研究重点项目(112023);“211工程”三期建设项目(s-10218);中央高校基本科研业务基金资助项目(cdjxs11
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 概念 权重 相似性 计算方法