书签分享收藏举报版权申诉 / 45

立即下载加入VIP,免费下载

当前位置：首页 > 成人教育 > 电大 > 信息检索评价指标.ppt

信息检索评价指标.ppt

文档编号：2653575
上传时间：2022-11-05
格式：PPT
页数：45
大小：658KB

信息检索评价指标.ppt

《信息检索评价指标.ppt》由会员分享，可在线阅读，更多相关《信息检索评价指标.ppt（45页珍藏版）》请在冰豆网上搜索。

信息检索评价指标.ppt

信息检索的评价指标高海燕2010114014信息检索的评价指标体系信息检索的评价指标体系评价评价IRIR的意义的意义IR评价研究的内容和程序评价研究的内容和程序如何评价效果如何评价效果评价指标分类评价指标分类单个查询的评价指标单个查询的评价指标多个查询的评价指标多个查询的评价指标评价评价IRIR的意义的意义信息检索评价是对信息检索系统信息检索评价是对信息检索系统性能性能（主要满足用（主要满足用户信息需求的能力）进行评估的活动。

户信息需求的能力）进行评估的活动。

通过通过评估可以评估可以评价不同技术的评价不同技术的优劣优劣，不同因素对系，不同因素对系统的统的影响影响，从而促进本领域研究水平的不断提高，从而促进本领域研究水平的不断提高。

信息检索系统的目标是信息检索系统的目标是较少消耗较少消耗情况下情况下尽快、全面尽快、全面返回返回准确准确的结果。

的结果。

IR评价研究的内容评价研究的内容效率效率（Efficiency）可以采用通常的评价方法可以采用通常的评价方法时间开销时间开销空间开销空间开销响应速度响应速度效果效果（Effectiveness）返回的文档中有多少相关文档返回的文档中有多少相关文档所有相关文档中返回了多少所有相关文档中返回了多少返回得靠不靠前返回得靠不靠前其他指标其他指标覆盖率覆盖率（Coverage）访问量访问量数据更新速度数据更新速度IR评价研究的程序评价研究的程序一项完整的检索评价工作可分为以下一项完整的检索评价工作可分为以下5个步骤个步骤:

（1）确定评价范围和目标）确定评价范围和目标

（2）选择评价方式）选择评价方式（3）设计或者制定评价方案设计或者制定评价方案（4）实施评价方案）实施评价方案（5）总结与评价结论的形成）总结与评价结论的形成在评价和比较检索系统的检索性能需要以下条件：

在评价和比较检索系统的检索性能需要以下条件：

一个一个文档集合文档集合C。

系统将从该集合中按照查询要求检出相关文档系统将从该集合中按照查询要求检出相关文档一组用户一组用户查询要求查询要求q1,q2,qn。

每个查询要求。

每个查询要求qi描述了用户的信息描述了用户的信息需求需求对应每个用户查询要求的标准对应每个用户查询要求的标准相关文档集相关文档集R1,R2,Rn。

该集合可由。

该集合可由人工方式构造人工方式构造一组一组评价指标评价指标。

这些指标反映系统的检索性能。

通过比较系统实际检。

这些指标反映系统的检索性能。

通过比较系统实际检出的结果文档集和标准的相关文档集，对它们的相似性进行量化，得出的结果文档集和标准的相关文档集，对它们的相似性进行量化，得到这些指标值到这些指标值6如何评价效果如何评价效果相同的文档集合，相同的查询主题集合，相同的评相同的文档集合，相同的查询主题集合，相同的评价指标，不同的检索系统进行比较。

价指标，不同的检索系统进行比较。

TheCranfieldExperiments,CyrilW.Cleverdon,19571968（上百篇文档集合上百篇文档集合）SMARTSystem,GeraldSalton,1964-1988（数千篇文档数千篇文档集合集合）TREC（TextRetrievalConference）,DonnaHarman,美美国标准技术研究所国标准技术研究所,1992-（上百万篇文档上百万篇文档），信息检索的，信息检索的“奥运会奥运会”评价指标分类评价指标分类对单个查询进行评估的指标对单个查询进行评估的指标对单个查询得到一个结果对单个查询得到一个结果对多个查询进行评估的指标对多个查询进行评估的指标（通常用于对通常用于对系统的评价系统的评价）求平均求平均9相关文本相关文本检索出的检索出的文本文本全部文本集合全部文本集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关单个查询的单个查询的评价指标评价指标（11）召回率召回率（Recall）=检出的相关文档数/相关文档数，也称为查查全率全率，R0,1准确率准确率（Precision）=检出的相关文档数/检出文档数，也称为查准率查准率，P0,1假设：

文本集中所有文献已进行了检查10举例举例ExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123通过某一个检索算法得到的排序结果：

1.d1236.d911.d382.d847.d51112.d483.d568.d12913.d2504.d69.d18714.d1135.d810.d2515.d3（precision,recall）（100%,10%）（66%,20%）（50%,30%）（40%,40%）（33%,50%）关于召回率的计算关于召回率的计算u对于大规模语料集合，列举每个查询的所有相关对于大规模语料集合，列举每个查询的所有相关文档是不可能的事情，因此，文档是不可能的事情，因此，不可能准确地计算召不可能准确地计算召回率回率u缓冲池缓冲池（Pooling）方法方法：

对多个检索系统的：

对多个检索系统的TopN个结果组成的集合进行标注，标注出的相关文档集个结果组成的集合进行标注，标注出的相关文档集合作为整个相关文档集合。

合作为整个相关文档集合。

这种做法被验证是可行这种做法被验证是可行的，在的，在TREC会议中被广泛采用。

会议中被广泛采用。

关关于于召召回回率率和和正正确确率率的的讨讨论论（22）u虽然虽然Precision和和Recall都很重要，但是不同的应都很重要，但是不同的应用、不用的用户可能会对两者的要求不一样。

因此，用、不用的用户可能会对两者的要求不一样。

因此，实际应用中应该考虑这点。

实际应用中应该考虑这点。

u垃圾邮件过滤：

宁愿漏掉一些垃圾邮件，但是尽垃圾邮件过滤：

宁愿漏掉一些垃圾邮件，但是尽量少将正常邮件判定成垃圾邮件。

量少将正常邮件判定成垃圾邮件。

u有些用户希望返回的结果全一点，他有时间挑选；有些用户希望返回的结果全一点，他有时间挑选；有些用户希望返回结果准一点，他不需要结果很全就能有些用户希望返回结果准一点，他不需要结果很全就能完成任务。

完成任务。

单个查询评价指标单个查询评价指标（3）P（3）P和和RR融合融合uF值：

召回率值：

召回率R和正确率和正确率P的调和平均值，的调和平均值，ifP=0orR=0,thenF=0,else采用下式计算：

采用下式计算：

uE值：

召回率值：

召回率R和正确率和正确率P的加权平均值，的加权平均值，b1表示表示更重视更重视P14Example1.d1236.d911.d382.d847.d51112.d483.d568.d12913.d2504.d69.d18714.d1135.d810.d2515.d3（33.3%,33.3%）（25%,66.6%）（20%,100%）15R-Precision计算序列中前计算序列中前RR个位置文献的准确率个位置文献的准确率RR指与当前查询相关的文献总数指与当前查询相关的文献总数1.d1236.d92.d847.d5113.d568.d1294.d69.d1875.d810.d25R=10and#relevant=4R-precision=4/10=0.42.1.d1232.d843.56R=3and#relevant=1R-precision=1/3=0.33单个查询评价指标单个查询评价指标（4）（4）引入序的作用引入序的作用单个查询评价指标（5）引入序的作用u正确率正确率-召回率曲线召回率曲线（precisionversusrecallcurve）u检索结果以排序方式排列，用户不可能马上检索结果以排序方式排列，用户不可能马上看到全部文档，因此，在用户观察的过程中，正看到全部文档，因此，在用户观察的过程中，正确率和召回率在不断变化确率和召回率在不断变化（vary）。

u可以求出在召回率分别可以求出在召回率分别为为：

0%,10%,20%,30%,90%,100%上对应的正确上对应的正确率率，然后描出图像，然后描出图像。

P-RP-R曲线的例子曲线的例子u某某个查询个查询q的的标准答案集合为：

标准答案集合为：

Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123u某某个个IR系统对系统对q的的检索结果如下：

检索结果如下：

1.d123R=0.1，P=16.d9R=0.3，P=0.511.d382.d847.d51112.d483.d56R=0.2，P=0.678.d12913.d2504.d69.d18714.d1135.d810.d25R=0.4，P=0.415.d3R=0.5，P=0.33P-RP-R曲线的例子曲线的例子P-RP-R曲线的插值问题曲线的插值问题u对于前面的例子，假设对于前面的例子，假设Rq=d3,d56,d129u3.d56R=0.33,P=0.33;8.d129R=0.66,P=0.25;15.d3R=1,P=0.2u不存在不存在10%,20%,90%的召回率点，而只存的召回率点，而只存在在33.3%,66.7%,100%三个召回率点三个召回率点u在这种情况下，需要利用存在的召回率点对不在这种情况下，需要利用存在的召回率点对不存在的召回率点进行插值存在的召回率点进行插值（interpolate）u对于对于t%，如果不存在该召回率点，则定义，如果不存在该召回率点，则定义t%为从为从t%到到（t+10）%中最大的正确率值。

中最大的正确率值。

u对于上例，对于上例，0%,10%,20%,30%上正确率为上正确率为0.33，40%60%对应对应0.25，70%以上对应以上对应0.2P-RP-R曲线的优缺点曲线的优缺点优点：

优点：

u简单直观简单直观u既考虑了检索结果的覆盖度，又考虑了检既考虑了检索结果的覆盖度，又考虑了检索结果的排序情况索结果的排序情况缺点：

缺点：

u单个查询的单个查询的P-RP-R曲线虽然直观，曲线虽然直观，但是难以明但是难以明确表示两个查询的检索结果的优劣确表示两个查询的检索结果的优劣单个查询评价指标单个查询评价指标（6）（6）P-RP-R曲线的单一指标曲线的单一指标uBreakPoint：

P-R曲线上曲线上P=R的那个点的那个点u这样可以直接进行单值比较这样可以直接进行单值比较u11点平均正确率点平均正确率（11pointaverageprecision）：

在：

在召回率分别为召回率分别为0,0.1,0.2,1.0的十一个点上的正确率的十一个点上的正确率求平均，等价于插值的求平均，等价于插值的APP-RP-R曲线中的曲线中的BreakpointBreakpointBreakpointBreakpoint单个查询评价指标单个查询评价指标（7）（7）引入序的作用引入序的作用u平均正确率平均正确率（AveragePrecision,AP）：

对不同召回：

对不同召回率点上的正确率进行平均率点上的正确率进行平均u未插值的未插值的AP:

某个查询某个查询Q共有共有6个相关结果，某系统排个相关结果，某系统排序返回了序返回了5篇相关文档，其位置分别是第篇相关文档，其位置分别是第1，第，第2，第，第5，第第10，第，第20位，则位，则AP=（1/1+2/2+3/5+4/10+5/20+0）/6u插值的插值的AP:

在召回率分别为在召回率分别为0,0.1,0.2,1.0的十一个点的十一个点上的正确率求平均，等价于上的正确率求平均，等价于11点平均点平均u只对返回的相关文档进行计算的只对返回的相关文档进行计算的AP,AP=（1/1+2/2+3/5+4/10+5/20）/5，倾向那些快速返回结果，倾向那些快速返回结果的系统，的系统，没有考虑召回率没有考虑召回率单个查询评价指标单个查询评价指标（8）（8）不考虑召回率不考虑召回率uPrecisionN：

在第：

在第N个位置上的正确率，对于搜个位置上的正确率，对于搜索引擎，考虑到大部分作者只关注前一、两页的结索引擎，考虑到大部分作者只关注前一、两页的结果，果，