TFIDF算法数学之美.ppt
- 文档编号:1392243
- 上传时间:2022-10-22
- 格式:PPT
- 页数:14
- 大小:88.50KB
TFIDF算法数学之美.ppt
《TFIDF算法数学之美.ppt》由会员分享,可在线阅读,更多相关《TFIDF算法数学之美.ppt(14页珍藏版)》请在冰豆网上搜索。
TF-IDF算法,戴奇2013/12/13,搜索引擎的原理,建立一个搜素引擎大致需要做这样几件事:
自动下载尽可能多的网页图的遍历算法提取URL哈希表记录建立快速有效的索引布尔代数、运算关键词用很长的二进制数表示根据相关性对网页进行公平准确的排序网页的质量信息(PageRank算法)这个查询与每个网页的相关性信息(TF-IDF),TF(定义),关键词在该网页中出现的次数除以该网页的总字数。
我们把这个商称为“关键词的频率”,或者单文本词频(termfrequency,TF)对关键词的次数进行归一化,以防止它偏向长的文件。
(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。
),TF(举例),短语“原子能的应用”可以分成三个关键词:
原子能、的、应用在某个一共有1000词的网页中,其中“原子能”、“的”和“应用”分别出现了2次、35次和5次,那么它们的词频就分别是0.002、0.035和0.005。
我们将这三个数相加,其和0.042就是相应网页和查询“原子能的应用”的“单文本词频”,TF(概括),因此,度量网页和查询的相关性,有一个简单的方法,就是直接使用各个关键词在网页中出现的总词频具体地讲,如果一个查询包含N个关键词w1,w2,.,wN,它们在一个特定网页中的词频分别是:
TF1,TF2,.,TFN。
那么,这个查询和该网页的相关性就是:
TF1+TF2+.+TFN。
TF(漏洞),由上例可知:
词“的”占了总词频的80%以上,而它对确定网页的主题几乎没有用处这种词叫“停止词”,也就是说,在度量相关性时不应考虑它们的频率忽略这些停止词后,上述网页和查询的相关性就变成了0.007,其中“原子能”贡献了0.002,“应用”贡献了0.005在汉语中,“应用”是个很通用的词,而“原子能”是个很专业的词,后者在相关性排名中比前者重要。
因此,我们需要给汉语中的每一个词给一个权重。
权重(设定条件),这个权重的设定必须满足下面两个条件:
一个词预测主题的能力越强,权重就越大,反之,权重就越小。
在网页中看到“原子能”这个词,或多或少地能了解网页的主题。
而看到“应用”一词,则对主题基本上还是一无所知。
因此,“原子能“的权重就应该比“应用”大停止词的权重应该是零。
权重(概括),很容易发现,如果一个关键词只在很少的网页中出现,通过它就容易锁定搜索目标,它的权重也就应该大。
反之,如果一个词在大量网页中出现,看到它仍然不很清楚要找什么内容,因此它的权重就应该小概括地讲,假定一个关键词w在Dw个网页中出现过,那么Dw越大,w的权重越小,反之亦然,IDF(逆向文件频率),在信息检索中,使用最多的权重是“逆文本频率指数”(Inversedocumentfrequency缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。
比如,假定中文网页数是D=10亿,停止词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)=log
(1)=0假如专用词“原子能”在200万个网页中出现,即Dw=200万,则它的权重IDF=log(500)=8.96又假定通用词“应用”,出现在五亿个网页中,它的权重IDF=log
(2)则只有1,TF-IDF,也就只说,在网页中找到一个“原子能”的命中率相当于找到九个“应用”的命中率利用IDF,上述相关性计算的公式就由词频的简单求和变成了加权求和,即TF1*IDF1+TF2*IDF2+.+TFN*IDFN在上面的例子中,该网页和“原子能的应用”的相关性为0.0161,其中“原子能”贡献了0.0126,而“应用”只贡献了0.0035。
这个比例和我们的直觉比较一致了。
查询,如果结合网页排名(PageRank)算法,那么给定一个查询,有关网页的综合排名大致由相关性和网页排名的乘积决定,TF-IDF值(应用),经常会和余弦相似度(cosinesimilarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性比如:
新闻分类,新闻分类(找数字),对于一篇新闻中的所有实词,计算出它的TF-IDF值。
把这些值按照对应的实词在词汇表的位置依次排列,就得到一个向量如果单词表中的某个词在新闻中没有出现,对应的值为零我们就用这个向量来代表这篇新闻,并成为新闻的特征向量。
每一篇新闻都可以对应这样一个特征向量,向量中每一个维度的大小代表每个词对这篇新闻主题的贡献,新闻分类(相似性),根据余弦定理,求出特征向量之间的夹角夹角在0度到90度之间两向量夹角的余弦等于1时,也就是夹角为0,两条新闻完全相同:
当夹角的余弦接近1时,两条新闻相似,从而可以归成一类夹角的余弦越小,夹角越大,两条新闻越不相关当两个向量正交时(90度),夹角的余弦为0,说明两篇新闻根本没有相同的主题,它们毫不相关,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- TFIDF 算法 数学