阳洁调研报告翻译.docx
- 文档编号:8167605
- 上传时间:2023-01-29
- 格式:DOCX
- 页数:21
- 大小:374.77KB
阳洁调研报告翻译.docx
《阳洁调研报告翻译.docx》由会员分享,可在线阅读,更多相关《阳洁调研报告翻译.docx(21页珍藏版)》请在冰豆网上搜索。
阳洁调研报告翻译
中南大学
本科生毕业论文(设计)调研报告
题目
网络蜘蛛城设计及实现
学生姓名
阳洁
指导教师
周诚
学院
软件学院
专业班级
软件0701班
完成时间
2010年12月
摘要
随着互联网的发展,网络中的资源越来越多,人们在享受互联网带来的便利的同时,却面临着一个如何地从浩瀚的信息资源中快速、确地找到用户所需要的信息的问题搜索引擎就是在这种背景下孕育而生,解决了这一个大问题。
搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
而在搜索引擎中最重要模块就是网页抓取模块~网络蜘蛛,本文从搜索引擎开始介绍,阐述了搜索引擎的原理以及发展现状,进而介绍了网络蜘蛛结构和其实现原理和策略,并对网络蜘蛛的关键部分进行了简单的设计。
关键词:
网络蜘蛛、搜索引擎
目录
摘要-2-
第一章网络蜘蛛的背景及意义-4-
1.1网络蜘蛛的概念和发展起源-4-
1.2网络蜘蛛的工作原理-5-
1.3可行性分析-8-
1.3.1市场可行性分析-8-
1.3.2技术可行性分析-8-
1.4国内外研究现状-9-
1.5网络蜘蛛目前存在的问题-9-
第二章网络蜘蛛的算法分析-10-
2.1网络蜘蛛搜索策略的分类-11-
2.1.1基于立即回报价值评价的搜索策略-11-
2.1.1.1基于内容评价的搜索策略-11-
2.1.1.2基于链接结构评价的搜索策略-12-
2.1.2基于未来回报价值评价的搜索策略-13-
2.1.2.1基于巩固学习的搜索策略-13-
2.1.2.2基于“语境图”的搜索策略-14-
2.2中文分词算法分类-15-
2.2.1基于字符串匹配的分词方法-15-
2.2.2基于统计的分词方法-16-
2.2.3正向减字最大匹配法-16-
第三章系统开发的技术和平台-19-
3.1J2SE开发平台-19-
3.2C/S结构介绍-19-
3.3UML建模技术-20-
3.4Eclipse-21-
第四章系统开发的任务及进度安排-21-
4.1系统的开发任务-21-
4.2项目预期难点-22-
4.2.1多线程操作-22-
4.2.2网络蜘蛛搜索策略-23-
4.2.3分词算法-23-
4.2.3.1基于字符串匹配的分词方法-24-
4.2.3.2基于统计的分词方法的组合-24-
4.2.3.3正向减字最大匹配法-24-
4.3系统设计进度安排-24-
参考文献26
第一章网络蜘蛛的背景及意义
1.1网络蜘蛛的概念和发展起源
什么是网络蜘蛛呢?
网络蜘蛛即WebSpider,是个很形象的名字。
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
网络蜘蛛就是一个爬行程序,一个抓取网页的程序。
要说网络蜘蛛的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?
搜索引擎的起源是什么,这和网络蜘蛛的起源密切相关。
搜索引擎指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。
英特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息地图,供你随时查阅。
搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。
1994年的1月份,第一个既可搜索又可浏览的分类目录EINetGalaxy上线了。
在它之后才出现了雅虎,直至我们现在熟知的Google、XX。
但是他们都不是第一个吃搜索引擎这个螃蟹的第一人。
从搜索FTP上的文件开始,搜索引擎的原型就出现了,那时还未有万维网,当时人们先用手工后用蜘蛛程序搜索网页,但随着互联网的不断壮大,怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点,成为人们研究的重点。
如果要追溯的话,搜索引擎的历史比WorldWideWeb还要长。
早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。
这些资源当时主要存在于各种允许匿名访问的FTP站点。
为了便于人们在分散的FTP资源中找到所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。
它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。
Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。
Archie虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先。
当万维网(WorldWideWeb)出现后,人们可以通过html传播网页信息,网络上的信息开始成倍增长。
人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。
现在人们很熟悉的网站雅虎(Yahoo)就是在这个环境下诞生的。
还在Stanford大学读书的美籍华人杨致远和他的同学迷上了互联网。
他们将互联网上有趣的网页搜集过来,与同学一起分享。
后来,1994年4月,他们俩共同办了雅虎。
随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库搜索。
但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。
当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。
它实际上是一种电脑“机器人”(ComputerRobot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。
由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。
所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
这种程序实际是利用html文档之间的链接关系,在Web上一个网页一个网页的爬取(crawl),将这些网页抓到系统来进行分析,并放入数据库中。
第一个开发出“蜘蛛”程序的是MatthewGray,他于1993年开发了World Wide Web Wanderer,它最初建立时是为了统计互联网上的服务器数量,到后来发展到能够捕获网址。
现代搜索引擎的思路就来源于Wanderer,后来很多人在此基础上对蜘蛛程序进行了改进。
1.2网络蜘蛛的工作原理
在抓取网页的时候,网络蜘蛛一般有两种策略:
广度优先和深度优先。
广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。
这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。
深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。
这个方法有个优点是网络蜘蛛在设计的时候比较容易。
由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。
这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。
对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。
当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。
网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。
而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。
网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。
例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为InktomiSlurp。
如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。
如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。
网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。
例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。
当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。
通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。
例如:
表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
搜索引擎建立网页索引,处理的对象是文本文件。
对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。
这些文件抓取下来后,需要把这些文件中的文本信息提取出来。
准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。
对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。
网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。
但HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:
、、等,提取文本信息时需要把这些标识符都过滤掉。
过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。
但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。
同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。
例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。
过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。
这就需要网络蜘蛛的设计有一定的扩展性。
对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。
例如有一个链接文字为“张曼玉照片”,其链接指向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。
这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。
另外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。
动态网页一直是网络蜘蛛面临的难题。
所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。
由于开发语言不断的增多,动态网页的类型也越来越多,如:
asp、jsp、php等。
这些类型的网页对于网络蜘蛛来说,可能还稍微容易一些。
网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和JavaScript)生成的网页,如果要完善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。
对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓取带来很大的困难。
对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。
对于网页内容的提取,一直是网络蜘蛛中重要的技术。
整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。
这种方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。
搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。
如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。
搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。
一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。
1.3可行性分析
1.3.1市场可行性分析
搜索引擎已经成为网民使用互联网最重要的基础工具,不仅对于网民进行信息检索有着强烈的引导功能,更成为推动经济发展的核心动力之一。
搜索引擎是网上天然的过滤器。
用户通过搜索引擎中关键词的查找过滤出自己感兴趣的信息,企业公司则通过锁定不同关键词得到准确有效的目标客户。
正是由于搜索引擎这一双向过滤特性,搜索引擎营销在网络营销中占据极其重要地位。
艾瑞调研报告指出:
预计2011年中国B2B广告市场将达到271亿人民币。
越来越多的广告费正在转投互联网。
最新调查显示:
2007年中国网络广告市场增长54.2%。
JupiterResearch预测,按效果付费广告收入今年将超过网络广告50%以上。
中国4000万中小企业,仅有10%的中小企业使用互联网进行市场推广,便成就了阿里巴巴2007年销售额高达21.62亿元,成就了XX2007年全年营业收入高达17亿人民币。
99%的中小企业更愿意接受效果付费方式进行推广,明白消费,广告费不浪费。
1.3.2技术可行性分析
网络蜘蛛系统的主要技术难度主要有分词算法,搜索策略,网页解析。
国内外很多研究机构都集中于前两块的研究,并且有很多优秀算法的产生。
就搜索策略来说,目前分为基于内容评价的搜索策略、基于链接评价的搜索策略、基于巩固学习的搜索策略,基于语境图的搜索策略。
对于分词算法这一块,也有基于字符串匹配的分词算法、基于统计的分词算法两大类。
1.4国内外研究现状
提及信息检索,大家往往马上会想起Google、yahoo等搜索引擎公司。
可以说,Web搜索引擎与大家的日常生活最为密切,在某种程度上成了信息检索技术的代称。
但作为实用化的系统,搜索引擎一般采用比较成熟的技术,并对稳定性、反映速度、界面等工程化问题更为关注。
因此,这些系统并不完全代表信息检索技术的发展水平。
但由于人们对于各种粒度的信息获取的需求不断增长,国外的学术界和企业界为此投入了相当大的力量进行前瞻性研究,这方面比较有代表性的机构包括马萨诸塞大学、卡耐基梅隆大学、伦敦城市大学、IBM、微软研究院、滑铁卢大学等。
总的来看,早期以Okapi、Smart、查询扩展、相关反馈为代表的内容分析技术,后来以Pagerank、HITS为代表的链接分析技术,以及近年来的语言模型,都曾在信息检索发展过程中掀起研究热潮,但近年来却少有激动人心的新技术出现。
2005年,TREC在其总结报告指出现在“信息检索性能已进入平台期”。
这表明,与用户无关的传统信息检索技术已相对成熟。
这些技术已经被商用搜索引擎广泛应用,并在一定程度上解决了用户在粗粒度(文档级)上的信息获取需求。
从TREC来看,现在的任务设置向高精度、细粒度和大规模三个方向倾斜,比较有代表性的有高精度文档检索任务(HARD)、新信息检测任务(Novelty)、问答任务(QA)、TB级检索(Terabyte)等。
其中前三个任务要求返回的结果不再是简单的一篇篇文档,而是信息片断,而TB级检索则是把测试集的规模提高到了TB级,其他不变。
从评测结果来看,这些任务已经取得了很大进展。
但相对于目前的技术而言,这些任务还是相当困难的,与实用还有一段距离。
总的来看,国外主流的Web检索技术已比较成熟,无论从结果、性能还是稳定性来看,都能提供令人满意的结果,并且已经在人们的日常信息获取中发挥作用。
更高精度和更细粒度的检索技术仍处于实验室阶段,但这方面的研究方兴未艾。
也许在不远的将来,我们就能看到基于这些新技术的搜索引擎的出现。
1.5网络蜘蛛目前存在的问题
当前的中文检索技术均基于国际主流的算法,在评测中成绩较好的单位在TREC评测中也曾取得不错的成绩。
可以看出,这些算法提供了基准级的性能,系统级的创新或改进不多,不过现有系统都会针对中文的特点进行改进。
总体上,如果用户草拟的查询条件能够比较全面准确地表达用户需求的话,现有的中文检索技术一般能够提供比较好的检索结果,但是对于以下方面还存在着一些问题:
▲查询条件与文档词汇内容失配;
▲部分命名体、新词以及缩略语识别还存在着一些问题;
▲在计算相似度时,查询词汇权重的设定正确与否也在一定程度上影响检索效果;
这些问题的存在导致现有检索系统性能下降,针对这些问题,现有的检索技术还有很大的改善空间来获得比较满意的检索结果。
第二章网络蜘蛛的算法分析
搜索引擎中,网络蜘蛛(或称爬行者、代理体)的任务是获取Web页和决定链接的访问顺序,它通常从一个“种子集”(如用户查询、种子链接或种页面)出发,以迭代的方式访问Web。
搜索过程中,未访问的链接被暂存在一优先权队列中,网络蜘蛛根据队列中链接的“重要程度”决定下一个要访问的链接,见图2.1。
由图2.1可以看出,搜索引擎网络蜘蛛模型的核心是搜索策略与分词算法,其分别功能是确定链接优先权队列,决定链接的访问顺序以及确定返回的页面的正确性。
图2.1搜索引擎网络蜘蛛模型
2.1网络蜘蛛搜索策略的分类
根据评价链接价值所采用的方法不同,该文将现有的网络蜘蛛搜索策略分为两大类:
基于立即回报价值评价的搜索策略和基于未来回报价值评价的搜索策略。
前者计算链接价值的依据主要是在搜索过程中“在线”获得的信息,如已访问页面中的文本信息、链接周围的文本信息和页面之间的结构信息等,它又可分为基于内容评价的搜索策略和基于链接结构评价的搜索策略;后者计算链接价值时,主要依据经预先训练而获得的某些“经验信息”,用于对远期回报的预测。
2.1.1基于立即回报价值评价的搜索策略
2.1.1.1基于内容评价的搜索策略
基于内容评价的网络蜘蛛,主要是根据主题(如,关键词、主题相关文档)与链接文本的相似度来评价链接价值的高低,并以此决定其搜索策略。
链接文本是指链接周围的说明文字和链接URLS上的文字信息。
相似度的评价通常采用以
下公式:
其中,q代表主题关键词集合,p代表页面链接文本集合,
代表集合d
Sim(q,p)=
中单词k对某一主题的重要程度,
通常采用tf*idf公式计算。
由于Web页面不同于传统的文本,它是一种半结构化的文档,包含许多结构信息;Web页面不是单独存在的,页面中的链接指示了页面之间的相互关系,因而有些学者提出了基于链接结构评价链接价值的方法。
2.1.1.2基于链接结构评价的搜索策略
基于链接结构评价的搜索策略,是通过对Web页面之间相互引用关系的分析来确定链接的重要性,进而决定链接访问顺序的方法。
通常认为有较多入链或出链的页面具有较高的价值。
Page-Rank和HITS是其中具有代表性的方法。
▲Page-Rank方法
Page-Rank方法最初用于搜索引擎信息检索中对查询结果的排序过程,近年来被应用于网络蜘蛛对链接重要性的评价。
Page-Rank方法中,页面的价值通常用页面的Page-Rank值表示,若设页面的Page-Rank值为PR(p),则PR(p)采用如下迭代公式计算:
PR(P)=
其中,T为计算中的页面总量,是阻尼常数因子,
<1是阻尼常数因子,in(p)为所有指向的页面的集合,out(r)为页面出链的集合。
基于Page-Rank方法的网络蜘蛛在搜索过程中,通过计算每个已访问页面的Page-Rank值来确定页面的价值,并优先选择Page-Rank值大的页面中的链接进行访问。
▲HITS方法
HITS方法定义了两个重要概念:
Authority和Hub。
Authority表示一个权威页面被其它页面引用的数量,即该权威页面的入度值。
网页被引用的数量越大,则该网页的Authority值越大;Hub表示一个Web页面指向其它页面的数量,即该页面的出度值。
网页的出度值越大,其Hub值越高。
由于Hub值高的页面通常都提供了指向权威页面的链接,因而起到了隐含说明某主题页面权威性的作用。
Hub方法对每个已访问页面计算其Authority权重和Hub权重,并以此决定链接的访问顺序。
设页面的Authority权重和Hub权重分别为A[p],和H[p],它们分别按下列迭代公式计算:
A[p]=
H[p]=
其中,E为所有指向页面p的页面集合,F为被页面p中的链接指向的页面集合。
2.1.2基于未来回报价值评价的搜索策略
近年来对Web信息资源的分布特点的研究表明,Web上信息资源的分布存在某种程度“相似性”,如同一类型Web站点在构建方式上存在一定相似性;同一主题的相关页面在组织方式也存一定相似。
先对网络蜘蛛进行一些训练,使起具备一些“经验信息”。
由于这些经验信息通常用于预测较远的回报,将采用这种链接价值评价方式的搜索策略称为基于未来回报价值的搜索策略。
代表性的方法有基于巩固学习的搜索策略和基于语境图的搜索策略。
2.1.2.1基于巩固学习的搜索策略
考虑到巩固学习(reinforcementlearning)在预测远期回报方面具有优势,Rennie和McCallum将其引入网络蜘蛛的学习过程。
在其提出的模型中,网络蜘蛛看作代理体,网络蜘蛛面对的Web环境代表状态,网络蜘蛛对链接的访问代表行动。
搜索过程中,经过若干无关页面的访问之后才能获得的主题相关页面称为未来回报页面称为未来回报(或称远期回报),对未来回报的预测值称为未来回报价值。
由于在巩固学习模型中,未来回报价值是用Q价值表示的,因而这种方法的核心就是学习如何计算链接的Q价值。
为此,搜索过程被划分成训练和搜索两个阶段。
训练阶段利用巩固学习算法计算每个链接的Q价值,并按价值大小将链接分类,然后用类中链接的文本信息训练一个NaïveBayes分类器;在搜索阶段,面对价值未知的链接,则根据链接文本,用Naï
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 调研 报告 翻译