搭建自己的搜索引擎.docx
- 文档编号:27330388
- 上传时间:2023-06-29
- 格式:DOCX
- 页数:28
- 大小:461.09KB
搭建自己的搜索引擎.docx
《搭建自己的搜索引擎.docx》由会员分享,可在线阅读,更多相关《搭建自己的搜索引擎.docx(28页珍藏版)》请在冰豆网上搜索。
搭建自己的搜索引擎
今天我就在这里借光年论坛在这里献丑下,写篇几篇关于自己搭建搜索引擎的文章。
所采用的是开源搜索引擎nutch,考虑到大部份的SEOER所以主要是在WINDOWS平台进行搭建。
1,Nutch简介Nutch是一个刚刚诞生开放源代码(open-source)的web搜索引擎. 尽管Web搜索是漫游Internet的基本要求,但是现有web搜索引擎的数目却在下降.并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户. Nutch为我们提供了这样一个不同的选择.相对于那些商用的搜索引擎,Nutch作为开放源代码搜索引擎将会更加透明,从而更值得大家信赖.现在所有主要的搜索引擎都采用私有的排序算法,而不会解释为什么一个网页会排在一个特定的位置.除此之外,有的搜索引擎依照所付的费用,而不是根据它们本身的价值进行排序.与它们不同,Nucth没有什么需要隐瞒,也没有动机去扭曲搜索的结果.Nutch将尽自己最大的努力为用户提供最好的搜索结果. Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:
每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作
2,安装2.1安装准备所需软件:
(如果以下网址不能下载,请自行搜索)
JDK1.6
下载地址:
.java./zh_CN/
Tomcat7.0.x
下载址:
http:
//apache.etoak.//tomcat/tomcat-7/v7.0.4-beta/bin/apache-tomcat-7.0.4.exe
Cygwin
下载地址:
.cygwin./setup.exe
Nutch1.0
下载地址:
http:
//mirror.bjtu.edu./apache//nutch/nutch-1.0.tar.gz
2010-11-1006:
26上传
下载附件(34.9KB)
2.2安装:
2.2.1
JDK安装
2010-11-1006:
32上传
下载附件(14.7KB)
(我这里用的是默认的安装)
2010-11-1006:
32上传
下载附件(20.57KB)
2010-11-1006:
32上传
下载附件(18.98KB)
接下来可以按默认的安装2.2.2
添加JDK环境变量:
右击我的电脑——>属性——>高级——>环境变量->系统变量
2010-11-1006:
27上传
下载附件(44.36KB)
Path添加C:
\ProgramFiles\Java\jdk1.6.0_22\bin;
2010-11-1006:
28上传
下载附件(20.98KB)
JAVA_HOME=C:
\ProgramFiles\Java\jdk1.6.0_22(JDK安装的目录)
2010-11-1006:
33上传
下载附件(17.85KB)
classpath=
.;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;
2010-11-1006:
36上传
下载附件(19.18KB)
添加好环境变量后、我们可以输入
JAVAC来看是否安装成功如:
看到下面图所示的容那么就安装成功了
2010-11-1006:
38上传
下载附件(22.66KB)
搭建自己的搜索引擎
(1)
搭建自己的搜索引擎
(2)
搭建自己的搜索引擎(3)
搭建自己的搜索引擎(4)
这下面的图片是没用的,不知怎么出来的
+++++++++++++++++++++++++++++++++++++
image007.png(17.85KB,下载次数:
0)
2010-11-1006:
35上传
下载次数:
0
image043.gif(2.48KB,下载次数:
0)
2010-11-1007:
56上传
下载次数:
0
image044.gif(13.55KB,下载次数:
0)
2010-11-1007:
56上传
下载次数:
0
image046.gif(12.94KB,下载次数:
0)
2010-11-1007:
56上传
下载次数:
0
image050.gif(5.77KB,下载次数:
0)
2010-11-1007:
57上传
下载次数:
0
image051.gif(22.55KB,下载次数:
0)
2010-11-1007:
57上传
下载次数:
0
2.2.3安装Tomcat7.0(除了选择安装目录外,别的我都选择了默认的安装)
2010-11-1007:
02上传
下载附件(31.62KB)
2010-11-1007:
03上传
下载附件(17.15KB)
2010-11-1007:
03上传
下载附件(16KB)
2.2.4安装Cygwin(因为NUTCH的自带命令必需要在LINUX的环境,所以必需要安装Cygwin来模拟这种环境)
2010-11-1007:
04上传
下载附件(15.38KB)
点击下一步
进入安装式的选择界面
2010-11-1007:
06上传
下载附件(13.65KB)
上图所示Cygwin有三种安装式
1,InstallfromInternet:
直接从Internet上下载并立即安装(安装完成后,下载好的安装文件并不会被删除,而是仍然被保留,以便下次再安装)。
2,DownloadWithoutInstalling:
只是将安装文件下载到本地,但暂时不安装。
3,InstallfromLocalDirectory:
不下载安装文件,直接从本地某个含有安装文件的目录进行安装。
如果你的网速还可以你可以选前两种,不过我们这里选的是第三种,因为我已经把文件下载下来了
我这里也提供了一个打包文件,你们也可从这里下载,速度具定要快很多而且下载途中不会出错
.retu123./Cygwin_dow.rar
2010-11-1007:
07上传
下载附件(16.85KB)
上图指定安装目录(也就是把程序安装在哪的意思)点击下一步
2010-11-1007:
08上传
下载附件(14.1KB)
上图是设定安装源的目录(也就是我们下载的那个些文件)如果你没有你可以这里下载
2010-11-1007:
07上传
下载附件(19.28KB)
上图,选择安装包容
如选择呢?
只需用鼠标点击每个安装包名后面那个循环箭头图标即可:
图标后面的文字是表示究竟对该安装包采取种安装式
[p=23,null,left]安装式共有这么几类:
(1)Default:
这是默认选择,表示只下载/安装该包的缺省安装项(可点击包左边的+号展开,看看缺省安装究竟是些什么容)。
(2)Install:
表示要下载/安装该包的全部容。
所要求的空间也最大。
(3)Reinstall:
表示重新下载/安装该包的容(以上一次正常下载/安装时所选择的容为准)。
这个选项非常有用,稍后在下篇中会有说明。
(4)Uninstall:
这个就不用解释了吧。
可根据自己的实际需要,来准定究竟安装哪些容。
推荐选择“Install”式,一步到位,免得日后被各种这样那样的问题所困扰。
[p=23,null,left]至于窗口顶部那些“Keep”、“Prev”、“Curr”、“Exp”等等选项,只是用来改变当前树结构的显示式的,对安装没有什么影响。
然后点击“下一步”,就要开始啦。
2010-11-1007:
09上传
下载附件(12.62KB)
上图这个过程会有几分钟时间,
2010-11-1007:
09上传
下载附件(13.44KB)
上图表示安装完成了,你要以在桌面上弄一个快捷式
这样就便多了
从桌面上启动Cygwin
输入date命令看下
2010-11-1007:
10上传
下载附件(9.42KB)
如上所示:
Cygwin安装成功
2.2.5安装Nutch1.0
Nutch只要解压到指定的目录就可以了。
这里我把他解压在了k盘(k:
\nutch-1.0)
2010-11-1007:
13上传
下载附件(18.22KB)
然后再新建环境变量:
NUTCH_JAVA_HOME=C:
\ProgramFiles\Java\jdk1.6.0_22
再在环境变量中添加PATH变时值
2010-11-1007:
13上传
下载附件(22.59KB)
安装完后,启动桌面的Cygwin
输入命令cd/cygdrive/k/nutch-1.0(我把untch-1.0解压在K盘了,你可做相应的更改)
2010-11-1007:
14上传
下载附件(6.41KB)
上图表示,我已进入了nutch-1.0的目录了
然后再输入命令:
bin/nutch
2010-11-1007:
14上传
下载附件(8.12KB)
看到如上所示,说明nutch已功安装
爬取
首选在k:
/nutch-1.0目录下建一个名为url.txt的文本文件,我这里输入的是
.qq./然后保存
指定爬虫规则
进入nutch-1.0\conf
打开crawl-urlfilter.txt找到
2010-11-1008:
10上传
下载附件(2.3KB)
打开nutch-site.xml
将
放在
与之间
我们启动Cygwin
输入命令cd/cygwin/k/nutch-1.0转到nutch-1.0目录下
2010-11-1008:
11上传
下载附件(2.48KB)
输入命令:
bin/nutchcrawlurl.txt–drbothm–depth3>&cr.log
此时爬虫就开始爬了,运行一会后就可会爬行完毕
如果你想看到爬过程
不把日志输出到文件就可以了:
bin/nutchcrawlurl.txt–dirbothtm–depth2
2010-11-1008:
11上传
下载附件(13.55KB)
crawl命令有几个参数,他们是:
-dir 指定抓取后容及索引的存放目录
-depth 指定抓取的层数
-delay 指定连接目标延迟时间
-threads指定程式运行的线程数,以提高抓取速度。
nutch命令详解:
.gnbase./thread-115-1.html
nutch命令参考:
.gnbase./thread-80-1.html
查询页面:
将nucth-1.0下的nutch-1.0.war拷同到
Tomcat7.0的WEBAPPS目录下:
如我的:
是在I:
\tcat\Tomcat7.0\webapps
启动tomcat
2010-11-1008:
11上传
下载附件(12.94KB)
一般情况下会自动解压nutch-1.0.war
如:
2010-11-1008:
11上传
下载附件(15.83KB)
打开:
webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml
在
\nutch-1.0\bothtm//注意这里是索引的文件夹这里不要留用空格
2010-11-1008:
11上传
下载附件(5.77KB)
添加后保存,然后重启Tomcat7
在浏览器中输入http:
//127.0.0.1:
8080/nutch-1.0/
结果如下
2010-11-1008:
11上传
下载附件(22.55KB)
如果大家在安装时有什么不明白的,可在此留言,或给我发短信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搭建 自己 搜索引擎