基于GPU的多模式网页精确匹配系统用户使用手册.docx
- 文档编号:3977088
- 上传时间:2022-11-26
- 格式:DOCX
- 页数:10
- 大小:922.69KB
基于GPU的多模式网页精确匹配系统用户使用手册.docx
《基于GPU的多模式网页精确匹配系统用户使用手册.docx》由会员分享,可在线阅读,更多相关《基于GPU的多模式网页精确匹配系统用户使用手册.docx(10页珍藏版)》请在冰豆网上搜索。
基于GPU的多模式网页精确匹配系统用户使用手册
基于GPU的多关键字网页精确匹配系统
用户使用手册
作者:
彭江锋、施少怀、漆舒汉、杨植群
指导教师:
陈虎
华南理工大学
2009年7月20日
文档目录
一、系统概述3
1.1系统运行流程3
1.2运行光盘说明3
二、爬虫程序的使用5
2.1python-2.54的安装5
2.2修改脚本程序6
2.3运行网络爬虫6
三、关键字预处理程序8
四、并行匹配程序10
一、系统概述
1.1系统运行流程
基于GPU的多关键字网页精确匹配系统包括:
网页爬虫程序、关键字预处理程序和基于GPU的匹配程序等三个部分。
系统运行的基本流程如图1-1所示。
图1-1系统运行的基本流程
整个系统的运行过程分为四个步骤:
1、运行爬虫程序,从Internet上获取网页,并存储在html目录中。
2、准备好待匹配关键字列表文件,运行关键字预处理程序,并将预处理的结果存储在特定文件中。
3、运行并行匹配程序,结果将存储在特定的result.html文件中。
4、用户使用浏览器浏览result.html,查阅匹配结果。
1.2运行光盘说明
运行光盘中包含三个目录和三份文档,如图1-2所示:
(注意:
由于执行程序有写入操作,执行程序前请先将光盘内容拷贝至硬盘文件夹下,如D:
\submit)
图1-2运行光盘信息
1)“bin”目录:
为“基于GPU的多关键字网页精确匹配系统”可执行程序和source,包含“source”、“爬虫程序”、“关键字预处理程序”和“并行匹配程序”。
如图1-3所示:
图1-3“bin”目录信息
2)“src”目录:
为“基于GPU的多关键字网页精确匹配系统”所有源程序和资源文件source(包含pattern文件和html文件等)。
源程序包括:
“爬虫程序”、“关键字预处理程序”和“并行匹配程序”。
如图1-4所示:
图1-4“src”目录信息
3)“CPU_测试用例”目录:
包含CPU串行字符串匹配软件nrgrep、nrgrep使用说明及其测试用例。
4)doc文档:
a)“基于GPU的多模式网页精确匹配系统_设计和测试报告.doc”,该文档详细说明该系统的设计实现方法和测试结果以及性能分析等内容。
b)“基于GPU的多模式网页精确匹配系统_用户使用手册.doc”,该文档详细说明该系统的使用方法。
c)“intro.doc”,该文档为CUDA比赛官方要求填写文档。
二、爬虫程序的使用
爬虫程序是基于Python的脚本程序。
整个运行过程包括以下步骤:
1、安装光盘中“爬虫”目录中的python-2.54安装程序,将此目录中的spider.py文件拷贝到python的目录中;
2、根据需要修改spider.py中的关键代码以指明要搜索的URL和存储的目录;
3、运行spider.py收集网页内容。
2.1python-2.54的安装
爬虫目录下有三个文件:
python-2.54安装程序、说明文本Readme.txt和爬虫脚本程序spider.py。
如图2-1所示。
图2-1爬虫目录下的文件
双击python-2.54,进入安装界面,并设置安装目录(这里设置为d:
\Python25\),如图2-2所示。
图2-2设置python的安装目录
Python安装过程的其他对话框按缺省配置即可。
在安装完成后,将“爬虫”目录下的spider.py拷贝到安装目录中(这里为d:
\Python25\)。
完成后的目录内容如图2-3所示。
图2-3Python安装后的目录内容(图中红圈标识为spider.py脚本程序)
2.2修改脚本程序
使用任意文本编辑器修改spider.py程序中的第72和73行。
如图2-4所示。
图2-4修改spider.py程序
其中第72行为网页收集后的存储目录(这里设置为D:
\work\text_GPU\test_sample1\html目录),第73行为需要收集的网页URL(这里设置为
2.3运行网络爬虫
在命令行模式下,进入d:
\Python25\目录,并运行spider.py程序,如图2-5所示。
图2-5运行网络爬虫
图2-6网络爬虫程序运行的典型输出
【注意】该网络爬虫程序不能自动停止,需要通过点击窗口关闭按钮方式停止。
在爬虫程序运行结束后,可以发现网页存储目录下(这里为D:
\work\text_GPU\test_sample1\html)已经收集了大量的html文件。
如图2-7所示。
图2-7网络爬虫收集到的页面
三、关键字预处理程序
在“关键字预处理”目录中包含的preprocPatterns_win.exe文件为关键字预处理程序。
双击运行该程序,将提示输入关键字集合文本,输入关键字文件路径和文件名。
如图3-1:
图3-1
其中pattern_location_100.txt为关键字集合文本文件,执行结果将输出文件pattern_location_100.pb,即为生成的B表文件,该文件生成位置与源文本文件的路径相同。
如图3-2。
图3-2预处理程序执行结果图
关键字集合文本文件为一般的文本文件,每个关键字以空格隔开。
模式文件patterns_people_457.txt共计457个人名,取自《中华人民共和国第十一届全国人民代表大会代表名单》中的北京市、天津市、河北省、山西省、内蒙古自治区、辽宁省。
资料来源:
新华网,2008-02/29/content_7694300.htm。
本系统共附带6个关键字集合文本文件(在src\source\pattern目录下)
文件名中缀“location”和“people”分别指文本内关键字为地方市名称和人名。
后缀数字为关键字个数。
四、并行匹配程序
本系统提供六种方案的设计模式,分别有不同的匹配性能。
但使用方法基本相同,这里只以在匹配大文本情况下匹配性能最优的方案“cugrep_pattern_texture_txt_share(bitmask&extended)”来说明该系统的使用方法。
步骤1:
在
目录下包含的cugrep.exe文件为基于GPU的并行精确匹配程序。
双击运行该程序,运行界面如图4-1:
图4-1多字符串并行匹配程序运行界面
步骤2:
输入各项参数,各项参数说明如下:
1.“请输入关键字.pb文件”:
此文件为在关键字预处理程序中生成的.pb文件,在此处为:
src\source\pattern\pattern_people_457.pb。
2.“请输入要扫描的html文件夹路径”:
此文件夹路径包含所有要匹配的文本。
此处为.html的页面文件,路径为:
src\source\html\html100
3.“请输入结果文件名”:
此文件记录匹配的结果,该文件名后缀须加.txt,如“result.txt”,此文件生成放在的目录与该程序目录相同,即在:
目录中。
如图4-2所示:
图4-2用户参数输入界面
步骤3:
执行程序,用户参数输入完毕后执行,执行成功将看到如图4-3结果:
图4-3执行结果
屏幕结果显示并行匹配程序执行过程:
初始化CUDA初始化关键字和B表读取和初始化html文件GPU并行匹配生成结果。
每一阶段执行失败将报相应错误。
步骤4:
查看匹配结果文件。
匹配成功将生成result.txt和网页result.html,都存放在执行文件的当前目录。
文件说明如下:
●result.txt文件包含:
其中patternID为标识pattern号,resultNum为该pattern匹配到的结果数。
跟随
如图4-4所示:
图4-4匹配结果文件result.txt部分内容
●result.html文件
该文件可以超链接到关键字匹配的原有网页查看结果。
点击链接可打开相应的html文件。
result.html部分内容如图4-5所示:
图4-5匹配结果生成的result.html文件部分内容
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 GPU 模式 网页 精确 匹配 系统 用户 使用手册