网站全文检索方案Word文件下载.docx
- 文档编号:16857629
- 上传时间:2022-11-26
- 格式:DOCX
- 页数:20
- 大小:1.65MB
网站全文检索方案Word文件下载.docx
《网站全文检索方案Word文件下载.docx》由会员分享,可在线阅读,更多相关《网站全文检索方案Word文件下载.docx(20页珍藏版)》请在冰豆网上搜索。
实现对采集的WEB页面的智能化全文检索,支持各类检索方式。
另外,系统应具备良好的稳定性与安全性,保证系统与采集的数据内容的安全。
1.3方案综述
1.3.1内容安排与概要
首先,对政务公众网全文检索系统的需求进行了分析,明确了建设目标和内容;
然后进行了总体技术方案的功能设计,从应用软件的选择、系统功能模块等方面进行了设计;
在系统功能模块的设计和实现方面,对采集子系统、管理子系统与检索子系统等关键点进行了详细的功能描述及技术特点描述。
再次,就应用系统的安全方面进行了详细的描述及功能设计。
最后,就招标书中应用系统功能需求条款进行逐个应答。
1.3.2方案特点
●采用了业界主流和开放的技术标准和设计模式,提供开放的、平台级的应用编程接口和管理工具,可根据业务需要进行扩展;
●系统采用国内领先的智能化互联网采集系统与非结构化海量全文数据库系统作为政务公众网全文检索系统的采集、管理与检索平台,保证了系统具备了先进性与良好的开放性。
●智能化采集系统具备强大的采集功能,能够采集几乎所有类型的数据内容,支持ROBOTS协议。
●采用统一身份认证、权限控制、用户操作审计等安全措施,使得整个系统具有较强的安全性。
第二部分技术方案
2.1方案设计
2.1.1软件平台选择
浙江天宇信息技术有限公司凭借在信息服务、网站建设等建设领域多年的项目实施经验及1000多家成功应用案例,针对XX市政府政务公众网全文检索系统的实际需求及未来的发展需要,提供一整套解决方案与成熟的具有自主知识产权的系列软件产品——政务公众网全文检索系统。
从应用实现的角度,政务公众网全文检索系统选择基于:
浏览器与客户端相结合来实现目标系统的应用功能。
基于用户方的硬件环境及操作系统环境,我们的方案选择相应数据库平台及应用系统软件来具体实现政务公众网全文检索系统的建设目标。
2.1.2系统功能结构
政务公众网全文检索系统主要是以CGRS全文数据库为应用支撑平台,以智能化网络机器人技术及全文检索技术作为应用核心,通过政务公众网全文检索系统将采集到搜索引擎库中的WEB页面信息对公众提供智能化的高效的全文检索服务。
系统围绕政务门户网站上各种信息资源的采集与聚类、信息过滤和管理、信息的智能检索,构建XX市政务公众网全文检索系统。
2.2系统功能及技术指标
2.2.1采集子系统功能及技术指标
2.2.1.1采集子系统工作流程
采集子系统主要完成对目标网站或网站群上WEB页面及其他附件信息的批量采集,通过内容过滤,加载到CGRS搜索引擎库,进行管理与提供网站全文检索服务。
采集子系统的工作流程主要包含以下几个部分:
1、确定采集目标网站,建立采集工程;
2、对采集工程进行搜索策略的定义及过滤条件等内容的设定;
3、根据URL特征进行网站频道的分类采集、过滤及内容自动去重;
4、采集的内容自动加载到CGRS搜索引擎库,交由CGRS全文数据库管理系统进行统一管理。
采集子系统工作流程图
2.2.1.2功能描述
(1)建立采集工程
在本方案中以“XX政务网”为实例进行采集子系统的功能介绍及采集子系统界面描述。
确定需要采集的目标对象:
“XX政务网(http:
//www.XX政务网),建立页面批量采集工程。
起始URL中可以含有日期通配符,如${year}、${month}、${day}或是循环变量loop,对于带有日期信息的入口网站地址URL,可以使用日期通配符;
对于一些数字或字符串的URL,则可以使用LOOP循环变量进行设置。
通过这些通配符,可以方便地设定具有一定规则的URL的多个采集入口,方便地进行多入口分类进行采集。
提高采集效率与采集质量。
对于“XX政务网”网站,需要分频道分栏目检索功能,系统采用建立多个采集工程的方式,实现分栏目分频道采集,统一的全文检索的目标。
对于一些不需要分频道检索的其他网站,则可以通过建立一个采集工程的方式实现整个网站信息的的全部采集。
(2)采集工程参数设置
URL选项
对于主机地址的限定,系统提供四种参数设置规则:
①地址不限。
用户选中后,系统会无限制进行采集,可以通过XX政务网内的所有链接,进行WEB页面的采集。
②本站内。
对本站内搜索的WEB页面进行批量采集,对于其他网站上的友情连接网站,则不进行采集。
③本站内限定的目录。
通过对采集路径进行限定,实现了分栏目分频道进行采集,为分频道进行全文检索奠定基础。
通过这个参数的设定,可以定位到某个栏目或某几个栏目的批量采集。
④自定义。
用户可以根据需要,自己定义采集的范围,这个设置的灵活性非常高,自由度大。
对于“XX政务网”自身的页面内容的采集,则选择通过限定目录的方式进行采集,便于进行分频道检索;
对于采集其他网站群,则选择自定义方式在目标网站群中进行无限制采集。
URL过滤。
对于采集的页面,可以允许采集那些带有一定URL规则的页面,也可以排除某些带有一定URL规则的页面,提高采集的效率。
采集“XX政务网”自身,需要考虑使用URL过滤方式,便于精确采集频道内容,其他的网站采集则无须考虑URL过滤。
搜索限定
支持robots协议,另外,系统也可以不遵循此协议
支持脚本语言解析,采集通过程序动态生成的页面。
搜索限定主要是设置定义采集目标网站的深度和文件类型。
采集目标网站的深度设置,通过层的方式进行控制。
采集“XX政务网”时,根据前面URL采集规则的设定,需要进行分频道分栏目进行采集,那么在这里层数设置为“1”,也就是对目标URL下面的页面进行采集,这样就可以精确的采集到某个或某些频道或栏目下的页面了,不会出现采集其他信息的可能。
对于采集其他网站群,则选择“-1”,表示无限制采集URL规则下面的所有WEB页面。
当然,用户可以根据实际需要,采集需要的层数。
对于有些网站的层数是通过脚本语言控制动态生成的,我们可以选择本系统中“脚本语言解析器”进行脚本解析,这将有效地解决通过脚本语言动态生成的页面,做到100%的目标网页内容的采集。
采集的文件类型。
系统支持对页面内容(htm、html、xml、shtml、asp、php、jsp、notes等)、网页附件(doc、xls、ppt、txt、pdf等)、图片(jpg、gif、jpeg、bmp等)、音频(MP3等)、视频(AVI、RM、MPEG等)、JAVA(由JAVASCRIPT程序生成的页面)等内容的采集。
对于页面内联图片的采集,可以做到保持原样不变的进行采集。
根据本项目的实际需要,我们选择“总是下载内联图片、全部格式”进行页面内容的批量采集,这样就能有效地保证采集各类静、动态网页、网页附件、由JAVASCRIPT生成的页面等内容的采集,实现用户方的功能需求,其他设置参数可以不需要考虑。
数据处理
数据处理主要是执行下载的网页数据上载到数据库,并在网页入库前做一些预处理的操作流程:
选择数据库、数据预处理、网页内容提取。
发送数据库,是将采集下来的页面分类分频道地发送到指定的CGRS搜索引擎数据库中进行统一的管理。
数据预备处理,可以支持各类字符集编码,如GBK、GB2312、BIG5等,并可以实现采集页面内容的时候,自动进行识别,将BIG5码集的内容转换为GB2312码集。
自动分类,主要是实现对采集的内容按需要进行分频道分类采集,便于用户分频道进行检索。
排除URL是根据分频道采集的时候进行URL上载到数据库前的二次过滤,提高分频道采集的准确性(后面进行如何进行分类进行详细的描述)。
网页内容过滤是在采集的时候,可以设置过滤条件,将含有黄色信息的页面进行采集过滤。
在本项目中,数据预处理各类参数我们都需要进行细致的设置,便可达到用户的功能需求。
网页内容提取,是实现对采集的WEB页面进行内容的过滤提取,并进行格式化。
在本项目中根据实际情况,可以不需对这项参数进行具体的设置。
分类规则及实现
对于搜索引擎库的各个字段,采集子系统根据采集的需要均可进行个性化的设定。
高级属性设置
配置网页下载的一些高级属性,主要包括建库方式、是否启用代理、下载的配置以及对要身份验证的网站,可以预先填入用户名和密码来访问该网站等功能。
支持采集客户端通过代理服务器进行采集,选中进行通用配置
支持对需要身份校验的网站进行采集
配置代理服务器
支持对硬盘进行管理,用户可以设定硬盘资源不足停止下载及警告
根据目标网站的实际情况,用户可以设置扫描间隔
建库方式:
选择脱机浏览还是上载入库方式。
应选择上载入库的方式。
代理服务器:
如果用户需要通过代理,才能上网,就需要在通用配置里设置代理服务器的信息。
系统支持通过代理服务器进行采集。
下载配置:
用户可以自行配置扫描与下载的时间间隔,以达到最佳的采集效果。
在通用配置里,用户可以设置硬盘资源不足的时候进行警告及停止页面的下载。
至此,完成这个采集子系统的配置工作,可以通过天宇的下载调度中心自动控制工程进行增量式下载更新。
2.2.1.3技术参数指标
1页面采集内容的完整性。
适应网站内容格式的多变性,能完整地获取需要采集的页面。
2提取内容的深度与精确性。
能方便将网页中的结构化字段信息提取出来,如日期,标题,作者,栏目等等内容,过滤网页中如广告等无用信息。
3内容自动去重。
用户选择几种去重标准:
如标题、作者一样,正文字节数一样即认为是重稿,或者内容一模一样,认为是重稿;
或者80%、90%相似认为是重稿等标准,可供用户选择。
4网站采集范围的精确定义。
通过起始URL地址、URL范围表达式(可包含正则表达式)、搜索深度、文件类型控制的定义来精确描述需要采集的网站范围,可以精确到整个网站、特定栏目、特定页面;
过滤掉无用的链接。
5主题词过滤网页。
在采集过程中,可以定义主题词的逻辑关系(与、或、非),对网页内容进行过滤,精确地获取与采集主题相关的网页内容。
6网站动态数据库抓取。
能方便抓取网站上后台数据库的内容(JSP,ASP,CGI),和抓取需要通过用户身份校验的网站内容。
7网站历史数据的批量下载。
方便地成批抓取网站上的历史数据。
对于URL中带日期变量的网站,只需要设定一个规则,就可以任意下载指定一段时间范围内的网站历史数据。
8自动分类和个性化分类的结合。
即可以通过计算机学习的自动分类规则,对获取的内容进行自动分类;
也可以使用主题词分类方法,对下载的内容进行人工批量分类(机检分类)。
9支持简繁体网站、中英文网站的搜索。
10可靠的下载中心调度,可以设置采集间隔,支持多个下载任务同时高速下载,每个任务可以设定多个线程同时下载。
2.2.2管理子系统功能及技术指标
管理子系统主要是实现对采集下来的各类WEB页面、附件等非结构化资源通过CGRS全文数据库进行统一管理。
另外,实现对采集过程及用户进行有效地管理。
管
理
子
系统
操作系统UNIX/LINUX/WINDOWSNT/2000
内容管理
多码集:
GBK、BIG5、GB2312
CGRS
全文数据库
WEB页面、附件等
数据库新建、维护等
采集工程管理
超链接管理
系统运行管理
系统管理员、数据库管理员与一般检索用户三级用户管理
用户使用及操作权限管理,用户使用检索统计分析等
采集管理
用户管理
采集系统参数配置等
用户身份认证
同义词典、过滤词典管理、日志管理
管理子系统结构示意图
2.2.2.1内容管理
(1)功能概述
①内容管理是以CGRS全文数据库作为后台管理系统,是对WEB页面、文本、电子文档、图像、声音、映像等页面附件提供强大的数据库管理和检索功能的全文数据库平台。
②系统内嵌高可用性的索引机制,可以使用文中的任意字、词、短语、句和片段进行检索。
③系统具有强大数据库管理及维护功能,如搜索引擎数据库定义、建立、备份、恢复、逻辑删除、物理删除、重组、增量备份、记录查重等功能。
④管理子系统支持对整个系统(采集子系统、管理子系统、检索子系统)进行总体的控制,包括采集系统的启动、检索子系统的启动与停止,已经对这两个子系统的运行状态进行有效的监视。
如采集子系统的采集状况、完成比率等,检索子系统检索用户情况等。
⑤系统支持对采集的站点进行定义,如配置站点的起始URL、URL过滤规则、抓取深度、设置扫描间隔、采集频道分类等。
关于采集管理,详见采集子系统功能概述。
⑥系统具备用户分析统计功能,用户可以根据需要进行用户检索情况统计,用户检索用词统计,按天、周、月、年等进行用户使用情况统计,用户词频统计等等。
⑦系统具有独立于操作系统的身份验证机制;
用户使用信息资源的授权机制;
用户使用操作限制等。
⑧同义词典的管理与维护。
用户可以在记事本里编辑同义词典,也可以直接在管理子系统中编辑同义词典,并可以对编辑好的同义词典进行修改、删除与维护等操作。
⑨API接口。
系统提供标准的二次开发接口API,用户可以根据实际需要,定制个性化的应用系统。
具体接口包括:
标准的C++管理与检索接口(支持Windows和Unix下的通用开发工具);
Javabeans类库应用程序开发接口(支持J2EE环境下的开发工具);
C#类库应用程序开发接口(支持.NET平台下的开发工具)。
通过这些接口,可以和其他系统集成。
(2)技术指标
①开放和可扩展的体系结构
♦分布式体系架构,支持多域分布和集群分布;
♦支持所有主流的操作系统和各种Web应用服务器及Web服务器;
♦支持J2EE及.NET体系架构;
♦32位平台支持64位数据库文件,即支持大于4G的数据库;
♦支持OFFICE文档和PDF文档的自动过滤索引;
♦支持Web自动提取内容的管理和检索。
②中文自然语言处理功能
♦字元检索策略,在保证检索性能的同时达到100%查全率,保障了查准率;
♦提供自动分类技术、自动摘要功能、文本相似性比较功能;
♦支持按词索引、按字索引、字词混合索引;
♦支持文本自动提取和模式提取;
♦字段重复内容自动去重和计数。
③完备的数据管理
♦支持中英文、多语种混合检索;
♦支持GBK、GB2312、BIG5内码集,内核支持unicode码集;
♦支持多种数据类型(日期、数值、大数值、文本、二进制);
♦并行索引技术,对于多CPU机器能大幅度提高索引性能;
♦支持唯一性字段;
♦支持字段内容自动去重;
♦支持数据库记录的增删改操作;
♦支持多媒体数据的关联管理和检索;
♦支持数据批量标引;
基于主题词表的批量分类;
♦支持对检索数据集进行批量管理的功能;
♦数据库优化重组;
♦支持Web站点镜像检索和内容自动提取;
♦数据库分类导航树的管理。
④开放性
♦系统支持XML标准交换协议,保证了系统具有良好的开放性。
(3)性能指标
●数据库容量:
每个搜索引擎数据库最多可存贮存42亿篇文献;
●每个服务器允许建立数据库可达936个;
2.2.2.2采集管理
对采集进行管理主要包括:
采集工程管理、运行管理、超链接管理等几个部分。
采集工程管理,包括采集工程定义、工程参数设置管理等,详细的采集工程定义与管理见采集子系统的功能概述部分。
运行管理,包括对系统的启动、停止及运行状态的监视等运行管理。
对于采集系统的启动无须手工进行启动或停止,可以通过下载中心自动设置运行时间间隔进行自动运行或停止,同时进行运行状态的监视,系统出现运行故障,会自动进行提示。
详细的运行管理见采集子系统相关的功能概述部分。
超链接管理,主要是对一些网页死链或过期的网页链接进行管理,包括死链的删除、修改等管理。
在管理子系统中可以直接进行相关操作。
过滤词典的管理与维护:
用户定义过滤词典,可以直接通过记事本进行编辑,编辑完成后直接导入采集子系统中,用户在设定采集工程时调用过滤词典,系统会自动根据过滤词典进行采集页面过滤,如过滤含有黄色信息、反动信息的页面。
2.2.2.3用户管理
(1)功能设计
用户管理。
系统提供独立于操作系统的用户权限管理,用户操作审计、分析与统计,日志分析与统计等功能。
系统允许最多管理30000个用户,用户根据实际需要可以自定义用户数。
对于无须通过身份验证的普通检索用户,则通过访客用户可以直接访问,共用一个检索帐号。
用户权限管理。
系统允许用户对不同的操作用户定义不同的操作权限,并对用户的操作进行审计,提高系统的安全性。
♦内置的用户权限管理体系、多级用户管理;
♦灵活的用户-数据库授权机制;
♦数据库管理、数据维护、系统管理、检索各种权限分开,可以按需分配;
♦用户分组管理;
♦数据库检索频度统计、检索词频统计;
♦检索日志和数据库维护日志的管理。
2.2.3检索子系统功能及技术指标
2.2.3.1功能描述
(1)通用全文检索功能。
系统提供全方位的全文检索手段,支持多种检索运算符,包括外部特征与正文内容的各种逻辑组合检索,逻辑或、与非的检索,符合通用搜索引擎使用习惯;
多字段复合检索、历史检索、相关词扩展检索、分类导航检索、中英文(字符)混合检索,支持前方一致检索、短语与句子检索功能等。
检索子系统符合通用搜索引擎的使用习惯,支持搜索引擎搜索的绝大部分功能,并更适合与贴切政府部门政务内网、政务公众网检索的需要。
系统实现了采集与检索分频道处理,网页标题与内容摘要的自动提取与动态生成,用户通过关键词检索后,会在标题和摘要中以高亮显示,搜索结果分别按照标题、摘要、内容进行类聚,并剔除重复性的内容,并支持对检索结果按模版显示及网页原样进行显示;
用户需要查看所检索的信息在网页中所在的位置,可以通过存储在搜索引擎库中的网页快照进行浏览;
对于网页附件(DOC、XLS、TXT、PDF),存储在网页的可查询附件字段中,系统自动建立索引,可以进行全文检索;
系统实现了对中文、英文、中英文、德文、法文等西文进行单独检索与混合检索,并具有100%的查全率与极高的查准率。
(2)智能全文检索功能。
系统提供基于知识或同义词典的扩展检索功能,能够满足特殊应用领域的高查准率和高查全率的要求,词典可维护;
支持对检索结果的各种排序:
对检索结果可按与检索表达式的相关性和重要性程度排序、基于时间字段的排序、后进先出的快速排序等;
系统支持二次检索及任意多次渐进检索、模糊检索、距离检索、多条件组合检索(包括标题、正文、日期范围)等。
2.2.3.2技术参数指标
♦支持中英文多语种混合检索;
♦支持外部特征字段快速值集提取(词、拼音、笔画等简便的输入帮助功能);
♦允许使用文中出现的字、词、片段、句子进行检索;
♦提供多种检索手段:
各种逻辑组合检索、二次检索、渐进检索、内容关联检索、相关词扩检;
♦优化的检索策略和多线程并发检索机制,单机支持不低于50个并发检索请求;
♦独创的多种关联检索手段:
外部关联、特征关联、词典关联,基于内容联想的横向关联;
♦支持检索结果的多种定制手段;
♦提供分类字段,支持分频道进行浏览和检索。
2.2.4系统性能指标
♦查词速度:
在1G(100万条左右)的原始信息平均查询时间少于1秒;
♦联库检索:
同时打开500个数据库检索;
♦并发数:
单机支持100个并发检索请求,具体视服务器性能而定;
♦允许跨255个站点的数据库服务器分布式检索等。
2.4安全方案
检索代理:
通过检索代理服务器对数据进行访问,检索用户只能访问到检索代理服务器,无法进入数据库服务器,在数据库服务(内部网)前设置了一个“堡垒型”防火墙,拒绝黑客进入数据库服务器和局域网,增加网页数据库的安全性。
用户操作审计:
审计的记录保存在数据库中,并提供审计记录的查询、浏览、打印、统计等功能。
用户操作审计记录的记录项主要有:
用户的标识、用户的名称、操作时间、操作类别、数据库标识、数据库名称、操作的文献的标题、文献的字节数、其它关联信息等;
通过审计记录查询数据库中的内容被用户操作(包括浏览)的情况。
独立于操作系统的用户管理、身份验证机制;
提供系统、数据库、记录级字段安全控制;
用户使用信息资源的授权机制、用户文献存取数量控制;
用户使用IP地址限制;
数据操作审计和日志功能,控制台运行日志和故障分析工具;
用户每次查询登录曰期、时间、登录IP地址、检索用时、检索次数、下载信息的情况具备分析、统计等功能。
支持各类码集及各类码集的转换
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网站 全文 检索 方案