智能全文检索系统.docx
- 文档编号:26510697
- 上传时间:2023-06-20
- 格式:DOCX
- 页数:60
- 大小:2.05MB
智能全文检索系统.docx
《智能全文检索系统.docx》由会员分享,可在线阅读,更多相关《智能全文检索系统.docx(60页珍藏版)》请在冰豆网上搜索。
智能全文检索系统
智能中文信息管理系统
ISearchPro
ForWindowsX
中软英特信息技术有限责任公司
软件产品说明书
版权声明
智能中文信息管理系统I-SearchPro软件(源代码和目标代码)及所有相关的文档、手册著作权属于中软英特信息技术有限责任公司(简称“中软英特”)所有,受中华人民共和国著作权法、计算机软件保护条例等相关法律的保护。
未经中软英特书面授权,任何单位和个人不得以任何形式对本系统中的任何部分出租、拷贝(除出于备份目的而复制本软件)、修改(包括对源代码及目标代码的修改、解密)、实施逆向工程(反编译、反汇编、注释)、全部或部分地抄袭有关文档,否则中软英特将保留追究其民事及经济法律责任的权力。
目录
目录--------------------------- 3
前言--------------------------- 6
软件功能及特点简介----------------------- 7
第一章全文检索知识简介
1.1何谓全文检索--------------------------11
1.2全文检索的意义和作用----------------------11
1.3全文检索与情报检索-----------------------11
1.4全文检索得以发展的原因--------------------12
1.5衡量全文检索系统性能的基本指标-----------------12
1.6中文全文检索与英文全文检索-------------------13
第二章系统简介和系统安装、运行
2.1系统简介----------------------------15
2.2软件安装--------------------------17
2.3软件启动---------------------------17
第三章检索子系统
3.1系统界面概述--------------------------19
3.2基本使用----------------------------21
3.3系统检索功能
3.3.1字符串检索-------------------------23
3.3.2词检索---------------------------24
3.3.3字包含检索-------------------------25
3.3.4联想检索--------------------------25
3.3.5智能检索-------------------------26
3.3.6限制检索范围-----------------------26
3.3.7对检索结果集进行运算或操作-----------------28
3.3.8其它检索功能------------------------29
第四章检索子系统使用详细说明
4.1菜单体系结构及功能
4.1.1菜单----------------------------30
4.1.2工具条--------------------------33
4.1.3检索库及分类显示窗口-------------------34
4.1.4检索结果集显示窗口---------------------36
4.1.5标题显示窗口-----------------------37
4.1.6窗口快速切换条----------------------38
4.1.7正文显示区------------------------38
4.2关键对话框描述
4.2.1检索对话框-------------------------38
4.2.2检索串列表对话框----------------------39
4.2.3高级检索对话框-----------------------41
4.2.4显示选项对话框----------------------43
4.2.5其它标准对话框----------------------45
第五章I-SearchPro数据管理系统
5.1操作菜单体系结构及功能
5.1.1菜单-----------------------------46
5.1.2工具条----------------------------47
5.1.3系统界面介绍----------------------47
5.2利用菜单完成数据管理
5.2.1使用菜单建立数据库--------------------48
5.3利用菜单进行库操作
5.3.1删除库-------------------------49
5.3.2删除库中全部文章---------------------49
5.3.3更改库名-------------------------50
5.3.4在库中增加文章----------------------50
5.3.5增加格式化文章----------------------50
5.3.6加载DOC文件-----------------------53
5.3.7加载PDF文件----------------------53
5.3.8库的备份-------------------------53
5.3.9库的恢复-------------------------53
5.3.10库的优化------------------------54
5.4利用菜单进行各级分类操作
5.4.1增加子分类-----------------------54
5.4.2分类改名------------------------56
5.4.3删除当前分类----------------------56
5.4.4在各级分类中加入文章-------------------56
5.5联想词管理
5.5.1增加联想词-----------------------57
5.5.2删除联想词-----------------------57
5.5.3浏览联想词-----------------------58
5.5.4清除全部联想词---------------------58
5.6选项------------------------------59
5.7利用鼠标快捷方式完成各项操作----------------59
附录:
I-SearchPro展示-----------------------60
前言
二十世纪八十年代以来,随着科技文化的发展和经济的腾飞,我国步入了信息时代。
目前,我国的报社、图书馆、新闻出版、企业等单位电子数据激增,大中型数据库如IBMUDB、MICROSOFTSQLSERVER等得到了广泛的应用,光盘也成为快速传递并存贮大量信息的又一新生力量。
在这种形势下,传统的手工检索方式越来越不符合发展的需要。
全文检索系统则因为检索功能强大,管理方便,界面友好,操作容易而越来越受到广大用户的欢迎。
国外的检索软件虽然较早地得到了应用,其规模和实用性都很高,但国外的检索软件对中国用户而言有很多不适用的地方,如最多能作到汉化界面,并没有实现中文化,根本无法实现对汉语自然语言的处理等。
所以,国外的全文检索软件并不适用于中国。
全文检索系统拥有着广泛的需求和广阔的应用前景,而同时,国外的检索软件无法满足国内用户的需求。
面对这种状况,中软英特信息技术有限责任公司(简称“中软英特”)致力于智能全文检索软件I-SearchPro的开发与应用。
中软英特组织了最优秀的开发力量,不断地研究、采用最新的科学技术,大量借鉴人工智能等领域的研究成果,力求使本产品技术先进,功能完善。
公司于一九九九年正式推出智能中文信息管理系统I-SearchPro。
软件功能及特点简介
1.检索速度快
用户事先无须对检索内容做任何标引,即可对全文信息进行快速检索,I-SearchPro是针对中文特性而研制的检索软件,具有极高的平均响应速度,真正作到亿万汉字秒级响应。
1GB中文全文数据,100万条记录,单机平均检索速度为0.233秒。
2.超大文本数据管理能力
系统建库数量不限,每库中记录个数不限,每篇文章大小不限。
截止1999年5月止,用I-SearchPro管理和检索10GB全文数据,仍未测试到检索瓶颈点。
3.检索手段丰富,检索策略齐备
系统提供了多种检索方法,其中包括字符串检索,字包含检索,词检索,联想检索,智能检索(蕴涵检索),模糊检索,以及标题检索、英文词尾模糊检索、分类名检索、日期范围内检索,专题检索和历史检索等。
用户根据需要还可对多种检索条件进行逻辑与、逻辑或、逻辑非任意组合,能满足用户特殊的检索需求。
字符串检索指照字面检索,如检索“的话”。
词检索指以词为单元进行检索,如检索“软件”。
字包含检索的结果为所检索字符串中任意字的检索结果之和,如检索“古都”,检索结果为“古”的检索结果和“都”的检索结果之和。
联想检索和智能检索详见6。
模糊检索指用户在对检索对象不能准确描述或记忆不清时可用“?
”和“*”来进行模糊检索。
每个“?
”可代表一个汉字或ASCII字符;“*”则代表若干汉字或某一字符串。
4.检索范围可控
任何内容(包括文本信息和多媒体信息(视频和音频))均可作为检索对象。
系统不设禁用词,如“THE”、“的”等,任何词或字符串均可作为检索对象。
同时系统可限定检索方式(指全文检索,标题检索或分类名检索),限定检索文献库和检索文献时间范围。
5.词检索采用自动切词技术,尽显中文检索风采系统将计算机技术与语言学成果融为一体,精确切词,理解词义,使系统具有认知能力。
例如:
用户检索“华人”,系统不会将出现“中华人民共和国”的文章检索出来,用户检索“民法”,系统不会将“人民法院”检索出来等等,真正体现中文检索技术。
6.采用人工智能技术进行智能化检索系统不仅能够理解词意,还可以在理解的基础上进行联想和理解,即联想检索和智能检索(或称蕴涵检索)。
例如:
联想检索查找“微机”,系统可以把“电脑”、“计算机”等词一起查出。
再例:
智能检索(蕴涵检索)检索“交通工具”,便可检索出“中国汽车工业的发展”、“自行车王国的秘密”、“波音747的诞生”等库中所有的有关交通工具的文章。
7.自学习功能
该功能为第四代检索产品的最新革命性技术。
该功能将主动根据用户文献的内容,自动进行学习,调整检索策略,优化系统性能。
一段时间后,系统的检索性能将得到显著提高。
8.真正中英文混合检索一般的中文检查系统将英文字符作为字符串检索,用户检索“ATM”或“DEC”时,系统会将包含这几个英文字母的文章都检索出来,误查率极高。
而I-SearchPro具有完整的英文检索体系和混合检索机制,可以高效、准确地进行纯中文检索、纯英文检索和混合检索。
例如:
“DEC”是一家公司,“COMDEC”也是一家公司,用户检索“DEC公司”时,系统不会将“COMDEC公司”检索出来。
9.划“词”检索
系统支持方便实用的屏幕剪贴编辑,用户可直接对查到的文本信息和多媒体信息进行剪贴检索,做到“即得即用”。
10.支持多媒体信息。
系统在管理超大文本的同时,直接管理图片、声音、活动影象等多媒体信息,并提供超文本浏览的功能。
11.支持S2等文件
系统既可以根据S2文件、PS2文件、PS文件还原成文本文件,也可以根据S2文件、PS2文件、PS文件再现报刊杂志的原版式风貌。
12.支持pdf文件和DOC文件
系统可以根据pdf文件还原成纯文本文件,也可以直接浏览pdf文件再现报刊杂志的原版式。
同样,系统支持DOC文件。
13.支持HTML文件
系统可以自动显示网页,以及将Html文件还原成纯文本文件。
14.数据库对接能力
系统和DB2、SQLSERVER、ORACAL、SYBASE可实现无缝连接,系统同时也支持INFOMIX及FOXPRO等数据库。
15.帐号管理、检索库管理、费用管理
系统可以对用户帐号和密码进行管理,还可以对检索库划分保密级别,相应的对用户也设置检索级别,最后,系统可设置库检索费率,并管理用户检索费用(C/S)。
16.应用范围广
系统支持单机检索、局域网(C/S)检索、局域网(B/S)检索、广域网(B/S)检索。
同时支持AIX,SOLARIS,NT等操作系统,也可以在各种数据库上的Web服务下运行。
任何应用场合的I-SearchPro数据都可以方便的制作成光盘。
第一章全文检索知识简介
1.1何谓全文检索
全文检索就是以文本数据为主要处理对象,根据数据资料的内容而不是外在特征来实现的信息检索手段。
“文海捞针”是对全文检索的形象描述。
全文检索是信息检索发展的最前沿和目前的最高阶段。
1.2全文检索的意义和作用
人类进入二十世纪,科学技术以前所未有的高速度向前发展,随之而来的是产生出大量的、具有反复使用价值的信息。
来自统计学的报告显示,在信息传递过程中,80%的时间用来获取信息,20%的时间用来加工和产生新的信息。
面对这种现状,摆在我们面前的首要任务是如何科学地、高效率地获取信息,这就是全文检索的意义所在。
全文检索的作用主要表现在以下方面:
a.促进信息资源的开发和利用
b.协助管理者作出正确的决策
c.便于继承和借鉴前人的成果,避免重复研究或走弯路
d.完善的检索设施和周到的检索服务,会节省大量时间,大大提高工作效率
e.光盘为信息交流提供了良好的途径和媒介,全文检索技术在光盘制作中的应用,大大提高了信息交流效率
1.3全文检索与情报检索
全文检索技术的出现,导致了信息检索领域的一场革命。
比起情报检索来,全文检索提供了全新的、强大的检索功能。
情报检索是对数据资料的外部特征进行检索,如对数据资料的资料号、标题、作者、摘要、附录等;而全文检索不仅可以实现情报检索的全部功能,而且还能直接根据数据资料的内容进行检索,实现了支持多角度、各侧面地综合利用信息资源。
1.4全文检索得以发展的原因
从技术角度看,全文检索技术是发现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础。
在应用方面,早期的情报检索应用仅限于专业情报领域。
随着信息量呈爆炸性增长、信息的电子化,导致对全文检索技术的需求激增。
其应用也从专业情报领域扩展到图书馆、报社、电台、电视台、信息中心、大中型企业、小型办公环境、甚至是家庭等一切有电子媒体的领域。
当前,微机的日益普及,使每台微机中或多或少存有一定数量的电子数据。
而且,随着Internet的发展,人们可供选择的信息激增。
从Internet中下载大量的电子数据并存储于自己的微机里是很平常的事情。
高效、安全地管理和使用这些电子数据,是全文检索技术和产品得以发展的源动力。
1.5衡量全文检索系统性能的基本指标
✓查全率:
系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。
✓查准率:
系统在进行某一检索时,检索出的相关资料数量与检索出资料总量的比率。
检索到的信息要准确、实用,既不能“漏查”,也不能“误查”。
✓响应时间:
又叫检索速度,是指从提交检索课题到查出资料结果所需的时间。
对于动辄上1GB的海量全文数据来讲,检索速度至关重要。
如果检索系统速度太慢,系统实用性就会大打折扣。
最基本的检索速度是“千万汉字,秒级响应”。
✓收录范围:
指所查找的范围,只有收录范围全面,才能保证真正的查全。
✓用户负担:
指用户在检索过程中付出精力的总和。
✓输出形式:
系统所检索出的资料的形式,可能是资料号、记录、文摘或全文等。
输出的信息越多且便于浏览,用户越容易作出相关性判断。
输出形式影响用户对查准率的容忍限度。
检索指标举例说明
例1:
查询关键字“民法”,不能把“人民法院”查出来。
否则是误查,出现分词错误。
例2:
查询关键字“电脑”,也应把“微机”、“计算机”等查出来。
否则是漏查。
全文检索系统应具备联想能力。
例3:
查询关于华北地区的情况,应把北京的情况包括在内,因为北京属于华北地区。
这要求全文检索系统有认知能力。
例4:
查询关键字“下岗”,由于这个词是新词,一般词典中不易找到。
但检索系统应及时作出反应,不能出现明显的速度瓶颈。
例5:
在流行配置的微机上运行中文全文检索系统。
如果在一般规模的数据中查询某一关键字,当等待的时间是以“10秒”作为时间单位时,系统并不实用。
1.6中文全文检索与英文全文检索
1.中文全文检索与英文全文检索的比较
a.由于自然语言体系不同,索引机制有所不同。
✓英文以词为单位建索引,与字母无关。
✓中文以字为最小单位。
b.分词的实现不同
✓英文以空格为分词
✓汉字无明显分界符实现分词
基于以上两点就可知道,中文全文检索比英文全文检索实现起来困难得多。
2.关于英文全文检索软件的汉化产品
英文全文检索技术和产品在国外应用比国内稍早,其软件工程的效率和质量较高,软件的商品化工作做得较好。
不过,目前在国内极少看到英文全文检索软件在有效地应用。
究其原因,英文全文检索软件的汉化产品至多能作到“界面汉化”,无法作到“内核中文化”,因此,很难实现对汉语自然语言的处理。
这是汉语自然语言形成的屏障,英文全文检索在技术上很难逾越,其汉化产品的实用性无从谈起。
目前,英文全文检索软件的汉化产品对汉语并不适用。
第二章系统简介和安装、运行
2.1系统简介
智能中文信息管理系统I-SearchPro是中软英特开发、具有自主版权的中文全文检索系统。
它是针对中文自然语言的特点,大量借鉴计算机技术、通讯网络技术、人工智能、汉语语言学、情报学、图书馆学等多学科多领域的成熟理论和技术而实现的智能型第五代中文全文检索系统。
I-SearchPro真正实现了中文全文检索的“快、准、全”。
智能中文信息管理系统I-SearchPro包括基础学习版、单机版、NT(B/S)版、NT(C/S)版、UNIX(B/S)版、NOVELL版。
为更好地与数据库融合,增强数据管理功能,保证数据安全性和数据一致性,I-SearchPro积极地与各大数据库公司——DB2、ORACAL、INFOMIX、SYBASE、SQLSERVER合作,开发出基于数据库的智能中文信息管理系统I-SearchproforDB2、I-SearchproforSybase、I-SearchproforOracle、I-SearchproforSQLServer等。
智能中文信息管理系统I-SearchPro将随着中国信息科学和信息技术的发展一起进步。
产品名称
运行环境
系统组件
功能描述
I-SearchPro
单机版
P100以上,内存32兆以上,VGA256色以上显示环境,30兆以上硬盘剩余空间
Windows95以上中文环境
全文库管理
全文库检索
联想词管理
完成对已有数据资料的管理、检索功能
I-SearchPro智能词管理
P100以上,内存32兆以上,VGA256色以上显示环境,30兆以上硬盘剩余空间
Windows95以上中文环境
智能词条、词组管理功能,提供用户自行定义智能词
配合其它版本应用(可选)
I-SearchPro光盘制作
P100以上,内存32兆以上,VGA256色以上显示环境,30兆以上硬盘剩余空间,较大的硬盘空间,Windows95以上中文环境
将I-SarchPro中的全文库整理、安排并生成模拟光盘,提供光盘上的检索安装和检索程序
发布全文库,数据光盘散发的简便方法
I-SearchProUNIXB/S
UNIX平台,用户数从10用户到无限用户
请参见公司主页关于UNIX的说明http:
//www.i-
I-SearchProNTB/S
NT平台,用户数从10用户到无限用户请参见公司主页关于NT的说明http:
//www.i-
I-SearchPro大型数据库版本
与DB2,Sybase,Oracle,SQLServer,Informix数据库对接版本,无用户数限制请参见公司主页关于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智能 全文 检索系统