常见的检索技术文档格式.docx
- 文档编号:22414383
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:13
- 大小:869.11KB
常见的检索技术文档格式.docx
《常见的检索技术文档格式.docx》由会员分享,可在线阅读,更多相关《常见的检索技术文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
4.字段检索——限定如主题、关键词等某个字段进行检索。
5.全文检索——将文件中所有文本与检索项匹配的文字资料检索方法。
6.精确检索——指检索词与结果完全匹配的检索技术。
与之对应的模糊检索,则是指检索词的基础上进行相应的扩展。
7.其他检索技术(禁用词、嵌套、限制词、大小写敏感词等)
(二)分述
1.布尔逻辑检索(Booleanretrieval)
乔治·
布尔(GeorgeBoole,1815年11月-1864年),爱尔兰数学家,哲学家。
1848年,布尔出版了TheMathematicalAnalysisofLogic,这是他对符号逻辑诸多贡献中的第一次。
1854年,他出版了《TheLawsofThought》,这是他最著名的著作。
在这本书中布尔介绍了现在以他的名字命名的布尔代数。
由于其在符号逻辑运算中的特殊贡献,很多计算机语言中将逻辑运算称为布尔运算,将其结果称为布尔值。
布尔逻辑在检索中主要分为与、逻辑或、逻辑非。
(1)逻辑与
含义
表示检出同时含有A、B两个检索词的记录。
用法
常用于连接不同概念的检索词,以表达复杂的主题
运算符
AND或*
检索式
AANDB或A*B
例如:
分别在中英文数据库中,用题名字段检索智能机器人控制方面的文献。
示例数据库:
CNKI检索式:
智能机器人*控制
ScienceDirect检索式:
intelligentrobotANDcontrol
由结果可见,逻辑与重在“同时”,及检索字段里出现and/*前后的检索词。
(2)逻辑或
表示检出含有A词或者B词的记录。
常用于连接同一概念的不同表达方式,或者相关词,以防漏检。
OR或者+
AORB或者A+B
在中文数据库中检索二氧化硫方面的文章
数据库:
二氧化硫ORSO2
在英文数据库中检索传感器方面的文章
CSA检索式:
sensorORdetector
由上述检索结果可见,逻辑或的意义为OR/+前后的检索词“出现其一或同时出现”,这样能够保证课题的查全率。
(3)逻辑非
检出含有A词,但同时不含有B词的记录。
常用于排除某些概念,以达到精确检索的目的。
NOT或-
ANOTB或者A-B
在中文数据库中查非酒精饮料方面的文章
万方检索式:
饮料NOT酒精
(4)注意
☻逻辑运算符在中文数据库中多使用符号*,+,-,在英文数据库中使用字母and,or,not,具体如何使用,请参考数据库的帮助或说明。
☻逻辑运算顺序:
如果有括号,先执行括号内的运算;
没有括号时,各系统有不同的规定,检索时,请参考数据库的帮助或说明。
2.位置算符检索
用法:
用来指定词与词的位置关系
(1)W/n——算符两侧的两个检索词按此前后衔接的顺序排列,词序不可变,词与词之间相互距离不超过n个词(注意:
是单词,不是字母)。
W即with。
WorldScientific检索式:
solarNear/2energy
(2)N/n——算符两侧的检索词之间的距离不超过n个词,词序可变。
N即Near。
(3)Same——算符两侧的检索词在同一个子字段或同一个自然句中,使用SAME运算符(而非AND运算符)是缩小检索范围的好方法。
(4)Paragraph——算符两侧的检索词在同一个段落中。
3.截词检索与词根检索
(1)截词检索
截词检索或称通配符扩展检索,是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。
用某个符号来代替英文单词的一部分,通常用于相同词干或部分拼写相同的词,常用的截词符有*?
等。
?
代表任意一个字符,*代表零个或多个字符。
截词检索可分为:
⏹有限截词
放在词中间或末尾,一个符号表示一个字母。
WebofScience(SCI)输入wom*n检出woman,women
⏹无限截词
放在词的末尾,一个符号表示任意多个字母。
OxfordUniversityPress(OUP)输入compute?
检出computer,computers,computed
(2)词根检索(stemming)
即检索系统会根据词根的分析检索相关词,例如输入computer,系统自动检索包含词根“computer”的单词(computer、computing、computational、computed等等)的全部记录。
EI输入:
control输出:
control,controller,controlling等
检索选项示意图
检索结果示意图
4.字段检索
即将搜索词限定在某个字段进行搜索,字段检索结合逻辑检索可以提高结果的精准度。
常见字段
English
搜索结果呈现位置
摘要
Abstract
论文摘要
题名
Title
书目或论文题目
关键词
Keyword
摘要或关键词
主题
Subject
呈现相关主题的文献
作者
Author
按作者呈现结果
作者机构
Affiliation
按作者单位呈现结果
图书编号
ISBN
搜索某图书
期刊编号
ISSN
搜索某期刊内文献
5.全文检索
全文检索(full-textsearch),是指从各数据中逐字查询所键入的检索词,目的是查看所要的词语是否出现在文本中,但是全文字段并不查询书名或者其他的字段。
使用时,检索词越明确越好。
6.精确检索
用来检索特定的词组或句子
数据可采用如下任意方式来实现精确检索:
(1)使用特定符号“”{}(如google,EI)
(2)使用程序控制,如CNKI利用精确匹配和模糊匹配实现。
7.其他检索技术
(1)禁用词
排除没有检索意义的词。
这些词通常是一些虚词,如冠词、连词、助词等。
检索时可查看系统的禁用词表。
汉语中“的、地、得、了”等。
英语中的a/about/also/and/any/as/at/be/between/by/both/for/some/so/not/this/with等。
(2)嵌套
用途:
简化检索式,提高检索效率
例:
在中文数据库中查本科生或研究生的就业问题
(本科生OR研究生)AND就业
在英文数据库中查有关造纸废水处理方面的文章
(papermakingORpaperpulp)ANDwaste
waterAND(treatORtreatment)
(3)限制词
字段检索和限制检索常常结合使用,字段检索就是限制检索的一种,因为限制检索往往是对字段的限制。
在搜索引擎中,字段检索多表现为限制前缀符的形式。
如属于主题字段限制的有:
Title,Subject,Keywords等。
属于非主题字段限制的有:
Image,Text等。
作为一种网络检索工具,搜索引擎提供了许多带有典型网络检索特征的字段限制类型,如主机名(host);
域名(domain);
链接(link);
URL(site);
新闻组(newsgroup)和E-mail限制等。
这些字段限制功能限定了检索词在数据库记录中出现的区域。
如在北大网站上关于篮球赛的信息:
(4)大小写敏感词(case-sensitive)
它主要是针对检索词中含有人名、地名等专有名词的。
在区分大小写的情况下,大写检索词能被当作专有名词看待(如Internet专指因特网);
小写检索词则被当作普通词看待(如internet则代表互联网络)。
而在不区分大小写的情况下,则无法区分该检索词是指专有名词还是普通词,从而影响了检索结果的准确性。
如Google不区分大小写:
(三)显示与优化检索结果
1.扩大检索结果的方法
*考虑同义词或近义词(使用布尔逻辑符or连接)
*使用上位词(如飞行器_航天飞机_载人航天飞机)
*使用截词符
*选择较大检索范围的字段(如摘要)
2.缩小检索结果的方法
*使用and、not等限制检索范围的逻辑算符
*使用位置算符
*选择检索范围较小的字段
*使用下位词
*使用精确检索
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 常见 检索 技术