检索表达式构建.docx
- 文档编号:11774869
- 上传时间:2023-04-01
- 格式:DOCX
- 页数:36
- 大小:136.16KB
检索表达式构建.docx
《检索表达式构建.docx》由会员分享,可在线阅读,更多相关《检索表达式构建.docx(36页珍藏版)》请在冰豆网上搜索。
检索表达式构建
【资料】检索表达式(提问式)的构造
注:
本来这次实习报告是要测试同学们目前的文献检索水平的,相当于做一次调查,再分析存在的问题,有针对性进行教学,提高同学们的检索技能。
但有同学提出一些问题后,老师觉得有必要这个资料个你们,希望对你们提高检索能力有帮助。
如对其中的一些问题不理解,也不要焦急,我们这部分没学得,下个专题就要学到了。
顺便发下一专题学习的教案给你们,可以提前了解。
检索表达式也称检索式或检索提问式,是检索策略的具体表现,是用逻辑运算符将检索词组配而成,它就直接影响检索结果。
检索式是检索策略的具体表述,是通过逻辑算符、位置算符、截词算符等把表达主题要领的各检索单元组配连接起来的命令形式,它既能表达主题内容,又能被机器识别和执行,是决定检索策略质量和检索效果的重要因素。
※检索提问式,是指计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符以及系统规定的其它组配连接符号组成。
◎◎检索表达式的制定要遵循以下几个步骤:
(1)切分是对课题包含的词进行最小的分割
(2)删除对过分宽泛或过分具体的词、无实际意义的边词、虚词应予以删除。
如“的”“及”
(3)替换对表达不清晰活容易造成检索误差的词加以替换。
如“绿色包装”中的绿色应替换成“环保”
(4)补充或增加这一步是将课题筛选出的词进行同义词、近义词、相关词的扩充,这些词加入检索款目可以避免漏检。
(5)组合把检索词用逻辑符号链接组合成检索式。
聚类组合法:
切分、删除、替换、补充、增加、组合。
例1:
壮族传统民居的研究
切分:
壮族传统民居的研究
壮族传统民居建筑的研究
补充(删除)
壮族传统民居建筑
例2:
大气中细菌浓度的计算方法
(替换)
大气污染的计算方法
例3:
高层建筑的优化设计
(切分)
高层 建筑 的 优化 设计
(删除)
高层 建筑 优化 设计
(替换)
高层 建筑 优化 结构设计 (词的集合)
(聚类)
高层 优化 结构设计 (组面的集合)
建筑
例4:
(补充)
煤田勘探
煤田勘探+煤田*地质勘探
(增加限义词)
勘探 勘探*煤田(逻辑“与”)
勘探 勘探-煤田(逻辑“非”)
例5:
(组合)
[a,b,c] 1a,b,c
2ab,ac,bc,ba,ca,cb
3abc,acb,bac,bca,cab,cba
生物心理学
1生物*心理*科学
2生物学*心理+心理学*生物
3生物心理学+心理生物学
例6※壮民族旅游文化资源的开发与综合利用
例7绿色设计在我国的发展及状况______TheGreenDesign'sdevelopand conditioninourcountry
课题重点、关键词、主题词等分析(中英文):
绿色设计(greendesign)、我国(ourcountry)、发展(develop)、状况(condition)
检索式(例):
1.绿色设计and我国and发展or状况2 绿色设计and中国and发展or状况3 中国and绿色设计and发展or状况4,中国and绿色设计and发展or状况
例8※※※※“有关造纸废水的处理技术”方面的检索式,首先抽起检索词:
造纸——papermaking,paperpulp
废水——wasterwater
处理——treat,treatment
构造检索式:
(paperwmakingorpaperwpulp)andwasterwaterand(treatortreatment)。
例9父母民主型教养方式对幼儿卫生行为习惯培养的影响
【】苏东坡历史故事
苏东坡历史故事中国现代
【】网页设计与网站建设的思考与设计
网页设计网页制作网站设计网站建设
【】投机家的证劵心理分析
股票证劵投资市场心理学
【】信息时代的企业人力资源管理
例9检索实习报告范例三
利用计算机网络数据库检索。
我院有多种计算机网络数据库,本范例中只给出《清华同方全文数据库》和《维普全文数据库》检索样例。
其他中文数据库可以参照实习。
计算机数据库检索是利用字段检索实现信息检索,所以准确使用所需检索的字段是检索的关键。
同时计算机数据库检索都有普通检索与高级检索之分,本课程检索实习要求使用高级检索(即布尔逻辑检索)或二次检索。
班级学号姓名日期
题目:
探讨港口物流中心的运作模式对现代物流的影响
1.课题分析:
以港口为中心,大力发展现代物流业已成为一种必然趋势。
而港口发展现代物流业最重要的是建立现代化的港口物流中心。
在我国,目前各大港口都已经朝着物流中心转化,上海,广州,天津,深圳,厦门等港口都在积极规划建设物流园或物流中心。
我国港口物流中心发展不成熟,且物流中心的建设需要巨大的投入。
因此,对我国港口发展物流中心的运作模式进行理论上的探讨,对指导港口物流中心的建设是有着现实意义的。
即物流问题涉及港口建设与经营、管理。
其次,物流学科是个跨学科的研究对象,除了涉及港口外还涉及对外贸易、铁路与公路的运输,物资的供应链与流通。
但此课题不涉及一般物流概念,诸如:
生产企业的物流、超市物流等。
根据这些分析,我们可以看出课题涉及的主题(关键词)主要是港口、物流、物流中心、供应链等。
因此,应该对这些关键词进行全面的布尔逻辑检索。
另外,物流概念是近几年提出,为了检索到较新的信息,检索时限定检索时限为2001年至今。
2.选择数据库:
《清华同方全文数据库》和《维普全文数据库》
3.检索途径:
根据以上分析选用主题词检索字段检索,且用港口与物流两词进行布尔逻辑检索。
即采用高级检索,也可以采用简单检索后进行二次检索方法,以达到同样效果。
高级检索:
关键词:
港口*物流
一般检索:
关键词:
港口;在第一次检索后使用二次检索,关键词为:
物流(二次检索相当与布尔逻辑检索中的与检索)
4.检索内容:
(1)《清华同方》
※【篇名】当代国际航运中心发展的新趋势——兼析上海国际航运中心的规划建设CAJ原文下载
【关键词】国际航运中心;;集装箱转运;;港口区域组合;;物流中心;;上海市
※※【篇名】天津港集装箱物流中心战略构想CAJ原文下载
【关键词】天津港;;集装箱物流中心;;战略规划;;目标模式;;建设构架;;功能设计;;对策建议
(2)《维普》
第一条
【题 名】全球物流发展趋势与港口功能转变——深圳案例经验分析
【关键词】深圳市案例港口发展全球物流发展趋势港口功能
第二条
【题 名】港口物流信息系统评价原则及方法
【关键词】港口物流信息系统诊断评价
检索内容已有格式说明,故不进行格式说明。
(以上内容直接从计算机上检索并下载)
※例10检索实习报告范例四
课题:
计算机辅助设计在建筑设计中的应用
1.课题分析:
当前世界各国在建筑设计广泛采用先进技术,以增强建筑设计上的竞争能力和提高建筑的技术含量。
过去在建筑的设计上主要靠人工完成,随着计算机技术的开发,特别是计算机辅助设计技术的产生和应用,使建筑设计有了很大的技术保障,但我国计算机辅助设计在建筑设计中的应用相对落后。
对此,检索有关信息,以利用有关国家在这方面的情报。
根据分析,确定的主题词为建筑设计,计算机辅助设计。
2、检索途径:
在Ei数据库中有两个可以检索的库,本次检索使用2000—2003的数据库。
同时依据以上分析,采用建筑设计,计算机辅助设计这两个词的“与”检索。
“计建筑设计*计算机辅助设计”
其检索式(检索表达式或叫检索提问式)是:
“计建筑设计*计算机辅助设计”
3.检索内容:
例10
(二)[实习(实验)二]
检索工具与参考工具使用方法
《全国报刊索引》使用方法(其他检索工具与参考工具使用方法一样)
《全国报刊索引》目前有2种检索途径,分别是分类途径和著者途径。
下面举例说明其使用方法。
1.分类途径
[检索工具]《全国报刊索引》(自然科学技术版)
[检索课题]GPS车辆定位系统研究(1995-2008年)
[检索程序]
第一步:
分析研究课题,选择查找分册。
根据课题含意,应选《全国报刊索引》(自然科学技术版)。
第二步:
确定类目。
对照《全国报刊索引》(自然科学技术版)类目表,确定该课题的类目为“P22大地测量学”。
第三步:
根据确定的类目名称逐本查找,直到满足检索要求为止(1995-2008年)。
例如在2003年11期上查得:
031101554GPS车辆定位监控系统的应用/李星蓉(华北电力大学,071003)//电力系统通信(南京).-2003,24(6).-34-37
第四步:
索取原始文献:
(1)用上步获得的期刊刊名《电力系统通信》查《中文期刊馆藏目录》,获得馆藏单位;
(2)去人或去函借阅或复制。
2.著者途径
[检索工具]《全国报刊索引》(哲学社会科学版)
[检索课题]查找经济学家吴晓求2003年发表的论文
[检索程序]
第一步:
分析研究课题,选择查找分册。
经济学家吴晓求发表的论文一般属于经济学范畴,因此应选择《全国报刊索引》(哲学社会科学版)。
第二步:
用著者姓名按姓氏汉语拼音字顺在每期《全国报刊索引》(哲学社会科学版)后面的“著者索引”中查找,获得文献顺序号。
例如在2003年6期和9期上分别查得:
吴晓求030609834(6期)
吴晓求030907098(9期)
第三步:
用所获文献顺序号(俗称文摘号)查同期题录本,获得文献篇名与文献出处等。
第6期上为:
030609834资本结构和公司治理/吴晓求(中国人民大学金融与证券研究所)//资本市场.-2003,(4).-23-28
第9期为:
030907098激励机制与资本结构:
理论与中国实证/吴晓求(中国人民大学金融与证券研究所)//管理世界.-2003,(6).-5-14
第四步:
索取原始文献:
步骤同分类途径,
第四讲文献检索原理、方法和技术
一、文献检索原理
检索含义:
从信息集合中迅速、准确地查找出所需信息的过程和方法。
1、定义
文献信息检索是人们利用特定的检索技巧与方法,从信息集合中对目标资源进行快速定位,获取与信息需求相关的那部分信息的过程。
从文献信息处理的角度来说:
文献信息检索包括信息存储与检索两个过程;
从读者检索的角度来说:
文献信息检索仅指从信息集合中找出信息的过程,相当于人们通常所说的信息查询。
信息集合是指有组织的信息资源整体,可以是:
馆藏目录、数据库、(印本)检索工具等。
※文献信息存储过程:
将大量分散的文献信息搜集起来,根据其内容特征或外表特征进行标引,形成表征这些文献信息的特征标识,并存储在一定的载体上,成为有查询功能的检索工具。
标引:
对文献内容特征和外部特征进行分析形成概念标识,再依据一定的标准或规则(检索语言:
如分类号、主题词、关键词及著者选用规则等)将其用相应的标识充分、准确地表达出来。
※文献信息检索过程:
用户根据自己的信息需求,提出检索提问,然后使用有关的标引语言(也称检索语言)将拟定的检索提问规范成检索标识,用于检索的过程。
二、文献检索方法
在浩如烟海的文献中要查阅到自己所需要的资料,不仅需要遵循准、全、深、快的文献检索原则,更需要灵活掌握和运用文献检索的基本方法。
常用的文献检索方法有:
(一)基本方法
1、文献信息检索的常用方法
(1)顺查法
根据检索课题的起始年代,利用检索工具,按照从旧到新、由远及近、由过去到现在的顺时序,逐年查找文献信息的方法。
查全率高。
适用于围绕某一主题普查一定时期内的全部文献信息,或者说适用于那些主题较复杂,研究范围较大,研究时间较久的科研课题。
可用于事实检索,更多地用于文献检索。
(2)倒查法
根据检索课题的起始年代,利用检索工具,按照从新到旧、由近及远、由现在到过去的逆时序逐年前推查找文献信息的方法。
查得的信息新颖性强,查全率不高。
多用于新课题、新观点、新理论、新技术的检索。
检索的重点在近期信息上。
(如:
检索“藏青会”的相关信息)
(3)抽查法
利用检索工具,针对某一学科的发展重点、文献信息量较大的阶段,选定一定时间范围进行逐年检索的方法。
必须熟悉学科的发展特点,把握学科发展的高峰期和低谷期。
(如:
检索“克隆羊多莉”的相关信息)
2、回溯法
也称引文法,是一种跟踪查找的方法,即以文献后面所附的参考文献和引文索引为线索,逐一追溯查找文献的方法。
适用于检索课题的背景和立论依据等方面的文献。
(如:
《科学引文索引》(SCI)、《中国科学引文索引》(CSSCI)。
)
3、循环法
是常用法和追溯法交替使用的方法,又称循环法或交替法,既利用检索工具,也利用文献后所附参考文献进行追溯,两种方法交替,分期分段使用,对获得一定年限内相当文献的资料线索,节省检索时间。
4、浏览法(积累法)
浏览法,是指研究人员平时对与本专业或本学科相关的原始文献资料进行浏览、阅读和积累的一种方法。
常规法虽然可以在短时间内获得大量切合课题需要的文献,但是,出于任何一种检索工具都只能收录有限的期刊和图书,而且检索工具与原始文献之间一般有6个月左右的时间差,为了弥补这些缺陷,就需要研究人员及时阅读最新生产的原始文献,不断积累相关资料,跟踪学科发展的前沿。
浏览法的优点是:
能最快地获取信息;能直接阅读原文内容;基本上能获取本学科发展的动态和水平;缺点是科技人员必须事先知道本学科的核心期刊,检索的范畴不够宽,因而漏检率较大。
有局限性,不全面,不系统,不能作为查阅文献的主要方法。
四种方法可根据不同情况进行选择,检索中为省时,要充分利用累积索引。
※选择检索方法的原则
1、如果检索工具不全和根本没有,检索课题涉及面不大。
对查全率要求不高,可采用追溯法,用综述和评述最好
2、如工具完备,课题涉及范围大,采用常用法或综合法
3、如课题属于新兴学科或知识更新快的学科可用倒查法
4、如对查全率要求高,如开展查新,一般采用顺查法
5、如一掌握了课题发展规律、特点,一般采用抽查法
(二)数据库和网络资源的检索方法
1、浏览方法
数据库类型浏览,按题录、文摘、全文浏览,按主题目录、导航、学科分类浏览。
2、检索方法
(1)快速检索
单检索:
一般仅提供一个检索框输入检索式,并使用少数常用的检索字段。
适合初级用户和构建比较简单的检索式
(2)专业检索
利用分类导航,按专业类目等级进行检索,是常用的检索方法
(3)期刊导航检索
按年卷期浏览,期刊漫游
(4)分类检索
按中图法做学科范围组合,灵活限制检索范围。
(5)相关主题检索
(6)高级检索
高级检索或专家检索:
适合熟悉检索指令并有检索经验的熟练用户使用。
一般需要使用命令行式检索,通常需要使用字段标识符和布尔逻辑算符组配进行检索
(7)全文检索按资料的内容检索,而不是按结构化特征来检索
三、计算机检索技术
在计算机信息检索过程中,为了提高检索效率,计算机检索系统常采用一些运算方法,从概念相关性、位置相关性等方面对检索提问实行技术处理。
下面介绍几种常用的信息检索技术方法。
(一)主要检索技术
【资料】基本运算符
※优先算符括号():
如同数学运算符决定检索组配的先后次序。
※短语符双引号:
引号内的语句会被当成一个词进行检索。
“-”(连接符)“\”(斜杠)“_”(下划线)“,”(逗号)“.”(点)在不同的搜索引擎中也可作为短语连接符。
※加号(+)要求结果中必须包含某个特定的检索词,可在它前面加一个“+”如“+数字图书馆”
※减号(-)要排除含有某个特定检索词的网络信息,可以在它前面加一个“-”如关于查office2003的资料,但又不想要office2000和office98的信息,检索提问式可以是“office2003-office2000-office98”
※通配符“*”在进行简单检索时,可以在单词末尾加通配符来代替任意字母的组合(最多可代替5个小写字母)但不能用单词的中间或开头。
1、布尔逻辑检索
所谓布尔逻辑检索(BooleanLogical)是用布尔逻辑算符将检索词、短语或代码进行逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。
它是机检系统中最常用的一种检索方法。
逻辑算符主要有:
And/与、Or/或、Not/非,分述如下:
(1)逻辑“与”
运算符为And或*。
检索词A和检索词B用“与”组配,检索式为:
AAndB或者A*B,它表示检出同时含有A、B两个检索词的记录。
逻辑与检索能增强检索的专指性,使检索范围缩小,此算符适于连接有限定关系或交叉关系的词。
(2)逻辑“或”
运算符为Or或+。
检索词A和检索词B用“或”组配,检索式为:
AOrB或者A+B它表示检出所有含有A词或者B词的记录。
逻辑或检索扩大了检索范围,此算符适于连接有同义关系或相关关系的词。
(3)逻辑“非”
运算符为Not或-。
检索词A和检索词B用“非”组配,检索式为:
ANotB或者A-B它表示检出含有A词,但同时不含B词的记录。
逻辑非和逻辑与运算的作用类似,可以缩小检索范围,增强检索的准确性。
此运算适于排除那些含有某个指定检索词的记录。
但如果使用不当,将会排除有用文献,从而导致漏检。
布尔检索式优先执行顺序通常是Not→And→Or,在有括号的情况下,先执行括号内的逻辑运算,在多层括号时,先执行最内层括号中的运算。
布尔检索比较容易掌握,但使用不当会造成大量漏检和误检,特别是非运算符的运用应特别小心,否则会把有用的文献排除了。
2、截词检索(截词符*和?
)
截词检索(Truncation)是指用给定的词干做检索词,查找含有该词干的全部检索词的记录。
因此,也称词干检索或字符屏蔽检索。
就是将通配符如“*”、“?
”或“$”等,放在检索词中检索者认为合适的地方截断,用截断的词的一个局部进行检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中文献。
这样,检索者不必输入完整的检索词。
它可以起到扩大检索范围,提高查全率,减少检索词的输入量,节省检索时间,降低检索费用等作用。
检索时,若遇到名词的单复数形式,词的不同拼写法,词的前缀或后缀变化时,均可采用此方法。
在实际检索中,常遇到词干相同、词义相近的检索词,或同一词的单、复数形式,动、名词形式,英美拼法等。
截词的方式有多种,按截断部位可分为后方截词、前方截词、中间截词等;按截断长度(字符数量)可以分为有限截词和无限截词。
(1)后方截词
截去某个词的尾部,是词的前方一致比较,也称前方一致检索。
例如:
输入geolog?
(?
为截断符号),将会把含有geological、geologic、geologist、geologize、geology等词的记录检索出来。
若输入PY=199?
,会把90年代的记录全部查出来。
(2)前方截词
截去某个词的前部,是词的后方一致比较,也称后方一致检索。
例如:
输入?
magnetic能够检出含有magnetic、electromagnetic、paramagnetic、thermo-magnetic等词的记录。
(3)中间截词
截去某个词的中间部分,是词的两边一致比较,也称两边一致检索。
例如:
输入organi?
ation可以检出organization、organisation;输入f?
?
t可查出foot、feet。
(4)有限截词
是指允许截去有限个字符。
例如“acid?
?
”表示截去一个字符,它可检出acid、acids,但不能检出acidic、acidicity、acidity等词。
又如comput?
可检出compute、computer、computers、computing等词,不能检出computable、computation、computerize等词。
注意:
词干后面连续的数个问号是截断符,表示允许截去字符的个数,最后一个问号是终止符,它与截断符之间要有一个空格,输入时一定要注意。
(5)无限截词
无限截断是指允许截去的字符数量不限,也称开放式截断。
上面右截断、左截断所举的例子均属此类型。
在实际检索时,我们还需要注意这样几个方面:
一是任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。
采用截词检索时,既要灵活、又要谨慎,截词的部位要适当,如果截得太短(输入的字符不得少于3个),将增加检索噪声,影响查准率。
另外,就是不同的机检系统使用的截词符不同、各数据库所支持的截断类型也不同,
◎截词检索主要是利用检索词的词干或不完整的词形进行检索。
截词符一般用“?
”、“*”、“$”表示($是引用单元格函数)
※后方截词:
用于前方一致的派生词检索。
如:
信息?
则表示在数据库中含有信息、信息技术、信息检索等方面的文献记录均为命中文献。
※前方截词:
用于后方一致的派生词检索。
如:
?
经济
则数据库中含有经济、工业经济、农业经济等方面的文献均为命中文献。
*:
至少键入一个词的前3个字符,
××3、位置运算符检索(常用语外文数据库)不讲
当检索的概念要用词组表达,或者要求两个词在记录中位置相邻/相连时,可使用位置算符。
位置检索(Proximate)是在检索词之间使用位置算符(也称邻近算符AdjacentOperators),来规定算符两边的检索词出现在记录中的位置,从而获得不仅包含有指定检索词而且这些词在记录中的位置也符合特定要求的记录。
这种方法能够提高检准率。
机检系统中常用的位置算符(按限制强度递增顺序排列)如下:
(1)(w)算符With或()和(Nw)
(w)要求检索词必须按指定顺序紧密相连,词序不可变,词之间除允许有空格、标点、连字符外,不得夹单词或字母;(Nw)表示连接的两个词之间最多可夹入N个词(N为自然数),词序不得颠倒。
例如input(w)output可检出inputoutput而wear(1w)materials可检出wearmaterials、wearofmaterialse
(2)(n)算符near和(nN)
(n)要求被连接的检索词必须紧密相连,词之间除允许有空格、标点、连字符外,不得夹单词或字母,词序不限;(Nn)表示两个检索词之间最多可以夹N个词(N为自然数1、2、3…),且词序任意。
例如information(n)retrieval可以检出informationretrieval和retrievalinformation,
(3)(f)算符Field
要求被连接的检索词出现在同一字段中,字段类型和词序均不限。
例如happiness(f)sadnessandcrying又如pollution(f)control/ti,ab
(4)(s)算符Sub-field/Sentence
要求被连接的检索词出现在同一句子(同一子字段)中,词序不限。
例如machine(s)plant
但需要需要说明的是,不同的机检系统,位置检索的功能及算符不同,应参看各系统的说明。
对于全文型数据库,特别是进行全文字段检索时,使用位
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 检索 表达式 构建