信息检索习题汇总及答案Word文档格式.docx
- 文档编号:14424633
- 上传时间:2022-10-22
- 格式:DOCX
- 页数:25
- 大小:34.08KB
信息检索习题汇总及答案Word文档格式.docx
《信息检索习题汇总及答案Word文档格式.docx》由会员分享,可在线阅读,更多相关《信息检索习题汇总及答案Word文档格式.docx(25页珍藏版)》请在冰豆网上搜索。
1.数据:
是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。
2.信息加工:
是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。
3.信息组织:
即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。
4.检索标识:
就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。
5.信息检索:
可以从广义和狭义两个角度理解。
广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。
狭义的信息检索仅指信息查找过程。
6.信息检索系统:
是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。
7.检索效果:
是指利用检索系统(或工具)开展检索服务时所产生的有效结果。
三、简答题
1.简述了解用户信息需求的作用
答:
用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。
了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。
2.简述影响信息动机向信息行为转化的主要因素
(1)信息动机强度
(2)认知能力(3)抱负水平
3.简述信息需要的特点
答:
(1)信息需要的广泛性
(2)信息需要的社会性
(3)信息需要的发展性(4)信息需要的多样性
4.简述信息检索系统的构成模式
(1)信息数据的选择、处理、录入、维护子系统
(2)词表和标引子系统
(3)检索子系统(4)系统-用户接口子系统
8.简述信息检索系统的流程
系统可分为数据预处理、索引生成、查询处理和检索四个部分。
四、论述题
1.有人说,信息加工是一个体系,你如何理解,请着重从“体系”这个角度加以说明
(1)加工的方式、方法多种多样。
(2)加工的方式、方法相互之间有关联,从不同角度对信息进行加工的。
(3)加工过程有其内在联系,构成一个完整的系统。
(4)整个加工体系会随着时间的变化,信息数量的变化,载体的变化和技术的变化而不断变化和完善。
(5)信息的加工按其加工对象的不同可分为对外表信息的描述与加工,对整体信息的描述与加工,还有对内容信息的描述与加工。
2.请探讨一下信息加工的层次性
根据信息加工特点,信息加工分为6个层次:
①外表信息的加工是描述性的,给用户提供的是信息的线索;
②整体信息的加工是概述性的,给用户提供的是信息的内容特点;
③内容信息的加工要深入信息内部,对有用的信息给予揭示标引,使读者利用信息有据可查;
④精粹信息的加工是通过比较鉴别的方法,选取价值高的整体或局部信息,给用户直接提供信息的精华,满足用户对实质性信息的要求;
⑤深度信息的加工是研究性和评价性的,解决信息的优劣和有关信息的有效组合问题,给用户以启迪和决策依据;
⑥相关信息的加工是信息的外延和扩展,使有关信息根据一定关系进行链接,给用户检索和直接利用的方便。
*******************************二********************************************
一、填空题
1.数据库的定义功能主要是对数据库的结构进行描述,这些定义都保存数据字典中。
2.数据库系统提供了两种机制来支持完整性约束:
第一种是完整性定义机制,第二种是完整性_验证约束机制_。
3.数据库的三级模式是指_外模式_、_内模式_、_模式_。
4.对文献数据库而言,加工深度表现为_题录_、_文摘_、_全文三个层次。
5.标引工作可分为_人工标引_、_计算机辅助标引_、_自动标引三种方式。
6.信息检索过程实际上是将检索提问式与文献记录标引词进行_对比匹配_的过程。
7.为提高检索效率,计算机检索系统从_概念相关性_、_位置相关性_等方面对检索提问实行技术处理。
8.用向量模型计算机向量时,一般采用向量的_夹角余弦_来表示。
9.通常,智能信息检索系统由_知识库_、_文本处理_、_智能接口_三部分组成。
2、名词解释
1.数据模型:
是描述数据、数据联系、数据操作、数据语义以及一致性约束的概念工具的集合。
2.著录:
就是对信息外部特征进行分析、选择与记录的过程。
3.标引:
就是指对信息内容特征进行分析,赋予信息以检索标识的过程。
4.词位检索:
是以数据库原始记录中的检索词之间的特定位置关系为对象的运算,又称全文检索、邻近检索。
3、简答题
1.什么是倒排文档?
为什么要使用倒排文档?
倒排文档是将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的一种文档。
按表达文献内容特征的主题词排列的文档称为基本索引文档;
按表达文献外部特征排列的文档称为辅助索引文档。
在实施检索时,必须和顺排文档配合使用。
倒排文档类似于检索工具中的辅助索引。
2.简述布尔模型及其优缺点
布尔模型是最简单的信息检索模型。
这种模型的理论基础是集合论。
布尔模型最大的优点是理论简单、使用方便。
缺点是:
(1)它只能给出精确匹配的结果;
(2)检索结果有可能因查询词在大量文档中出现而数量太多;
(3)由于找不到与查询词完全匹配的文档而使结果太少。
3.简述向量空间模型及其优点
向量空间模型是一种简便、高效的文本表示模型,其理论基础是代数学。
向量空间模型最主要的优点在于:
(1)该模型的权重计算方法能够提高系统的检索性能;
(2)模型中使用的部分匹配方法能检索出与用户的查询输入条件“近似”的文档;
(3)在模型中可以根据检索出的结果与查询条件的相关程度对结果进行排序。
另外,向量空间模型计算简单,检索速度快。
4.简述“网播”的信息推送方式
(1)频道式推送
(2)邮件式推送(3)网页式推送(4)专用式推送
5.简述智能信息检索的系统结构
智能信息检索系统是由知识库、文本处理和智能接口三部分组成。
6.简述智能信息检索的主要方法
(1)统计方法
(2)文本分析方法(3)人工智能方法(4)语料库方法
7.有哪些种类的加权检索?
各有哪些特征?
加权检索把量化思想引入定性检索之中,是改善和提高检索效果的一种重要手段。
分标引加权和检索加权;
检索加权是指检索者在给出检索词的同时,并为每个检索词赋予权值,以区分每个检索词在检索中的重要程度。
通过加权,明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重要性进行排序
词频加权检索是根据检索词在记录中出现的频次来计算命中记录的权和,依据命中记录权和数从大到小排列,最后由阈值控制输出命中结果。
与检索词加权检索不同的是,词的权值是由数据库记录中的词频决定,不是由检索者指定,不需人工干预,减轻了检索者的负担。
词频加权检索方法应建立在对全文数据库和文摘数据库基础之上,否则词频加权将失去意义。
简单词频加权检索:
指检索时累计检索词在记录中出现的次数来决定记录的权值,然后累计该记录每个检索词权值之和来决定该记录是否为命中记录。
相对词频加权检索:
是将每一个检索词在本文中频率和在整个数据库中的频率综合考虑,进行加权检索的方法。
标引加权检索是指在对文献进行标引时,根据每个标引词在文献中的重要程度不同,为它们附上不同的权值,检索时通过对检索词的标引权值相加来筛选命中记录。
4、论述题
1.扩展的检索技术很多,请从提高可是查准率和查全率两个角度探讨一下扩展的检索技术。
循此思路。
你还有什么新的解决方法?
2.如何理解布尔逻辑表达式的逆波兰转换?
3.请用实例说明信息推送的实际应用
*******************************四******************************************
1.全文检索主要研究对整个文档信息的_表示_、_存储_、_组织_、_访问_。
2.全文检索的中心环节是_文件内容表达_、_信息查询的获得_、_相关信息的匹配_。
3.按检索对象来区分,全文检索可分为_基于文本_和_基于Web_两种类型;
根据索引库中索引元素的不同,全文检索可分为_基于字表_的全文检索和_基于词表_的全文检索。
4.基于理解的分词系统通常包括_分词子系统_、_句法语义子系统_、_总控部分_等三个部分
5.自动标引又分为_自动主题标引_、_自动分类标引_。
6.自动标引的方法主要有_统计标引法_、概率标引法_、_句法分析法_、_语义分析法、_人工智能法_。
7.一个自动标引系统通常包括文本输入_、_词典_、_抽词_、_知识库_、_综合与转换_、_输出_等六个子系统。
8.文本有_词频_、_标题_、_位置、_句法结构_、_线索词_、_指示性短语等新课程形式特征,这些特征是自动摘录的依据。
9.汉字全文检索系统主要包括两方面的核心技术,一是如何建立和维护全文检索的_索引数据库_,二是如何提供快速有效的_检索机制_。
10.索引数据库一般由一个变长的_主文件_和一个在索引文件控制下的_倒排文件_组成。
11.全文检索索引数据库的生成包括_数据准备_、_文本预处理_、_数据加载三个步骤。
1.全文检索自动标引主题词标引自动文摘
1.简述全文检索的优缺点
2.简述基于字符串匹配分词方法的一般模型
3.简述单汉字标引法及其优缺点
4.简述主题词标引的基本思路
5.简述主题词标引的实现
6.简述自动标引的基本流程
7.简述词索引的全文检索系统的索引算法
8.简述全文检索系统的系统结构
9.简述自动标引的基本方法
10.简述汉语自动标引的方法
11.简述自动标引的系统构成
1.针对全文检索存在的问题,你准备采取什么方式进行解决?
2.根据简单匹配全文检索算法,画出其流程图
3.请简要论述一下全文检索算法的发展轨迹
4.请谈一下你对几种分词方法的看法。
*******************************五********************************************
1.搜索引擎的工作过程可以看作三步,_从互联网上抓取网页_、_建立索引数据库、_在索引数据库中搜索排序_
2.目前,Internet上的搜索引擎大致可分为_目录式_、_机器人_、_元_
3.搜索引擎一般由_搜索器_、_索引器_、_检索器_、_
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 习题 汇总 答案