级信息组织与检索期末重点Word文件下载.docx
- 文档编号:17016435
- 上传时间:2022-11-27
- 格式:DOCX
- 页数:14
- 大小:110.81KB
级信息组织与检索期末重点Word文件下载.docx
《级信息组织与检索期末重点Word文件下载.docx》由会员分享,可在线阅读,更多相关《级信息组织与检索期末重点Word文件下载.docx(14页珍藏版)》请在冰豆网上搜索。
④节省社会信息活动的总成本
3)原则:
①客观性,三点要求:
a.信息组织中进行描述和揭示的基本依据就是信息本身。
因此在描述和揭示信息内容特征必须客观而准确,要根据信息本身所反映的各种特征加以科学地反映和整序化,形成相应的信息组织的成果。
b.在信息组织中,不能损害信息的本来效用,不能歪曲信息本身,不能毫无根据地、人为地添加一些不准确的思想和观点,要完整地、全面地、精确地反映信息的客观特征
c.不断跟踪信息的发展变化和信息组织技术的发展变化,使信息组织与条件变化和环境变化保持客观一致性
②系统性,四个关系:
a.微观信息组织与宏观信息组织的关系
b.信息组织机构与其他部门的关系
c.信息组织工作的各个环节、过程间的关系
d.不同信息的处理方法间的关系
③目的性,两个必须:
a.充分围绕用户的信息需求开展工作
b.必须充分注意信息人力组织机构的目标市场的需求状态及其变化特征
④现代化,两个方面:
a.信息组织思想观念的现代化
b.信息组织技术手段的现代化
5.信息组织的基本要求:
1)信息内容有序化(有系统、条理、秩序、启发)
2)信息流向明确化(考虑用户需求下,使其流向明确)
3)信息流速适度化(把握信息传递时期)
4)信息数量精约化(内容简练、简明扼要)
5)信息质量最优化(提高精确度、保证可靠性、先进性)
6.信息组织的方法
1)优化选择
标准:
①相关性②可靠性③先进性④适用性
方法:
①比较法(时间比较、空间比较、来源比较、形式比较)②分析法③核查法④引用摘录法(SCI、SSCI)⑤专家评估法(指标评分法、德尔斐法)
2)确定标识
①数据项的确定(描述信息外表特征或内容性质。
选取数据项应遵循原则:
完整性原则、标准化原则、方便性原则、低冗余度原则、灵活性原则)
②信息外表特征的加工(外表特征、物质形态加工)
③信息内容特征的加工(以学科分类代码作为信息标识的分类标引、以主题词语符号作为标识的主题标引)
3)组织排序
①分类组织法②主题组织法③字顺组织法
④号码组织法⑤时空组织法⑥超文本组织法
4)改编重组
①汇编法:
汇编是选取原始信息中的篇章、事实或数据等进行有机排列而形成的。
案例:
剪报资料、文献选编、年鉴名录、数据手册、音像剪辑等等。
②摘要法:
对原始信息内容进行浓缩加工,即摘取其中的主要事实和数据而形成的二次信息产品。
如会议文摘、机械工程文摘
③综述法:
对某一课题某一时期内的大量有关资料进行分析、归纳、综合而成的具有高度浓缩性、简明性和研究性的信息产品。
第二章
1.ISBN号(五段13位)
第一段:
欧洲商品编号的图书产品代码,3位,978
第二段:
地区号,最短的是一位数字,最长的达五位数字,0、1代表英语,7是中国出版物使用的代码
第三段:
出版社代码,2-5位数字,出书越多,其号码就越短
第四段:
书序号,1-6位,由出版社自己给出
第五段:
校验码
2.MARC格式:
MARC是MachineReadableCatalogue的英文缩写形式,即机器可读目录。
MARC格式即机器可读目录格式。
3.分类法:
1)分类的定义:
分类就是按照事物的性质、特点、用途等作为区分的标准,将符合同一标准的事物聚类,不同的则分开的一种认识事物的方法。
2)分类法的定义:
分类法是指将类或组按照相互间的关系,组成系统化的结构,并体现为许多类目按照一定的原则和关系组织起来的体系表,作为分类工作的依据和工具。
3)分类的规则:
唯一性,完整性,科学性。
4.主题法:
1)主题法的定义:
主题法是以自然语言中的名词术语作为标识符号,并依据这些标识符号的语义和字顺,编排和组织文献信息资源建立各种查询工具和检索系统。
2)主题法的演变:
标题法—单元词法—叙词法—关键词法
标题法:
以“标题”表达文献内容主题,“标题”最初取自篇名,逐渐发展到取自文献的主题内容。
叙词法:
是对单元词语言的直接继承,但克服了单元词语言的不足,吸收并综合了多种标引语言的原理和方法,是能结合计算机使用的后组式语言,是目前主要的受控语言。
关键词:
是从文献题目或文摘、正文中提取出来的具有实质意义,能代表文献主题内容的词汇。
它与叙词的区别在于非规范化,是自然语言
3)搜索引擎的工作原理:
搜集信息—建立索引—接受查询
4)利用主题法组织网络信息的优势(主要讨论关键词法):
①较高的检准率。
②较强的组配性。
③不存在词汇滞后问题。
④具有广泛的用户基础,检索习惯和技巧易被接受。
⑤抽取自动化,速度快、成本低
5)发展趋势:
分类主题一体化
第三章
1.置标语言:
(1)标准通用置标语言SGML
(2)超文本置标语言HTML:
是为网页创建和其它可在网页浏览器中看到的信息设计的一种置标语言。
HTML被用来结构化信息——例如标题、段落和列表等等。
(3)可扩展的置标语言XML:
XML要比HTML强大得多,它不再是固定的标记,而是允许定义数量不限的标记来描述文档中的资料,允许嵌套的信息结构。
2.XML语言的语法规则:
(1)必须有XML声明语句。
格式为:
<
?
XMLversion="
1.0"
standalone="
yes/no"
encoding="
UTF-8"
>
举例:
no"
encode="
(2)一个有效的XML文档必须要有DTD文件。
!
DOCTYPEtype-of-docSYSTEM/PUBLIC"
dtd-name"
DOCTYPEfilelistSYSTEM"
filelist.dtd"
(3)所有XML标记都区分大小写。
(4)所有标记的属性必须用“”括起来。
(5)所有的标记都必须要有一个相应的结束标记。
(6)所有的空标识也必须被关闭。
(7)所有的XML标记都必须合理嵌套。
3.XML标记的命名规则:
(1)名字中可以包含字母、数字以及其它字母。
(2)名字不能以数字或“_”(下划线)开头。
(3)名字不能以字母xml(或XML或XML..)开头。
(4)名字中不能包含空格。
4.XML语言范例:
myfile>
title>
XMLQuickStart<
/title>
author>
ajie<
/author>
email>
ajie@<
/email>
date>
20010115<
/date>
/myfile>
信息检索
1.信息组织与信息检索的关系:
信息组织是信息检索的基础,信息检索是信息组织的目标(发展依据)。
2.信息检索的作用:
(1)能较全面地掌握有关的必要信息。
(2)能提高信息利用的效率,节省时间和费用。
(3)适应时代发展,提高自身信息素养。
(4)经济性(竞争情报)
3.如何使用搜索引擎:
title:
——检索词包含在网页标题中title:
”科比”
site:
——搜索结果局限于某个具体网站或者网站频道信息检索site:
””
link:
——搜索链接,检索与指定URL相链接的所有页面link:
””
4.信息检索的概述
1)数据、信息、知识、情报的概念、联系、区别:
a.概念:
①数据:
泛指所有描述事物的形貌、特性、状态或任何其他属性的数字、文字或符号。
一般指原始、未经处理过的数据
②信息:
(认识论层次)信息是认识主体所感知或表达的事物运动的状态及其变化方式
③知识:
是在改造世界的实践中所获得的认识和经验的总和,是人类的主观世界对客观世界概括和反映
④情报:
是知识通过传递并起作用的部分,或者说是传递中的有用的知识
b.联系与区别:
①数据经过处理仍然是数据。
只有经过解释,数据才有意义,才成为信息
②信息是知识的表现形式。
情报是活化了的、激活了的知识
③信息、知识、情报可以互相转化
2)情报的三要素:
知识性(根本属性)、传递性、效用性
3)参考文献著录格式:
①图书:
主要责任者.文献题名[M].出版地:
出版者,出版年
②期刊:
作者(多作者用逗号分开,超过3个者用“等”或etal).文章题目[J].刊物名称,年代,卷数(期数):
页数
③学位论文:
责任者.题名[D].学位授予地址:
学位授予单位,年份
4)信息检索概念:
①广义的信息检索包括信息的存储和检索两个过程信息存储是指工作人员将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或检索系统,供人们检索和利用。
信息检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息
②狭义的信息检索则仅指该过程的后半部分,即从某一信息集合中找出所需的信息的过程,相当于人们通常所说的信息查询
5.信息检索的分类:
(1)按检索结果内容:
文献信息检索,数据信息检索,事实信息检索。
(2)按组织方式:
全文检索,超文本检索,超媒体检索。
(3)按信息存储与检索方式:
手工检索,计算机检索。
6.信息检索原理
1)结构框图:
通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统。
通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
存储是为了检索,而检索又必须先进行存储。
2)检索的步骤:
(1)分析问题。
问题分类---->
选择相应的检索工具
分析“已知”和“欲知”信息--->
确定检索工具的类型
分析需求的主题内容(所需信息的学科性质、特点和水平层次)--->
确定检索策略
确定文献类型和时间范围--->
扩大检索思路,提高检索效果
(2)选择检索工具。
①传统检索工具:
ⅰ.检索性工具书(二次文献):
包括馆藏目录、书目、索引、文摘、文献指南。
ⅱ.参考性工具书(三次文献):
包括百科全书、类书、政书、年鉴、名录、手册。
ⅲ.表谱性工具书:
包括年表、历表和表谱。
ⅳ.图录性工具书:
包括地图、历史图录、人物图录、文物图录、艺术图录、科技图像。
ⅴ.边缘性工具书:
包括各类资料汇编、史书、方志。
②面向计算机和网络的检索工具:
包括网络数据库、联机数据库、光盘数据库、各类搜索引擎、文件传输协议FTP、电子邮件、远程登陆、电子公告板以及网站分类目录等。
(3)检索工具的使用。
“已知”信息特征---->
检索入口
(4)获取全文。
3)检索工具的评价标准:
①良好的用户界面:
·
检索界面简洁,易学易用
不要求用户掌握复杂的检索语言和符号
能够使用自然语言进行检索
②检索内容和结果符合用户要求:
数据库内容全面、规模大、更新速度快
检索结果包括检索主题最为相关的文献
适合简单主题、复杂主题和冷僻主题的查询
检索结果格式清晰,内容充实
③系统效率高:
查全率、查准率高
系统反应速度快
4)信息检索的特点:
①相关性,检索需求的相关性;
检索过程中的相关性(信息与需求的匹配);
检索结果的相关性
②不确定性,存储过程中标引的不确定性;
检索中的需求不确定性
③逻辑性,逻辑性体现在检索系统编排和检索策略制定上
5)信息检索的方法:
主要分为三种:
①常规检索法,它以主题、分类、作者等为检索点,利用检索工具获的信息资源的方法
②回溯法(追溯法、引文法等),以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法
越查越旧:
课题如何起源、修正、变迁、发展。
越查越新:
该课题的演变、最新进展。
③循环法(综合法),既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法
6)信息检索的途径:
①分类途径(准确的分类号):
是指按照文献资料所属学科(专业)类别进行检索的途径,它所依据的是检索工具中的分类索引
a.优点:
族性检索,查全率较高;
按照人们认识事物的习惯,以学科分类为基础,容易被人们接受和应用
b.缺点:
不适用于特性检索,查准率比主题词低;
难以反映新学科和新名词术语;
不易反映交叉学科
②主题途径(确定检索词):
是指通过文献资料的内容主题进行检索的途径,它依据的是各种主题索引或关键词索引,检索者只需确定检索词(主题词或关键词)
适合特性检索,查准率高
通常不适合族性检索,查全率比分类号低
c.专业性强
③著者法(著者索引):
是指根据已知文献著者来查找文献的途径,它依据的是著者索引,包括个人著者索引和机关团体索引。
7.布尔逻辑算符:
逻辑与,用“and”、“*”或者空格表示
逻辑或,用“or”、“+”或逗号表示
逻辑非,用“not”、“-”表示
优先执行顺序通常是NOT、AND、OR
8.信息检索模型
1)信息检索模型的形式化:
是一个四元组[D,Q,F,R(
)]
①D:
文档集的机内表示
②Q:
用户需求的机内表示
③F:
文档表示、查询表示和它们之间的关系的模型框架
④R:
排序函数,给query
和document
评分
2)布尔模型:
a.描述:
①文档表示:
一个文档被表示为关键词的集合
②查询式表示:
查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序
③匹配:
一个文档当且仅当它能够满足布尔查询式时,才将其检索出来;
检索策略基于二值判定标准
b.优点:
①布尔模型是最常用的检索模型:
由于查询简单,因此容易理解;
通过使用复杂的布尔表达式,可以很方便地控制查询结果
②相当有效的实现方法:
相当于识别包含了一个某个特定term的文档
③经过某种训练的用户可以容易地写出布尔查询式
④布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型”
c.问题:
①不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回
②很难控制被检索的文档数量
③很难对输出进行排序
④很难进行自动的相关反馈
3)向量空间模型(D,T,
S):
①文档D:
泛指文档或文档中的一个片段
②索引项t:
指出现在文档中能够代表文档性质的基本语言单位
③特征项权重
:
指特征项能够代表文档D能力的大小
④相似度S:
指两个文档内容相关程度的大小
b.特点:
①基于关键词(一个文本由一个关键词列表组成)
②根据关键词的出现频率计算相似度
③用户规定一个词项集合,可以给每个词项附加权重
未加权的词项:
Q=database;
text;
information
加权的词项:
Q=database0.5;
text0.8;
information0.2查询式中没有布尔条件
④根据相似度对输出结果进行排序
⑤支持自动的相关反馈
4)相似度计算:
①向量内积:
𝑑
𝑖
𝑘
是文档𝑑
中的词项k的权重,𝑞
是查询式Q中词项k的权重
②余弦夹角:
9.信息检索评价
1)影响查全率与查准率的因素:
(1)标引的影响。
①遗漏了必须描述的概念。
②选用了不合适的标引词。
(2)检索语言的影响。
①分类语言的族性——查全性强
②主题语言的专指性——查准性强
(3)检索策略的优劣。
(4)查全率与查准率的互逆相关性。
2)提高检索效果的方法:
(1)提高检索人员素质
(2)优选检索工具和数据库
(3)优化检索策略与步骤
3)确定查全率和查准率最常用的方法是有名的2×
2表
①它反映检索系统在实施某一次检索时所得的结果
②a表示被检出的相关文献,即查准的文献;
③b表示被检出的非相关文献,即误检的文献;
④c表示未检出的相关文献,即漏检的文献;
⑤d表示未检出的非相关文献,即正确拒绝的无关文献
4)查全率就是系统在进行某一检索时,被检出的相关文献量与系统文档中实有的相关文献量的比率,可用下式表示:
5)查准率就是被检出的相关文献量与被检出的文献总量的比率,可用下式表示:
6)查全率是用来描述检索系统检出相关文献的能力;
查准率用来描述检索系统拒绝非相关文献的能力
在具体评价检索系统的检出效果时,一般应将查全率与查准率结合起来,否则难以准确反映检索系统的功能和检索效果。
在实际检索中,查全率与查准率之间存在互逆相关性。
7)漏检率和误检率:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 组织 检索 期末 重点