信息组织期末复习要点1.docx
- 文档编号:1602769
- 上传时间:2022-10-23
- 格式:DOCX
- 页数:19
- 大小:34.12KB
信息组织期末复习要点1.docx
《信息组织期末复习要点1.docx》由会员分享,可在线阅读,更多相关《信息组织期末复习要点1.docx(19页珍藏版)》请在冰豆网上搜索。
信息组织期末复习要点1
信息组织期末复习要点
第一章信息组织导论
1.1信息组织的环境与背景
一、信息检索工具的变化
1.手工检索时代:
目录、题录、索引等
2.计算机检索时代:
各种检索系统,核心是数据库
3.网络检索时代:
检索型、目录型、混合型检索工具
4.各种检索工具的涌现,目前互联网上运行的搜索引擎至少有几千种之多。
二、信息检索技术的进步
1.按照信息存储的载体和实现查找的技术手段,信息检索可以分为手工检索、机械检索、光电检索、计算机检索。
2.网络信息检索采用的检索技术包括:
布尔逻辑检索、自然语言检索、多语种检索、字段检索、区分大小写检索、限制检索、二次检索、自然语言检索、多语种检索、加权检索、模糊检索、概念检索、相关反馈检索等
1.2信息组织的相关概念与内容
一、组织与组织系统
1.组织:
①组织是一种有意识地行为;②其目的是为了创造次序与结构
2.组织系统:
资源与交互
3.组织系统的三层体系:
用户界面、业务逻辑、数据
4.组织对象的种类:
物理实体、关于物理实体的信息、数字资源、关于数字资源的信息
5.资源、文献与馆藏
(1)资源:
资源具有一般意义上的任何价值,可以支持面向目标的活动,如实体、对象等。
资源在网络体系结构中具有特殊的意义。
通常,描述网页、图像、视频等资源,以及访问它们的协议,超文本传输协议(http),使用统一资源标识符(URI)。
(2)文献:
文献通常用于数字或物理格式的信息资源;工件是指由人创造的资源,以及具有经济价值的资源的资产。
(3)馆藏:
馆藏是已为某一目的选择的一组资源。
相似的期限被设置(数学),聚合(数据建模),数据集(科学和商业)和语料库(语言学和文艺分析)。
6.元数据:
描述或与其他资源相关联的数据
(1)挑战1:
决定哪一个资源是主要的
(2)挑战2:
用于描述一个人或过程的元数据再用于描述其他资源
7.信息组织:
为了方便人们检索、获取信息而奖庞杂、无序的信息进行系统化和有序化的过程。
从广义上来说,包括信息搜集与选择、信息分析与揭示、信息描述与加工、信息整理与存储。
1.3组织活动决策的6个方面
一、组织活动决策的6个方面
1.组织对象:
不同组织系统的组织对象存在不同,如图书馆、博物馆、档案馆。
越来越多的组织系统处理和组织的资源是原生数字资源,如音乐、照片、视频和其他非文本内容如传感器数据。
2.组织原因:
发现,识别,选择,建立分类体系,类分,整合,分割,推荐,交互等。
3.组织数量:
并非所有的资源都应享有同等程度的组织。
受控词汇可以产生更一致的组织,如果正在组织一个固定的资源集合,那么可能会比需要一个能够容纳将来可能拥有的资源的组织系统来组织它。
4.组织时间
5.如何组织:
组织活动从资源产生时就开始发生,嵌入到资源的整个生命周期中。
如当一个作者撰写一篇文档时,作者通过标题、章节标题、体例、页码和其他机制对该文档进行了一定程度的组织,用以区分和识别与其他部分的关系。
数字形式的照片、视频和文档在创建时往往被自动地赋予了相应的描述,如时间和位置。
6.组织位置:
可以在物理安排中组织资源,资源安排可以鼓励或劝阻人之间的交往,创造自由、安全感或监禁的感觉。
对于数字资源,它们组织的位置通常是无形的或无关紧要的。
第二章信息组织导论
2.1信息组织系统中的4类活动
一、分别是什么?
1.选择信息资源
(1)选择是一个发现,识别,评估资源并纳入组织系统中某一集合的过程。
选择的方法和标准因不同领域而异,但它们要确保资源能够实现“面向目标的活动“。
(2)①选择和保留所有资源:
信息过载、弱组织原则
②选择在组织之前:
独特或罕见资源需要被一个一个地评估
③选择和组织并发:
同质或可预测的资源
④选择在组织之后:
根据模式创建的资源
(3)选择标准:
基于某些特定目的效用价值、内在价值、稀缺性或唯一性、最新、建立品牌或声誉、适于使用。
(4)路径依赖
(5)选择与采样:
如果您的目标是对其进行推论而不必研究其所有实例,则通过从大量群体中随机抽样来选择资源至关重要。
基于统计的良好样本是指被选资源和未被选资源在重要方面没有不同。
2.组织信息资源
(1)几乎任何资源的属性都可以用来组织它们,但是最适当或有效的属性因资源类型和任务而异。
在资源创建或被选择之前,就应当决定在组织中使用哪些资源属性。
(2)组织物理资源
(3)自动/预先注意:
物理资源通常根据诸如它们的尺寸,颜色或形状的内在物理性质来组织,因为人类视觉系统快速且自动地对它们给予很多关注。
相近性和相似性、即格式塔原则。
(4)形状和颜色的预处理,当形状和颜色特性不相关时,预注意与处理并行是不可能的。
(5)整体由一些相互作用的部分组成,这些部分可以在整体上分开,分析和重新排列。
当视觉信息不明确时,存在将视野的一些部分视为前景而将其它部分视为背景的自然趋势。
(6)连续性
(7)伪装:
类似于背景,反向阴影,阴影消除和破坏边缘检测的破坏性着色,颜色和图案证明了Gestalt处理的力量。
3.支持交互
(1)直接交互与中介交互:
与资源的交互可以是直接的,中介的或间接的,或限于与资源副本、描述的交互。
(2)交互与价值创造:
物理操作,符号控制和人际交互,三者的交互有不同的地方。
(3)物理资源的价值创造
(4)数字资源的价值创造:
交互的本质是对资源中包含的信息进行信息交换或符号操纵。
用于信息资源的数字资源描述可以促进查找,识别,选择和其他“价值创造”交互,即使资源本身没有被数字化。
(5)智慧资源的价值创造
(6)符号交互和其它技术作用的分解
(7)价值创造:
功能可见性和交互设计
(8)功能可见性:
交互不同于那些通过有意识的描述、整理或技术之后产生的“被设计的交互”.
(9)数字化与交互:
数字资源交互的种类和功能由编码中的结构和语义的数量(“信息智能”)来确定。
4.维护信息资源
(1)维护包括任何活动,其目的是确保资源在将来的某一时间使用或重用。
(2)可维护性和扩展性设计/组织。
(3)选择基于应用于资源的一些隐式或显式条件。
(4)保存物质资源需要保持在防止其恶化的条件下,它还包括用于改进访问或恢复资源的举措。
(5)文档恢复
(6)数字保护:
副本、篡改杜绝等
(7)法律:
启用文档发现的民事诉讼规则、政府问责、被遗忘权、强制披露数据泄露。
(8)记录管理:
保留要求、不保留要求、访问控制,特别是分类信息禁止保留个人身份信息、清除要求和权限等。
(9)计算治疗:
众包数字化/公民科学,许多博物馆或科学存储库正在寻求帮助将他们的藏品数字化,初步分类和稀缺专家。
第三章组织系统中的资源
3.1什么是资源
一、资源的粒度
1.资源是其他资源的聚合或复合材料,或具有内部结构,对其“属性”的粒度构成疑问。
2.我们可能需要组织和管理粒状资源、复合资源以及它们之间的关系-同时也可以在不同级别的上下文/容器/集合中标识"零件"。
3.对于信息资源而言,物理资源的粒度更容易确定
二、资源的标识符
1.标识符:
是一种特殊命名,它通过规则以受控的方式分配,规则定义可能的值和命名原则。
例如,将一个数字资源的标识符输入到系统中,从而确定它的位置,这样它就可以被检索出来。
三、资源的名称
1.名称:
指的是对某一资源区别于其他资源的标签。
2.名称的选择往往受到多种因素的影响,如公众的可获取性、习惯,语言类型,机构政策,个人以及文化偏见等。
如果一个资源有两个及以上的名称或者标识符,也就意味着有同义词或别名的出现。
这种现象被称为“词汇问题”。
3.受控词汇可用于来解决词汇问题。
通过添加名称和标签,规范资源被分配的规则,或通过自然语言定义映射,使其转换为权威或受控的术语。
需要注意的是,词汇控制不能消除所有歧义。
3.2资源的属性
一、四个可区分属性
1.资源域
(1)每个资源具有一定的区别于其他资源的本质或类型,称之为资源域。
①对于物理资源而言,域的区别较为容易,即可以粗略根据物质容易感知的属性做物质类型的区分。
②对于信息资源而言,容易被感知的属性往往不可靠和不相关,因此更多的是基于语义特征来进行域的区别。
(2)信息资源可以被分类和分层,但有时候类别边界不清晰却更有益于从弱结构的叙事内容到高度结构化的事务性内容发现信息资源的域。
由此,格鲁什科和麦格拉思提出了文档类型谱。
(3)不同结构域或类型的文档可以根据被语义规定的内容区分,即通过其内部结构数量、呈现方式和内容结构的相关性。
2.资源格式
(1)物理环境还是数字环境,信息资源都能以各种格式存在。
知道哪个是最原始或者最重要的信息资源十分的重要,特别对于独特的或有价值的信息资源而言。
(2)数字信息资源的两个维度:
内容表示显性化程度和内容表示的分离程度。
①信息智商,如扫描文档;数据库或XML文档;HTML文档。
具有较高“智商”格式的信息很容易和有效地用计算机处理。
(3)编码结构的部件,如章,节或类似的语义组成。
信息是否被编码为文本字符的序列,以使它是人类以及计算机可读也是十分重要的。
3.资源能动性
(1)代理是在某种程度上促使资源可以自发引起自身的行动。
①被动型:
组织系统中的被动型资源无处不在,这些资源通常是无形的,只有某些行动的触发才能使得他们变得有价值。
②主动型:
主动型资源通常依靠自己创造效益和价值,有时候也通过触发被动型资源产生。
(2)智能性连续体
①感知与意识:
资源媒介感知周围环境和其他资源的互动的基础,但是感知事物并不能为组织系统创造任何价值。
②刺激:
当资源通过信息的感知采取行动时,才具备创造价值和影响的能力。
③驱动器:
通常被用来描述可以控制物理机械或者系统的东西。
④关联:
主动型资源要发挥自身的作用,就必须要与控制其他资源的驱动器相关联。
⑤计算或计算力:
主动型资源通常可以通过阅读传感器的信息,然后分析信息的内容并不断去调整行动。
⑥可组合性与合作:
智能的主动型资源不仅仅能够分析所搜集的信息和为之调整行为,还可以在共同遵守一定格式和规范的基础上,汇聚不同来源的信息来创造更大的价值。
4.资源格式与焦点
(1)物理形式描述物理资源:
描述性资源与物理资源的关系是通过将描述性资源以物理形式进行编码。
(2)数字形式描述物理资源:
典型就是通过图书馆在线目录定位实体图书馆资源的馆藏所在位置。
(3)数字形式描述数字资源:
描述数字资源的数字资源也就是对网络原生的信息资源进行描述。
(4)物理形式描述数字资源:
报纸广告、马路广告商品货架上的可以被手机扫描商品或服务信息的二维码就是以物理形式描述数字资源。
(5)识别资源所属的域,确定哪些属性是重要的或与人或者系统操作相关的,然后指定由其中哪些性质来定义的资源之间的关系的原理是构建组织系统最核心的任务。
3.3命名资源
一、为什么要给资源命名
帮助我们寻找到资源、描述资源、复用资源、链接资源等。
二、资源命名中存在的问题
(1)词汇问题:
人们描述事物中所选择的单词与他们的经历和语境有关系。
(2)同义词、多义词、假同源词等:
当资源有同义词或者多义词时容易被错误辨别,难以用自动化的程序确定其正确的表示方式。
(3)不恰当联系的命名:
假同源,如在中国,4是不吉祥的数字,意味着死亡
(4)通过假设常量属性的命名:
通过假设常量属性来命名是建立在资源属性的基础上,但是随着资源本身的变化,其属性的含义也会跟着改变。
(5)语义差距:
指在命名和描述资源时,用自动化方式代替人为方式描述产生语义的差距。
三、选择好的命名和标识符
(1)需要让命名有富含信息量
(2)使用受控语言
(3)允许别名
(4)使标识唯一或者被限定
(5)区分识别和解决
第四章资源描述与元数据
4.1资源描述
一、为什么要描述一个资源
1.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 组织 期末 复习 要点