信息存储与检索课堂笔记.docx
- 文档编号:25033458
- 上传时间:2023-06-04
- 格式:DOCX
- 页数:17
- 大小:26.84KB
信息存储与检索课堂笔记.docx
《信息存储与检索课堂笔记.docx》由会员分享,可在线阅读,更多相关《信息存储与检索课堂笔记.docx(17页珍藏版)》请在冰豆网上搜索。
信息存储与检索课堂笔记
第1章信息检索概论
1.信息的定义:
从认识论出发,我国大多数学者认为:
信息具有物质属性,是物质的一种存在形式,它以物质的属性或运动状态为内容,并且总是借助于一定的物质载体传输或存储。
2.信息的特征:
(1)传递性
(2)时效性
(3)共享性
(4)客观性
其他的特性还有开发性、存储性、价值的不定性、变换性、可伪性等。
3.信息检索(InformationRetrieval)
定义:
广义概念——是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,故全称:
“信息存储与检索(InformationStorageandRetrieval)。
狭义概念——仅指上述过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(InformationSearch)。
4.信息检索的基本步骤
课题分析,明确检索范围
选择检索系统和检索工具
确定检索点和检索途径
构造检索式
选定检索方法
索取原始文献
5.计算机检索的发展历程
计算机检索是在计算机技术和通信技术发展的基础上建立起来的。
它产生于20世纪50年代,发展于80年代中期,90年代后随着国际互联网技术的发展而进入了一个崭新的时期。
发展历程大致可以概括为:
手工信息检索阶段(1954之前)
脱机信息检索阶段(1954/1964)
联机信息检索阶段(1965/1971)
光盘信息检索阶段(1972/1994)
网络信息检索阶段(1995年至今)
6.知识的定义
人们通过实践对客观事物及其运动过程和规律的认识。
在这里,知识作广义的理解,包括消息、情况、事实、数据。
知识可分为理性知识和感性知识。
理性知识,是对客观事物的本质和规律性的认识,是经过思维、逻辑加工的知识,构成知识体系;感性知识,是对客观事物的描述和对现象、事实的感知,是未经逻辑加工的知识。
知识的分类
知识按不同标准可作如下分类:
依照反映对象的深刻性和系统性程度,知识分为生活常识和科学知识;
按知识的成熟程度,分为经验知识、理论知识。
按领域:
哲学知识、社会科学知识和自然科学知识;
按用途:
科学知识、技术知识、文化知识;
按水平:
低级知识、中级知识和高级知识;
按性质,普通知识、专业知识;
按载体:
隐性知识、显性知识。
7.文献的定义和分类
文献是记录有知识和信息的一切载体,是固化在载体(纸张、光盘)上的知识。
文献是物化的精神产品,或者说,文献是知识信息的物化形态。
其中,信息内容是文献的知识内核,载体材料是文献的存在形式和外壳,而符号系统和记录方式则是二者联系的桥梁和纽带。
这4个要素相互联系就构成了文献的四维框架结构。
文献的分类
根据其内容性质和加工程度的不同,文献可分为以下四个级别:
(1)零次文献:
未经出版发行的文献,包括手稿、个人通信、原始记录等。
(2)一次文献:
首次出版的各种文献,也称原始文献。
如期刊论文、科技报告、会议论文、专利说明书等。
一次文献是以科研生产活动的第一手成果为依据而创作的文献,内容丰富,参考价值大,是我们利用的主要对象。
(3)二次文献:
报道和查找一次文献的检索书刊,如各种目录、题录和文摘等。
二次文献是图书情报工作者在大量收集原始文献的基础上,经过分析、归纳、重组后出版的。
二次文献是一次文献的集约化、有序化的再次出版,是贮藏、利用一次文献的主要的、科学的途径。
(4)三次文献:
利用二次文献提供的线索,选用大量一次文献的内容,经综合、分析和评述再度出版的文献,如各种述评、进展报告、动态综述、手册、年鉴和百科全书等。
我们使用的各种教科书也属三次文献。
文献按存储载体可分为:
(1)印刷型:
通过铅印、油印和胶印等手段,将知识固化在纸张上的一类文献。
例如,图书、期刊以及各种印刷资料。
它的主要优点是便于阅读和流传,缺点是体积大,信息密度低。
(2)缩微型:
以印刷型文献为母本,采用光学摄影技术,把文献的影像固化在感光材料上的一类文献。
常见的缩微型文献有缩微平片和缩微胶卷两种。
这种文献的优点是体积小,信息密度高,缺点是阅读必须借助阅读机或利用缩微复印机。
(3)声像型:
一种非文字形式的文献。
常见的有各种视听资料,如唱片、录音带、电影胶片、激光声视盘(CD-ROM)、幻灯片等。
这类文献记录声音和图像,通过唱机、录音机、录像机、放影机和投影机等予以重现,可以使人闻其声、观其形。
(4)机读型:
由于计算机广泛应用而产生的一种新文献。
常见是各种已录有内容的磁带、磁盘和光盘。
这种文献的存贮、阅读和查找利用都须通过计算机才能进行,所以既有信息量大、查找迅速的优点,又有设备昂贵、使用费用高的缺点。
按出版方式,文献可分为:
图书Book
期刊Periodical
报纸Newspaper
专利文献PatentLiterature
会议文献ConferenceLiterature
科技报告Scientific&TechnicalReport
学位论文DissertationforAcademicDegree
政府出版物GovernmentPublication
产品样品资料ProductSampleBook
ArchivesRecords、MusicScore、Map等都是文献家族中的重要成员。
在科技查新工作中利用较多的是美国国家技术信息服务局NTIS(TheNationalTechnicalInformationServiceoftheU.SDeportmentofCommerce)出版的《美国政府研究报告通报与索引》,有数据库和检索刊物以及缩微平片等多种形式可利用。
检索国内学位论文可以利用《中国学位论文数据库》,检索国外学位论文可利用Dialog国际联机系统或国际大学缩微胶卷公司(UniversityMicrofilmsInternational)编辑出版的《国际学位论文文摘》、《美国博士学位论文》以及《学位论文综合索引》等检索工具。
8.信息、文献、知识三者的关系:
三者之间的联系:
(1)信息概念不仅包括人与人之间的消息的交换,而且还包括人机之间、机器与机器之间的消息交换,以及动、植物界信号的交换。
(2)知识是人类通过加工吸收信息,对自然界、人类社会以及思维方式与运动规律的认识与掌握,是人的大脑通过思维重新组合的系统化信息的集合。
(3)文献是记录有知识和信息的一切载体
三者之间转换:
(1)物质运动发出信息;
(2)信息经人脑加工变成知识;
(3)知识被记录形成文献、被传递成为情报;
9.检索工具和检索语言
1.检索工具概念及作用
检索工具泛指查找信息所使用的一切工具和设备,包括检索工具书、穿孔卡片、电子计算机等。
是附有检索标识的某一范围文献条目的集合,是二次文献。
检索工具的作用:
1)报道作用
2)存储作用
3)检索作用。
2.检索工具基本类型
按照信息加工的手段或设备划分:
(1)手工检索工具;
(2)机械检索工具;(3)计算机检索工具。
按照信息载体形态划分:
(1)书本式检索工具,包括期刊式、单卷式和附录式;
(2)卡片式检索工具;
(3)缩微式检索工具;
(4)磁性材料式检索工具。
按收录范围划分:
(1)综合性检索工具;
(2)专科性检索工具;
(3)专题性检索工具;(4)全面性检索工具;
(5)单一性检索工具。
按时间范围划分:
(1)预告性检索工具;
(2)现期通报性检索工具;
(3)回溯性检索工具。
按编制方法划分:
目录、文摘和索引等。
3.检索语言
定义
检索语言是保证和检索一致的一种共同性的人工语言,它把文献的存储与检索联系起来,使文献的标引者和检索者取得共同理解,从而实现检索。
检索语言是应文献信息的加工、存贮和检索的共同需要而编制的专门语言,它是表达概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。
检索语言的类型
(1)分类语言
分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
目前,我国社会科学文献的分类与检索,主要根据三种分类语言,即《中国图书馆图书分类法》(简称《中图法》)、《中国人民大学图书馆图书分类法》(简称《人大法》)和《科学院图书馆图书分类法》(简称《科图法》)
(2)主题语言
主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。
以主题语言来描述和表达信息内容的信息处理方法称为主题法。
主题语言又可分为:
标题词、元词、叙词、关键词。
标题词语言。
是从文献的题目和内容中抽出来,经过规范化处理的主题语言。
从标题词作为文献信息内容的标引标识和检索标识。
标题词一般分为主标题和副标题,词表中按级一一列举各级标题,把主标题和副标题加以组配,作为标引和检索使用中的依据;
叙词语言。
是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主语语言。
以规范化的标引词形成词表,各词独立,标引时根据需要进行组配,可表达文献内容方面的复杂概念,属后组配式,适用于机检和手检;
关键词语言。
直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内容的自由词。
是一种无词表的自然语言。
关键词选自文献的题目和内容,属于非规范的后组配式;
单元词语言。
以文献中的单元词表达文献信息的内容性质,一般无词表。
单元词是文献内容中最基本的不能再加复分的知识单元,单元词之间可以进行组配,属后组配式;
引文语言。
利用文献的引文关系而建立的一种自然语言,无词表,标引词为文献中的主要著录项目,属后组配式。
(3)代码语言
代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。
例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。
第二章信息获取技术
1.条形码技术
把计算机所需的数据用一种条形码来表示,然后将条形码数据转换成计算机可以自动阅读的数据。
条码是由一组粗细不同、黑白或彩色相间的条、空符号组成的编码符号,用以表示一定的字符、数字及符号信息.
条码技术与其它输入技术(如键盘输入、OCR输入、磁卡输入)相比,具有识别速度快、误码率低、设备便宜、应用成本低廉和技术成熟等优点,目前已被广泛应用于商业、工业、图书、医疗等领域。
条形码编码规则
唯一性:
同种规格同种产品对应同一个产品代码,同种产品不同规格应对应不同的产品代码。
根据产品的不同性质,如:
重量、包装、规格、气味、颜色、形状等等,赋予不同的商品代码。
永久性:
产品代码一经分配,就不再更改,并且是终身的。
当此种产品不再生产时,其对应的产品代码只能搁置起来,不得重复起用再分配给其它的商品。
无含义:
为了保证代码有足够的容量以适应产品频繁的更新换代的需要,最好采用无含义的顺序码。
全数字型:
在EAN(国际编码组织)及UPC(统一产品代码)系统中,商品编码全采用阿拉伯数字.
条码码制可分为一维条码和二维条码。
我国商品的条形码使用的前缀码有690、691、692、693。
常用条码简介
EAN码:
EAN码是国际物品编码协会制定的一种商品用条码,通用于全世界。
有标准版(EAN-13)和缩短版(EAN-8)两种,我国的通用商品条码与其等效。
我们日常购买的商品包装上所印的条码一般就是EAN码。
EAN-13表示13位数字,EAN-8表示8位数字。
两种条码的最后一位为校验位,由前面的12位或7位数字计算得出。
UPC码:
UPC码是美国统一代码委员会制定的一种商品用条码,主要用于美国和加拿大地区,我们在美国进口的商品上可以看到。
39码:
39码是一种可表示数字、字母等信息的条码,主要用于工业、图书及票证的自动化管理,目前使用极为广泛。
库德巴(Codabar)码:
是一种广泛应用在医疗和图书领域的条码,其字符集为0到910个数字、“ABCD”四个字母和“$-:
/.+”六个特殊字符,其中“ABCD”仅作为启始符和终止符,并可任意组合。
条形码技术包括条形码编制规则,条形码译码技术,条形码印刷技术,数据通讯技术及计算机技术等,它是一门综合技术。
到目前为止,世界上共有四十多种条形码码制。
一般在物流管理中可采用交叉二五码,它的特点是符号占用空间小,信息密度较大。
条形码校验位的计算方法:
在条形码数据中按一、三的循环加权后得出的总和,然后用10减去总和的个位数,所得值即为条形码最后一位的校验数据。
第三章实体图书馆数字图书馆
世界最著名的五大图书馆:
中国国家图书馆,美国国会图书馆,法国国家图书馆,不列颠图书馆,俄罗斯国家图书馆。
数字图书馆概念及特征
数字图书馆(DigitalLibrary)是指对图像、文本、语音、视频、软件和科学数据等不同载体、不同地理位置的信息资源经过数字化存储、组织,以计算机网络的方式提供给本地和远程用户存取,以实现资源的共享的系统。
从数字图书馆的定义中我们可以看出,数字图书馆的应具备下列特征,才可以称之为真正的数字图书馆。
(1)资源的数字化
(2)资源的丰富性
(3)存取的网络化
(4)资源的共享性
第3章事实、数据检索
《美国百科全书》《不列颠百科全书》《科利尔百科全书》
第5章网络信息资源检索
搜索引擎类型
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
(1)目录式搜索引擎代表:
Yahoo
(2)全文搜索引擎:
代表:
Google;"天网"、悠游、
(3)元搜索引擎:
这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
当查询的对象为两个及以上关键字时,可以使用以下的技巧:
1.当关键字较长时,用空格隔开
例如要查询“小学数学课件”,如果直接输入,则要求返回的页面是严格包含“小学数学课件”这几个字的,资料的范围将会受限制,如果改为输入:
“小学数学课件”,则可以找到几万篇相关资料。
2.用“+”号和“-”号
用“+”号表示查询内容必须包括该关键字,而用“-”号表示排除该关键字所包含的内容。
例如输入:
“操作系统+Windows”的关键字组合,表示查询的是操作系统或Windows,但结果一定出现Windows,当输入例如:
“操作系统–Windows”的关键字的组合,表示要搜寻操作系统,但不包括Windows。
(切记要在加减号前留一个空格位)。
3.用“or”或“|”号
可以使用“A|B”或“AorB”来搜索或者包含关键词A,或者包含关键词B的网页。
例如:
要同时查询“唐诗”或“宋词”相关资料,无须分两次查询,只要输入“唐诗|宋词”搜索即可。
4.用“and”或“&”
用“and”或“&”进行连接,表示它们所连接的两个词必须同时出现在查询结果中,例如,输入“李白and杜甫”,它要求查询结果中必须同时包含“李白”和“杜甫”。
5.用引号“”
用引号可以使搜索结果绝对忠实于检索要求,而不包括演变形式。
有时需要精确匹配整句话包括词的顺序,那么可以把需要精确匹配的部分用“”扩起即可。
例如输入““狭义相对论””,这一方法在查找专有名词或名言警句时格外有用。
特别注意的是,以上所说的“+”“-”和空格等符号均半角符号,如果输入全角字符,则不能识别。
第六章
6.1维普数据库系统
6.2CNKI中国期刊网数据库
6.3万方数据资源系统
第七章著名英文数据库系统
著名英语文摘检索工具(数据库)
EI(EngineeringIndex)工程索引
SCI(ScienceCitationIndex)科学引文索引
ISTP(IndextoScientific&TechnicalProceedings)科学技术会议录索引
INSPEC(又称为SA:
ScienceAbstract)科学文摘
CSA(CambridgeScientificAbstracts)剑桥科学文摘
SCOPUSElsevier公司的文摘索引数据库
CA(chemicalabstracts)化学文摘
其中的SCI、ISTP、Ei数据库就是图书情报界常说的国外三大检索工具。
SCI,即《科学引文索引》,是自然科学领域基础理论学科方面的重要期刊文摘索引数据库。
它创建于1961年,创始人为美国科学情报研究所所长EugeneGarfield(1925.9.15).利用它,可以检索数学、物理学、化学、天文学、生物学、医学、农业科学以及计算机科学、材料科学等学科方面自1945年以来重要的学术成果信息;
SCI被国内外学术界当做制定学科发展规划和进行学术排名的重要依据。
提供了从参考文献入手,使著者与著者之间、文章与文章之间建立了引用和被引用的关系,可以由一篇论文入手,从中了解其继承和发展的关系,由此获得大量的有关科技文献和科技动态
用“循环法”不断扩大检索范围:
就是从手头有的一篇较早时间发表的重要文献开始,查寻所有引用此篇论文的文章。
再以这些引用文章作为新的检索起点,寻找引用这些论文的全部文章。
作为引文分析工具,其作用更为突出,而一般的检索工具都不具备这种功能。
根据论文的被引用情况,可用来评价它的学术价值,甚至通过分析引文之间的联系,较早地发现新学科的交界点等.
SCI的作用
ISTP,即《科学技术会议录索引》,创刊于1978年,由美国科学情报研究所编制,主要收录国际上著名的科技会议文献。
它所收录的数据包括农业、环境科学、生物化学、分子生物学、生物技术、医学、工程、计算机科学、化学、物理学等学科。
从1990-2003年间,ISTP和ISSHP共收录了60,000个会议的近300万篇论文的信息。
第八章信息存储技术
存储技术基本知识
存储就是根据不同的应用环境通过采取合理、安全、有效的方式将数据保存到某些介质上并能保证有效的访问
总的来讲可以包含两个方面的含义:
一.它是数据临时或长期驻留的物理媒介
二.它是保证数据完整安全存放的方式或行为
磁盘类型
固定磁头磁盘存储器和移动磁头磁盘存储器
固定磁头磁盘存储器:
磁头位置固定不变,磁盘上每个磁道都对应一个磁头,盘片也不可更换。
移动磁头磁盘存储器:
磁头在片面上做径向运动。
可换盘磁盘存储器和固定盘磁盘存储器
可换盘磁盘存储器:
盘片可以更换,脱机保存。
固定盘磁盘存储器:
盘片不可更换。
存储容量=磁头数×柱面数×扇区数×每扇区字节数
【例1】磁盘组有6片磁盘,每片有两个记录面,最上最下两个面不用。
存储区域内径22cm,外径33cm,道密度为40道/cm,内层位密度400位/cm,转速2400转/分。
问:
(1)共有多少柱面?
(2)盘组总存储容量是多少?
(3)数据传输率多少?
【解】
(1)有效存储区域=16.5-11=5.5(cm)
因为道密度=40道/cm,所以40×5.5=220道,即220个圆柱面
(2)内层磁道周长为2πR=2×3.14×11=69.08(cm)
每道信息量=400位/cm×69.08cm=27632位=3454B
每面信息量=3454B×220=759880B
盘组总容量=759880B×10=7598800B
(3)磁盘数据传输率Dr=rN,N为每条磁道容量,N=3454B,r为磁盘转速,
r=2400转/60秒=40转/秒即:
3454×40
【例2】一个3盘片的硬盘,共有4个记录面,转速为7200转/分,盘面有效记录区外直径30cm,内直径l0cm,记录位密度250位/mm,磁道密度8道/mm,每磁道分16个扇区,每扇区512字节.
则该硬盘的非格式化容量和格式化容量约为(X),数据传输率约为(Y)
(X)A.120MB和1OOMB B.30MB和25MB
C.60MB和50MBD.22.5MB和25MB
(Y)A.2356KB/s B.3534KB/s
C.7069KB/s D.1178KB/s
单面磁道数=(30cm/2-10cm/2)*10*磁道密度8(道)=800
格式化的每个磁道字节数=16扇区*512字节=8K
格式化容量=面数4*磁道数800*字8K=25600K=25M
非格式化的每磁道字节数=3.14*内径10cm*10*250位/mm=78539位/8=9817字节
非格式化容量=4*磁道数800*9817字节=31414400字节
如果按标准1024*1024字节算1M只有29.9M,由于硬件厂商一般1000*1000字节算1M的,可算31M,约30M。
传输速率=7200转/分*字节数/道9817/60=1178040字节/秒
按硬盘厂商的说法,就是1178040/1000=1178KB/S
第九章
1数据压缩技术概述
数据压缩的概念
采样数据不仅仅是所代表的原始信息本身,还包含着其它一些没必要保留的(确定的、可推知的)信息,即存在着数据冗余。
数据压缩就是从采样数据中去除冗余,即保留原始信息中变化的、特征性信息,去除重复的、确定的或可推知的信息,在实现更接近实际媒体信息描述的前提下,尽可能的减少描述用的信息量。
2多媒体数据的冗余
一般而言,多媒体数据中存在的数据冗余情况主要有以下几种:
信息熵冗余
空间冗余
时间冗余
结构冗余
知识冗余
视觉冗余
听觉冗余
纹理的统计冗余
JPEG静止图像压缩标准
JPEG是一个适用于彩色和单色、多级灰度、连续色调的静止数字图像的压缩标准,它定义了两种基本的压缩算法:
基于DPCM(差分脉冲编码调制)及Huffman编码(或算术编码)的无失真压缩算法。
压缩此较小;
另一种是基于DCT(离散余弦变换)的有失真压缩算法,压缩比可以很大,这种压缩算法又可分为基本和增强两种系统。
无失真压缩
为了实现无失真压缩,JPEG选择了一个简单的空间线性预测算法——DPCM,具体编码处理过程如图所示。
有失真压缩
JPEG的有失真压缩算法是基于DCT变换和Huffman编码的,具体压缩过程如图所示。
即有失真压缩经①颜色模式转换及采样,②DCT变换,③量化,④编码等4步实现。
Shannon-Fano编码练习答案:
1.其长度为27个字符,由A,B,C,D,E
共5种字符构成,每种字符出现的概率用<字符出现次数>表示为:
A-4,B-6,C-3,D-6,E-8
2.将信源符号按概率递减顺序排列,再把符号序列分成上下两部分,其中上部分符号序列概率和为14,编码为0;下部分为13,编码为1。
E—8
B—6
D—6
A—4
C—3
3.不断对子符号序列进行划分,最后得到一棵二叉树:
E—8
B—6
D—6
A—4
C—3
4.最终得到的符号编码分别为:
A-110B-01,C-111,D-10,E-00
5.信源字符序列M的编码总位数L等于每种字符编码位数与字符出现次数乘积的和,即:
L=3×4+2×6+3×3+
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 存储 检索 课堂 笔记