档案数字化标准文档格式.docx
- 文档编号:17046887
- 上传时间:2022-11-28
- 格式:DOCX
- 页数:15
- 大小:28.33KB
档案数字化标准文档格式.docx
《档案数字化标准文档格式.docx》由会员分享,可在线阅读,更多相关《档案数字化标准文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。
纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;
纸张状况好的档案可采用高速扫描方式以提高工作效率。
扫描色彩模式
扫描色彩模式一般有黑白二值、灰度、彩色等。
通常采用黑白二值。
页面为黑白两色,并且字迹清晰、不带插图的档案,可采用黑白二值模式进行扫描。
页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,或插有黑白照片、彩色照片、彩色插图的档案(页面中有红头、印章的因安全原因应扫描成黑白二值),可视需要采用彩色模式进行扫描。
原档案为影印件或非常不清晰的可视需要采用彩色模式进行扫描。
扫描分辨率
扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。
采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均建议选择≥300dpi。
特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。
需要进行OCR汉字识别的档案,扫描分辨率建议选择≥300dpi。
扫描登记
认真填写纸质档案数字化转换过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。
1.1.1.3图像处理
图像数据质量检验
对图像偏斜度、清晰度、失真度等进行检查。
发现不符合图像质量要求时,应重新进行图像的处理。
由于操作不当,造成扫描的图像文件不完整或无法清晰识别时,应重新扫描。
发现文件漏扫时,应及时补扫并正确插入图像。
发现扫描图像的排列顺序与档案原件不一致时,应及时进行调整。
认真填写相关表单,记录质检结果和处理意见。
纠偏
对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。
对方向不正确的图像应进行旋转还原,以符合阅读习惯。
去污
对图像页面中出现的影响图像质量的杂质如黑点、黑线、黑框、黑边等应进行去污处理。
处理过程中应遵循在不影响可懂度的前提下展现档案原貌的原则。
图像拼接
对大幅面档案进行分区扫描形成的多幅图像,应进行拼接处理,合并为一个完整的图像,以保证档案数字化图像的整体性。
裁边处理
采用彩色模式扫描的图像应进行裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。
1.1.1.4图像存储
存储格式
采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储。
存储时的压缩率的选择,应以保证扫描的图像清晰可读的前提下,尽量减小存储容量为准则。
提供网络查询的扫描图像,也可存储为PDF或其他格式。
图像文件的命名
纸质档案目录数据库中的每一份文件,都有一个与之相对应的唯一档号,以该档号为这份文件扫描后的图像文件命名。
多页文件可采用该档号建立相应文件夹,按页码顺序对图像文件命名。
1.1.1.5目录建库
数据格式选择
目录建库应选择通用的数据格式。
所选定的数据格式应能直接或间接通过XML文档进行数据交换。
档案著录
按照《档案著录规则》(DA/T18)的要求进行著录,建立档案目录数据库。
目录数据质量检查
采用人工校对或软件自动校对的方式,对目录数据库的建库质量进行检查。
核对著录项目是否完整、著录内容是否规范、准确,发现不合格的数据应要求进行修改或重录。
1.1.1.6数据挂接
汇总挂接
档案数字化转换过程中形成的目录数据库与图像数据库,通过质检环节确认为"
合格"
后,通过网络及时加载到数据服务器端汇总。
通过编制程序或借助相应软件,可实现目录数据对相关联的数字图像的自动搜索、加入对应的电子地址信息等,实现批量、快速挂接。
数据关联
以纸质档案目录数据库为依据,将每一份纸质档案文件扫描所得的一个或多个图像存储为一份图像文件。
将图像文件存储到相应文件夹时,耍认真核查每一份图像文件的名称与档案目录数据库中该份文件的档号是否相同,图像文件的页数与档案目录数据库中该份文件的页数是否一致,图像文件的总数与目录数据库中文件的总数是否相同等。
通过每一份图像文件的文件名与档案目录数据库中该份文件的档号的一致性和唯一性,建立起一一对应的关联关系,为实现档案目录数据库与图像文件的批量挂接提供条件。
认真填写纸质档案数字化转换过程交接登记表单,记录数据关联后的页数,核对每一份文件关联后的页数与档案整理、扫描时填写的页数是否一致,不一致时应注明具体原因和处理办法。
1.1.1.7数据验收
数据抽检
以抽检的方式检查已完成数字化转换的所有数据,包括目录数据库、图像文件及数据挂接的总体质量。
一个全宗的档案,数据验收时抽检的比率不得低于5%。
验收指标
目录数据库与图像文件挂接错误,或目录数据库、图像文件之一出现不完整、不清晰、有错误等质量问题时,抽检标记为“不合格”。
一个全宗的档案,数字化转换质量抽检的合格率达到95%以上(含95%)时,给予以验收“通过”。
合格率=抽检合格的文件数/抽检文件总数×
95%
验收审核
验收"
通过"
的结论,必须经分管领导审核、签字后方有效。
验收登记
认真填写纸质档案数字化验收登记表单。
1.1.1.8数据备份
备份范围
经验收合格的完整数据应及时进行备份。
备份方式
为保证数据安全,备份载体的选择应多样化,可采用在线、离线相结合的方式实现多套备份,并注意异地保存。
数据检验
备份数据也应进行检验。
备份数据的检验的内容主要包括备份数据能否打开、数据信息是否完整、文件数量是否准确等。
备份标签
数据备份后应在相应的备份介质上做好标签,以便查找和管理。
备份登记
填写纸质档案数字化备份管理登记表单。
1.1.1.9数字化成果管理
应加强对纸质档案数字化成果的管理,确保其安全、完整和长期可用。
纸质档案数字化成果提供网上检索利用时,应有制作单位的电子标识,并根据具体情况分别采用可下载或不可下载的数据格式。
1.2专门档案数字化标准
1.2.1照片档案数字化标准
照片档案数字化是指通过扫描仪将照片档案转为数字化数据并加以存储的过程。
照片档案数字化必须保证其真实性、有效性、完整性。
在使用时必须保证数字化数据能从存储介质中正确读取,并还原成图片信号输出。
同时作为通用的图片格式能在网络中正常浏览。
1.2.1.1基本概念
光学分辨率 指扫描仪光电转换器件的物理精度。
例如一台扫描仪的光学分辨率为300dpi,也就是说每一英寸可以扫描出300个象素点。
差值分辨率 也称为最大分辨率,指扫描仪最高可以达到的线数。
差值分辨率是由光学分辨率差值运算得来的,因此它并不能代表扫描仪的本质精度。
1.2.1.2技术标准
前提条件:
所有要进行数字化的档案必须先进行著录,编制好页号。
扫描方式:
照片按全彩方式扫描。
分辨率:
所使用扫描仪的光学分辨率必须大于或等于200dpi。
扫描办法:
对于所扫的照片,以常见5寸照片大小(12.5cm×
8.5cm)为参照,统一采用200dpi分辨率,(主要考虑在网络浏览时其尺寸为最佳的观看效果,不须放大或缩小)对于其它大于或小于5寸的照片,其扫描线数可作相应的调整,但不得低于150dpi。
例如:
7寸以上的大照片,可选用150dpi;
5寸以下的一寸照片,必须选用600dpi,若是2—3寸的黑白照片,必须选用300dpi或350dpi。
文件存储类型:
扫描后的照片以TIF格式存储,保存时必须选用图像选项中的品质为最佳值的(12)大文件,存入到统一的照片数据库。
文件存储方式:
档案照片存储时按全宗、目录、相册分级建立文件夹保存,照片名字以照片的档案号命名。
照片命名方法:
每一张照片必须定义完全。
包括此张照片的档案号、拍摄时间、组说明或照片的定义内容。
以上注明需在文件名中全部打出。
1.2.1.3补充说明
无论彩色照片还是黑白照片都采用全彩格式扫描。
扫描仪有光学分辨率和差值分辨率两个常用技术参数,其中光学分辨率反映的是硬件系统确实可以达到的清晰程度,是扫描仪自身性能的反映。
所扫描的照片必须经过图像处理软件进行图片的亮度、色度调整,对扫描的边框进行裁切。
1.2.2声音档案数字化标准
声音档案数字化是指通过硬件设备将声音档案转为数字化数据并加以存储的过程。
声音档案数字化必须保证其真实性、有效性、完整性。
在使用时必须保证数字化数据能从存储介质中正确读取,并还原成声音信号输出。
同时作为输出的流媒体信号能正常在网络中播放查阅。
1.2.2.1基本概念
采样频率和样本大小采样频率和样本大小是反映数字化声音档案的精确度高低的两个最基本的参数。
采样频率即每秒钟采集多少个声音样本,用Hz或kHz来表示。
样本大小一般指声音卡的二进制位数,有8位、12位、16位等。
采样频率越高,声音波形就表达得越精确,而需要的存储空间就越大。
奈奎斯特理论奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把数字表达的声音还原成原来的声音。
采样频率的高低是根据奈奎斯特理论以及声音信号本身的最高频率决定的。
声道数是声音处理的重要参数。
一般情况都采用两个声道的规格,现在的杜比AC-3采用5+1个声音通道,即左、中、右3个声道,左后、右后两个环场声道以及一个次低音声道,另外,还有7+1声音通道等技术。
模数转换(ADC)模数转换是将输入的模拟音频信号转换成数值,数字化后的音频信号是数值,是离散的数,并非像音频信号一样为连续的波形。
数模转换(DAC)数模转换完成将数字化的声音数据转换成模拟音频信号输出,它是模数转换的逆过程。
其主要的指标与模数转换相同。
1.2.2.2硬件要求
放音设备放音设备必须能正确地将声音源输出。
放音设备应根据原载体型号进行选择,如盒式录入机,开盘式放音机等等。
计算机配置应选用性能稳定配置较高的计算机作为数字化设备。
本标准推荐的计算机配置为:
CPU为奔腾系列的P4以上,硬盘为80G以上,内存128M以上,操作系统为WIN98以上,推荐使用WIN2000系统。
配有专用声卡。
存储设备声音信号除存储在硬盘中随机使用,应备份至服务器中或刻录成CD光盘中脱机使用,如有必要,应再备一份归库保存。
声音卡声音卡(声卡)是声音数字化和数字化声音转换为可听到的模拟信号的部件。
声音卡必须符合声音档案数字化要求的技术指标和功能。
声音卡的采样频率至少应支持11.025kHz、22.05kHz、44.1kHz,最好支持48kHz。
声音卡必须是16位以上声音卡。
声音卡的声道必须是双声道以上。
声音卡应能够支持多种声源输入,如CDAudio、MIDI、话筒、线性输入等。
1.2.2.3技术标准
存储标准:
声音档案数字化时要选用标准和通用的格式。
本标准规定使用的声音文件存储标准为:
WAV或MP3。
采样频率:
声音档案数字化选用44.1kHz作为声音采样标准。
对于DVD中的声音选用48kHz补充说明。
1.2.2.4补充说明
声音档案数字化时必须远离强磁场等外部干扰。
数字化过程中应检查声音档案载体质量,确保声音档案的真实性、完整性。
1.2.3影像档案数字化标准
影像档案数字化是指通过硬件设备将影像档案转为数字化数据并加以存储的过程。
影像档案数字化必须保证其真实性、有效性、完整性。
在使用时必须保证数字化数据能从存储介质中正确读取,并还原成影像信号输出。
同时作为输出的流媒体信号能正常在网络中播放浏览。
1.2.3.1基本概念
视频制式视频制式标准主要有PAL制式、NTSC制式和SECAM制式。
中国及欧洲大多数地区使用PAL制式,规定为每秒25帧,每帧尺寸为720×
576像素。
隔行扫描方式,场频为50Hz,行频为625Hz。
视频数据压缩根据解码后的数据与原始数据是否安全一致,数据压缩方法一般被划分为可逆编码方法和不可逆编码方法两类。
用可逆编码方法压缩的图像,其解码图像与原始图像严格相同,即压缩是完全可恢复的或没有偏差的。
用不可逆编码方法压缩的图像,其还原图像较之原始图像存在一定的误差,但视觉效果一般是可被接受的。
1.2.3.2硬件要求
放像设备放像设备必须能正确、清晰、稳定地将影像信息源输出。
放像设备应根据原载体型号进行选择,如S-VHS放像机、3/4放像机、Hi8放像机、Betacam放像机、DVCPRO/DVCAM及DV的数码放像机。
计算机配置应选用性能稳定配置较高的计算机作为数字化处理设备。
本标准规定的计算机配置为:
CPU为奔腾系列的P4-2.6G以上,硬盘为120G以上,内存256M以上,最好是双CPU。
机器系统硬盘与视频素材硬盘分开。
系统硬盘配置为80G以上,转数为7200转/分,视频硬盘最好为SCSI总线结构,容量为120G以上,转数为10000转/分以上。
操作系统为WIN98/WIN2000。
为确保稳定性及驱动程序的兼容性,最好选用WIN2000PRO系统。
安装有视频压缩卡,并有实时回放功能。
存储设备影像信号除存储在硬盘中随机使用外,应备份至服务器中或刻录在DVD光盘中脱机使用,如有必要,应再备一份归库保存。
视频采集压缩卡视频采集压缩卡是影像档案数字化的关键部件。
它的指标决定了影像数字档案的质量高低,因此必须符合影像档案数字化要求的技术指标和功能。
压缩卡应支持采集MPEG1和MPEG2。
压缩卡的码流最高值至少应为10MB。
压缩卡应能够支持多种影像输入,如复合信号、分离信号(即S-VIDEO)、数字信号(DV接口即1394接口)。
编辑机本标准推荐使用非线性编辑机。
1.2.3.3技术标准
存储标准:
影像档案数字化存储有两种标准。
第一作为可再利用的图像格式选用MPEG2格式。
第二作为可在网络上浏览查阅的图像格式选用MPEG4格式(常见文件名为ASF格式和RM格式)。
数据传输率:
作为DVD备份保存的影像档案数据传输率应在于6-8Mb/S。
1.2.3.4补充说明
影像档案数字化时必须远离强磁场等外部干扰。
数字化过程中应检查载体质量,确保影像档案的真实性、完整性。
1.3国标有关归档电子文件数字化标准
1.3.1范围
本标准规定了在公务活动中产生的,具有保存价值的电子文件的形成、积累、归档、保管、利用、统计的一般方法。
本标准适用于党政机关产生的电子文件的归档与管理,其他社会组织的电子文件管理可参照本标准。
1.3.2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。
凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。
凡是不注日期的引用文件,其最新版本适用于本标准。
DA/T18档案著录规则
DA/T22归档文件整理规则
1.3.3术语和定义
下列术语和定义适用于本标准。
电子文件electronicrecords
指在数字设备及环境中生成,以数码形式存储于磁带、磁盘、光盘等载体,依赖计算机等数字设备阅读、处理,并可在通信网络上传送的文件。
归档电子文件archivalelectronicrecords
指具有参考和利用价值并作为档案保存的电子文件(3.1)。
背景信息context
指描述生成电子文件(3.1)的职能活动、电子文件的作用、办理过程、结果、上下文关系以及对其产生影响的历史环境等信息。
元数据metadata
指描述电子文件(3.1)数据属性的数据,包括文件的格式、编排结构、硬件和软件环境、文件处理软件、字处理和图形工具软件、字符集等数据。
逻辑归档logicalfiling
指在计算机网络上进行,不改变原存储方式和位置而实现的将电子文件(3.1)的管理权限向档案部门移交的过程。
物理归档physicalfiling
指把电子文件(3.1)集中下载到可脱机保存的载体上,向档案部门移交的过程。
真实性authenticity
指对电子文件(3.1)的内容、结构和背景信息(3.3)进行鉴定后,确认其与形成时的原始状况一致。
完整性integrity
指电子文件(3.1)的内容、结构、背景信息(3.3)和元数据(3.4)等无缺损。
有效性utility
指电子文件(3.1)应具备的可理解性和可被利用性,包括信息的可识别性、存储系统的可靠性、载体的完好性和兼容性等。
捕获capture
指对电子文件(3.1)进行实时收集和存储的方法与过程。
迁移migration
指将源系统中的电子文件(3.1)向目的系统进行转移存储的方法与过程。
1.3.4总则
电子文件自形成时应有严格的管理制度和技术措施,确保其真实性、完整性和有效性。
应对电子文件的形成、收集、积累、鉴定、归档等实行全过程管理与监控,保证管理工作的连续性。
应明确规定电子文件归档的时间、范围、技术环境、相关软件、版本、数据类型、格式、被操作数据、检测数据等要求,保证归档电子文件的质量。
归档电子文件同时存在相应的纸质或其他载体形式的文件时,应在内容、相关说明及描述上保持一致。
具有永久保存价值的文本或图形形式的电子文件,如没有纸质等拷贝件,必须制成纸质文件或缩微品等。
归档时,应同时保存文件的电子版本、纸质版本或缩微品。
应保证电子文件的凭证作用,对只有电子签章的电子文件,归档时应附加有法律效力的非电子签章。
1.3.5电子文件的真实性、完整性和有效性保证
应建立规范的制度和工作程序并结合相应的技术措施,从电子文件形成开始不问断地对有关处理操作进行管理登记,保证电子文件的产生、处理过程符合规范。
登记处理过程中相互衔接的各类责任者(如起草者、修改者、审核者、签发者等)。
登记处理过程中的各类操作者(打字者、发文者、收文者、存储管理者等)。
登记处理过程中产生的责任凭证信息(批示、签名、印章、代码等)。
登记电子文件传递、交接过程中的其他标识。
应采取可靠的安全防护技术措施,保证电子文件的真实性。
建立对电子文件的操作者可靠的身份识别与权限控制。
设置符合安全要求的操作日志,随时自动记录实施操作的人员、时间、设备、项目、内容等。
对电子文件采用防错漏和防调换的标记。
对电子印章、数字签署等采取防止非法使用的措施。
应建立电子文件完整性管理制度并采取相应的技术措施采集背景信息和元数据。
应建立电子文件有效性管理制度并采取相应的技术保证措施。
电子文件的处理和保存应符合国家的安全保密规定,针对自然灾害、非法访问、非法操作、病毒侵害等采取与系统安全和保密等级要求相符的防范对策,主要有:
网络设备安全保证;
数据安全保证;
操作安全保证;
身份识别方法等。
1.3.6电子文件的收集与积累
收集积累要求
1记录了重要文件的主要修改过程和办理情况,有查考价值的电子文件及其电子版本的定稿均应被保留。
正式文件是纸质的,如果保管部门已开始进行向计算机全文的转换工作,则与正式文件定稿内容相同的电子文件应当保留,否则可根据实际条件或需要,确定是否保留。
2当公务或其他事务处理过程只产生电子文件时,应采取严格的安全措施,保证电子文件不被非正常改动。
同时应随时对电子文件进行备份,存储于能够脱机保存的载体上。
3对在网络系统中处于流转状态,暂时无法确定其保管责任的电子文件,应采取捕获措施,集中存储在符合安全要求的电子文件暂存存储器中,以防散失。
4对用文字处理技术形成的文本电子文件,收集时应注明文件存储格式、文字处理工具等,必要时同时保留文字处理工具软件。
文字型电子文件以XML、RTF、TXT为通用格式。
5对用扫描仪等设备获得的采用非通用文件格式的图像电子文件,收集时应将其转换成通用格式,如无法转换,则应将相关软件一并收集。
扫描型电子文件以JPEG、TIFF为通用格式。
6对用计算机辅助设计或绘图等设备获得的图形电子文件,收集时应注明其软硬件环境和相关数据。
7对用视频或多媒体设备获得的文件以及用超媒体链结技术制作的文件,应同时收集其非通用格式的压缩算法和相关软件。
视频和多媒体电子文件以MPEG、AVI为通用格式。
8对用音频设备获得的声音文件,应同时收集其属性标识、参数和非通用格式的相关软件。
音频电子文件以WAV、MP3为通用格式。
9对通用软件产生的电子文件,应同时收集其软件型号、名称、版本号和相关参数手册、说明资料等。
专用软件产生的电子文件原则上应转换成通用型电子文件,如不能转换,收集时则应连同专用软件一并收集。
10计算机系统运行和信息处理等过程中涉及的与电子文件处理有关的参数、管理数据等应与电子文件一同收集。
11对套用统一模板的电子文件,在保证能恢复原形态的情况下,其内容信息可脱离套用模板进行存储,被套用模板作为电子文件的元数据保存。
12定期制作电子文件的备份。
电子文件的登记
1每份电子文件均应在《电子文件登记表》中登记。
2电子文件登记表应与电子文件同时保存。
3电子文件登记表如果制成电子表格,应与电子文件一同保存,永久保存的电子表格应附有纸质等拷贝件并与相应的电子文件拷贝一起保存。
4电子文件稿本代码:
M——草稿性电子文件;
U-——非正式电子文
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 档案 数字化 标准
![提示](https://static.bdocx.com/images/bang_tan.gif)