数据压缩原理文档格式.docx
- 文档编号:13491838
- 上传时间:2022-10-11
- 格式:DOCX
- 页数:12
- 大小:60.65KB
数据压缩原理文档格式.docx
《数据压缩原理文档格式.docx》由会员分享,可在线阅读,更多相关《数据压缩原理文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
压缩的理论根底是信息论。
从信息的角度来看,压缩就是去除掉信息中的冗余,即去除掉确定的或可推知的信息,而保存不确定的信息,也就是用一种更接近信息本质的描述来代替原有的冗余的描述,这个本质的东西就是信息量。
数据压缩的硬件和软件工具也非常多,本文将针对AIX平台常见的几种数据压缩工具进行介绍和比拟并提供常用的例如进行解说,希望您能从中选择适宜的压缩工具进行压缩。
AIX平台上,通常我们看到的.Z.gz.z.ar.tar后缀的文件都是压缩文件。
通过compress可以生成.Z压缩文件,通过compress、uncompress、gzip可以解压.Z格式的压缩文件;
通过gzip可以生成.gz压缩文件,通过gzip可以解压.gz格式的压缩文件;
通过pack可以生成.z压缩文件,通过unpack、gzip可以解压.z格式的压缩文件;
通过pax可以生成.ar压缩文件,通过pax可以解压.ar格式的压缩文件;
通过pax、tar可以生成.tar压缩文件,通过pax、tar、untar、可以解压.tar格式的压缩文件。
图1描述了各种类型文件的压缩及解压可以选择的AIX工具。
图1.不同文件类型的压缩及解压
下面我们将详细介绍AIX上主要压缩工具的特点已经用法。
回页首
compress
compress是一个相当古老的UNIX档案压缩指令,利用自适应的Lempel-Zev编码来减少文件大小。
每一个被参数File指定的原文件将被可能的压缩文件所代替,压缩后的档案会加上一个.Z。
延伸档名以区别未压缩的档案,压缩后的档案可以以uncompress解压。
值得注意的是执行compress需要有相应的权限来替换文件。
压缩量依赖于输入大小、由Bits变量指定的单位编码的比特数和公共子串的分布。
典型地,源代码或英文文本将减少50%到60%。
特点
∙如果调用压缩进程有适当的权限,压缩文件将保存与原文件相同的所有权、方式和修改时间。
∙如果指定的文件的路径大于1023字节,该命令不工作。
∙如果没有指定文件,标准输入将被压缩到标准输出。
∙如果压缩没有减少文件大小,将对标准错误写一个消息而不替换原文件。
∙compress命令的压缩一般比利用哈夫曼编码或自适应哈夫曼编码实现的压缩更紧凑,计算时间更少,〔哈夫曼编码在pack命令中被使用〕。
∙假设要将数个档案压成一个压缩档,必须先将档案tar起来再压缩。
常用例如
1.
dsm.opt:
Compression:
10.14%Thisfileisreplacedwithdsm.opt.Z.
该命令压缩dsm.opt文件,-v参数将程式执行的讯息印在荧幕上。
标准输出显示压缩百分比为14%。
dsm.opt文件被压缩并重命名为。
2.
该命令指定文件中公共子串的比特的最大值为12。
-b参数设定共同字串数的上限,以位元计算,可以设定的值为9至16bits。
由于值越大,能使用的共同字串就越多,压缩比例就越大,所以一般使用预设值16bit。
3.$compress–dfdsm.opt.
该命令将dsm.opt.Z解压成,假设档案已经存在-df程式那么会自动覆盖档案。
由于系统会自动参加.Z为延伸档名,所以该命令中dsm.opt.Z写成dsm.opt也会当作dsm.opt.Z来处理。
Z
uncompress
Compress的解压也可以由uncompress来完成。
uncompress命令恢复由compress命令压缩的原文件。
每个由File参数指定的压缩文件被除去而由展开后的副本所替换。
展开后的文件与压缩的版本名字相同,但没有.Z扩展名。
如果用户有root用户权限,展开后的文件保存与原文件相同的所有者、组、方式和修改时间。
如果用户没有root用户权限,那么文件保存相同的方式和修改时间,但获取新的所有者和组。
如果没有指定文件,那么标准输入将展开为标准输出。
例如
该命令解压dsm.opt.Z文件,并重命名为。
pack
pack命令以压缩格式存储由File参数指定的文件。
输入文件由一个原文件名附加.z后缀的压缩文件所代替。
压缩文件维持了同原始文件同样的访问方式、访问和修改日期和所有者。
输入文件名包含不超过253个字节,以允许有空间添加.z后缀。
如果pack命令成功执行,原始文件就被除去。
如果pack命令不能创立更小的文件,它就停止处理并报告不能节省空间。
〔节省空间失败通常发生于小文件或者是统一字符分布的文件。
〕空间节省的数额取决于输入文件的大小和字符分布频率。
由于译码树形成了每个.z文件的第一局部,因此对于小于3个块的文件不会节省空间。
典型情况下,文本文件减少25%到40%。
文件位置
/usr/bin/pack
特色
∙采用Huffman编码来压缩文件。
因此pack命令始终只能压缩小于8MB的文件。
∙pack命令在以下任何一个条件下都不能压缩:
文件已经压缩过;
输入文件名超过了253个字节;
文件有链接;
文件是目录;
文件不能翻开;
不能通过压缩节省存储块;
名称为File.z的文件已经存在;
.z文件不能创立;
处理中发生I/O错误。
2.pack:
dsm.sys:
Thisfileisreducedinsize47.3%.
pack:
dsm.sys.ini:
Thisfileisreducedinsize47.5%.
该命令压缩名为dsm.sys和dsm.sys.ini的文件并显示修改的文件名。
压缩的版本重命名为dsm.opt.z和。
此pack命令显示每个压缩文件的文件大小减小百分比。
3.
4.pack:
5.Thefilechangedfrom6296to3315bytes.
6.TheHuffmantreehas11levelsbelowtheroot.
7.Thereare49distinctbytesininput.
8.Thedictionaryoverheadis67bytes.
9.Theeffectiveentropyis4.21bitsperbyte.
Theasymptoticentropyis4.13bitsperbyte.
该命令压缩名为dsmwebcl.log的文件并显示该文件的统计信息。
unpack
unpack命令展开由
pack
命令创立的文件。
对每个指定的文件,unpack命令搜索名为File.z的文件。
如果这个文件是压缩文件,那么unpack命令用其展开的版本来替换它。
unpack命令通过从File除去.z后缀来给新的文件命名。
如果用户有root用户权限,那么新的文件具有和原文件一样的访问方式、访问和修改时间、所有者和组。
如果用户没有root用户权限,那么该文件保存同样的访问方式、访问时间和修改时间,但获取新的所有者和组。
unpack命令仅对以.z结束的文件进行操作。
结果,当指定不以.z结束的文件名时,unpack添加该后缀并搜索目录以寻找带有这种后缀的文件名。
/usr/bin/unpack
∙如果正在解压的文件有链接,unpack命令会把警告写到标准错误。
与其来源的压缩文件比拟,新解压的文件有不同的索引节点。
但是,任何其它链接到压缩文件原索引节点的文件仍然存在,仍然处于压缩状态。
∙以下情况那么文件不能解压:
文件名〔除.z文件之外〕多于253字节;
文件不是压缩文件;
有展开文件名的文件已存在;
不能创立被解压的文件。
$unpackdsm.sys.zdsm.sys.ini
unpack:
Thisfileisnowunpacked.
Thisfileisnowunpacked.
该命令展开了压缩文件dsm.sys.z和,并用名为dsm.sys和dsm.sys.ini的文件来替换它们。
unpack命令的文件名可以带有或不带.z后缀。
pax
抽取、写以及列出归档文件成员;
复制文件和目录层次结构。
-r和-w标志指定了归档操作的类型。
通过pax主要可以实现4大功能包括:
列出已归档文件的成员文件〔列表方式〕;
使用-r标志抽取归档文件〔读取方式〕;
使用-w标志写归档文件〔写方式〕用-r和-w标志复制文件〔复制方式〕。
pax命令应该是用于系统转储和2GB以上的映像的首选存档方法。
pax命令还可以用于查看和修改tar和cpio格式的文件,下面的例如中将会给出相应解释。
/usr/bin/pax
∙系统缺省支持64-位POSIX-定义的数据格式。
目的是允许归档大文件,例如dump文件。
归档文件大小可以大于或等于8GB
∙支持长用户名〔或组名〕
∙支持大于2097151的超大UID/GID
∙支持长路径名或链接名
∙用-o标志可以修改归档算法
考前须知
∙在读取或复制方式下,如果需要中间目录来抽取归档成员,pax执行与mkdir子例程相同的操作,中间目录作为路径参数,值S_IRWXU作为方式参数。
∙如果没有任何指定的模式或文件操作数与至少一个文件或归档成员匹配,pax为每个不匹配的模式或文件操作数写一条诊断消息到标准错误,并以错误状态退出。
∙遍历目录过程中,pax将检测无限循环;
例如,进入一个作为最后访问文件的祖先的先前访问的目录。
在检测到无限循环时,pax将诊断消息写到标准错误然后终止。
∙当pax处于读取方式或列表方式,使用-xpax归档格式和文件名、链接名、所有者名或任何其他扩展的头记录中的字段,这些字段无法从paxUTF8编码集格式转换到当前编码集和语言环境,pax写诊断消息到标准错误,如-oinvalid=选项所描述的那样处理文件,然后处理归档中的下一个文件。
∙对于,在缺省情况下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据压缩 原理