多媒体数据压缩.docx
- 文档编号:5603516
- 上传时间:2022-12-28
- 格式:DOCX
- 页数:25
- 大小:37.84KB
多媒体数据压缩.docx
《多媒体数据压缩.docx》由会员分享,可在线阅读,更多相关《多媒体数据压缩.docx(25页珍藏版)》请在冰豆网上搜索。
多媒体数据压缩
第三章多媒体数据压缩
3.1数据压缩的
基本原理和方法
3.1数据压缩的基本原理和方法
•压缩的必要性
音频、视频的数据量很大,如果不进行处理,计算机系统几乎无法对它进行存取和交换。
例如,一幅具有中等分辨率(640×480)的真彩色图像(24b/像素),它的数据量约为7.37Mb/帧,一个100MB(Byte)的硬盘只能存放约100帧图像。
若要达到每秒25帧的全动态显示要求,每秒所需的数据量为184Mb,而且要求系统的数据传输率必须达到184Mb/s。
对于声音也是如此,若采用16b样值的PCM编码,采样速率选为44.1kHZ,则双声道立体声声音每秒将有176KB的数据量。
3.1数据压缩的基本原理和方法
•视频、图像、声音有很大的压缩潜力
信息论认为:
若信源编码的熵大于信源的实际熵,该信源中一定存在冗余度。
原始信源的数据存在着很多冗余度:
空间冗余、时间冗余、视觉冗余、听觉冗余等。
数据压缩技术的性能指标
节省图象或视频的存储容量,增加访问速度,使数字视频能在PC机上实现,需要进行视频和图象的压缩。
有三个关键参数评价一个压缩系统
●压缩比
●图象质量
●压缩和解压的速度
另外也必须考虑每个压缩算法所需的硬件和软件。
数据压缩技术的性能指标
1.压缩比
压缩性能常常用压缩比定义(输入数据和输出数据比)
例:
512×480,24bit/pixel(bpp)
输出15000byte输入=737280byte
压缩比=737280/15000=49
数据压缩技术的性能指标
2.图象质量
压缩方法:
无损压缩(图象质量不变)
有损压缩
有损压缩:
失真情况很难量化,只能对测试的图象进行估计。
模拟图象质量的指标:
信噪比、分辨率、颜色错,但必须在观察了实际图象以后。
数据压缩技术的性能指标
3.压缩解压速度
在许多应用中,压缩和解压可能不同时用,在不同的位置不同的系统中。
所以,压缩、解压速度分别估计。
静态图象中,压缩速度没有解压速度严格;动态图象中,压缩、解压速度都有要求,因为需实时地从摄像机或VCR中抓取动态视频。
数据压缩技术的性能指标
4.硬软件系统
有些压缩解压工作可用软件实现。
设计系统时必须充分考虑:
算法复杂-压缩解压过程长
算法简单-压缩效果差
目前有些特殊硬件可用于加速压缩/解压。
硬接线系统速度快,但各种选择在初始设计时已确定,一般不能更改。
因此在设计硬接线压缩/解压系统时必须先将算法标准化。
数据冗余的类型与压缩方法分类
1.数据冗余的类型
一幅图象中同一种颜色不止一个象素点,若相邻的象素点的值相同,象素点间(水平、垂直)有冗余。
(空间冗余)
当图象的一部分包含占主要地位的垂直的源对象时,相邻线间存在冗余。
(空间冗余)
若图象稳定或只有轻微的改变,运动序列帧间存在冗余。
(时间冗余)
数据冗余的类型与压缩方法分类
●空间冗余:
在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成像结果在数字化图像中就表现为数据冗余。
●时间冗余:
时间冗余反映在图像序列中就是相邻帧图像之间有较大的相关性,一帧图像中的某物体或场景可以由其它帧图像中的物体或场景重构出来。
音频的前后样值之间也同样有时间冗余。
数据冗余的类型与压缩方法分类
●信息熵冗余:
信源编码时,当分配给第i个码元类的比特数b(yi)=-logpi,才能使编码后单位数据量等于其信源熵,即达到其压缩极限。
但实际中各码元类的先验概率很难预知,比特分配不能达到最佳。
实际单位数据量d>H(S),即存在信息冗余熵。
●视觉冗余:
人眼对于图像场的注意是非均匀的,人眼并不能察觉图像场的所有变化。
事实上人类视觉的一般分辨能力为26灰度等级,而一般图像的量化采用的是28灰度等级,即存在着视觉冗余。
数据冗余的类型与压缩方法分类
●听觉冗余:
人耳对不同频率的声音的敏感性是不同的,并不能察觉所有频率的变化,对某些频率不必特别关注,因此存在听觉冗余。
●其它冗余:
包括结构冗余、知识冗余等。
数据冗余的类型与压缩方法分类
2.数据压缩技术分类
根据解码后数据与原始数据是否完全一致可以分为两大类:
一类是熵编码、冗余压缩法,也称无损压缩法、无失真压缩法;二是熵压缩法,也称有损压缩法、有失真压缩法。
从“熵”损失角度分为无损压缩和有损压缩两种:
无失真压缩,又称熵编码。
由于不会失真,多用于文本、数据的压缩,但也有例外,非线性编辑系统为了保证视频质量,有些高档系统采用的是无失真压缩方法。
有失真压缩,又称熵压缩法。
大多数图像、声音、动态视频等数据的压缩是采用有失真压缩。
数据冗余的类型与压缩方法分类
从信息语义角度分为“熵(平均信息量)编码”和“源编码”两种:
熵(平均信息量)编码(EntropyCoding)
熵编码是一种泛指那些不考虑被压缩信息的性质的编码和压缩技术。
它是基于平均信息量的技术把所有的数据当作比特序列,而不根据压缩信息的类型优化压缩。
也就是说,平均信息量编码忽略被压缩信息的语义内容。
熵编码分为:
重复序列消除编码(含:
消零、行程编码)、统计编码等。
数据冗余的类型与压缩方法分类
源编码(SourceCoding)
源编码的冗余压缩取决于初始信号的类型、前后的相关性、信号的语义内容等。
源编码比严格的平均信息量编码的压缩率更高。
当然压缩的程度主要取决于数据的语义内容,比起平均信息量编码,它的压缩比更大。
源编码主要分为:
预测编码、变换编码、向量量化等。
数据冗余的类型与压缩方法分类
常用数据压缩方法的基本原理
1.统计编码
方法是:
识别一个给定的流中出现频率最高的比特或字节模式,并用比原始比特更少的比特数来对其编码。
即就是,频率越低的模式,其编码的位数越多,频率越高的模式编码位数越少。
若码流中所有模式出现的概率相等,则平均信息量最大,信源就没有冗余。
常用数据压缩方法的基本原理
(1)行程编码(RunLengthCoding)
是最简单、最古老的压缩技术之一,主要技术是检测重复的比特或字符序列,并用它们的出现次数取而代之。
该方法有两大模式:
一是消零(消空白),二是行(游)程(runlength)编码。
消零(或消空白)法
将数字中连续的“0”或文本中连续的空白用一个标识符(或特殊字符)后跟数字N(连续“0”的个数)来代替。
如数字序列:
742300000000000000000055
编码为:
7423Z1855
常用数据压缩方法的基本原理
行程编码法
任何重复的字符序列可被一个短格式取代。
该算法适合于任何重复的字符。
一组n个连续的字符c将被c和一个特殊的字符取代。
当然,若给定字符仅重复两次就不要用此方法。
任何重复4次或4次以上的字符由“该字符+记号(M)+重复次数”代替。
例如数字序列:
Name:
..........CR
编码为:
Name:
.M10CR
常用数据压缩方法的基本原理
(2)LZW编码
LZW算法在压缩文本和程序数据的压缩技术中唱主角。
它的压缩率高,压缩处理所化费的时间比其它方式要少。
LZW编码时,首先将原始的数据分成多个条纹,每个条纹都单独进行压缩。
LZW算法基于一个转换表或字串表,它将输入字符映象到编码中,使用可变长代码,最大代码长度为12位。
常用数据压缩方法的基本原理
LZW算法中的字串表对于每个条纹都不同,并且不必保留给解压缩程序,因为解压缩过程中能自动建立完全相同的字串表。
实际上,它是通过查找冗余字符串并将此字符串用较短的符号标记替代的压缩技术。
常用数据压缩方法的基本原理
(3)哈夫曼编码
1952年Huffman提出了对统计独立信源能达到最小平均码长的编码方法,也即最佳码。
最佳性可从理论上证明。
这种码具有即时性和唯一可译性。
该编码是常见的一种统计编码。
对给定的数据流,计算其每个字节的出现频率。
根据频率表,运用哈夫曼算法可确定分配各字符的最小位数,然后给出一个最优的编码。
代码字存人代码表中。
常用数据压缩方法的基本原理
Huffman编码的优缺点
优点:
当信源符号概率是2的负幂次方时,Huffman编码法编码效率达到100%。
一般情况下,它的编码效率要比其它编码方法的效率高,是最佳变长码。
缺点:
Huffman码依赖于信源的统计特性,必须先统计得到信源的概率特性才能编码,这就限制了实际的应用。
通常可在经验基础上预先提供Huffman码表,此时性能有所下降。
常用数据压缩方法的基本原理
(4)算术编码
算术编码把一个信源集合表示为实数线上的0到1之间的一个区间。
这个集合中的每个元素都要用来缩短这个区间。
信源集合的元素越多,所得到的区间就越小,当区间变小时,就需要一些更多的数位来表示这个区间,这就是区间作为代码的原理。
算术编码首先假设一个信源的概率模型,然后用这些概率来缩小表示信源集的区间。
常用数据压缩方法的基本原理
新子区间的起始位置=
前子区间的起始位置+当前符号的区间左端×前子区间长度
新子区间的长度=
前子区间的长度×当前符号的概率(等价于范围长度)
最后得到的子区间的长度决定了表示该区域内的某一个数所需的位数。
常用数据压缩方法的基本原理
2.预测编码(PredictionCoding)
预测编码是指利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差进行编码。
DPCM与ADPCM是两种典型的预测编码。
常用数据压缩方法的基本原理
(1)差分脉码调制(DPCM)
PCM(PulseCodeModulation),原始的模拟信号经过时间采样,然后对每一样值进行量化,作为数字信号传输。
DPCM不对每一样值都进行量化,而是预测下一样值,并量化实际值和预测值之间的差。
DPCM是基本的编码方法之一,在大量的压缩算法中被采用,比如JPEG的DC分量就是采用DPCM编码的。
常用数据压缩方法的基本原理
举例说明DPCM编码原理:
设DPCM系统预测器的预测值为前一个样值,假设输入信号已经量化,差值不再进行量化。
若系统的输入为{0121123344…},则预测值为{0012112334…},差值为{011–1011010…},差值的范围比输入样值的范围有所减小,可以用较少的位数进行编码。
常用数据压缩方法的基本原理
(2)自适应差分脉码调制(ADPCM)
为了进一步改善量化性能或压缩数据率,可采用自适应量化或自适应预测的方法。
只要采用了其中的任一种自适应方法,均称为ADPCM。
自适应预测
预测参数的最佳化依赖于信源的统计特性,要得到最佳的预测参数是一件繁琐的工作。
而采用固定的预测参数往往又得不到好的性能。
为了既能使性能较佳,又不致于有太大的工作量,可以将上述两种方法折衷考虑,采用自适应预测。
常用数据压缩方法的基本原理
具体方法是:
预测参数仍采用固定的;但此时有多组预测参数可供选择。
这些预测参数根据常见的信源特征求得。
编码时具体采用哪组预测参数根据信源的特征来自适应的确定。
为了自适应的选择最佳参数,通常将信源数据分区间编码,编码时自动地选择一组预测参数,使该区间实际值与预测值的均方误差最小。
随着编码区间的不同,预测参数自适应的变化,以达到准最佳预测。
常用数据压缩方法的基本原理
例如,Microsoft的ADPCM采用二预测参数,提供7组预测系数,如右表所示。
编码时,根据选定的准则(如最小均方误差准则),每个编码区间自动地选取一组最佳的参数。
常用数据压缩方法的基本原理
3.变换编码(TransformationCoding)
在变换编码时,初始数据要从初始空间或时间域进行数学变换,变换为一个更适于压缩的抽象域。
该过程是可逆的;即使用反变换可恢复原始数据。
如将时域信号变换到频域,因为声音、图像大部分信号都是低频信号,在频域中信号的能量较集中,再进行采样、编码就可以压缩数据。
常用数据压缩方法的基本原理
变换本身是可逆的,因而其也是一种无损技术。
然而,为了取得更满意的结果,某些重要系数的编码位数比其他的要多,某些系数干脆就被忽略了。
这样,该过程就成为有损的了。
数学家们已经构造了多种数学变换。
除了傅里叶变换外,还有余弦、Hadamard、Haar、KarhunenLoeve变换。
最实用最常用的数学变换是离散余弦变换(DCT)。
常用数据压缩方法的基本原理
(1)最佳变换(K-L变换)
数据压缩主要是去除信源的相关性。
若考虑到信号存在于无限区间上,而变换区域又是有限的,那么表征相关性的统计特性就是协方差矩阵。
当协方差矩阵中除对角线上元素之外的各元素都为零时,就等效于相关性为零。
所以,为了有效地进行数据压缩,常常希望变换后的协方差矩阵为一对角矩阵,同时也希望主对角线上各元素随i,j的增加很快衰减。
因此,变换编码的关键在于:
在已知X的条件下,根据它的协方差矩阵去寻找一种正交变换T,使变换后的协方差矩阵满足或接近为一对角矩阵。
常用数据压缩方法的基本原理
当经过正交变换后的协方差矩阵为一对角矩阵,且具有最小均方误差时,该变换称最佳变换,也称Karhunen-Loeve变换。
可以证明,以矢量信号的协方差矩阵的归一化正交特征向量所构成的正交矩阵,对该矢量信号所作的正交变换能使变换后的协方差矩阵达到对角矩阵。
常用数据压缩方法的基本原理
(2)离散余弦变换(DCT变换)
如果变换后的协方差矩阵接近对角矩阵,该类变换称准最佳变换,典型的有DCT、DFT、WHT、HrT等。
其中,最常用的变换是离散余弦变换DCT。
DCT是从DFT引出的。
DFT可以得到近似于最佳变换的性能,但DFT的运算次数太多,且需要复数运算。
DCT从DFT中取实部,并可用快速余弦变换算法,因此大大加快了运算。
同时其压缩性能十分逼近最佳变换的压缩性能。
所以,DCT在图像压缩中得到了广泛的应用。
常用数据压缩方法的基本原理
4.分析合成编码
通过对原始数据的分析,将其分解为一系列更适合于表示的基元或者从中提取出更有本质意义的参数,编码仅对这些基本单元或者特征参数进行,而解码时则借助于一定的规则或者模型,按照一定的算法将这些基元或者参数再综合成原始数据的一个逼近。
常用数据压缩方法的基本原理
•矢量量化
量化编码按照一次量化的码元个数,可分为标量量化和矢量量化两种。
对数字化后的数据或PCM数据(样本值)一个一个地进行量化,称为标量量化。
而将这些数据分组,每组K维矢量,再以矢量为单元逐个进行量化,称其为矢量量化。
矢量量化是标量量化的多维扩展。
常用数据压缩方法的基本原理
标量量化中可在随机变量X出现概率比较高的间隔内,选择较小的判决间隔,而在其他区域内选择较大的间隔,这样可以以较小的量化均方误差进行量化。
矢量量化基于语义编码,其基本思想是采用非线性量化器,即对空间频率及能量分布较大的系数分配较多比特数;反之分配较少的比特数,从而达到压缩的目的。
常用数据压缩方法的基本原理
•小波变换编码
小波变换是一个线性变换,能够将一个信号分解成对空间和时间、频率的独立贡献,同时又不失原信号所包含的信息。
经过小波变换后的图像能量很集中,便于对不同的分量作不同的处理,达到较高的压缩比。
常用数据压缩方法的基本原理
•分形编码
分形编码是一种模型编码,它利用模型的方法,对需要传输的图像进行参数估测。
分形的方法是把一幅数字图像,通过一些图像处理技术,如颜色分割、边缘检测、频谱分析、纹理变化分析等等,将原始图像分成一些子图像。
子图像可以是简单的物体,也可以是一些复杂的景物。
然后在分形集中查找这样的子图像。
分形集实际上并不是存储所有可能的子图像,而是存储许多迭代函数,通过迭代函数的反复迭代,恢复出原来的子图像。
表示这样的迭代函数一般只需几个数据即可,这就达到了很高的压缩比。
常用数据压缩方法的基本原理
•子带编码
利用带通滤波器组把信号频带分割成若干子频带,然后分别处理。
通过等效于单边带调幅的调制过程,将各子带搬移到零频率附近以得到低通表示后,再以奈奎斯特速率对各子带输出取样,并对取样值进行通常的数字编码。
恢复时,将各子带信号解码并重新调制回其原始位置,再将所有子带输出相加就可得到接近于原始信号的恢复波形。
它的复杂度与变换编码差不多,但客观质量高、主观效果好。
3.2音频的压缩
3.2音频的压缩
音频频率范围
低频声音(Infra-sound):
0Hz-20Hz
人类听觉频率范围的声音:
20Hz-20kHz
高频(Ultrasound):
20kHz-1GHz
超声波(Hypersound):
1GHz-10THz
不同音频的带宽
电话语音:
200Hz-3.4kHz
调幅广播:
50Hz-7kHz
调频广播:
20Hz-15kHz
宽带音响:
20Hz-20kHz
音频压缩编码的基本方法
电话质量的语音压缩标准
ITU—TS建议的语音压缩的标准
G.711:
采用PCM编码,采样速率为8kHz,量化位数为8bit,对应的比特流速率为64kbit/s。
G.721:
ITU建议的G.721将64Kbps的比特流转换为32Kbps的流,它是基于ADPCM技术。
每个数值差分用4位编码,其采样率为8kHz。
电话质量的语音压缩标准
G.723:
G.723是一种以24Kbps运行的基于ADPCM的有损耗压缩标准。
其音质不如非压缩的G.711PCM标准以及基于SB—ADPCM的G.722标准。
和用于H.324标准。
G.728:
它的比特率为16Kbps,带宽限于3.4kHz。
其音质比G.711或G.722差得多。
它基于一种称为低延迟代码激励线性预测(LD—CELP)的向量量化技术。
电话质量的语音压缩标准
CELP是一种常用的语音压缩技术。
它用于美国联邦标准1016,可将语音压缩至4.8Kbps。
美国联邦标准1015使用CELP的一个简本,称为线性预测编码(LPC)。
LPC一10E标准可以运行于2.4Kbps。
采用了一种向量量化方法。
声音听起来有点象机器在说话,但4.8Kbps与电话差不多。
调幅广播质量的音频压缩标准
调幅广播质量:
50Hz-7kHz,称“7kHz音频信号”。
G.722:
G.722基于子带ADPCM技术(SB—ADPCM),它是将现有的带宽分成两个独立的子带信道分别采用差分脉码调制算法。
G.722压缩信号的带宽范围为50Hz到7kHz,而G.711仅限于3.4kHz。
其比特率为48、56、64Kbps,在标准模式下,采样速率是16KHz,幅度深度为14比特。
高保真立体声音频压缩标准
高质量的声音信号频率范围:
50Hz-20kHz
目前国际上比较成熟的高质量声音压缩标准为MPEG音频。
MPEG-l的音频信号在ISO11172-3文档中的描述。
MPEG音频不是单个一种压缩算法,而是3种音频编码和压缩方案的一个系列。
MPEG声音编码分为:
层-l、层-2、层-3。
随着层数的增加算法的复杂度也增大。
高保真立体声音频压缩标准
所有3层都分级兼容。
最复杂的译码器(即在层-3工作的译码器)也可对层-2或层-l的码流进行译码。
所有3层都运用同一原理:
变换编码和子带编码。
v频谱被分为32个子带。
v应用快速博里叶变换来表示高频域中的信号。
v应用心理声学模式来变换信号以估计刚能引起注意的噪音级。
层l、2和3主要在最后一个阶段--即量化阶段的方式上有所区别,但不是唯一的差别。
3.3图像和视频的压缩
图像和视频压缩编码的基本方法
图像和视频压缩编码的基本方法
原始的彩色图像,一般由红、绿、蓝三种基色的图像组成(R、G、B)。
然而人的视觉系统对彩色色度的感觉和亮度的敏感性是不同的,因此产生了不同的彩色空间表示。
H、S、I彩色空间:
H为色调、S为饱和度、I表示光的强度或亮度。
Y、I、Q方式和Y、U、V方式:
这两种表示方式的一个共同点是用其中一个分量Y表示象素的亮度,用其余两个分量表示象素的色度。
静止图像压缩标准
静止图像压缩,已有多个国际标准,如ISO制订的JPEG标准(JointPhotographicExpertsGroup)、JBIG标准(JointBilevelImageGroup)、ITU-T的G3、G4标准等。
特别是JPEG标准,适用黑白及彩色照片、彩色传真和印刷图片,可以支持很高的图像分辨率和量化精度。
静止图像压缩标准
1.JPEG压缩标准
●压缩比高,图像质量保真程度好;
● 算法能适应不同的数字图像参数、大小、图像内容、彩色空间、统计特性等,但不包括二值图像;
● 用户可以对压缩比、质量效果进行选择;
● 应该满足硬软件实现的计算需求;
● 支持多种操作方式。
静止图像压缩标准
(1)JPEG的无损预测编码算法
静止图像压缩标准
(2)JPEG的基于DCT的有损编码算法
静止图像压缩标准
•块准备
块准备将一帧帧图像分成8×8的数据块。
•DCT变换
原始的图像数据块经过DCT变换后,将每个数据块的数据从空间域变换到频率域,输出64个DCT变换系数。
•量化
JPEG的量化采用线性均匀量化器。
•DCT系数的编码
JPEG中对DC系数采用DPCM编码,63个AC系数在JPEG算法中采用行程编码。
静止图像压缩标准
•熵编码
经过DPCM编码的直流项和经过行程编码的交流项再进行霍夫曼编码或自适应二进制算术编码。
压缩比和图像质量
基于DCT的JPEG标准的压缩是有失真的,DCT变换后系数的量化是引起失真的主要原因。
压缩效果与图像内容本身有较大的关系,对于中等复杂程度的彩色图像,其压缩比与恢复图像的质量大致如下表所示。
静止图像压缩标准
静止图像压缩标准
2.JPEG2000简介
内容:
●JPEG2000图像编码系统(核心部分)
● 应用扩展(在核心上扩展更多特性)
● 运动JPEG2000
● 兼容性(即包容性与继承性)
● 参考软件(目前主要为JAVA与C程序)
● 复合图像文件格式(如传真式的服务等)
静止图像压缩标准
核心:
离散小波变换算法
特点:
●高压缩率
● 无损压缩
● 渐进传输
● 感兴趣区域压缩
● 色彩模式
● 图像处理简单
视频压缩标准
视频压缩的一个重要标准是MPEG(MotionPictureExpertsGroup),已推出了MPEG(或MPEG-Ⅰ)、MPEG-Ⅱ、MPEG-Ⅳ等系列标准,新的标准MPEG-Ⅶ、MPEG-21等标准也在酝酿之中。
另一个重要标准是H系列,包括H.261、H.263等标准,此外还有运动JPEG等压缩标准。
视频压缩标准
1.MPEG-1压缩标准
•能够传输用户可以接受的视频;
• 能够支持对称或者非对称的压缩解压应用;
• 根据需要可以支持随机存取;
• 除了正常播放之外,根据需要支持快进、快倒、快放等多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体 数据压缩