第4章 数字音频.docx
- 文档编号:29857499
- 上传时间:2023-07-27
- 格式:DOCX
- 页数:33
- 大小:37.12KB
第4章 数字音频.docx
《第4章 数字音频.docx》由会员分享,可在线阅读,更多相关《第4章 数字音频.docx(33页珍藏版)》请在冰豆网上搜索。
第4章数字音频
第4章数字音频、视频信号的压缩
4.0数字视频信号的压缩(信源编码)
(1)压缩的原因:
由ITU-601标准可知,数字视频的数据码率高达216Mb/s。
其码率之高,数据量之大,无论是对于网络的数据传输,还是对于存储介质的数据存储,都构成了巨大的压力。
因此,只有在保持信号质量的前提下,降低码率及数据量,才能使标准得到应用。
(2)压缩的原理:
信源之所以可以压缩是因为图像信息内存在着大量的规律性或称相关性,在传输的前一个样值中也包含了后一个样值或后一帧中相关位置的样值内容。
(3)压缩的方法
①去除信息中的相关性,去除冗余码,使样值独立,提高熵值,降低信息码流。
②可以采用一些特殊的编码方式,使平均比特数降低,从而可进一步降低信息码流。
(4)信源编码:
降低码率的过程,称为压缩编码,也叫信源编码。
4.1压缩编码基础
编码方式是多种多样的,不同的算法其压缩率也不同,但都应本着无损的原则。
在实际应用中往往是采用多种不同算法的综合压缩编码方式,反复压缩,以取得较高的压缩率。
4.1.1莫尔斯码
电报码:
是采用“·”和“—”来表示26个英文字母的变字长编码。
编码思想:
(1)常用字母用短码表示(如E用“·”表示,T用“—”表示)
(2)不常用的字母用长码表示(如Z用“--··”表示;j用“-··-”表示)
编码方法:
通过变字长编码方式。
对常用英文单词进行的大量统计。
找出各字母出现的概率,最后确定:
有12个字母(出现几率最小)用4bit数字表示;
有8个字母(出现几率较少的)用3bit数字表示;
有4个字母(出现几率较高的)用2bit数字表示;
有2个字母(出现几率最高的)用1bit数字表示,共26个字母。
其中出现几率最低的12个字母共需12×4bit=48bit
其中出现几率较低的8个字母共需8×3bit=24bit
其中出现几率较高的4个字母共需4×2bit=8bit
其中出现几率最高的2个字母共需2×1bit=2bit
结论:
每个字母的平均码长为:
平均码长=(48+24+8+2)÷26=3.15bit/字母
讨论:
(1)要用固定码长方式则需要25=32,即5bit来表示。
(2)莫尔斯码编码规律:
先找出统计规律,然后对出现概率大的用短码,反之用长码。
(3)压缩对信息质量的影响:
而这种压缩对于信息无任何损坏,属无损压缩。
4.1.2预测编码
1.差值编码(DPCM)
(1)视频信号的空间(帧内)相关性的统计分析
①视频图的组成:
“像块”、“轮廓”和“细节”
“像块”--是图像中成片相同像素组成的块,它的空间相关性最强。
“轮廓”---是像块间的分界,它的相关性较差。
”细节”---是图像中变化最频繁的细节描述,相关性最小。
②统计结果:
“像块”要占约90%以上;
“轮廓”和“细节”只占不到10%。
注:
在视频信号中低频部分占绝大多数,而高频部分则所占比例较小。
(2)时间(帧间)相关性的分析
①在静止画面中,其帧间相同位置的样值则100%的相同。
②在非静止画面中,相邻帧的不同部分也只是运动物体,只占较小的比例。
(3)差值编码原理
①在发送端:
处理或传输的不是图像中当前样值本身,而是该样值与前一个(相邻)样值的差值,则这些差值绝大多数是很小的或为零,可以用短码来表示,而对那些出现几率较少的较大差值,用长码来表示,则可使总体码数下降。
②在接收端:
将已得到的前一样值与刚收到的差值相加,就可还原出所要的当前样值。
③差值编码:
采用对相邻样值差值进行变字长编码的方式称为差值编码,又称为差分脉码调制(DPCM)。
(4)预测编码
发送端:
从另一个角度看,我们可以把前一个样值看成是当前样值的预测值,并与当前样值相减,得到一个差值(预测误差)。
该差值可以看成是当前要传送的样值对于预测值的修正值,并对该差值编码、传送。
接收端:
可以将已得到的预测值(前一个样值的输出值),加上这一解码后的修正值,就得到了一个正确的当前样值。
因此差值编码也可以称为预测编码。
(5)差值编码的实现P120
发送端发出的预测误差应为:
(4-1)
经过量化器Q量化后,ΔVi’(n)=ΔVi(n)+ε(n)。
其中ε(n)是量化误差或称量化噪声。
接收端输出的信号为:
P121
结论:
发送端输出的是当前样值与前一样值(预测值)的差值(预测误差)。
接收端将该预测误差与前一输出样值(预测值)相加,又还原为当前样值。
(1)可行性讨论:
差值编码可以实现图像信号的压缩、传输与还原。
2)存在的问题:
在还原的Vo(n)中,除了含有Vo(n-1)
和差值ΔVi(n)外,还附加了一个量化噪声ε(n),且在前一个输出样值Vo(n-1)中,还含有与再前一个样值差值的量化噪声ε(n-1),因为由(4-2)式可得出
(4-3)
将式(4-3)带入式(4-2)得
由此可得出:
(4-4)
在式(4-4)中n与m均为整数。
结论:
在还原的Vo(n)中,含有前面历次差值的量化噪声(噪声积累)。
(3)方案的改进
在发送端:
输入信号减去的是上次输出的样值Vo(n-1),则在减去预测值的同时也减去了量化噪声ε(n)
ΔVi(n)=Vi(n)-Vo(n-1)
经量化后ΔV’i(n)应为:
ΔV’i(n)=Vi(n)-Vo(n-1)+ε(n)(4-5)
上式中的ε(n)为本次量化的量化噪声。
在接收端:
输出的还原信号Vo(n)应为:
Vo(n)=ΔV’i(n)+Vo(n-1)(4-6)
将式(4-5)带入式(4-6)得:
Vo(n)=Vi(n)-Vo(n-1)+Vo(n-1)+ε(n)
最后有:
Vo(n)=Vi(n)+ε(n)(4-7)
从上式中可以看出:
最终还原的信号中,前一次的量化噪声被抵销了,而只含有当前的输入样值Vi(n)和本次量化的量化噪声ε(n),不存在量化噪声的积累。
2.预测编码
(1)二维或三维预测:
以上介绍的是一维预测编码,然而它对于图像的水平线有较好的效果,但对垂直线效果较差。
因此人们一般采用二维(帧内)或三维(帧间)预测。
(2)预测方法
如左图所示:
设Xn为实际样值,X^n为其预测值。
A:
本行前一样值
B:
上一行前一样值
C:
上一行该点样值
D:
前一帧该点样值
预测值X^n应为:
X^n=F(A,B,C,D)
(3)线性预测
上式应为:
X^n=KaA+KbB+KcC+KdD
其中Ka、Kb、Kc、Kd分别为A、B、C、D的权重或系数。
一般有:
Ka+Kb+Kc+Kd=1
讨论:
①当Kb=Kc=Kd=0,Ka=1时,为一维差值预测,即前面讨论的情况。
②当Ka+Kb+Kc=1,Kd=0时,为二维预测,即帧内预测。
③当Kd≠0为三维预测,即帧间预测。
(4)预测编码的对象是:
实际样值Xn和预测样值X^n的差值ΔXn。
即:
ΔXn=Xn-X^n
ΔXn为预测误差,预测越准,其值越小,在多数情况下为零。
零出现的几率最大,可以用短码表示,而较大的差值用长码表示,从而可以降低码率,达到压缩的目的。
(1)变字长编码:
对信源中出现概率大的“对象”用短码表示,对出现概率较小的“对象”用长码表示。
其可获得较短的平均码长。
注:
“对象”只是一个欲编码的数据、符号或元素。
4.1.3霍夫曼(Huffmun)编码
(2)编码方法
①首先将欲编码的信源对象按出现的概率由大到小排成一列。
②找出最小的两个概率点,大的为“1”,小的为“0”(如概率相等,可随意用“0”和“1”分配)。
③将这两个概率点的概率相加,生成一新的概率点。
④再在新生成的概率点与余下的概率点中再选出两个最小的比较,大者为“1”,小者为“0”。
⑤再求和,生成一新的概率点,以此类推,直至新的概率点的概率为1为止。
⑥最后将对应各“对象”的数码,按结构顺序组合起来,即为各信源“对象”的霍夫曼编码。
P125
(3)平均码长的计算与比较
①平均码长的计算公式:
(4-8)
式(4-8)中P(XN)为XN的出现概率,L(XN)为XN的码长。
②码长的比较
如果采用固定码长的编码方式,6个对象需3bit码长,采用霍夫曼编码,其平均码长为:
2.2bit
压缩了码位。
4.1.4变换编码
(1)变换的原因:
由于预测编码对静止图像有较好的效果,但对快速运动的图像则效果较差。
而视频信号的相关性不仅表现在位置空间(空域)中,在其他的空间中也具有很强的相关性,因此压缩编码的方法并不唯一。
(2)不同域有不同特点:
静止图像的位置相关性较强,运动图像的频率相关性较强,因此在空域中解决不了的问题在频域中就可以解决。
1.离散余弦变换(DCT)
(1)视频图像的频率特征:
低频信号的幅值大,高频信号幅值小。
图像信号的能量主要集中于信号的低频分量,而高频分量的能量较小。
(2)相关性分析:
对于变化复杂的图像来说位置空间的相关性并不明显,但将信号变换到频率的直角坐标域中,则幅值大的低频分量集中在一个角落,而幅值小的高频分量则分布在其他位置,表现出了较强的频率相关性。
因此就可能获得一种效率更高的编码方法,以便于进行压缩编码,DCT编码就是这样一种纯数学变换的编码方式。
(3)DCT变换的方法
①分块:
将每个分量图像分成许多8×8=64个样点组成的像块,并对其采样,得到在空域中的8×8的样值矩阵。
②变换:
利用FDCT公式,将空域中的8×8样值矩阵,正向变换(FDCT)为频域中的8×8DCT系数矩阵。
P129
注:
①f(x,y)为空域中位置为(x,y)点的样值函数(x,y=0,1,…,7)。
②F(u,v)为频率域中频率位置为(u,v)点的DCT系数(u,v=0,1,…,7)。
③沿u,v方向频率增加,但是0~7并不特指某一频率(可视为小的频率域)。
④F(0,0)对应直流分量,称为DC系数,其它63个对应交流分量的系数,称为AC系数。
⑤两个空间的同位置系数无对应关系。
⑥在频域中的右下角对应高频部分,而在左上角对应低频部分(特点,相关性)。
讨论:
⑴DC系数的构成:
当u,v=0时,C(U)=C(V)=1/√2,有:
可见DC系数为空域中64个样值的平均值(对8的)。
(6)DCT系数规律:
低频系数值大,高频系数值小。
(7)对比两个数值矩阵观察相关性
P129
(8)IDCT变换(逆变换):
DCT系数并不能重构图像,因此在接收端需要利用IDCT公式将频域中的8×8DCT系数矩阵变换为空域中的8×8样值矩阵,使图像得以还原。
逆向DCT变换(IDCT):
2.DCT系数量化
(1)量化的原因:
DCT之后其系数矩阵中相关性不够明显,为进一步降低DCT系数矩阵中非零系数的幅值,增加零系数的个数,使相关性表现的更明显,需要进一步量化。
(2)量化的依据
①对失真的要求:
量化是图像质量下降的重要原因,DCT系数量化是基于限失真编码理论进行的,容许有失真,但应在视觉容许的容限内。
②视觉要求:
a.对亮度信号与色度信号的分辨能力不同;
b.对低频图像信号和高频图像信号的分辨能力不同。
结论:
可以采用不同的量化方案。
(3)量化的方法
①区域滤波法:
是采用式:
对DCT系数矩阵中的每一个值逐一量化
注:
a.F(U,V)为DCT系数矩阵中位于(U,V)的DCT系数;
W(U,V)为量化表中位于(U,V)点的量化步长,(不同位置可以采用不同的量化步长);
Q(U,V)为对应于(U,V)位置的量化值。
b.round()为取整函数。
c.Q(U,V)矩阵,为量化后的DCT系数矩阵。
式4-9表现了较强的相关性。
3.Zig-Zag扫描:
一种将二维数组转变为一维数组的Z字形扫描方法。
(1)采用扫描的原因:
量化后的DCT系数仍然是二维系数矩阵,无法直接传输,还需将其变为一维数据序列。
对Q矩阵重新排列。
(2)Zig-Zag扫描的依据:
在量化后的DCT系数矩阵中,非0的数据主要都集中于矩阵的左上角。
(3)Zig-Zag扫描的方法:
Zig-Zag扫描采用的是Z字形扫描方式。
从直流分量DC开始进行Z字形扫描。
P130
5)Z扫描的特点
①可以增加连续0系数的个数,也就是增加0的游程长度。
②在数据序列中,非零系数主要都集中于数据序列的首部,在数据序列的尾部,则都是连零(EOB)数据。
这样对传输中的数据压缩十分有利。
4.游程编码(RLC):
消去一维数组序列尾部连续0数据的编码方法。
(1)游程:
连续0的长度,或连续0的个数。
(2)游程编码的方法:
将一维数组序列转化为一个由二元数组(run,level)组成的数组序列。
其中:
①run表示连续0的长度;
②level表示连续0之后的一个非零值;
③用EOB表示后面所有剩余的连续0。
3)游程编码实例(10进制):
对应以上的两个一维数组序列的游程编码为:
0,8,0,-3,0,3,1,-4,0,-2,6,1,EOB第n块
0,10,0,5,0,3,0,1,0,1,1,1,3,1,EOB第n+1块P131
注:
①第一字节中:
高4位表示一维数组序列中非零系数前零的个数。
低4位则表示这个非零系数所需的比特数。
②第二字节:
完全用于表示非零系数的数值。
③EOB用FFFF表示。
④负数在此用补码表示。
因此以上数组序列又可表示为:
04,08,08,FD,02,03,18,FC,08,FE,61,01,FFFF(H)第n块字符对组
04,0A,03,05,02,03,01,01,01,01,11,01,31,01,FFFF(H)第n+1块字符对组
(5)解码:
在解码时见到FFFF就自动补0一直补足64个数据为止。
5.熵编码:
是一种可变长编码。
(1)游程编码后的熵编码:
在变换编码中,经过游程编码后的字符对数组序列,并不直接用于数据传输,还要对其进行霍夫曼编码,以进一步提高数据压缩率.
(2)熵编码:
在发送端,根据字符对出现的概率进行霍夫曼编码,形成一个码表(霍夫曼表)存储在编码器的ROM中,传输时,按码表把字符对“翻译”成对应的二进制数码(霍夫曼码)。
(3)熵解码:
在接收端,则必须采用同样的霍夫曼码表解码。
P132
4.2JPEG压缩
4.2.1JPEG标准
JPEG压缩是一种针对静止的连续色调的图像压缩方法,它属于帖内压缩。
JEPG压缩标准要点:
(1)压缩比可控:
编码器的参数中应包括控制压缩比和图像质量的成分。
(2)不受限制:
适用于所有的连续色调图像,不应对图像的尺寸、彩色空间和像素纵横比等特性进行限制,也不应对图像的场景内容(如复杂性、彩色范围或统计特性)有任何限制。
3)适中的计算复杂性:
压缩算法既可用软件实现,也可用硬件实现,并且具有较好的性能。
(4)具有下述4种操作模式:
①顺序编码②累进编码③无失真编码④层次编码
4.2.2基于DCT编码的JPEG压缩过程
1.分块采样(帧改组)
(1)JPEG压缩编码对象:
为连续色调静止图像各分量信号进行单独采样。
(2)4:
2:
0格式中各分量信号的采样点数:
PAL制:
亮度信号(Y)的有效采样点数为720×576,
色差信号(U,V)有效采样点数均为360×288。
NTSC制:
亮度信号(Y)的有效采样点数为720×480,
色差信号(I,Q)有效采样点数均为360×240
(3)帧改组:
采样时,当一帧图像信号输入到编码器时,编码器对其进行的分解处理,称为帧改组。
(4)帧改组方法:
(亮度信号)P134
①分片:
将图像分割成许多横向条(或称“片”),每条的宽度为16个采样点。
②分段:
以16个采样点为一段,得到16×16个采样点构成的块,称为宏区块。
③分像块:
将宏区块再分成4个8×8样点组成的像块。
注:
a.DCT变换就是以像块为单位的;
b.在4:
2:
0格式中,U和V的采样点数均为Y(行和列)的一半,所以U,V的像块与Y的宏区块重叠(亮度信号有宏区块,色差信号无宏区块)。
④宏块的形成:
由4个8×8的亮度(Y)像块组成的宏区块和与之重叠的两个8×8的色差(U,V)像块,这6个像块组成一个宏块。
见下图。
P135
2.FDCT变换
经过帧重组和采样,各分量信号变为一个8×8的样值矩阵。
再经过FDCT变换,将每个像块的8×8=64个样值f(x,y),变换为8×8=64个FDCT系数F(u,v)。
一个是直流DC系数,其他的63个是交流AC系数。
3.量化
可以根据应用环境和需求设计出不同的量化表,亮度信号和色差信号的量化表也不同,量化后输出的是二维的DCT系数矩阵F’(u,v)。
4.差值编码与Zig-Zag扫描
(1)DC系数的处理方法:
在JPEG压缩中,量化后的FDCT系数矩阵F’(u,v)中的直流分量(DC系数),并不参与Z字形扫描,而是与前一像块的DC系数进行差值预测编码。
(2)AC系数的处理方法:
63个AC系数,采用Z字形扫描输出。
(3)Z扫描后的数组排列:
DC系数的预测误差排在扫描输出数组序列首位。
P136
在上图中,第n块数据序列中的“X”是本块的DC系数与前一块DC系数的差值,在这里没有标出。
而第n+1块数据序列的第一个数据是:
DCn+1-DCn=10-8=2。
5.熵编码
(1)游程编码:
差值编码和Zig-Zag扫描后,生成的一维数组序列还需进行游程编码,以减少数组序列中零的个数,
(2)霍夫曼编码:
对游程编码后的数组序列进行霍夫曼编码。
并以像块为单位输出一组组数据。
4.3MPEG-1编码原理
4.3.1MPEG-1压缩标准
1.MPEG-1压缩标准
(1)1988年,ISO成立了活动图像专家组(MovingPictureExpertGroup),负责活动图像及其伴音的编码标准制定工作。
(2)1991年成为国际标准,并命名为MPEG-1标准。
编号为ISO11172。
(3)MPEG专家组下设了3个委员会:
3个委员会分别制定出3个子标准:
①MPEG系统委员会(MPEGsystem)制定了11172-1标准。
是整体系统标准。
它规定了压缩的图像和伴音数据与同步信息等复用(混合),并规定数码的传输率约为1.5Mb/s。
②MPEG视频委员会(MPEGvideo)制定了11172-2标准,是图像压缩标准。
它规定了图像信源输入格式(SIF)采用2:
1:
0(其水平清晰度为240线),
压缩空间冗余(帧内压缩),采用类似JEPG编码。
压缩时间冗余(帧间压缩),采用运动补偿方式。
③MPEG音频委员会(MPEGAudio),制定了11172-3标准,是音频压缩标准。
它规定了音频的三种可选码率,即64kb/s,128kb/s和192kb/s,可以是单声道,也可以是两路立体声伴音(其伴音质量可接近于CD水平),未压缩的音频码率为1.4Mb/s。
④附加要求
a.可存取单帧(静止图像)。
b.可倒放。
c.可用菜单随机选择播放。
d.可对存入的素材进行编辑。
e.视频与音频同步。
2.MPEG-1的要点
(1)分辨率从704×576下降到352×288(亮度信号),质量不高。
(2)帧内压缩(I帧)采用JPEG方式,帧间压缩采用前向预测(P帧),双向预测(B帧)方式。
(3)选择1.5Mb/s码率是为了适应当时的CD-ROM的读取速度(1.2Mb/s)。
4.3.2MPEG-1的图像格式
1.MPEG-1的图像格式
在MPEG-1中信源输入格式(SIF)为2:
1:
0格式
2.MPEG-1的SIF参数表4.1。
(704/2=352)
3.讨论
①MPEG-1的清晰度240线取决于其亮度信号的采样频率(6.75M时的图像信号为3M,3×80=240)
②PAL制与NTSC制码率相同,均为:
30.4128Mb/s
PAL制1帧图像=352×288+176×144×2=152064像素
NTSC制1帧图像=352×240+176×120×2=126720像素
PAL制和NTSC制的像素速率相等,且为:
152064×25=126720×30=3.8016兆像素/s
使用8位量化后,则码率为:
3.8016×8=30.4128Mb/s
4.MPEG-1应用
VCD
4.3.3MPEG压缩中的I、B、P帧
(1)MPEG-1压缩的基本思想:
同时采用降低图像标准、帧内压缩和帧间压缩。
(2)时间相关性的统计分析:
统计的结果表明,在间隔1~2帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。
采用的压缩方法:
分组:
把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多
①定义帧:
将每组内各帧图像定义为三种类型,即I帧、B帧和P帧。
②预测帧:
以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧。
③数据传输:
最后将I帧数据与预测的差值信息进行存储和传输。
1.I帧:
帧内编码帧
I帧特点:
①它是一个全帧压缩编码帧。
它将全帧图像信息进行JPEG压缩编码及传输。
②解码时仅用I帧的数据就可重构完整图像。
③I帧描述了图像背景和运动主体的详情。
④I帧不需要参考其他画面而生成。
⑤I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量)。
⑥I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧。
⑦I帧不需要考虑运动矢量。
⑧I帧所占数据的信息量比较大。
2.P帧:
前向预测编码帧。
(1)P帧的预测与重构:
P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。
在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。
(2)P帧特点
①P帧是I帧后面相隔1~2帧的编码帧。
②P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差)。
③解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像。
④P帧属于前向预测的帧间编码。
它只参考前面最靠近它的I帧或P帧。
⑤P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧。
⑥由于P帧是参考帧,它可能造成解码错误的扩散。
⑦由于是差值传送,P帧的压缩比较高。
3.B帧:
双向预测内插编码帧。
(1)B帧的预测与重构
B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。
接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。
(2)B帧特点
①B帧是由前面的I或P帧和后面的P帧来进行预测的。
②B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量。
③B帧是双向预测编码帧。
④B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第4章 数字音频