第4章 数字音频汇编.docx
- 文档编号:1858650
- 上传时间:2022-10-24
- 格式:DOCX
- 页数:25
- 大小:37.19KB
第4章 数字音频汇编.docx
《第4章 数字音频汇编.docx》由会员分享,可在线阅读,更多相关《第4章 数字音频汇编.docx(25页珍藏版)》请在冰豆网上搜索。
第4章数字音频汇编
第4章数字音频、视频信号的压缩
4.0数字视频信号的压缩(信源编码)
(1)压缩的原因:
由ITU-601标准可知,数字视频的数据码率高达216Mb/s。
其码率之高,数据量之大,无论是对于网络的数据传输,还是对于存储介质的数据存储,都构成了巨大的压力。
因此,只有在保持信号质量的前提下,降低码率及数据量,才能使标准得到应用。
(2)压缩的原理:
信源之所以可以压缩是因为图像信息内存在着大量的规律性或称相关性,在传输的前一个样值中也包含了后一个样值或后一帧中相关位置的样值内容。
(3)压缩的方法
①去除信息中的相关性,去除冗余码,使样值独立,提高熵值,降低信息码流。
②可以采用一些特殊的编码方式,使平均比特数降低,从而可进一步降低信息码流。
(4)信源编码:
降低码率的过程,称为压缩编码,也叫信源编码。
4.1压缩编码基础
编码方式是多种多样的,不同的算法其压缩率也不同,但都应本着无损的原则。
在实际应用中往往是采用多种不同算法的综合压缩编码方式,反复压缩,以取得较高的压缩率。
4.1.1莫尔斯码
电报码:
是采用“·”和“—”来表示26个英文字母的变字长编码。
编码思想:
(1)常用字母用短码表示(如E用“·”表示,T用“—”表示)
(2)不常用的字母用长码表示(如Z用“--··”表示;j用“-··-”表示)
编码方法:
通过变字长编码方式。
对常用英文单词进行的大量统计。
找出各字母出现的概率,最后确定:
有12个字母(出现几率最小)用4bit数字表示;
有8个字母(出现几率较少的)用3bit数字表示;
有4个字母(出现几率较高的)用2bit数字表示;
有2个字母(出现几率最高的)用1bit数字表示,共26个字母。
其中出现几率最低的12个字母共需12×4bit=48bit
其中出现几率较低的8个字母共需8×3bit=24bit
其中出现几率较高的4个字母共需4×2bit=8bit
其中出现几率最高的2个字母共需2×1bit=2bit
结论:
每个字母的平均码长为:
平均码长=(48+24+8+2)÷26=3.15bit/字母
讨论:
(1)要用固定码长方式则需要25=32,即5bit来表示。
(2)莫尔斯码编码规律:
先找出统计规律,然后对出现概率大的用短码,反之用长码。
(3)压缩对信息质量的影响:
而这种压缩对于信息无任何损坏,属无损压缩。
4.1.2预测编码
1.差值编码(DPCM)
(1)视频信号的空间(帧内)相关性的统计分析
①视频图的组成:
“像块”、“轮廓”和“细节”
“像块”--是图像中成片相同像素组成的块,它的空间相关性最强。
“轮廓”---是像块间的分界,它的相关性较差。
”细节”---是图像中变化最频繁的细节描述,相关性最小。
②统计结果:
“像块”要占约90%以上;
“轮廓”和“细节”只占不到10%。
注:
在视频信号中低频部分占绝大多数,而高频部分则所占比例较小。
(2)时间(帧间)相关性的分析
①在静止画面中,其帧间相同位置的样值则100%的相同。
②在非静止画面中,相邻帧的不同部分也只是运动物体,只占较小的比例。
(3)差值编码原理
①在发送端:
处理或传输的不是图像中当前样值本身,而是该样值与前一个(相邻)样值的差值,则这些差值绝大多数是很小的或为零,可以用短码来表示,而对那些出现几率较少的较大差值,用长码来表示,则可使总体码数下降。
②在接收端:
将已得到的前一样值与刚收到的差值相加,就可还原出所要的当前样值。
③差值编码:
采用对相邻样值差值进行变字长编码的方式称为差值编码,又称为差分脉码调制(DPCM)。
(4)预测编码
发送端:
从另一个角度看,我们可以把前一个样值看成是当前样值的预测值,并与当前样值相减,得到一个差值(预测误差)。
该差值可以看成是当前要传送的样值对于预测值的修正值,并对该差值编码、传送。
接收端:
可以将已得到的预测值(前一个样值的输出值),加上这一解码后的修正值,就得到了一个正确的当前样值。
因此差值编码也可以称为预测编码。
(5)差值编码的实现P120
发送端发出的预测误差应为:
(4-1)
经过量化器Q量化后,ΔVi’(n)=ΔVi(n)+ε(n)。
其中ε(n)是量化误差或称量化噪声。
接收端输出的信号为:
P121
结论:
发送端输出的是当前样值与前一样值(预测值)的差值(预测误差)。
接收端将该预测误差与前一输出样值(预测值)相加,又还原为当前样值。
(1)可行性讨论:
差值编码可以实现图像信号的压缩、传输与还原。
2)存在的问题:
在还原的Vo(n)中,除了含有Vo(n-1)
和差值ΔVi(n)外,还附加了一个量化噪声ε(n),且在前一个输出样值Vo(n-1)中,还含有与再前一个样值差值的量化噪声ε(n-1),因为由(4-2)式可得出
(4-3)
将式(4-3)带入式(4-2)得
由此可得出:
(4-4)
在式(4-4)中n与m均为整数。
结论:
在还原的Vo(n)中,含有前面历次差值的量化噪声(噪声积累)。
(3)方案的改进
在发送端:
输入信号减去的是上次输出的样值Vo(n-1),则在减去预测值的同时也减去了量化噪声ε(n)
ΔVi(n)=Vi(n)-Vo(n-1)
经量化后ΔV’i(n)应为:
ΔV’i(n)=Vi(n)-Vo(n-1)+ε(n)(4-5)
上式中的ε(n)为本次量化的量化噪声。
在接收端:
输出的还原信号Vo(n)应为:
Vo(n)=ΔV’i(n)+Vo(n-1)(4-6)
将式(4-5)带入式(4-6)得:
Vo(n)=Vi(n)-Vo(n-1)+Vo(n-1)+ε(n)
最后有:
Vo(n)=Vi(n)+ε(n)(4-7)
从上式中可以看出:
最终还原的信号中,前一次的量化噪声被抵销了,而只含有当前的输入样值Vi(n)和本次量化的量化噪声ε(n),不存在量化噪声的积累。
2.预测编码
(1)二维或三维预测:
以上介绍的是一维预测编码,然而它对于图像的水平线有较好的效果,但对垂直线效果较差。
因此人们一般采用二维(帧内)或三维(帧间)预测。
(2)预测方法
如左图所示:
设Xn为实际样值,X^n为其预测值。
A:
本行前一样值
B:
上一行前一样值
C:
上一行该点样值
D:
前一帧该点样值
预测值X^n应为:
X^n=F(A,B,C,D)
(3)线性预测
上式应为:
X^n=KaA+KbB+KcC+KdD
其中Ka、Kb、Kc、Kd分别为A、B、C、D的权重或系数。
一般有:
Ka+Kb+Kc+Kd=1
讨论:
①当Kb=Kc=Kd=0,Ka=1时,为一维差值预测,即前面讨论的情况。
②当Ka+Kb+Kc=1,Kd=0时,为二维预测,即帧内预测。
③当Kd≠0为三维预测,即帧间预测。
(4)预测编码的对象是:
实际样值Xn和预测样值X^n的差值ΔXn。
即:
ΔXn=Xn-X^n
ΔXn为预测误差,预测越准,其值越小,在多数情况下为零。
零出现的几率最大,可以用短码表示,而较大的差值用长码表示,从而可以降低码率,达到压缩的目的。
(1)变字长编码:
对信源中出现概率大的“对象”用短码表示,对出现概率较小的“对象”用长码表示。
其可获得较短的平均码长。
注:
“对象”只是一个欲编码的数据、符号或元素。
4.1.3霍夫曼(Huffmun)编码
(2)编码方法
①首先将欲编码的信源对象按出现的概率由大到小排成一列。
②找出最小的两个概率点,大的为“1”,小的为“0”(如概率相等,可随意用“0”和“1”分配)。
③将这两个概率点的概率相加,生成一新的概率点。
④再在新生成的概率点与余下的概率点中再选出两个最小的比较,大者为“1”,小者为“0”。
⑤再求和,生成一新的概率点,以此类推,直至新的概率点的概率为1为止。
⑥最后将对应各“对象”的数码,按结构顺序组合起来,即为各信源“对象”的霍夫曼编码。
P125
(3)平均码长的计算与比较
①平均码长的计算公式:
(4-8)
式(4-8)中P(XN)为XN的出现概率,L(XN)为XN的码长。
②码长的比较
如果采用固定码长的编码方式,6个对象需3bit码长,采用霍夫曼编码,其平均码长为:
2.2bit
压缩了码位。
4.1.4变换编码
(1)变换的原因:
由于预测编码对静止图像有较好的效果,但对快速运动的图像则效果较差。
而视频信号的相关性不仅表现在位置空间(空域)中,在其他的空间中也具有很强的相关性,因此压缩编码的方法并不唯一。
(2)不同域有不同特点:
静止图像的位置相关性较强,运动图像的频率相关性较强,因此在空域中解决不了的问题在频域中就可以解决。
1.离散余弦变换(DCT)
(1)视频图像的频率特征:
低频信号的幅值大,高频信号幅值小。
图像信号的能量主要集中于信号的低频分量,而高频分量的能量较小。
(2)相关性分析:
对于变化复杂的图像来说位置空间的相关性并不明显,但将信号变换到频率的直角坐标域中,则幅值大的低频分量集中在一个角落,而幅值小的高频分量则分布在其他位置,表现出了较强的频率相关性。
因此就可能获得一种效率更高的编码方法,以便于进行压缩编码,DCT编码就是这样一种纯数学变换的编码方式。
(3)DCT变换的方法
①分块:
将每个分量图像分成许多8×8=64个样点组成的像块,并对其采样,得到在空域中的8×8的样值矩阵。
②变换:
利用FDCT公式,将空域中的8×8样值矩阵,正向变换(FDCT)为频域中的8×8DCT系数矩阵。
P129
注:
①f(x,y)为空域中位置为(x,y)点的样值函数(x,y=0,1,…,7)。
②F(u,v)为频率域中频率位置为(u,v)点的DCT系数(u,v=0,1,…,7)。
③沿u,v方向频率增加,但是0~7并不特指某一频率(可视为小的频率域)。
④F(0,0)对应直流分量,称为DC系数,其它63个对应交流分量的系数,称为AC系数。
⑤两个空间的同位置系数无对应关系。
⑥在频域中的右下角对应高频部分,而在左上角对应低频部分(特点,相关性)。
讨论:
⑴DC系数的构成:
当u,v=0时,C(U)=C(V)=1/√2,有:
可见DC系数为空域中64个样值的平均值(对8的)。
(6)DCT系数规律:
低频系数值大,高频系数值小。
(7)对比两个数值矩阵观察相关性
P129
(8)IDCT变换(逆变换):
DCT系数并不能重构图像,因此在接收端需要利用IDCT公式将频域中的8×8DCT系数矩阵变换为空域中的8×8样值矩阵,使图像得以还原。
逆向DCT变换(IDCT):
2.DCT系数量化
(1)量化的原因:
DCT之后其系数矩阵中相关性不够明显,为进一步降低DCT系数矩阵中非零系数的幅值,增加零系数的个数,使相关性表现的更明显,需要进一步量化。
(2)量化的依据
①对失真的要求:
量化是图像质量下降的重要原因,DCT系数量化是基于限失真编码理论进行的,容许有失真,但应在视觉容许的容限内。
②视觉要求:
a.对亮度信号与色度信号的分辨能力不同;
b.对低频图像信号和高频图像信号的分辨能力不同。
结论:
可以采用不同的量化方案。
(3)量化的方法
①区域滤波法:
是采用式:
对DCT系数矩阵中的每一个值逐一量化
注:
a.F(U,V)为DCT系数矩阵中位于(U,V)的DCT系数;
W(U,V)为量化表中位于(U,V)点的量化步长,(不同位置可以采用不同
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第4章 数字音频汇编 数字音频 汇编
![提示](https://static.bdocx.com/images/bang_tan.gif)