书签分享收藏举报版权申诉 / 20

立即下载加入VIP,免费下载

当前位置：首页 > PPT模板 > 其它模板 > 第10章 MPEG电视.docx

第10章 MPEG电视.docx

文档编号：10026815
上传时间：2023-02-08
格式：DOCX
页数：20
大小：159.63KB

第10章 MPEG电视.docx

《第10章 MPEG电视.docx》由会员分享，可在线阅读，更多相关《第10章 MPEG电视.docx（20页珍藏版）》请在冰豆网上搜索。

第10章 MPEG电视.docx

第10章MPEG电视

MPEG-1和-2Video标准有许多共同之处，基本概念类似，数据压缩编码方法基本相同，都采用以图像块作为基本单元进行变换、量化和移动补偿等技术来获得高压缩比。

MPEG-4Video部分采用内容基编码技术，它除与MPEG-1和-2Video向后兼容外，还引入了电视图像对象（VO）的概念，在某些应用场合下，对场景中的图像分别进行编码可以获得很高的压缩比而服务质量也能满足要求。

下面将简要介绍这些标准中压缩电视图像数据的基本方法。

10.1电视图像的数据率

10.1.1ITU-RBT.601标准数据率

按照奈奎斯特（Nyquist）采样理论，模拟电视信号经过采样（把连续的时间信号变成离散的时间信号）和量化（把连续的幅度变成离散的幅度信号）之后，数字电视信号的数据量大得惊人，当前的存储器和网络都还没有足够的能力支持这种数据传输率，因此就要对数字电视信号进行压缩。

为了在PAL、NTSC和SECAM彩色电视制之间确定一个共同的数字化参数，早在1982年国际无线电咨询委员会（CCIR）就制定了演播室质量的数字电视编码标准，这就是非常有名的ITU-RBT.601标准。

按照这个标准，使用4:

2:

2的采样格式，亮度信号Y的采样频率选择为13.5MHz/s，而色差信号Cr和Cb的采样频率选择为6.75MHz/s，在传输数字电视信号通道上的数据传输率就达到为270Mb/s（兆比特/秒）！

，即

亮度（Y）:

858样本/行×525行/帧×30帧/秒×10比特/样本≅135兆比特/秒（NTSC）

864样本/行×625行/帧×25帧/秒×10比特/样本≅135兆比特/秒（PAL）

Cr（R-Y）:

429样本/行×525行/帧×30帧/秒×10比特/样本≅68兆比特/秒（NTSC）

429样本/行×625行/帧×25帧/秒×10比特/样本≅68兆比特/秒（PAL）

Cb（B-Y）:

429样本/行×525行/帧×30帧/秒×10比特/样本≅68兆比特/秒（NTSC）

429样本/行×625行/帧×25帧/秒×10比特/样本≅68兆比特/秒（PAL）

总计:

27兆样本/秒×10比特/样本=270兆比特/秒

实际上，在荧光屏上显示出来的有效图像的数据传输率并没有那么高，

亮度（Y）:

720×480×30×10≅104Mb/s（NTSC）

720×576×25×10≅104Mb/s（PAL）

色差（Cr，Cb）:

2×360×480×30×10≅104Mb/s（NTSC）

2×360×576×25×10≅104Mb/s（PAL）

总计:

～207Mb/s

如果每个样本的采样精度由10比特降为8比特，彩色数字电视信号的数据传输率就降为166Mb/s。

10.1.2电视图像数据率的估算

如果考虑使用Video-CD存储器来存储数字电视，由于它的数据传输率可达到1.4112Mb/s，分配给电视信号的数据传输率为1.15Mb/s，这就意味MPEG电视编码器的输出数据率要达到1.15Mb/s。

显而易见，如果存储166Mb/s的数字电视信号就需要对它进行高度压缩，压缩比高达166/1.15≅144:

1。

MPEG-1电视图像压缩技术不能达到这样高的压缩比。

为此首先把NTSC和PAL数字电视转换成公用中分辨率格式CIF（CommonIntermediateFormat）的数字电视，这种格式相当于VHS（VideoHomeSystem）的质量，于是彩色数字电视的数据传输率就减小到

352×240×30×8×1.5≅30Mb/s（NTSC）

352×288×25×8×1.5≅30Mb/s（PAL）。

把这种彩色电视信号存储到CD盘上所需要的压缩比为：

30/1.15≅26:

1。

这就是MPEG-1技术所能获得的压缩比。

10.1.3电视图像数据率的估算

根据当前成熟的压缩技术，电视图像的数据率压缩成平均为3.5Mb/s～4.7Mb/s时非专家难于区分电视图像在压缩前后的之间差别。

如果使用DVD-Video存储器来存储数字电视，它的数据传输率虽然可以达到10.08Mb/s，但一张4.7GB的单面单层DVD盘要存放133分钟的电视节目，按照数字电视信号的平均数据传输率为4.1Mb/s来计算，压缩比要达到：

166/4.10≅40:

1。

如果电视图像的子采样使用4:

2:

0格式，每个样本的精度为8比特，数字电视信号的数据传输率就减小到124Mb/s，即

720×480×30×8×1.5≅124Mb/s（NTSC）

720×576×25×8×1.5≅124Mb/s（PAL）

使用DVD-Video来存储720×480×30或者720×576×25的数字电视图像所需要的压缩比为：

124/4.1≅30:

1。

10.2数据压缩算法

10.2.1简介

电视图像数据压缩利用的各种特性和采用的方法归纳在表10-1中。

从表中可以看到，电视图像本身在时间上和空间上都含有许多冗余信息，图像自身的构造也有冗余性。

此外，正如前面所介绍的，利用人的视觉特性也可对图像进行压缩，这叫做视觉冗余。

表10-1电视图像压缩利用的各种冗余信息

种类

内容

目前用的主要方法

统计

空间冗余

像素间的相关性

变换编码，预测编码

特性

时间冗余

时间方向上的相关性

帧间预测，移动补偿

图像构造冗余

图像本身的构造

轮廓编码，区域分割

知识冗余

收发两端对人物的共有认识

基于知识的编码

视觉冗余

人的视觉特性

非线性量化，位分配

其他

不确定性因素

MPEG-Video图像压缩技术基本方法和方法可以归纳成两个要点：

①在空间方向上，图像数据压缩采用JPEG（JointPhotographicExpertsGroup）压缩算法来去掉冗余信息。

②在时间方向上，图像数据压缩采用移动补偿（motioncompensation）算法来去掉冗余信息。

为了在保证图像质量基本不降低而又能够获得高的压缩比，MPEG专家组定义了三种图像：

帧内图像I（intra），预测图像P（predicted）和双向预测图像B（bidirectionallyinterpolated），典型的排列如图10-01所示。

这三种图像将采用三种不同的算法进行压缩。

图10-01MPEG专家组定义的三种图像

10.2.2帧内图像I的压缩编码算法

帧内图像I不参照任何过去的或者将来的其他图像帧，压缩编码采用类似JPEG压缩算法，它的框图如图10-02所示。

如果电视图像是用RGB空间表示的，则首先把它转换成YCrCb空间表示的图像。

每个图像平面分成8×8的图块，对每个图块进行离散余弦变换DCT（discreteCosineTransform）。

DCT变换后经过量化的交流分量系数按照Zig-zag的形状排序，然后再使用无损压缩技术进行编码。

DCT变换后经过量化的直流分量系数用差分脉冲编码DPCM（DifferentialPulseCodeModulation），交流分量系数用行程长度编码RLE（run-lengthencoding），然后再用霍夫曼（Huffman）编码或者用算术编码。

它的编码框图如图10-2所示。

图10-02帧内图像I的压缩编码算法框图

（引自SimonFraserUniversitySchoolofComputingScience,Dr.Ze-NianLi,

http:

//fas.sfu.ca/cs/undergrad/CourseMaterials/CMPT365/material/notes/contents.html）

10.2.3预测图像P的压缩编码算法

预测图像的编码也是以图像宏块（macroblock）为基本编码单元，一个宏块定义为I×J像素的图像块，一般取16×16。

预测图像P使用两种类型的参数来表示：

一种参数是当前要编码的图像宏块与参考图像的宏块之间的差值，另一种参数是宏块的移动矢量。

移动矢量的概念可用图10-03表示。

图10-03移动矢量的概念

求解差值的方法如图10-04所示。

假设编码图像宏块MPI是参考图像宏块MRJ的最佳匹配块，它们的差值就是这两个宏块中相应像素值之差。

对所求得的差值进行彩色空间转换，并作4:

1:

1的子采样得到Y，Cr和Cb分量值，然后仿照JPEG压缩算法对差值进行编码，计算出的移动矢量也要进行霍夫曼编码。

图10-04预测图像P的压缩编码算法框图

求解移动矢量的方法定义在图10-05中。

在求两个宏块差值之前，需要找出编码图像中的预测图像编码宏块MPI相对于参考图像中的参考宏块MRJ所移动的距离和方向，这就是移动矢量（motionvector）。

图10-5移动矢量的算法框图

要使预测图像更精度，就要求找到与参考宏块MRJ最佳匹配的预测图像编码宏块MPI。

所谓最佳匹配是指这两个宏块之间的差值最小。

通常以绝对值AE（absolutedifference）最小作为匹配判据，

，

有些学者提出了以均方误差MSE（mean-squareerror）最小作为匹配判据，

，

也有些学者提出以平均绝对帧差MAD（meanoftheabsoluteframedifference）最小作为匹配判据，

，

其中，dx和dy分别是参考宏块MRJ的移动矢量d（dx,dy）在X和Y方向上的矢量。

从以上分析可知，对预测图像的编码实际上就是寻找最佳匹配图像宏块，找到最佳宏块之后就找到了最佳移动矢量d（dx,dy）。

为减少搜索次数，现在已开发出许多简化算法用来寻找最佳宏块，下面介绍其中的三种。

1.二维对数搜索法（2D-logarithmicsearch）

这种方法采用的匹配判据是MSE为最小。

它的搜索策略是当沿着最小失真方向搜索。

二维对数搜索方法如图10-06所示。

在搜索时，每移动一次就检查5个搜索点。

如果最小失真在中央或在边界，就减少搜索点之间的距离。

在这个例子中，步骤1，2，…，5得到的近似移动矢量d为（i，j-2）、（i，j-4）、（i+2，j-4）、（i+2，j-5）和（i+2，j-6），最后得到的移动矢量为d（i+2，j-6）。

图10-06二维对数搜索法

2.三步搜索法（three-stepsearch）

这种搜索法与二维对数搜索法很接近。

不过在开始搜索时，搜索点离（i，j）这个中心点很远，第一步就测试8个搜索点，如图10-07所示。

在这个例子中，点（i+3，j-3）作为第一个近似的移动矢量d1；第二步，搜索点偏离（i+3，j-3）较近，找到的点假定为（i+3，j-5）；第三步给出了最后的移动矢量为d（i+2，j-6）。

本例采用MAD作为匹配判据。

图10-07三步搜索法

3.对偶搜索法（conjugatesearch）

这是一个很有效的搜索方法，该法使用MAD作为匹配判据，示于图10-08。

在第一次搜索时，通过计算点（i-1，j）、（i，j）和（i+1，j）处的MAD值来决定i方向上的最小失真。

如果计算结果表明点（i+1，j）处的MAD为最小，就计算点（i+2，j）处的MAD，并从（i，j），（i+1，j）和（i+2，j）的MAD中找出最小值。

按这种方法一直进行下去，直到在i方向上找到最小MAD值及其对应的点。

在这个例子中，假定在i方向上找到的点为（i+2，j）。

在i方向上找到最小MAD值对应的点之后，就沿j方向去找最小MAD值对应的点，方法与i方向的搜索方法相同。

最后得到的移动矢量为d（i+2，j-6）。

图10-08对偶搜索法

在整个MPEG图像压缩过程中，寻找最佳匹配宏块要占据相当多的计算时间，匹配得越好，重构的图像质量越高。

10.2.4双向预测图像B的压缩编码算法

双向预测图像B的压缩编码框图如图10-09所示。

具体计算方法与预测图像P的算法类似，这里不再重复。

图10-09双向预测图像B的压缩编码算法框图[5]

10.2.5电视图像的结构

MPEG编码器算法允许选择I图像的频率和位置。

I图像的频率是指每秒钟出现I图像的次数，位置是指时间方向上帧所在的位置。

一般情况下，I图像的频率为2。

MPEG编码器也允许在一对I图像或者P图像之间选择B图像的数目。

I图像、P图像和B图像数目的选择依据主要是根节目的内容。

例如，对于快速运动的图像，I图像的频率可以选择高一些，B图像的数目可以选择少一点；对于满速运动的图像I图像的频率可以低一点，而B图像的数目可以选择多一点。

此外，在实际应用中还要考虑媒体的速率。

一个典型的I、P、B图像安排如图10－10所示。

编码参数为：

帧内图像I的距离为N=15，预测图像（P）的距离为M=3。

图10-10MPEG电视帧编排

I、P和B图像压缩后的大小如表10-02所示，单位为比特。

从表中可以看到，I帧图像的数据量最大，而B帧图像的数据量最小。

表10-2MPEG三种图像的压缩后的典型值（比特）

图像类型

I

P

B

平均数据/帧

MPEG-1CIF格式（1.15Mb/s）

150000

50000

20000

38000

MPEG-2601格式（4.00Mb/s）

400000

200000

80000

130000

10.3MPEG-2的配置和等级

在MPEG-2标准化阶段，考虑到要适应不同数据速率设备的应用，MPEG专家组定义了三种质量不同的编码方式：

信噪比可变性（Signal-to-NoiseScalability），空间分辨率可变性（SpatialScalability）和时间分辨率可变性（TemporalScalability）。

信噪比可变性SNR（Signal-to-Noisescalability）是指图像质量的折中，对于数据率比较低的解码器使用比较低的信噪比，而对数据率比较高的解码器则使用比较高的信噪比；空间分辨率可变性（Spatialscalability）是指图像的空间分辨率的折中，对于低速率的接受器使用比较低的图像分辨率，而对于数据率比较高的接受器使用比较高的图像分辨率；时间分辨率可变性（TemporalScalability）是指图像在时间方向上分辨率的折中，与空间分辨率类似。

MPEG-2为此引入了“配置（Profiles）”和参数“等级（Levels）”的概念。

每种配置定义一套新的算法，而每一个等级指定一套参数范围（如图像大小、帧速率和位速率）。

MPEG-2规定的配置规格如表10-03所示，等级规格如表10-04所示。

表10-03MPEG-2的配置

∙配置（Profile）_算法（Algorithms）__High

（高档）_支持由空间分辨率可变配置（SpatialScalableProfile）提供的所有功能和其他规定功能

∙子采样各种：

YUV4:

2:

2用于进一步提高图像质量__Spatialscalable

（空间分辨率可变）_支持信噪比可变配置（SNRScalableProfile）提供的所有功能和空间分辨率可变（Spatialscalablecoding）算法（2层）

∙子采样格式：

YUV：

4:

2:

0__SNRscalable

（信噪比可变）_支持基本配置（MainProfile）提供的所有功能和信噪比可变编码（SNRscalablecoding）算法（2层）

∙子采样格式：

YUV：

4:

2:

0__Main

（基本）_非可变速率编码算法支持随机存取，B图像预测方式

∙子采样格式：

YUV：

4:

2:

0__Simple

（简化）_除不支持基本配置（MainProfile）提供的B图像预测功能外，基本配置的其他所有功能都支持

子采样格式：

YUV：

4:

2:

0__表10-04MPEG-2的等级

等级（Level）_参数（Parameters）_说明__　_1920samples/line_1920样本/行__HIGH_1152lines/frame_1152行/帧__（高级）_60frames/s_60帧/秒__　_80Mb/s_80兆比特/秒__　_1440samples/line_1440样本/行__HIGH1440_1152lines/frame_1152行/帧__（高级1440）_60frames/s_60帧/秒__　_60Mb/s_60兆比特/秒__　_720samples/line_720样本/行__MAIN_576lines/frame_576行/帧__（基本级）_30frames/s_30帧/秒__　_15Mb/s_15兆比特/秒__　_352samples/line_352样本/行__LOW_288lines/frame_288行/帧__（低级）_30frames/s_30帧/秒__　_4Mb/s_4兆比特/秒__由配置（profile）和参数等级（level）组合起来的MPEG-2所支持的各种电视规格如表10-05所示。

前者定义质量的可变性（scalability）和彩色空间分辨率的句法子集，后者定义图像分辨率和每种配置的最大位速率的参数集。

例如，当前使用得最普遍的描述符是MP@ML（MainProfile,MainLevel），可译成“基本配置@基本级电视”或者“基本句法子集@基本参数级”，它指的是具有这种特性的电视：

帧速率为30帧/秒，分辨率为720×576×30，子采样格式为4:

2:

0，位速率达15Mb/s。

MPEG-2标准期待大多数MPEG-2设备都能够支持这种电视。

又如，MP@HL（MainProfile,HighLevel）描述符指的是帧速率为30帧/秒、分辨率为1920×1152×60、子采样格式为4:

2:

0、位速率达80Mb/s的HDTV制电视。

表10-05MPEG-2配置等级和参数级

Level＼Profile

（等级＼配置）_Simple

（简化型）_Main

（基本型）_SRNScalability

（信噪比

可变型）_SpatialScalability

（空间分辨率

可变型）_High

（高档型）__High

（高级）_　_4:

2:

0

1920×1152×60

80Mb/s

I,P,B_　_　_4:

2:

0,4:

2:

2

1920×1152×60

80Mb/s

I,P,B__High-1440

（高级1440）_　_4:

2:

0

1440×1152×60

60Mb/s

I,P,B_　_4:

2:

0

1440×1152×60

60Mb/s

I,P,B_4:

2:

0,4:

2:

2

1440×1152×60

60Mb/s

I,P,B__Main

（基本级）_4:

2:

0

720×576×30

15Mb/s

I,P_4:

2:

0

720×576×30

15Mb/s

I,P,B_4:

2:

0

720×576×30

15Mb/s

I,P,B_　_4:

2:

0

720×576×30

20Mb/s

I,P,B__Low

（低级）_　_4:

2:

0

352×288×30

4Mb/s

I,P,B_4:

2:

0

352×288×30

4Mb/s

I,P,B_　_　_

10.4MPEG-4电视图像编码

MPEGVideo专家组建立了一个用来开发图像和电视图像编码技术的模型，叫做“试验模型（TestModel）”或者叫做“验证模型（VM—VerificationModel）”。

这个模型描述了一个核心的编码算法平台，包括编码器、解码器以及位流（bitstream）的语法和语义。

本节就电视图像的编码和解码的基本方法作一个简单介绍，其他内容请看本章所附的参考文献和站点。

10.4.1电视图像对象区的概念

MPEG-4Video编码算法支持由MPEG-1和MPEG-2提供的所有功能，包括对各种输入格式下的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。

MPEG-4Video算法的核心是支持内容基（content-based）的编码和解码功能，也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。

MPEG-4Video还提供管理这些电视内容的最基本方法。

为了实现预想的内容基交互等功能，MPEG-4Video验证模型引进了一个叫做“电视图像对象区（VideoObjectPlane，VOP）”的概念。

如图10-11所示，上图表示支持MPEG-1和MPEG-2的普通的MPEG-4编码器，下图表示MPEG-4的甚低速率电视图像（VeryLowBitrateVideo，VLVB）的核心编码器。

MPEG-4Video验证模型不像MPEG-1/-2Video那样把电视图像都认为是一个矩形区，而是假设每帧图像被分割成许多任意形状的图像区，每个区都有可能覆盖描述场景中感兴趣的物理对象或者内容，这种区被定义为图像对象区VOP。

图10-11普通MPEG-4编码器和MPEG-4VLBV核心编码器[6]

编码器输入的是任意形状的图像区，图像区的形状和位置也可随帧的变化而改变。

属于相同物理对象的连续的电视图像对象区（VOP）组成电视图像对象（VideoObjects，VO）。

例如，一个没有背景图像的正在演讲的人，如图10-11所示。

MPEG-4可单独对属于相同电视图像对象（VO）的电视图像区（VOP）的形状、移动（motion）和纹理（texture）信息进编码和传送，或者把它们编码成一个单独的电视图像对象层（VideoObjectLayer，VOL）。

此外，需要标识每个电视图像对象层（VOL）的信息也包含在编码后的位流（bitstream）中，这些信息包括各种电视图像对象层（VOL）的电视图像在接收端应该如何进行组合，以便重构完整的原始图像序列。

这样就可以对每个电视图像对象区（VOP）进行单独解码，提供了管理电视图像序列的灵活性。

10.4.2电视图像编码方案

MPEG-4Video验证模型对每个电视图像对象（VO）的形状、移动和纹理信息进行编码形成单独的VOL层，以便能够单独对电视图像对象（VO）进行解码。

如果输入图像序列只包含标准的矩形图像，就不需要形状编码，在这种情况下，MPEG-4Video使用的编码算法结构也就与MPEG-1和MPEG-2使用的算法结构相同。

MPEG-4Video验证模型对每个电视图像对象区（VOP）进行编码使用的压缩算法是在MPEG-1和MPEG-2Video标准的基础上开发的，它也是以图像块为基础的混合DPCM和变换编码技术（hybridDPCM/Transformcoding）。

MPEG-4编码算法也定义了帧内电视图像对象区（Intra-FrameVOP，I-VOP）编码方式和帧间电视图像对象区预测（Inter-frameVOPprediction，简写为P-VOP）编码方式，它也支持双向预测电视图像对象区（B-directionallypredictedVOP，B-VOP）方式。

在对电视图像对象区（VOP）的形状编码之后，颜色图像序列分割成宏块进行编码，如图10-12所示。

图中的Y1、Y2、Y3和Y4表示亮度宏块，U、V分别表