视音频流媒体图像编码标准综述.docx
- 文档编号:28018109
- 上传时间:2023-07-07
- 格式:DOCX
- 页数:16
- 大小:31.15KB
视音频流媒体图像编码标准综述.docx
《视音频流媒体图像编码标准综述.docx》由会员分享,可在线阅读,更多相关《视音频流媒体图像编码标准综述.docx(16页珍藏版)》请在冰豆网上搜索。
视音频流媒体图像编码标准综述
视音频、流媒体、图像编码标准综述
一 视频编码综述
1. MPEG标准的发展
MPEG是Moving Pictures Experts Group(动态图像专家组)的缩写。
是一个致力于数字视频、音频技术发展及标准化的杰出组织,它是ISO(International Standard Organization)与IEC(International Electronic Committee)在1988年联合成立的,正规的组织代号是ISO/IEC JTCI/SC29/WG11,成员专家来自于不同国家的最有业界影响力的研发机构。
在十多年的时间里,MPEG组织取得了丰硕的成果,自身也有了很大的发展。
1992年11月,MPEG-1被批准,并于1993年被ISO组织接纳为国际标准;1994年11月,MPEG-2标准发布,并在1995年成为国际标准;MPEG-4标准则于1999年和2001年分别有了版本1和版本2;目前,H.264/MPEG-4 AVC(即 ISO MPEG-4 Part 10)正在制定之中。
2. ISO MPEG-1 标准
MPEG-1 制定于1992年,为工业级标准而设计,编号为ISO/IEC 11172。
MPEG-1针对CIF标准分辨率(NTSC制为352×240;PAL制为352×288)的图像进行压缩,并在标准中规定了视音频信息经过压缩后的数据码率最大为1.5Mbps。
MPEG-1可实现在不同带宽的设备,如CD-ROM、Video-CD等数字媒体上进行存储,也可以在局域网、ISDN网上进行视音频信息的传输。
3. ISO MPEG-2 标准
MPEG组织在1994年推出了MPEG-2压缩标准,并在1995年成为国际标准,编号为ISO/IEC13818。
MPEG-2标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定,编码码率可达100Mbps。
MPEG-2不是MPEG-1的简单升级,它在系统和传送方面作了更加详细的规定和进一步的完善。
MPEG-2特别适用于广播级的数字电视的编码和传送,被认定为SDTV和HDTV的编码标准。
(1)MPEG-2标准的构成
MPEG-2标准目前分为9个部分,各部分的内容描述如下:
1) 第一部分-ISO/IEC13818-1,System:
系统,描述多个视频,音频和数据基本码流合成传输码流和节目码流的方式。
2) 第二部分-ISO/IEC13818-2,Video:
视频,描述视频编码方法。
3) 第三部分-ISO/IEC13818-3,Audio:
音频,描述与MPEG-1音频标准反向兼容的音频编码方法。
4) 第四部分-ISO/IEC13818-4,Compliance:
符合测试,描述测试一个编码码流是否符合MPEG-2码流的方法。
5) 第五部分-ISO/IEC13818-5,Software:
软件,描述了MPEG-2标准的第一、二、三部分的软件实现方法。
6) 第六部分-ISO/IEC13818-6,DSM-CC:
数字存储媒体-命令与控制,描述交互式多媒体网络中服务器与用户间的会话信令集。
以上六个部分均已获得通过,成为正式的国际标准,并在数字电视等领域中得到了广泛的实际应用。
此外,MPEG-2标准还有三个部分:
第七部分规定与MPEG-1音频非反向兼容的多通道音频编码;第八部分现已停止;第九部分规定了传送码流的实时接口。
(2)MPEG-2编解码原理
MPEG-2视频压缩的原理是利用了图像中的两种特性:
空间相关性和时间相关性。
这两种相关性使得图像中存在大量的冗余信息。
为了能够有效的去除图像中的冗余信息,MPEG-2标准中将编码图像被分为三类,分别称为I帧,P帧和B帧。
I帧图像采用帧内编码方式。
P帧和B帧图像采用帧间编码方式。
P帧图像只采用前向时间预测,B帧图像采用双向时间预测,可以大大提高压缩倍数。
MPEG-2的编码码流分为六个层次,从上至下依次为:
视频序列层(Sequence),图像组层(GOP:
Group of Picture),图像层(Picture),像条层(Slice),宏块层(MacroBlock)和像块层(Block)。
在帧内编码的情况下,编码图像仅经过DCT,量化器和比特流编码器即生成编码比特流。
在帧间编码的情况下,原始图像首先与帧存储器中的预测图像进行比较,计算出运动矢量,由此运动矢量和参考帧生成原始图像的预测图像。
而后,将原始图像与预测像素差值所生成的差分图像数据进行DCT变换,再经过量化器和比特流编码器生成输出的编码比特流。
(3)MPEG-2中的Profile@Level
现有MPEG-2视频标准的技术规范集包括5类(Profile)4级(Level)组成,并采用分级编码。
类和集的若干组合构成MPEG-2标准在某种特定应用下的子集。
级(Level)是指MPEG-2的输入格式,标识从有限清晰度的VHS 质量图像到HDTV图像,每一种输入格式编码后都有一个相应的范围。
共分4级:
1) 低级LL(Low Level),图像输入格式的像素是ITU-R Rec.BT 601格式的1/4,即352×240×30或352×288×25。
2) 主级ML(Main Level),图像输入格式符合ITU-R Rec.BT 601格式,即720×480×30或720×576×25。
3) 1440高级H14L(High 1440 Level),图像宽高比为4∶3,采用1440×1080×30的高清晰度格式。
4) 高级HL(High Level),图像宽高比为16∶9,采用1920×1080×30的高清晰度格式。
类(Profile)是指MPEG-2的不同处理方法,每一类都包括压缩和处理方法的一个集合,较高的类意味着采用较多的编码工具集,进行更精细的处理,达到更好的图像质量,同时实现的代价也更大。
共分5类:
1) 简单类SP(Simple Profile),使用最少的编码工具集。
2) 主类MP(Main Profile),它比简单类增加了一种双向预测方法,在相同比特率的情况下,将给出比简单类更好的图像。
3) 信噪比可分级类SNRP(SNR Scaleable Profile)和空域可分级类SPP(Spatially Scaleable Profile),这两种类允许将编码的视频数据分为基本层和附加层,提供了一种多种广播的方式。
4) 高级类HP(High Profile),应用于图像质量、比特率要求更高的场合。
(4)MPEG-2的特点及应用
MPEG-2具有以下几个突出特点:
①支持的图像分辨率最高,包括符合ITU-RRec.601(CCIR601)格式的标准分辨率的数字电视和更高分辨率的HDTV。
②支持包括高速体育运动在内的各种活动图像。
③支持的应用最为广泛,既包括存储媒体中的DVD,广播电视中的数字广播电视和HDTV,还可应用于交互式的视频点播(VOD)和准视频点播(NVOD)。
④还能够适配ATM等宽带通信网。
4. ISO MPEG-4标准
MPEG-4于1998年10月定案,在1999年1月成为一个国际性标准,随后为扩展用途又进行了第二版的开发,于2001年有了其第二个版本。
MPEG-4的国际标准编号为ISO/IEC14496。
MPEG-4的特点是其更适于交互AV服务以及远程监控,是一个有交互性的动态图像标准。
(1)MPEG-4标准的构成
1) 多媒体传送整体框架(DMIF):
主要解决交互网络中、广播环境下以及磁盘应用中多媒体应用的操作问题。
通过DMIF,MPEG-4可以建立起具有特殊品质服务(QoS)的信道和面向每个基本流的带宽。
2) 数据平面:
MPEG-4中的数据平面可以分为传输关系和媒体关系两部分,并引用了对象描述(OD)和流图桌面(SMT)的概念,使基本流和AV对象在同一场景中出现。
3) 缓冲区管理和实时识别:
MPEG-4定义了一个系统解码模式(SDM),该解码模式描述了一种理想的处理比特流句法语义的解码装置,它要求特殊的缓冲区和实时模式。
通过有效地管理,可以更好地利用有限的缓冲区空间。
4) 视频编码:
MPEG-4支持对自然和合成的视觉对象的编码,合成的视觉对象包括2D、3D动画和人面部表情动画等。
5) 音频编码:
MPEG-4不仅支持自然声音,而且支持合成声音。
它将音频的合成编码和自然声音的编码相结合,并支持音频的对象特征。
6) 场景描述:
场景描述主要用于描述各AV对象在具体AV场景下,如何组织与同步等问题,同时还有AV对象与AV场景的知识产权保护等问题。
(2)MPEG-4编解码原理
a. 基本思想
MPEG-4编解码的基本思想是基于图像内容的第二代视频编解码方案,并将基于合成的编码方案也结合在标准中。
它根据图像的内容将图像分割成不同的视频对象VO(Video Object),在编码过程中对前景对象和后景对象采用不同的编码策略,对于人们所关心的前景对象,则尽可能的保持对象的细节及平滑,而对不大关心的后景对象采用大压缩比的编码策略。
b. 编解码的数据结构
MPEG-4按照如下五个层次组织要编码的图像,从上至下依次为:
视频段VS(Video Session)、视频对象VO(Video Object)、视频对象层VOL(Video Object Layer)、视频对象组层GOV(Group of Video Object Plane)、视频对象平面VOP(Video Object Plane)。
在MPEG-4中,VO主要被定义为画面中分割出来的不同物体,每个VO有三类信息来描述:
运动信息、形状信息、纹理信息。
VO的构成依赖于具体应用和系统实际所处环境,在要求超低比特率的情况下,VO可以是一个矩形帧(即传统MPEG-1中的矩形帧),从而与原来的标准兼容;对于基于内容的表示要求较高的应用来说,VO可能是场景中的某一物体或某一层面,如新闻节目中的解说员的头肩像 ;VO也可能是计算机产生的二维、三维图形等。
c. VOP编码器结构
编码器主要由两部分组成:
形状编码和传统的运动纹理编码,其中形状编码是MPEG-4在编码任意形状的VOP时所必须的。
d. MPEG-4的编解码流程及框架
MPEG-4的编码流程:
第一步是VO的形成(VO Formation),先要从原始视频流中分割出VO,之后由编码控制(Coding control)机制为不同的VO以及各个VO的三类信息分配码率,之后各个VO分别独立编码,最后将各个VO的码流复合成一个位流。
其中,在编码控制和复合阶段可以加入用户的交互控制或由智能化的算法进行控制。
现在的MPEG-4包含了基于网格模型的编码和Sprite技术。
在进行图像分析后,先考察每个VO是否符合一个模型,典型的如人头肩像,如是就按模型编码;再考虑背景能否采用Sprite技术,如是则将背景生产一幅大图,为每帧产生一个仿射变换和一个位置信息即可;最后才对其余的VO按上述流程编码。
MPEG-4的解码流程则基本上为编码器的反过程,这里不再赘述。
(3)MPEG-4中的Profile@Level
(4)MPEG-4的主要应用场合
从目前的情况看,MPEG-4主要被用于三个领域:
数字电视、交互式的图形应用(包括内容上的合成技术)、交互式多媒体领域等。
(5)MPEG-4的特点及优势
1) MPEG-4是做为一个国际化的标准来制定研究的,因而具有很好的兼容性及开放性。
2) MPEG-4提供高压缩比的同时,对数据的损失很小,达到以最小的数据获得最佳的图像质量的目的。
3) MPEG-4是个开放标准,因其高质量的数字影像,以及允许内容创建者从MPEG-2质量一直到极低带宽的Internet流式内容全程进行品质和带宽的均衡,而被全世界的无线、电脑及娱乐公司广泛采用。
4) 正如MPEG-2将使数字电视最终完全取代现有的模拟电视那样,随着MPEG-4新标准的不断推出,数据压缩和传输技术必将趋向更加规范化。
5. H.264/MPEG-4 AVC(ISO MPEG-4 Part 10)
H.264(ITU-T命名),或称之为MPEG-4 AVC(ISO/IEC命名),是一种由ITU-T与ISO/IEC正在联合进行开发的视频编解码方案,即将成为MPEG-4标准的第10部分(ISO MPEG-4 Part 10)。
关于该技术的视频编码方案,现在正式命名为ITU-T H.264或"JVT/AVC草案"。
H.264/MPEG-4 AVC作为MPEG-4标准的扩展(MPEG-4 Part 10),充分利用了现有MPEG-4标准中的各个环节。
H.264/MPEG-4 AVC就在现有MPEG-4 Advanced Simple Profile的基础之上进行发展的。
H.264/MPEG-4 AVC的编解码方案流程主要包括如下5个部分:
精密运动估计与帧内估计(Estimation)、变换(Transform)及逆变换、量化(Quantization)及逆量化、环路滤波器(Loop Filter)、熵编码(Entropy Coding)。
尽管H.264/MPEG-4 AVC这项技术虽然还没有得到正式批准,但是其可以降低50%或更多带宽的能力,能以少于1Mbps的数据率传输基于互联网协议(IP)的广播质量级的视频内容,这是目前正式颁布的ISO MPEG-4及MPEG-2编解码方案根本所不能比拟的。
因而,H.264/MPEG-4 AVC将对所有要求高压缩率、高质量的应用领域产生深远的影响。
目前Amphion Semiconductor、Envivio、Equator Technologies、iVAST、德州仪器、UB Video和VideoLocus等芯片制造商以及软件技术供应商都对该项技术进行了相关的研究及产品开发,其中VideoLocus公司推出了VLP4000系统用于H.264/MPEG-4 AVC编解码、流媒体方案及性能的评估。
6. DV标准
数字摄像机记录视频不是以模拟信号,而是以压缩的数字信号的方式。
为避免出现不兼容的情况,这种技术的主要产品都符合一个数字压缩标准:
DV。
很多国际知名的视频厂商都发展和提供DV格式的产品,这其中的传输标准被称为FireWire(IEEE 1394)。
DV是一种将DCT压缩的数字视频信号记录到盒式录像带的方法。
(1)DV涉及的指标
1) 取样频率及取样比:
DV使用的是4∶2∶0的数字分量记录系统,视频亮度取样频率为13.5MHz,色差信号取样频率是3.375MHz。
2) 量化深度:
DV对取样后的亮度及色差信号进行8-bit量化。
3) 视频信号压缩比:
DV格式采用的是帧内压缩方法,压缩比为5∶1,压缩后视频码流在进一步处理后记录在磁带上。
(2)DV(IEEE l394)接口
IEEE l394是标准的高速、短距数据传输交换协议。
IEEE1394已经被数字VCR联盟确认为标准的数字接口,被数字视频协会确认为数字传输标准。
VESA(视频专家标准协会)认同1394用于家庭网络,并且欧洲数字视频广播(DVB)也认同将IEEE1394用于数字电视接口。
(3)DV的特点
1) DV格式具有优异的图像质量,它具有高清晰度,宽色度带宽,能还原色彩绚丽的图像、无抖动的稳定画面等特点。
2) DV格式能对声音进行数字记录,为了与优越的图像相配合,DV格式提供了优质的PCM音频记录。
3) DV格式基于它的应用特点,不能调整输出码率。
4) 支持DV的MiniDV盒带比VHS盒带小巧许多,使得MiniDV的带仓、磁鼓和带盘机构等也相应变得更加精巧。
7. MXF格式标准
素材交换格式(Media eXchange Format, MXF)是厂商之间和主要组织(如Pro-MPEG、EBU和AAF协会)之间合作的巨大进展。
MXF是一种在服务器、数据流磁带机和数字档案之间交换节目素材的文件格式。
其内容可能为完整的节目以及整套广播电视节目或片段。
MXF可自成体系运用,无需外部素材即可保存完整的内容。
目前素材交换格式(MXF)标准化工作已发展到第9版本。
(1)MXF文件格式
MXF把统称为实体的视频、音频和节目数据(如文本)与元数据捆绑在一起,并将它们置于一个包内,其主体基于码流并携带实体和某些元数据。
它保存视频帧的一个片段,每个片段辅之于有关的音频和数据实体以及基于帧的元数据。
后者一般包含时间码和每个视频帧的文件格式信息。
主体可基于若干不同类型的素材(实体),包括MPEG、DV和非压缩视频/音频,它还使用SMPTE KLV数据编码系统,这使之具有成为公认标准的优势。
MXF是音频/视频/元数据的打包结构,由文件头、文件尾、文件体以及可选的索引部分组成。
索引部分包括部分元数据和文件参数用于文件访问,文件体部分可以是多种视音频格式,如MPEG,DV和非压缩的AV数据。
文件体由若干场景文件构成,每个场景文件都是由图像、声音和元数据组成的。
(2)MXF的元数据(Metadata)
1) 元数据的含义
元数据就是与视音频数据结合在一起的辅助信息,它记录了与节目制作相关的数据,如:
拍摄时间、拍摄地点、人物、场景编号及其他相关信息。
这些信息在节目制作、传送、复制及播出的各个阶段,始终与视音频信号密切结合。
2) 元数据的作用
元数据(Metadata)在日后的素材管理、资料查找、交互式节目制作与播出等应用中,将大大提高我们的工作效率,并起到举足轻重的作用。
利用元数据,我们可以轻松的实现素材查找。
除了可以直接观看视频画面之外,还可以通过元数据查看其他相关数据,获得更直观、更丰富、更形象的资讯。
(3)MXF与AAF的关系
AAF是Advanced Authoring Format的缩写,意为"先进制作格式"。
AAF是一个协会,它包括了目前世界上主要的电子设备供应商、计算机软硬件厂家和一些广播机构。
协会主要负责制定用于增强的编辑和制作的通用AV文件格式标准,即AAF格式。
AAF格式是一种用于多媒体创作及后期制作、面向企业界的开放式标准。
AAF是一种带标签和地址的图像/声音/元数据打包方式,
MXF与AAF这两种格式具有互补性。
AAF可以对现有的各种媒体文件格式进行集成和补充;而MXF对AAF文件和现有的各种流媒体格式都有这样的效能。
MXF和AAF都可以单独使用,它们在各自的应用领域各有所长;与此同时,用户对任何一者无须有依赖性。
例如,一个单纯的广播系统可以使用MXF格式;一个后期制作室可以只使用AAF格式;而一个带有后期制作设施的广播机构,则可以同时使用这两种格式。
MXF与AAF这两种文件格式在很多方面非常相似,从这两种文件的关系上来看MXF是AAF的子集。
(4)MXF的作用
1) 使用MXF文件,我们可以利用成熟、实用且构造简单、价格并不昂贵的IT网络传送高质量的视音频数据。
2) 应用MXF文件技术,可以在所有支持即将成为国际标准的MXF文件格式的各个厂家设备(录像机、服务器、非线性制作设备)之间传送视频数据。
3) 除了提供更好的互操作性,即在不同的设备和不同的应用之间处理视频和音频。
MXF另外的贡献是传送元数据。
从一开始就把MXF作为一种新文件格式来开发,因此对元数据应用加以大量的关注。
这不仅对MXF文件的恰当运行非常重要,而且还将导致功能强大的新型媒体管理工具的出现。
二 流媒体标准
1. ISMA MPEG-4流媒体标准
ISMA是国际互联网流媒体联盟(Internet Streaming Media Alliance)的简称,它是由苹果、思科、IBM、Sun、Philips、Kasenna等产业界巨人于2000年12月14日发起并宣布成立,目前其正式成员达到30家以上。
ISMA联盟的宗旨为推动开发与使用IP端到端媒体流解决方案的国际开放性标准。
其官方网站(www.ISM-Alliance.org)作用在于发表各项完成的规范并发布联盟的活动信息。
由于MPEG-4作为MPEG-1及MPEG-2的替代技术标准,可以将较大的流媒体文件在保证视音频质量情况下压缩的非常小,更利于在网络上传播。
基于此,ISMA MPEG-4标准正是由ISMA制定并发布的基于ISO MPEG-4的流媒体新标准。
ISMA发布了新标准的第一个规范说明--ISMA 1.0。
该规范说明允许用户仅下载一个插件,就可以使用不同公司的播放器欣赏网络音频与视频;而且使用范围不局限于PC机,还包括各种掌上无线设备(如PDA、手机等)。
ISMA 1.0目前有两个版本:
Profile 0和Profile 1。
前者是为了无线网络及带宽较窄的网络准备的,可以适用于手机、PDA等掌上无线设备;后者是为了宽带设计的,可以应用于机顶盒以及PC机。
ISMA希望MPEG-4 能够最终代替MPEG-2标准,但是新标准在视频效果及交互性方面有待改进,目前仍在不断的发展及提高之中。
2. QuickTime
(1)QuickTime MOV格式
Apple公司的QuickTime MOV文件格式是数字媒体领域的工业标准。
QuickTime MOV文件格式定义了存储数字媒体内容的标准方法,使用这种文件格式不仅可以存储单个的媒体内容(如视频帧或音频采样),而且能保存对该媒体作品的完整描述。
QuickTime MOV文件格式被设计用来适应为与数字化媒体一同工作需要存储的各种数据。
它将媒体描述和媒体数据分开存储,媒体描述包含轨道数目、视频压缩格式和时间信息等,同时包含媒体数据存储区域的索引。
媒体数据是指所有的采样数据,如视频帧和音频采样。
由于这种文件格式能用来描述几乎所有的媒体结构,是应用程序间(不管运行平台如何)交换数据的理想格式。
(2)QuickTime支持的ISO/ISMA MPEG4流媒体格式
Apple公司的QuickTime从5.0版本开始采用MPEG-4相关的压缩技术,并且在其最新版本QuickTime 6中率先提出支持ISO/ISMA MPEG-4流媒体格式(mp4文件格式),而且是世界上用于创
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 流媒体 图像 编码 标准 综述