音频基本知识.docx
- 文档编号:28742272
- 上传时间:2023-07-19
- 格式:DOCX
- 页数:28
- 大小:248.36KB
音频基本知识.docx
《音频基本知识.docx》由会员分享,可在线阅读,更多相关《音频基本知识.docx(28页珍藏版)》请在冰豆网上搜索。
音频基本知识
音频基本知识
第一部分模拟声音-数字声音原理
第二部分音频压缩编码
第三部分和弦铃声格式
第四部分单声道、立体声和环绕声
第五部分3D环绕声技术
第六部分数字音频格式和数字音频接口
第一部分模拟声音-数字声音原理
一、模拟声音数字化原理
声音是通过空气传播的一种连续的波,叫声波。
声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。
声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。
图1模拟声音数字化的过程
声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。
连续时间的离散化通过采样来实现。
声音数字化需要回答两个问题:
①每秒钟需要采集多少个声音样本,也就是采样频率(fs)是多少,②每个声音样本的位数(bitpersample,bps)应该是多少,也就是量化精度。
Ø采样频率
采样频率的高低是根据奈奎斯特理论(Nyquisttheory)和声音信号本身的最高频率决定的。
奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。
采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。
我们常见的CD,采样率为44.1kHz。
电话话音的信号频率约为3.4kHz,采样频率就选为8kHz。
Ø量化精度
光有频率信息是不够的,我们还必须纪录声音的幅度。
量化位数越高,能表示的幅度的等级数越多。
例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。
我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。
样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。
Ø压缩编码
经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。
但是这些数据的体积太庞大了!
为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。
常见的用于语音(Voice)的编码有:
EVRC(EnhancedVariableRateCoder)增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。
常见的用于音频(Audio)的编码有:
MP3、AAC、AAC+、WMA等
二、问题
1、为什么要使用音频压缩技术?
我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比:
PCM音频:
一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为44.1K×16×2=1411.2Kbps,这个参数也被称为数据带宽。
将码率除以8bit,就可以得到这个CD的数据速率,即176.4KB/s。
这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。
MP3音频:
将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。
如下表所示:
比特率
存1秒音频数据所占空间
CD(线性PCM)
1411.2Kbps
176.4KB
MP3
128Kbps
16KB
AAC
96Kbps
12KB
mp3PRO
64Kbps
8KB
表1相同音质下各种音乐大小对比
2、频率与采样率的关系
采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?
假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?
结果是:
20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。
显然,在相同的采样率下,记录低频的信息远比高频的详细。
这也是为什么有些音响发烧友指责CD有数码声不够真实的原因,CD的44.1KHz采样也无法保证高频信号被较好记录。
要较好的记录高频信号,看来需要更高的采样率,于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率,这是不可取的!
这其实对音质没有任何好处,对抓轨软件来说,保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一,而不是去提高它。
较高的采样率只有相对模拟信号的时候才有用,如果被采样的信号是数字的,请不要去尝试提高采样率。
3、流特征
随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用下载就可以实现收听了。
也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的数字广播电台成为了现实。
第二部分音频压缩编码
一.有损(lossy)/无损(lossless)/未压缩(uncompressed)音频格式
未压缩音频是一种没经过任何压缩的简单音频。
未压缩音频通常用于影音文件的的PCM或WAV音轨。
无损压缩音频是对未压缩音频进行没有任何信息/质量损失的压缩机制。
无损压缩音频一般不使用于影音世界,但是存在的格式有无损WMA或Matroska里的FLAC。
有损压缩音频尝试尽可能多得从原文件删除没有多大影响的数据,有目的地制成比原文件小多的但音质却基本一样。
有损压缩音频普遍流行于影音文件,包括AC3,DTS,AAC,MPEG-1/2/3,Vorbis,和RealAudio.
我们也来讨论下无损/有损压缩过程。
只要你转换成一种有损压缩音频格式(例如wav转MP3),质量上有损失,那么它就是有损压缩。
从有损压缩音频格式转换成另一有损压缩音频格式(例如Mp3转AAC)更槽糕,因为它不仅会引入原文件存在的损失,而且第2次编码也会有损失。
二、语音(Voice)编码和音频(Audio)编码
语音编码主要是针对语音通信系统中的编码方案,应用在有线或无线通信中;音频编码是针对音乐的编码方案,主要用来更方便地实现对音乐文件进行网络传输和存储。
两者的差别一方面是频带不同,另一方面是压缩要求不一样,音乐要求具有高保真度和立体感等要求。
音频编码最常见的是MPEG的音频编码。
语音的编码技术通常分为三类:
波形编码、参量编码和混合编码。
其中,波形编码和参量编码是两种基本类型。
波形编码是将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号的波形形状。
波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样,然后将幅度样本分层量化,并用代码表示。
解码是其反过程,将收到的数字序列经过解码和滤波恢复成模拟信号。
它具有适应能力强、语音质量好等优点,但所用的编码速率高,在对信号带宽要求不太严格的通信中得到应用,而对频率资源相对紧张的移动通信来说,这种编码方式显然不合适。
脉冲编码调制(PCM)和增量调制(△M),以及它们的各种改进型自适应增量调制(ADM),自适应差分编码(ADPCM)等,都属于波形编码技术。
它们分别在64以及16Kbit/s的速率上,能给出高的编码质量,当速率进一步下降时,其性能会下降较快。
参量编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参量,并将其变换成数字代码进行传输。
具体说,参量编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的可靠性,即保持原语音的语意,但重建信号的波形同原语音信号的波形可能会有相当大的差别。
这种编码技术可实现低速率语音编码,比特率可压缩到2Kbit/s-4.8Kbit/s,甚至更低,但语音质量只能达到中等,特别是自然度较低,连熟人都不一定能听出讲话人是谁。
线性预测编码(LPC)及其它各种改进型都属于参量编码。
混合编码将波形编码和参量编码组合起来,克服了原有波形编码和参量编码的弱点,结合各自的长处,力图保持波形编码的高质量和参量编码的低速率,在4-16Kbit/s速率上能够得到高质量的合成语音。
多脉冲激励线性预测编码(MPLPC),规划脉冲激励线性预测编码(KPELPC),码本激励线性预测编码(CELP)等都是属于混合编码技术。
很显然,混合编码是适合于数字移动通信的语音编码技术。
三、无线通信中常见语音编码
PHS为32kbit/s的ADPCM编码,GSM为13kbit/s的规则脉冲激励长期预测(RPE-LTP)编码,WCDMA使用的是自适应多速率编码(AMR),cdma2000使用的是可变速率编码(IS-773,IS-127)。
1、AMR编码
(介绍它的原因是因为手机中有使用AMR铃声)。
在3G多媒体通信的发展过程中,音视频编码有了很大的发展。
1999年初,3GPP采纳了由爱立信、诺基亚、西门子提出的自适应多速率(AMR)标准作为第三代移动通信中语音编解码器的标准。
AMR声码器采用代数码本激励线性预测(ACELP:
AlgebraicCodeExcitedLinearPrediction)编码方式。
AMR标准针对不同的应用,分别提出了AMR-NB,AMR-WB和AMR-WB+三种不同的协议。
AMR-NB应用于窄带,而AMR-WB和AMR-WB+则应用于宽带通信中。
对于手机铃声,AMR-NB对应的铃声文件扩展名是.amr,AMR-WB对应铃声文件扩展名是.awb。
它们不是音乐,而是录音得到的原声。
2、ADPCM编码
自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。
DPCM根据信号的过去样值预测下一个样值,并将预测误差加以量化、编码,而后进行传输,由于预测误差的幅度变化范围小于原信号的幅度变化范围,因此在相同量化噪声条件下,DPCM的量化比特数小于PCM,从而达到语音压缩编码的目的。
ADPCM与DPCM比较,两者主要区别在于ADPCM中的量化器和预测器采用了自适应控制。
同时,在译码器中多了一个同步编码调整,其作用是为了在同步级连时不产生误差积累。
20世纪80年代以来,32kb/s的ADPCM技术已日趋成熟,并接近PCM的质量,但却节省一半的信道容量,因而受到重视。
1984年CCITT提出G721建议,采用动态锁定量化器,这是一种具有自适应速度控制32kb/s的自适应量化器,并将它作为国际标准化的语音编码方法。
1986年又对G721建议进行了修正,称G726建议。
ADPCM不适合作音乐的编码,常用于录音。
雅马哈的MMF铃声用到MIDI+PCM/ADPCM技术,其中PCM和ADPCM就是模拟音效,包括人声。
四、各种主流音频编码(或格式)的介绍
1、PCM编码
PCM(PulseCodeModulation),即脉冲编码调制,指模拟音频信号只经过采样、模数转换直接形成的二进制序列,未经过任何编码和压缩处理。
PCM编码的最大的优点就是音质好,最大的缺点就是体积大。
在计算机应用中,能够达到最高保真水平的就是PCM编码,在CD、DVD以及我们常见的WAV文件中均有应用。
2、WAVE格式(铃声)
这是一种古老的音频文件格式,由微软开发。
WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。
WAV可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,只要安装好了相应的Decode,就可以欣赏这些WAV了。
在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。
因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。
3、MP3编码(铃声)
MP3,众所周知也就是MPEG-1Layer3,是一个意图达到高的压缩率同时又能保持相当不错的音质的有损音频格式。
Layer3不是MPEGLayer1或Layer2的新版,只是与它们不同的复杂的编码方案。
现在有许多可用的MP3编码器,其中最高品质的莫过于Lame,同时它也是开源免费的。
MP3技术上支持多声道(多于2个声道),但从未实施过或者今后也不会了。
事实上,你可以编码源文件为prologic(II)的多声道文件变换成立体声MP3。
MP3有不同的采样率和比特率(注意比特率并不是量化精度,而是代表压缩比),代表不同的音质。
网络上流行的MP3是44.1KHz采样率,128Kbps比特率的。
下表中列出了不同品质的MP3,其中列表示SR(采样频率),范围8KHz~48KHz,行表示BR(比特率),范围
8Kbps~320Kbps。
MPEG2.5Layer3
BR(kbps)
SR(KHz)
8
16
24
32
40
48
56
64
80
96
112
128
144
160
8
√
√
√
√
√
√
√
√
√
√
√
√
√
√
11.025
√
√
√
√
√
√
√
√
√
√
√
√
√
√
12
√
√
√
√
√
√
√
√
√
√
√
√
√
√
MPEG2Layer3
BR(kbps)
SR(KHz)
8
16
24
32
40
48
56
64
80
96
112
128
144
160
16
√
√
√
√
√
√
√
√
√
√
√
√
√
√
22.05
√
√
√
√
√
√
√
√
√
√
√
√
√
√
24
√
√
√
√
√
√
√
√
√
√
√
√
√
√
MPEG1Layer3
BR(kbps)
SR(KHz)
32
40
48
56
64
80
96
112
128
160
192
224
256
320
32
√
√
√
√
√
√
√
√
√
√
√
√
√
√
44.1
√
√
√
√
√
√
√
√
√
√
√
√
√
√
48
√
√
√
√
√
√
√
√
√
√
√
√
√
√
表二MP3对应的不同采样率和比特率
4、OGG编码(铃声)
网络上出现了一种叫OggVorbis的音频编码,号称MP3杀手!
OggVorbis究竟什么来头呢?
OGG是一个庞大的多媒体开发计划的项目名称,将涉及视频音频等方面的编码开发。
整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案。
OGG的信念就是:
OPEN!
FREE!
Vorbis这个词汇是特里·普拉特柴特的幻想小说《SmallGods》中的一个"花花公子"人物名。
这个词汇成为了OGG项目中音频编码的正式命名。
目前Vorbis已经开发成功,并且开发出了编码器。
OggVorbis是高质量的音频编码方案,官方数据显示:
OggVorbis可以在相对较低的数据速率下实现比MP3更好的音质。
OggVorbis这种编码也远比90年代开发成功的MP3先进,她可以支持多声道,这意味着什么?
这意味着OggVorbis在SACD、DTSCD、DVDAUDIO抓轨软件的支持下,可以对所有的声道进行编码,而不是MP3只能编码2个声道。
多声道音乐的兴起,给音乐欣赏带来了革命性的变化,尤其在欣赏交响时,会带来更多临场感。
这场革命性的变化是MP3无法适应的。
和MP3一样,OggVorbis是一种灵活开放的音频编码,能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。
因此,它的声音质量将会越来越好,和MP3相似,OggVorbis更像一个音频编码框架,可以不断导入新技术逐步完善。
和MP3一样,OGG也支持VBR(可变比特率)。
5、MPC编码
MPC(MusePack)高比特率高保真音乐格式。
是另外一个令人刮目相看的实力派选手,它的普及过程非常低调,也没有什么复杂的背景故事,她的出现目的就只有一个,更小的体积更好的音质!
MPC以前被称作MP+,很显然,可以看出她针对的竞争对手是谁。
但是,只要用过这种编码的人都会有个深刻的印象,就是她出众的音质。
6、mp3PRO编码
2001年6月14日,美国汤姆森多媒体公司(ThomsonMultimediaSA)与佛朗赫弗协会(FraunhoferInstitute)于6月14日发布了一种新的音乐格式版本,名称为mp3PRO,这是一种基于mp3编码技术的改良方案,从官方公布的特征看来确实相当吸引人。
从各方面的资料显示,mp3PRO并不是一种全新的格式,完全是基于传统mp3编码技术的一种改良,本身最大的技术亮点就在于SBR(SpectralBandReplication频段复制),这是一种新的音频编码增强算法。
它提供了改善低位率情况下音频和语音编码的性能的可能。
这种方法可在指定的位率下增加音频的带宽或改善编码效率。
SBR最大的优势就是在低数据速率下实现非常高效的编码,与传统的编码技术不同的是,SBR更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。
高频实际上是由解码器(播放器)产生的,SBR编码的数据更像是一种产生高频的命令集,或者称为指导性的信号源,这有点駇idi的工作方式。
我们可以看到,mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。
有关资料显示,SBR技术可以改善低数据流量下的高频音质,改善程度约为30%,我们不管这个30%是如何得来的,但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平(注:
在相同的编码条件下,数据速率的提升和音质的提升不是成正比的,至少人耳听觉上是这样的),这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。
7、WMA(铃声)
WMA就是WindowsMediaAudio编码后的文件格式,由微软开发,WMA针对的不是单机市场,而是网络。
竞争对手就是网络媒体市场中著名的RealNetworks。
微软声称,在只有64kbps的码率情况下,WMA可以达到接近CD的音质。
和以往的编码不同,WMA支持防复制功能,她支持通过WindowsMediaRightsManager加入保护,可以限制播放时间和播放次数甚至于播放的机器等等。
WMA支持流技术,即一边读一边播放,因此WMA可以很轻松的实现在线广播,由于是微软的杰作,因此,微软在Windows中加入了对WMA的支持,WMA有着优秀的技术特征,在微软的大力推广下,这种格式被越来越多的人所接受。
8、RA
RA就是RealAudio格式,这是各位网虫接触得非常多的一种格式,大部分音乐网站的在线试听都是采用了RealAudio,这种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。
最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。
RA可以支持多种音频编码,包括ATRAC3。
和WMA一样,RA不但都支持边读边放,也同样支持使用特殊协议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的欣赏方式。
这对唱片公司和唱片销售公司很重要,在各方的大力推广下,RA和WMA是目前互联网上,用于在线试听最多的音频媒体格式。
9、APE
APE是Monkey'sAudio提供的一种无损压缩格式。
Monkey'sAudio提供了Winamp的插件支持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和MP3一样可以播放的音频文件格式。
这种格式的压缩比远低于其他格式,但能够做到真正无损,因此获得了不少发烧用户的青睐。
在现有不少无损压缩方案种,APE是一种有着突出性能的格式,令人满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的唯一选择。
10、AMR(铃声)
AMR(AdaptiveMulti-Rate)自适应多速率编码。
是一种应用在手机上的一种语音压缩格式,也就是说我们用手机录音而成的文件就是这种格式的。
AMR格式压缩率较高但是音质相对较差了一点。
优点就是我们可以随心所欲地录制。
11、AAC/AAC+
Ø什么是AAC?
AAC代表AdvancedAudioCoding(高级音频解码),是一种由MPEG-4标准定义的有损音频压缩格式,由Fraunhofer发展,Dolby,Sony和AT&T是主要的贡献者。
它被认为是MP3的继承者。
AAC能够在一条音轨中包括48条全带宽(直到96khz)音频声道,加上15条低频增强(LFE,限制到120Hz)声道,直到15条数据流并且更多。
其实,AAC的技术早在1997年就成型了,当时被称为MPEG-2AAC,但是随着2000年MPEG-4音频标准的出台,MPEG-2AAC被用在这一标准中,同时追加了一些新的编码特性,所以它就改称为MPEG-4AAC。
与MP3不同,AAC的技术掌握在多家厂商手中,这使得AAC编码器非常多,既有纯商业的编码器,也有完全免费的编码器。
纯商业的编码器如FraunhoferIIS的FhG、杜比公司的DolbyAAC,免费的有FreeAAC、苹果公司的iTune,Nero也通过它的Nero6提供了NeroAAC。
AAC是一种高压缩比的音频压缩算法,它的压缩比可达20:
1,远远超过了AC-3、MP3等较老的音频压缩算法。
一般认为,AAC格式在96Kbps码率的表现超过了128Kbps的MP3音频。
AAC另一个引人注目的地方就是它的多声道特性,它支持1~48个全音域音轨和15个低频音轨。
除此之外,AAC最高支持96KHz的采样率,其解析能力足可以和DVD-Audio的PCM编码相提并论,因此,它得到了DVD论坛的支持,成为了下一代DVD的标准音频编码。
AAC的家族非常庞大,有9种规格,可适应不同场合应用的需要。
其中LC低复杂性规格去掉了预测和增益控制模块,降低了复杂度,提高编码效率,是目前使用得最多的规格。
目前,苹果、AT&T和RealNetworks已经开始提供收费的AAC音乐下载服务。
AAC也得到了众多硬件厂商的支持,除了苹果的iPOD随身听,还有诺基亚的多款手机及松下的部分随身听产品可支持AAC音频的播放。
另外,目前已经有部分MPEG-1/2解码芯片中加入了AAC解码功能,出现支持AAC音频播放的DVD影碟机肯定是迟早的事情。
Ø什么是HE-AAC(也称AAC+)和LC-AAC?
AAC有两种LCAAC与HEAAC,HEAAC是较新的。
LC意思是"lowcomplexity"(低复杂性)而HE意思是"highefficiency"(高效性)。
HE-AAC也称之为AACSBR/AAC+/aacplus等。
注意HE-AAC注重于低码流的编码并很适合多声道文件(更小的文件尺寸)。
从学术上讲,HE-AAC混合了AAC与SBR技术,处理低比特率能有较好的效果。
SBR代表的是SpectralBandReplication(频段复制)。
SBR的关键是在低码流下提
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 基本知识