书签分享收藏举报版权申诉 / 16

立即下载加入VIP,免费下载

当前位置：首页 > 外语学习 > 其它语言学习 > 语音编码原理.docx

语音编码原理.docx

文档编号：7781322
上传时间：2023-01-26
格式：DOCX
页数：16
大小：37.08KB

语音编码原理.docx

《语音编码原理.docx》由会员分享，可在线阅读，更多相关《语音编码原理.docx（16页珍藏版）》请在冰豆网上搜索。

语音编码原理.docx

语音编码原理

1什么是声音

声音是由物体振动产生，正在发声的物体叫声源。

声音以声波的形式传播。

声音只是声波通过固体或液体、气体传播形成的运动。

声波振动内耳的听小骨，这些振动被转化为微小的电子脑波，它就是我们觉察到的声音。

内耳采用的原理与麦克风捕获声波或扬声器的发音一样，它是移动的机械部分与气压波之间的关系。

自然，在声波音调低、移动缓慢并足够大时，我们实际上可以“感觉”到气压波振动身体。

因此我们用混合的身体部分觉察到声音。

2语音信号

声音是携带信息的极重要的媒体，也是多媒体技术研究中的一个重要内容。

而声音的种类十分繁多，因而有必要对其特性进行研究以利于计算机进行处理。

声音是通过空气传播的连续波，其强弱体现在声波的压力上，音调的高低则体现在频率上。

当用电信号表示时，则为时间和幅度均连续的模拟信号。

当用计算机进行数字化处理时则需要将其数字化。

人耳能够听到的声音频率为20—20kHz，而我们的发声频率则为80—3400Hz。

一般我们认为语音信号的频率范围是300—3000Hz。

那我们发声的原理又是怎样的呢？

当肺里面的空气沿声道通过声门就发出声音。

一般男性的声道约为17厘米（从声门到嘴唇），这也意味着声音号中有1毫秒数量级的数据是具有相关性的。

由于声道形状和激励方式的变化相对的比较缓慢，故话音信号在短周期内（约20毫秒）可认为是准定态。

又由于声门的准周期性的震动和声道的谐振，话音具有高度的周期性。

话音编码器就是要揭示这种周期性以减少数据率而又尽量不牺牲音质。

语音编码是把较高码率的数字化的话音通过特定的压缩算法进行压缩编码，变为码率较低的参数进行传输，然后在接受端再进行解码，恢复与重构，其目的就是在保证一定的话音质量的前提下节省传输带宽。

一般来说，语音信号的频谱集中在300—3400Hz的范围内，则其对应的采样频率一般为8KHz。

此外，语音信号还有另外一个重要特点就是它的短时性，即认为在一段短时间内（典型为5—50ms），语音信号有保持相对稳定的特性，这便于我们提取其中的参数。

语音信号的基木组成单位为音素，可以分为“浊音”和“清音”，一般在短时分析的基础上分析一段语音属于哪一类音素，它可以看作是由声带振动或不经

声带振动来产生。

“浊音”一般对应汉语拼音中的韵母，它是由声带振动产生的，有明显的周期性，可用一周期脉冲发生器进行近似；“清音”一般对应汉语拼音中的声母，不由声带振动产生的，类似于一个随机噪声。

在说话的时候，声门处的气流冲击声带产生振动，然后通过声道响应变成语音。

声道是一个分布参数系统，它有许多自然谐振频率，称为共振峰频率，是声道的重要声学特征。

语音的频率特性主要是由共振峰决定的，当声音沿着声管传播时，其频谱形状就会随着声管而改变。

声门脉冲序列具有丰富的谐波成分，这些频率成分与声道的共振峰频率之间相互作用的结果对语音的音质具有很大的影响。

语音信号压缩的基本依据是根据语音信号和人的听觉特性得到的。

语音信号的产生机理和结构性质表明，其自身存在着很大的冗余度，语音压缩本质上就是通过识别这些冗余度并设法去掉它们，从而达到压缩比特率的目的。

语音信号的冗余度归纳起来主要体现在：

1）语音信号样本间相关性很强，即其短时谱是不平的；

2）浊音语音段具有准周期性；

3）声道形状及其变化的速率是有限的；

4）传输码值的概率分布是非均匀的。

人的听觉具有“掩蔽”特点：

1）一个强的音能抑制一个同时存在的弱音的听觉；

2）人的听觉对低频端比较敏感；

3）人的听觉对信号的相频特性很不敏感。

3语音编码技术

3.1语音编码的提出

随着人们对多媒体通信要求的日益提高,现代通信网的传输量越来越大,媒体压缩技术迅速发展。

语音压缩技术也处于不断发展中,实用系统的最低压缩速率已经达到2.4kbps甚至更低，在大大节省信道带宽的同时还保证了话音质量。

由于大容量通信信道的引入，一段时间内曾认为语音压缩技术已没有研究的必要,因为语音压缩量相对于光纤信道容量来说已微不足道。

实际上,光纤信道目前也只是在骨干网上得到应用，在接入网及支线的大规模应用仍需一定时间。

另外,无线领域的信道带宽始终是一个突出的问题。

由此可见低速率语音编码技术仍然有广泛的应用前景。

3.2语音编码技术的类别

语音数字化的技术基本可以分为两大类：

第一类方法是在尽可能遵循波形的前提下，将模拟波形进行数字化编码；第二类方法是对模拟波形进行一定处理，因此，语音编码的方法归纳起来可以分成三大类：

波形编码、参数编码和混合编码。

波形编码

语音信号的波形编码力图使重建语音波形保持原始语音信号的波形形状，也即失真要最小。

这类编码器通常将语音信号作为一般的波形信号来处理，它具有适应能力强，语音质量好等优点，但所需用的编码速率高。

脉冲编码调制（PCM）,自适增量调制（ADM）、自适差分编码（ADPCM）、自适应预测编码（APC）、自适应子带编码（ASBC）、自适应变换编码（ATC）等都属于这类编码器。

它们分别在64-16kb/s的速率上能给出高的编码质量。

当速率进一步降低时，其性能会下降较快。

参数编码

参数编码又称为声码化编码、模型编码。

同波形编码不一样，参数编码通过对语音信号特征参数的提取及编码，力图使重建语音信号具有尽可能高的可读性，即保持原语音的语意，而重建信号的波形同原语音信号的波形可能会有相当大的差别。

这类编码器的优点是编码速率低，例如可以低到2.4Kb/s，甚至2.4Kb/s以下，它的主要问题是合成语音质量差，特别是自然度较低，连熟人都不一定能听出讲话人是谁。

另外，它对讲话噪声敏感，需要安静的讲话环境。

这类编码器有通道声码器，共振峰声码器及线性预测声码器。

混合编码

混合编码是近年来提出的一类新的语音编码技术，它将波形和参数编码结合起来，力图保持波形编码的高质量和参数编码话音的低速率。

混合编码数字语音信号中既包括若干语音特征参量又包括部分波形编码信息。

其比特率一般在4-16kb/s速率上得到高质量合成语音，而其复杂程度介于波形编码器和参数编码器之间。

多脉冲激励线性预测编码（（RPELPC），码激励线性预测编码编码器。

作为一种CELP声码器，GMPLPC），规则脉冲激励线性预测编码（CELP）等都属于这类新型的混合参数编码器。

4语音编码的必要性（含目的）

语音信号的数字化传输,一直是通信的发展方向之一。

语音编码是数字化语音传输和存储的基础技术。

采用低速率语音编码技术进行语音传输比语音信号模拟传输有诸如可靠性高、抗干扰能力强、便于快速交换、易于实现保密和价格低廉等优势。

因此，它在通信系统中所占的比例不断提高。

这些实际应用推动了语音

编码、特别是低速率语音压缩编码的发展。

现代通信的发展趋势决定了语音编码技术的两大突出优势：

大大节省了带宽。

从最初的PCM64K编码到现在。

标准语音压缩协议如G.723编码速率为5.3K或6.3Kbps；G.729编码速率为8Kbps。

还有未形成协议标准但更低的编码速率已有成熟的算法可以实现,如AMBE、CELP、RELP、VSELP、MELP、MP-MLQ、LPC-10等多种语音压缩算法,最低编码速率达到2.4kbps,有些算法已在包括第三代移动通信系统（3G）的多个领域得到应用。

便于实现与IP融合。

Internet的成功运用使得与IP的融合已成必然的发展趋势。

分组语音,即将分组交换的概念与语音传输相结合,使得语音信息更易于接入IP网。

而分组语音的关键技术之一就是语音编码技术,低速率的语音编码技术对语音信息的实时性有更好的保证。

采用分组语音传输的网络,其传输的语音信息本身就是分组数据包,这样的语音信息在接入Internet时将是非常的方便。

语音编码的目的，是在给定的编码速率下，使得从编码后的语音恢复出的重构语音的质量尽可能高。

提高压缩效率的基本途径在于利用语音信号中的冗余度和人耳的听觉特性。

语音编码既可用软件也可用硬件的方法实现。

软件实现就是将压缩算法用软件方法实现,这样做的好处是成本低、修改方便灵活,但处理速度较慢,不易保证处理的实时性。

采用硬件实现就是将语音压缩算法固化到专用DSP芯片中,这样处理速度快，便于实时处理。

5语音编码的技术指标

一般来讲，语音编码的输入语音是"电话质量"的语音，带宽限定在300-3400Hz之间。

从模拟语音中获得这样的输入语音，需要进行的处理有抗混叠低通滤波、8kHz采样和16位A/D变换等。

经过这一系列处理，模拟语音转化为速率为128kb/s的数字信号，作为语音编码器的输入。

衡量一种压缩编码算法的主要指标，包括编码速率、语音质量、复杂度等。

对应用于通信的语音编码器，衡量的指标还包括延迟和抗误码等。

评价语音编码质量的方法包括客观评价和主观评价两类。

对中、低速率的语音编码算法，客观评定方法常常很难反映人对语音质量的感受，因此主要使用主观评定方法。

常用的方法有平均意见（MeanOpinionScore，简称MOS）分、判断韵字测试（DiagnosticRhymeTest，简称DRT）、判断满意度测量（DiagnosticAcceptabilityMeasure，简称DAM）等。

6各种语音编码技术比

各种语音编码技术比较参见下表：

编码

速率

最小基带宽度KHz

质量

PCM

64

32

长途电话质量

ADPCM

32

16

长途电话质量

△M

32

16

通信质量

SBC+ADPCM

64

32

广播质量

SBC

16

8

通信质量

RELP—LTT

规则脉冲激励

16

8

通信质量

LD—CELP

短延迟码激励

16

8

接近长途

MPLPC

多脉冲线性预测

8

4

通信质量

CELPC

码本激励线性预测

4.8

2.4

通信质量

LPC

线性预测

2.4

1.2

合成质量

LPC+VQ

线性预测矢量量化

1.2

0.6

合成质量

表1

从数据通信的角度，音频编码标准主要有两种：

一是在电话传输系统中应用的音频编码标准，如PCM（ITUG.711）、ADPCM（ITUG.721）等可满足电话级的语音质量要求；二是在电视传输系统、视频点播系统中应用的音频编码标准，如MPEG音频标准，可提供立体声声音质量。

7语音信号的数字化和预处理

7.1语音信号的数字化

语音信号的数字化是数字处理的前提。

今年来，随着集成电路工艺不断提高，单片的语音信号模拟接口电路包含有反混叠开关电容带通滤波器、A/D、D/A，以及开关电容低通重构滤波器。

语音信号数字化过程如图1所示。

取样频率和相应的滤波器特性可以由软件控制，这给语音数字化带来了极大的方便。

但有两个概念必须强调：

其一是取样频率必须大于或等于信号带宽的2倍，这就是Nyquist采样定理

的条件要求。

因此根据用途需要，对输入的语音信号作低通（反混叠）滤波，若先滤波，后采样A/D转换，其滤波器应是模拟的，若先采样A/D转换，后滤波，其滤波器就是数字的。

如果工频干扰（50Hz或60Hz）不严重或另有措施抑制，则不必用带通滤波器而只需用低通滤波器就可以了，它的截止频率由实际语音信号带宽确定。

典型的反混叠滤波器的技术指标是：

通带内波动绝对值小于1dB，通带带宽3400Hz，在4000Hz处衰减14dB，4600Hz以上衰减32dB，对某些个更高要求的应用，阻带衰减50dB以上。

常用8阶或10阶椭圆滤波器来实现。

其二是对样点信号的量化，8bit量化较常用。

实验表明语音波形的动态范围为55dB，10bit以上量化较合适。

目前器件可以做到16bit量化，量化精度提高，量化信噪比提高，要求存储容量加大，处理时间增加。

这两个概念就是说数字信号在时间上是离散的，在幅度上也是离散的而且是量化过的。

图1语音信号的数字化

7.2语音信号的预处理

在对语音信号数字分析处理之前，可以先对其进行预处理。

这里讲的预处理是指对语音信号的特殊处理：

预加重或称高频提升分帧处理。

在推导语音信号数字模型时，声门激励是一个两极点模型，嘴唇辐射是一个零点模型，如果一个零点抵消一个极点，那么还有一个极点的影响。

在语音波形中，如果对语音信号的分析是建立在声道模型的基础上，那么就应该人为地设置一个零点将声门激励的另一个极点抵消。

这样做语音信号的频谱上效果就是高频提升，使其变得平坦，便于进行频谱分析或声道参数分析。

预加重滤波器一般是一阶的，即

H（z）=1-μz-1（μ值接近于1，典型值为0.94）

（1）

语音信号的数字模型是以发浊音的情况导出的，预加重的处理是合理的，但是对于发清音的情况值得推敲。

从发音过程看，发不同清音时，湍流的位置不同，也就是说激励源所处的位置不同。

对摩擦音，例如[s]，湍流产生于口腔内部，发[h]湍流产生喉部。

由于激励位置不同，所以声道阻抗不同。

发擦音时，激励源离嘴唇近，相应的声道要短，输出信号的大部分能量集中在高频端，而且出现反谐振特性。

发鼻音好似鼻腔和口腔耦合，造成反谐振支路，同样产生零点特性，所以

简单地在语音信号输入后做预加重不尽合理。

有的声码器就采用在语言分析之后，对预测系数加权，采用带宽扩展的办法。

由于语音信号是非平稳过程，是时变的，但是由于人的发音器官的肌肉运动速度较慢，所以语音信号可以认为是局部平稳的，或短时平稳。

这样就可将平稳过程的处理方法和理论引入到语音信号的短时处理，将使语音信号的分析大大简化。

实践证明，这个认识是符合客观实际的。

因此，语音信号分析常分段或分帧来处理。

一般每秒的帧数约为33—100。

视实际情况而定，分帧既可用连续的，也可用交叠分段的方法。

在语音信号分析中常用“短时分析”表述。

8PCM编码

PCM是一种在现代通信系统中被广泛应用的语音编码技术，也是数字传输中的标准接口信号，ITU在G.711建议书中定义了PCM编码方法及其标准。

PCM编码的主要优点是：

编码方法简单，不需要用复杂的信号处理技术就可实现数据压缩，而无任何信号延迟；

基于对话音信号波形采样的瞬时处理，具有较高的信噪比。

PCM的组成原理如图所示。

在信号源端，模拟信号X（t）经过反混叠滤波和采样处理器变换成脉冲调幅信号PAM,即X（n）。

为了压缩编码的数码率，需要一个非线形的放大器，对小信号电平放大，对大信号电平压缩。

经过压缩的信号X（n）送入一个线形编码器，其量化特性是均匀分层，但对应于输入信号X（n）则是非均匀分层。

这一非线形处理并不是按某一特定信号统计特性的最佳原理进行，而是按在大动态范围内信号获取均匀一致的质量标准来确定的，即用所谓的对数压扩特性。

这样，每一个脉冲用一组二进制码C（n）来表示。

C（n）可采用多种编码形式表示，如普通二进制码，折叠码和格雷码等。

在接收端，经过PCM解码器将接收信号C＇（n）解码成Y＇（n）。

当信道传输无误码时，C＇（n）=C（n）,Y＇（n）=Y（n）,Y＇（n）经过扩张器再生出X＇（n），X＇（n）经过平滑滤波器就可建立重建信号X＇（t），X＇（t）和X（t）之差就是量化误差信号。

图2PCM组成原理图

对于电话信号编码，由于其信号带宽为3003400Hz，通常采用8kHz频率进行

采样，而每一个采样脉冲用8位二进制码表示。

这样，每个话音通道的数码率为：

f=8000×8=64kb/s

（2）

对于采用8位编码的正弦波信号，其最大信噪比按下式计算：

SNR（dB）=6.02×L+1.76=6.02×8+1.76=49.92dB（3）

式中，L为二进制编码位数。

如果要求信噪比至少保持在34dB以上，则信号的动态范围应当为49.92-34=15.92dB，显然这一动态范围远不能满足要求。

为了扩大信号的动态范围，通常采用瞬时压扩特性。

瞬时压扩的目的是使信号在大的动态范围内具有均匀一致的信噪比。

瞬时压扩的方法主要采用对数压扩特性，即用一条通过原点正负对称的曲线逼近对数函数，以实现对正负对称信号的对数压缩。

在ITUG.711建议中，定义了两种对数压扩特性，一种是15段折线近似是μ律；另一种是以13段折线近似是A律，美国、日本等国家在数字通信中采用μ律压扩特性，中国和欧洲一些国家采用A律压扩特性。

PCM编码/解码器通常采用单片集成电路（IC）芯片实现，它将滤波、放大、量化、压扩、编码以及解码等功能集成一体，具有处理速度快、体积小、成本低、便于开发等特点。

2.9自适应差分脉冲编码调制（ADPCM）

G.711使用A律或μ律PCM方法对采样率为8kHz的声音数据进行压缩，压缩后的数据率为64kb/s。

为了提高充分利用线路资源，而又不希望明显降低传送话音信号的质量，就要对它作进一步压缩，方法之一就是采用ADPCM。

9自适应差分脉冲编码调制（ADPCM）

9.1自适应脉冲编码调制（APCM）的概念

自适应脉冲编码调制（adaptivepulsecodemodulation，APCM）是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。

这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。

改变量化阶大小的方法有两种：

一种称为前向自适应（forwardadaptation），另一种称为后向自适应（backwardadaptation）。

前者是根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息（sideinformation）传送到接收端。

后者是从量化器刚输出的过去样本中来提取量化阶信息。

由于后向自适应能在发收两端自动生成量化阶，所以它不需要传送边信息。

前向自适应和后向自适应APCM的基本概念，如图3所示。

图

中的

是发送端编码器的输入信号，

是接收端译码器输出的信号。

（a）前向自适应

（b）后向自适应

图3APCM模块图

9.2差分脉冲编码调制（DPCM）的概念

差分脉冲编码调制DPCM（differentialpulsecodemodulation）是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。

差分脉冲编码调制的思想是，根据过去的样本去估算（estimate）下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。

它与脉冲编码调制（PCM）不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值，这就降低了传送或存储的数据量。

此外，它还能适应大范围变化的输入信号。

差分脉冲编码调制的概念示于图4。

图中，差分信号

是离散输入信号

和预测器输出的估算值

之差。

注意，

是对

的预测值，而不是过去样本的实际值。

DPCM系统实际上就是对这个差值

进行量化编码，用来补偿过去编码中产生的量化误差。

DPCM系统是一个负反馈系统，采用这种结构可以避免量化误差的积累。

重构信号

是由逆量化器产生的量化差分信号

，与对过去样本信号的估算值

求和得到。

它们的和，即

作为预

测器确定下一个信号估算值的输入信号。

由于在发送端和接收端都使用相同的逆量化器和预测器，所以接收端的重构信号

可从传送信号

获得。

图4DPCM方块图

9.3自适应差分脉冲编码调制（ADPCM）

ADPCM（adaptivedifferencepulsecodemodulation）综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。

它的核心想法是：

利用自适应的思想改变量化阶的大小，即使用小的量化阶（step-size）去编码小的差值，使用大的量化阶去编码大的差值,

使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。

它的编码简化框图如图5所示。

接收端的译码器使用与发送端相同的算法，利用传送来的信号来确定量化器和逆量化器中的量化阶大小，并且用它来预测下一个接收信号的预测值。

图5ADPCM方块图

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 语音编码原理

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：语音编码原理.docx
链接地址：https://www.bdocx.com/doc/7781322.html

语音编码原理.docx

热门标签