基于改进型谱减法的语音增强技术研究Word文档下载推荐.docx
- 文档编号:17011730
- 上传时间:2022-11-27
- 格式:DOCX
- 页数:17
- 大小:227.69KB
基于改进型谱减法的语音增强技术研究Word文档下载推荐.docx
《基于改进型谱减法的语音增强技术研究Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《基于改进型谱减法的语音增强技术研究Word文档下载推荐.docx(17页珍藏版)》请在冰豆网上搜索。
低速率语音编码,特别是参数编码(如:
声码器),也遇到类似问题。
由于语音生成模型是低速率参数编码的基础,当模型参数的提取受到混杂在语音中背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂。
在上述情况下,语音增强作为一种预处理手段,不失为解决噪声污染的一种有效途径。
在实际需求的推动下,早在上个世纪60年代语音增强这个研究课题就引起人们的注意,此后40多年人们一直锲而不舍地进行这方面的研究。
随着数字信号处理理论的成熟,70年代曾形成一个理论研究高潮,取得了一些基础性成果,并使语音增强发展成为语音信号处理的一个重要分支。
进入80年代后,DSP(数字信号处理)技术的发展和成熟为语音增强的实时实现提供了可能。
语音增强不但与语音信号数字处理理论有关,而且涉及到人的听觉感知和语音学范畴。
再者,噪声的来源众多,随应用场合而异,它们的特性也各不相同。
即使在实验室仿真条件下,也难以找到一种通用的语音增强算法能适用于各种噪声环境,所以必须针对不同噪声,采用不同的语音增强对策。
目前,某些语音增强算法在实际应用中己经证明是有效的,它们大体上可分为四类:
噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。
语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。
然而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。
在这种情况下,语音增强的目的主要有两个:
一是改进语音质量,消除背景噪音,使听者乐于接受,不感觉疲劳,这是一种主观度量;
二是提高语音可懂度,这是一种客观度量。
这两个目的往往不能兼得。
目前有一些对低信噪比带噪语音进行语音增强的方法,可以显著地降低背景噪声,改进语音质量,但并不能提高语音的可懂度,甚至略有下降。
语音增强是语音信号处理的一个重要分支,该技术已广泛应用于无线电话、电话会议、场景录音和军事窃听等领域。
语音增强技术无论在日常生活中,还是在军事领域,或者在语音信号处理技术中都很有应用价值。
因此研究语音增强算法有很重要的实用价值。
1.2语音增强的历史和发展现状
语音增强方法的研究始于20世纪70年代中期,随着数字信号处理理论的成熟,语音增强发展成为语音信号处理领域的一个重要分支。
1978年,Lim和Oppenheim提出了语音增强的维纳滤波方法。
1979年,Boll提出了谱相减方法来抑制噪声。
1980年,Maulay和Malpss提出了软判决噪声抑制方法。
1984年,Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法。
在近30年的研究中,各种语音增强方法不断被提出,奠定了语音增强理论的基础;
并使之逐渐走向成熟。
近些年来,随着VLSI技术的发展和高速DSP芯片的出现,使语音增强的实时实现成为可能。
语音增强方法逐步走向实用,同时新的语音增强方法又相继涌现,如基于小波变换的方法,基于人耳掩蔽效应的方法等。
目前常用的语音增强算法分为如下几类:
基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法。
其中,谱相减法、维纳滤波法、最小均方误差法等算法的研究是基于短时谱估计的语音增强算法,这种方法力图获得语音信号频谱幅度的最优估计,是从观测序列中以最小均方误差准则估计语音信号正交展开系数的模值。
该类方法具有适应信噪比范围大、方法简单、易于实时处理等优点。
尽管该方法研究比较早,但仍具有很强的生命力,成为应用最广泛的语音增强方法。
1.3谱减法语音增强的研究现状
S.Boll假设噪声是平稳的或缓慢变化的加性噪声,并且语音信号和噪声信号不相关的情况下,提出了谱减法(SS:
SpectralSubtraction)。
该方法能够抑制背景噪声的影响,但由于其局部平稳性的假设与实际情况并不相符,因此效果不理想,残留的音乐噪声较大;
Berouti在传统谱减法的基础上增加了调节噪声功率谱大小的系数和增强语音功率谱的最小值限制,提高了谱减法的性能,但是其修正系数和最小值是根据经验确定的,适应性较差;
P.Lockwood在谱减法的基础上提出了非线性谱减法(NSS:
Non-linerSpectralSubtraction),它根据语音信号的信噪比自适应调节语音增强的增益函数,提高了语音的信噪比,而信噪比并不能正确反映信号的听觉质量,因此用信噪比作为调整估计参数的依据并不能提高信号的听觉质量;
BohLimSim等人也提出了与此相近的改进算法,虽然提高了信号的信噪比,但残留的音乐噪声较大;
Virag将人耳的掩蔽特性应用到非线性谱减法的增强算法中,部分解决了谱减法残留音乐噪声大的问题,但在信噪比较低或非平稳的情况下,其增强效果不理想;
I.Cohen等人首先估计语音信号概率密度函数,然后在此基础上改进了对数谱估计算法,使得改进的算法对非平稳噪声具有良好的抑制作用,该算法的缺点是语音信号的概率密度函数较难估计。
噪声参数估计的准确与否直接会影响谱减法语音增强效果,因此,带噪语音中背景噪声参数的估计问题值得关注。
1.4本文主要的研究内容
本文分析了基本谱减法的原理,并在此基础上提出一种改进型谱减法:
基于语音活性检测(VoiceActivityDetector)噪声估计方法进行噪声估计,从而减小噪声估计的误差。
然后,采用了组合递归平滑(中值平滑与线性平滑的组合)的方法更新噪声谱,并在此基础上应用谱减法进行语音增强,使处理后的语音更为接近纯净语音,最后,MATLAB的仿真实验结果表明:
该算法可以有效的提高语音听觉质量,其计算复杂度也不高。
第2章语音信号的基础理论
2.1人耳感知特性
因为语音增强效果最终取决于人的主观感受,所以语音感知对语音增强研究有重要作用。
人耳对背景噪声有很大的抑制作用,了解其机理大大有助于语音增强技术的发展。
语音感知问题涉及到生理学、心理学、声学、和语音学诸多领域,其中有很多问题有待进一步研究。
目前已有一些结论可用于语音增强:
1.人耳对语音的感知主要是通过其幅度谱获得的,而对相位谱不敏感。
2.人耳对频率高低的感受近似于该频率的对数值成正比。
3.人耳具有掩蔽效应,即强信号对弱信号有抑制作用,能够将其掩盖。
4.共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度产生影响。
5.人耳在两个以上的说话环境中能够分辨出它所需要的声音。
6.人耳对频谱分量强度的感受是频率与能量谱的二元函数,响度与频谱幅度的对数成正比。
2.2语音特性分析
语音是人们讲话时发声器官发出的一种声波,具有声音的物理特性。
然而它又是一种特殊的声音,是人们用来交流信息的工具,因此语音是声音和语言的组合体。
语音和语言是研究人类话语的一门学科,它具有一定的音色、音调、音强和音长。
因此,有必要了解语音信号的一些基本特征。
浊音在时域上呈现出明显的周期性;
在频域上有共振峰结构,而且能量大部分集中在较低频段内,而清音段没有明显的时域和频域特征,类似于白噪声。
人类的发声系统的生理结构的变化速度是有一定限度的,在一段时间内(10~30ms)人的声带和声道形状具有相对稳定性,可以认为其特性是不变的,因而语音的短时谱分析也有相对稳定性,在语音增强中可以利用短时谱的这种稳定性。
语音信号是非平稳、时变的,但又是准平稳、慢变的,因此短时处理技术是合适的。
语音信号的时域特征参数主要有短时能量,短时过零率和短时能量比等。
时域分析具有特征提取简单、运算量小、物理意义明确等优点,便于我们直观的认识语音信号。
但它的缺点是不能压缩维数,且不适于表征幅度谱特性。
因此频域的特性显得尤为重要。
短时分析应用于频域就是短时傅立叶变换。
相应的频谱称为“短时谱”,即有限长度的傅立叶变换。
频域参数对于语音识别系统来说更为有效,这是因为频域特征参数能从不同角度反映幅度谱的特征,例如,频谱、频谱包络、倒谱系数、共振峰等。
2.3噪声分类及其特性
噪声来源于实际的应用环境,因而噪声特性可以说是千变万化。
噪声可以是加性的,也可以是非加性的。
对于非加性噪声,有些可以通过变换转变成加性噪声,例如,乘性噪声(或卷积噪声)可以通过同态变换而成为加性噪声。
又如,某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声。
加性噪声大体上可分为以下几种:
白噪声、周期性噪声、脉冲性噪声、宽带噪声等。
周期性噪声的特点是有许多离散的窄谱峰,它往往来源于发动机等周期性运转的机械设备。
周期性噪声引起的问题可能最少,因为可以通过功率谱发现并通过滤波或变换技术将其去掉。
但是,其中交流噪声的抑制很困难,因为其频率成分不是基音(因为它在语音信号有效频率以下),而是谐波成分(它可能以脉冲形式覆盖整个音频频谱)。
冲击噪声表现为时域波形中突然出现的脉冲,它通常是放电的结果。
消除这种噪声可以在时域进行,即根据带噪语音信号幅度的平均值确定阈值。
当信号幅度超出这一阈值时,判别为冲击噪声,在对其进行衰减甚至完全消除。
如果干扰脉冲之间不太靠近,还可以根据信号相邻样本数值简单地通过内插法将其从时间函数中去掉。
宽带噪声通常可以假定为高斯噪声和白噪声,它的来源很多,包括风、呼吸噪声和一般随机噪声源。
量化噪声通常作为白噪声来处理,也可以视为宽带噪声。
由于宽带噪声与语音信号在时域和频域上完全重叠,因而消除它最为困难。
对于非平稳的宽带噪声,情况更为复杂。
2.4语音信号的数字化和预处理
语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D转换及编码(一般就是PCM码)。
预处理一般包括预加重、加窗和分帧等。
2.4.1语音信号预滤波、采样、A/D转换
预滤波的目的有两个:
①抑制输入信号各频域分量中频率超出的所有分量(为采样频率),以防止混叠干扰;
②抑制50Hz的电源工频干扰。
这样预滤波器必须是一个带通滤波器,设其上、下截止频率分别为和,则对于绝大多数语音编译码器,,,采样频率;
而对于语音识别而言,当用于电话用户时,指标和与语音编译码器相同。
语音信号经过预滤波和采样后,由A/D转换器转换为二进制数字码。
2.4.2预处理
由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高端大约在800Hz以上按6dB/倍频跌落,即6dB/oct(2倍频)或20dB/oct(10倍频),所以在求语音信号频谱时,频率越高的相应成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重处理。
预加重的目的是提升高频部分,是信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。
预加重可由提升高频特性的预加重数字滤波器来实现,它一般是一阶数字滤波器:
(2-2)
经过证明得知,以上滤波器工作原理与以下在时间域运算的公式等价,故加重方式如下:
(2-3)
为了恢复原信号,需要对做过预加重的信号频谱进行去加重处理。
去加重方式为:
(2-4)
其中,
与
为加重因子,一般取
。
由于语音信号是一种非平稳的时变信号,其产生过程与发声器官的运动紧密相关。
而发声器官的状态速度较声音振动的速度缓慢的多,因此语音信号可以认为是短时平稳的。
研究发现,在5~50ms的范围内,语音频谱特征和一些物理特征参数基本保持不变。
因此可以将平稳过程中的处理方法和理论引入到语音信号的短时处理当中,将语音信号划分为很多短时的语音段,每个短时的语音段称为一个分析帧。
这样,对每一帧语音信号处理就相当于对特征固定的持续信号进行处理。
帧既可以是连续的,也可以采用交叠分帧,一般帧长取10~30ms。
取数据时,前一帧和后一帧的交迭部分称为帧移,帧移与帧长之比一般取为0~1/2。
对取出的语音帧要经过加窗处理,即用一定的窗函数
与信号相乘,从而形成加窗语音。
加窗的主要作用在于减少由分帧处理带来的频谱泄露,这是因为,分帧是对语音信号的突然截断,相当于语音信号的频谱与矩形窗函数频谱的周期卷积。
由于矩形窗频谱的旁瓣较高,信号的频谱会产生“拖尾”,即频谱泄露。
为此,可采用汉明窗,因为汉明窗旁瓣最低,可以有效地克服泄露现象,具有更平滑的低通特性,得到的频谱比较平滑。
汉明(Hamming)窗定义:
(2-5)
2.5语音信号的短时傅立叶变换
语音信号的频域分析在信号处理中占有十分重要的地位,在频域内研究语音信号,可以使信号某些在时域内无法表现出来的特征变得十分明显,比较常用的是傅立叶变换。
传统傅立叶变换是以应用数学为基础建立起来的一门学科,它将信号分解为各个不同频率分量组合,使信号的时域特征与频域特征联系起来成为信号处理的有利工具。
但傅立叶变换使用的是一种全局变换,无法表述信号的局部性质,而短时傅立叶变换可以弥补这种缺点。
正如前面的分析所述,由于语音信号是短时平稳的,因此,我们可以对语音进行分帧处理,计算某一帧的傅立叶变换,这样得到的就是短时傅立叶变换,其定义为:
(2-6)
其中
为实数窗函数,
取不同值时,窗
沿时间轴滑动到不同的位置,取出不同的语音帧进行傅立叶变换。
短时傅立叶变换是时间
和角频率
的函数,它反映了语音信号的频谱随时间变化的特性。
第3章基于改进型谱减法的语音增强技术
3.1谱减法的基本原理
谱相减方法是基于人的感觉特性,即语音信号的短时幅度比短时相位更容易对人的听觉系统产生影响,从而对语音短时幅度谱进行估计,适用于受加性噪声污染的语音。
处理宽带噪声的最通用技术是谱相减法,即从带噪语音估值中减去噪声频谱估值,从而得到纯净语音的频谱。
由于人耳对语音频谱分量的相位不敏感,因而这种方法主要针对短时幅度谱。
所谓“谱相减”就是从输入信号的幅度谱中减去估计得来的噪声平均幅度谱,其效果相当于在变换域对带噪信号进行了某种均衡化处理。
相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,而且经过改进后效果也较好。
传统的谱减法即在频域将带噪语音的功率谱减去噪声的功率谱,得到语音的功率谱估计,开方后就得到语音幅度估计,将其相位恢复后再采用逆傅立叶变换恢复时域信号。
考虑到人耳对相位的感觉不灵敏,相位恢复时所采用的相位是带噪语音的相位信息。
由于语音是短时平稳的,所以在短时谱幅度估计中认为它是平稳随机信号,假设
、
和
分别代表语音、噪声和带噪语音,
分别表示其短时谱。
假设噪声
是与语音
不相关的加性噪声。
于是得到信号的加性模型:
(3-1)
经过加窗处理后的信号分别表示为
,
,则有
(3-2)
对上式两端分别做傅立叶变换,得
(3-3)
对功率谱有
(3-4)
可以根据观测数据估计
,其余各项必须近似为统计均值。
由于和独立,则互相的统计均值为0,所以原始语音的估值为
(3-5)
为了估计噪声功率,采用了端点检测法。
因为噪声是局部平稳的,故可以认为发音前的噪声与发音期间的噪声功率谱相同,因而可以利用发语音前的“寂静帧”来估计噪声。
从(3-5)式中可以看出,估计值
不能保证是非负的,这是因为在估计噪声时存在误差,当估计噪声平均功率大于某帧带噪语音功率时,该帧得出的估计值
就会出现为负的情况,这些负值我们可以通过改变它们的符号使之变为正值,也可以直接给它们置零,本文我们采用后种处理方式。
只要在频域用(3-5)式得到纯净语音的谱估计,就可以根据(3-6)式得到增强后的语音。
(3-6)
如前面分析,利用人耳对相位不敏感的特点,在式(3-6)中可利用原带噪语音的相位恢复到时域语音信号,从而得到处理后的语音信号,完成整个基于谱减法的语音增强过程。
根据前面分析,我们可以给出谱相减算法的整个算法流程,如图3-1所示:
增强后的语音
带噪语音
啊
图3-1谱减法的算法流程
3.2谱减法建立的假设
谱减法的建立要基于以下几点假设:
1)噪声信号和语音信号是互不相关的(独立的),并且在频域是加性的关系。
2)背景噪声环境相对于语音活动区域来说是近似稳态的,这样就可以利
用在无声段估测的平均噪声谱来逼近有声段的噪声谱。
3)如果背景噪声环境变化到一个新的稳态,则应有足够的时间(约300ms左右)以便于估计出新的背景噪声谱幅度估值。
4)对于缓慢变化的非平稳噪声环境,谱减法算法中有话音激活检测环节以便适时的判断并进行调整。
5)假设主要噪声影响的消除可以通过仅仅从带噪语音谱幅度中减去噪声而实现。
3.3“音乐噪声”的产生
谱减法技术大多数都是在频域上进行,也有在时域的。
由于在谱减法处理过程中,是以无声期间统计平均的噪声方差代替当前分析帧各频率点的噪声频率分量,而噪声频谱具有高斯分布,即其幅度随机变化范围很宽,因此相减时,若该帧某频率点噪声分量较大,就会有很大一部分保留,具体来讲,由谱相减所产生的噪声称为残余噪声,与语音信号不相关,是由具有随机频率和幅度的窄带信号所组成。
在频谱上呈现随机出现的尖峰,便产生了间歇短暂的突发声调,在听觉上形成有节奏性起伏的类似音乐噪声的残留噪声。
这种具有音乐特性的残余噪声是各帧内在随机频率上出现的许多声调的群体结果。
它比原始语音中的噪声清楚的多,也更易令人反感。
这种噪声具有“音乐”的听觉效果,听起来像有“咕咕”的流水声,因此称为“音乐噪声”。
听者常常能发现处理后的语音中的“音乐噪声”比原始信号中的噪声更为清晰,这是由于在短时谱估计中,在各帧的随机频率点上出现多种频率的组合而产生的。
3.4语音端点检测技术
由上述分析可知,在谱减法中噪声功率谱的估计至关重要,如果噪声估计偏差较大的话,将毫无疑问的影响语音增强质量。
传统的噪声估计方是由RainerMartin提出的基于最优平滑和最小统计的噪声估计,本文采用改进的算法——基于语音活性检测(VoiceActivityDetector)的噪声估计算法。
语音激活检测(VAD,VoiceActivityDetection)指从一段包含语音的信号中确定出语音的起始点和终点,又称端点检测(EndingDetection)。
语音端点检测的目的就是从连续记录的带噪语音信号中分离出我们真正感兴趣的语音信号。
语音激活检测是各种语音处理中必需的重要环节,精确地确定输入语音的起点和终点将保证语音处理系统良好的性能,语音激活检测是语音增强中的一个关键问题。
一些系统中,对于语音和噪声的处理方法也不同,如果不能判断当前语音帧是含噪语音帧或是噪声帧的话,就不能进行适当的处理,这种系统对语音存在性的判断要求就更高一些,要求把每一帧噪声都判断出来。
在语音增强系统中,语音知识的学习和噪声源信息估计的积累都依赖于准确的端点检测。
对于语音激活检测应用,在语音增强中,为了得到更多的背景噪声特性,语音端点检测更注重于如何准确的检测出无音段。
通常的语音激活检测是基于语音帧来进行的,语音帧的长度在10~30ms不等。
语音活性检测的方法可以综述为:
从输入信号中提取一个或一系列的对比特征参数,然后将其和一个或一系列的门限阈值进行比较,如图3-2所示。
如果超过门限则表示当前为有音段,否则就表示当前为无音段。
门限通常是根据无音段时语音特征确定的。
但是由于语音和环境噪声的不断变化,使得这一判决过程变得非常的复杂。
于是一个好的语音活性检测算法必须具备对各种噪声的鲁棒性,同时要简单,适应性好,易于实时实现。
图3-2语音激活检测框图
目前语音端点检测所采取的方法大体可以分为两类:
第一类是噪声环境下基于HMM模型的语音信号端点检测的方法,该方法要求背景噪声保持平稳且信噪比较高。
第二类方法是基于信号的短时能量进行检测的算法,它通过对背景噪声能量的统计,定出能量门限,利用能量门限来确定语音信号起始点。
在本文中,语音端点检测采用了第二类方法,即基于信号的短时能量进行检测的算法。
基于信号的短时能量检测具体算法如下:
∙计算每一帧的语音能量:
(3-7)
式中
为帧长,
为帧的编号,
为帧数,m为每一帧中的各点;
然而它有一个缺陷,即它对高电平非常敏感(信号的二次方计算)。
为此,定义短时平均幅度函数来表征一帧语音信号的能量大小,定义:
(3-8)
2)计算前20帧平均噪声能量
;
3)求能量最大值和能量最小值
4)根据式(3-9)确定门限
(3-9)
基于端点检测法的算法流程图如下:
图3-3端点检测算法流程图
该算法建立在平稳高斯噪声模型基础上,在背景噪声幅度保持恒定且远低于语音信号幅度时,可以十分有效地检测出语音信号的端点。
本文应用谱相减法实现语音增强基本原理是通过对带噪语音谱减去噪声谱得到语音谱,因此,语音激活检测这一环节非常重要。
因为准确地确定语音的起始点和终止点对噪声谱估计有着重要的作用。
3.5基音检测的后处理
基音检测算法可能产生检测误差,使求得的基音周期轨迹中有一个或几个基音周期估计值偏离了正常轨迹(通常是偏离到正常值的0.5倍或2倍),称这种偏离点为基音轨迹的“野点”。
为了去除这些野点,可以采用各种平滑算法,最常用的是中值平滑算法和线性平滑算法。
本文采用组合平滑算法,将中值平滑和线性平滑组合,为使平滑的基音轨迹更贴近,并采用二次平滑的算法。
设所要平滑的信号为,经过一次组合得到的信号为。
那么首先应求出两者的差值信号,再对进行组合平滑,得到,令输出等于,就得到更好的基音周期估计轨迹。
全部算法的框图如图3-4所示。
图3-4组合二次平滑算法流程图
3.6基于谱减法的语音增强算法流程
本论文采用了MATLAB语言实现了整个基于谱减法的语音增强算法,具体MATLAB程序见附录
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 型谱 减法 语音 增强 技术研究