基于小波变换的语音消噪Word格式.docx
- 文档编号:18607595
- 上传时间:2022-12-29
- 格式:DOCX
- 页数:31
- 大小:174.13KB
基于小波变换的语音消噪Word格式.docx
《基于小波变换的语音消噪Word格式.docx》由会员分享,可在线阅读,更多相关《基于小波变换的语音消噪Word格式.docx(31页珍藏版)》请在冰豆网上搜索。
语音处理技术,其中最重要的包括语音编码、语音合成、语音识别、说话人识别及语音增强,它的应用极其广泛,包括工业、军事、交通、医学、民用等各个领域。
目前,语音处理技术处于蓬勃发展的时期,己有大量产品投放市场,并且不断有新产品被开发研制,具有及其广阔的市场需要和应用前景。
在语音增强方面,小波变换出现以前,应用最广泛的是傅立叶变换。
但是在利用傅立叶变换分析信号时,存在着某些缺陷,即总是假定信号为周期性信号,将待分析信号分解成周期性的正弦信号,然后根据分解得到的正弦信号提取待分析信号的频率信息和相位信息。
为了分析信号的局部特征,发展了短时傅立叶变换,但是在利用短时傅立叶变换分析信号时,由于在时频平面的不同位置处分析单元的形状保持不变,既不具有频率降低时视野自动放宽的特点,也不具有频率特性品质因数恒定的特点。
由于语音信号的复杂性,以及在某些方面与小波变换的相似性,从而使得小波变换在语音信号处理中有着很广泛的应用。
本文主要对小波变换在语音信号处理中的应用进行了深入的研究。
1.1课题的研究背景及意义
在许多情况下,人们所关心的语音信号不可避免地被其他信号所污染,即语音总会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输媒质中引入的噪声、电器设备的噪声以及其他说话人干扰等等。
环境噪声会影响语音质量,严重的情况下语音将完全淹没到噪声中,无法分辨。
这些背景噪声对人们得到语言信号中夹带的有效信息产生了很大的干扰,会引起有用语音信息的相对失效。
计算机无法准确地分离出噪声与有用信息,因此要让它准确无误地执行所要求执行的操作,就必须对语音进行降噪处理。
研究如何进行语音去噪的科学意义很大,它能帮助人们解决很多问题,同时它具有广阔的应用前景。
较好的降噪处理结果,有利于语音信号的编码,从而也会减少数据的存储量,利于在网络中的传送。
语音增强技术就是从噪声背景中提取、增强有用的信号,抑制、降低噪声干扰的技术。
语音增强技术在语音识别、语音编码等方面很有应用价值。
比如,语音识别系统在实验室环境中可取得相当好的效果,但在噪声环境中,尤其是在强噪声环境中使用时,系统的识别率将受到严重影响。
低速语音编码同样会受到噪声的影响。
由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取的模型参数将很不准确,重建的语音质量就会急剧恶化。
此时如果采用语音增强技术进行预处理,将有效的改善系统性能。
语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。
由于干扰通常都是随机的,因而从带噪语音中提取完全纯净的语音几乎不可能。
因此实际语音增强的目标主要有改进语音质量,消除背景噪声,使听者乐于接受,不感到疲倦,同时提高语音可懂度,方便听者理解。
但这两个目的往往不能同时实现。
语音降噪处理的意义非常重大,它可以帮助我们解决许多有关听辨的问题。
但是当今从事语音降噪处理研究的机构和单位并不是很多。
在国外虽然有一些这方面的产品,但是这些产品往往不成熟,在实际应用中,这些产品并不能有效的降低语音信号中的噪音,提高信噪比。
在国内,从事这方面研究的机构己经做成语音降噪产品的单位很少,而且在对语音降噪处理过程中并没有用到什么新的数字语音处理技术,也没有什么独特的方法,未取得较大的突破。
随着社会生产的发展,对于语音信号要求更为精确细致,有用信号的提取是一种有效实用的技术,具有广泛的应用前景。
由此可见,开展这方面的理论研究并能应用于实际,具有重要的现实意义^
1.2语音增强的基础知识
语音增强不但与信号处理技术有关,而且涉及到人的听觉感知和语音学。
另外,噪声来源不同,特性也不相同,因而很难找出一种适用于各种噪声环境的增
强算法。
对不同噪声必须使用不同的语音增强方法。
语音增强算法的基础是对语音和噪声特性的了解和分析。
1.2.1语音信号的特点
语音是时变的、非平稳、非遍历的随机过程。
语音发声是一个时变过程,很多因素造成了发声系统的时变性,例如声道的面积随着时间和距离改变,气流速度随着声门处压力变化而变化等。
但是在一段时间内(10ms-30ms),人的声带和声道形状是相对稳定的,可认为其物理特性与频谱特性近似不变,因而语音的短时谱具有相对稳定性。
语音的短时特性是语音信号分析和处理的基础,利用这一特性就可以应用平稳随机过程来分析与处理语音信号。
在语音分析中可以把语音信号分为若干帧,每一帧的语音可以认为是准稳定的。
语音可以分为周期性的浊音和非周期的清音。
浊音和清音经常在一个音节中同时出现。
浊音部分和音质关系密切,在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段内,是语音中大幅度高能量的部分,清音则没有明显的时域和频域特征,类似于白噪声,能量较小,在强噪声中容易被掩盖,但信噪比较高时能提供较多的信息。
在语音增强中,可以利用浊音的周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音与宽带噪声则难以区分。
根据中心极限定理,傅里叶展开系数被认为是独立的高斯随机变量,均值为零但方差是时变的。
语音的短时谱幅度的统计特性是时变的,只有当分析帧长趋于无穷大时,才能近似认为其具有高斯分布。
这种高斯模型应用于有限帧长时只是一种近似的描述,在宽带噪声污染的带噪语音的语音增强中,这种假设可作为分析的前提。
1.2.2人耳的感知特性
人耳的感知特性对语音增强有着重要的作用,这是因为语音增强的最终度量是人的主观感受。
人的听觉系统所具有的功能是复杂的。
由于人耳对背景噪声有很大的抑制作用,所以了解其机制可以在语音增强中减少运算代价。
实践证明,人的主观感受(听觉)和客观实际(语音波形〉并不完全一致。
语音增强一般都是作为语音识别过程中的预处理环节,其目的是从带噪语音中削减噪声,从而提取尽可能纯净的原始语音或原始语音参数,以提高语音质量。
任何复杂的声音对于人耳的感觉都可以用响度、音调和音色三个特征量来描述。
其中响度是人耳对声音轻重的主观反应,它取决于声音的幅度,主要是声压的函数,但与频率和波形也有关。
音调是人耳对声音频率的感受。
音调与声音的频率的关系是:
频率高的声音听起来感觉它的音调“高”,而频率低的声音听起来感觉它的音调“低”。
但音调与声音的频率并不成正比,它还与声音的强度及波形有关。
音色是由于波形和泛音不同而造成的声音属性,人根据音色在主观感受上区分具有相同响度和音调的两个声音。
音色是由混入基音的泛音所决定的,每个基音有其固有的频率和不同音强的泛音,因而每个声音具有各自不同的音色。
语音感知问题涉及到生理学、心理学、声学和语音学等诸多领域,这是一个复杂的问题,有待进一步研究。
但目前已有一些结论可以利用:
(1)人耳对语音信号的幅度谱较为敏感,对相位不敏感。
这一点对语音信号的恢复很有帮助。
(2)人耳对于声波频率高低的感觉与实际频率的高低并不呈线性关系,而近似与该频率的对数成正比。
(3)人耳具有听觉掩蔽效应,即会产生一个声音由于另外一个声音的出现,而导致该声音被感知的阈值提高的现象,也就是说强声音信号对弱声音信号有抑制作用。
掩蔽的程度是声音强度与频率的二元函数。
频率邻近分量的掩蔽比频差大的分量有效。
(4)共振峰对于语音感知很重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度产生影响。
(5)人耳除了可以感受声音的强度、音调、音色和空间方位外,还可以在两人以上的讲话环境中分辨出所需的声音,这种分辨能力是人体内部语音理解机制具有的一种感知能力。
人类具有的这种分离语音的能力与人耳的双耳输入效应有关,称为“鸡尾酒会效应”。
1.2.3噪声特性
噪声的来源很多,因此噪声的特性也是多样的。
根据噪声对语音频谱的干扰方式,噪声主要分为加性噪声和乘性噪声。
当噪声对语音的干扰表现为两者信号在时域进行相加时,该噪声被称为加性噪声。
显然噪声和语音在频域也为相加关系。
在实际环境中,背景噪声可以看作加性噪声,加性噪声是对背景噪声一种比较贴切的表述。
乘性噪声是指噪声和语音在频谱上是相乘的关系,在时域则是卷积的关系,因此也称为卷积噪声。
有些乘性噪声可以能过变换加性噪声。
从能量角度,看背景噪声和语音的声强是相加关系,因此两者共同作用所形成的含噪语音信号就是各自的信号之和。
当然严格来说,背景噪声和语音不可避免存在非线性作用,但其不是含噪语音的主要成分。
由于背景噪声的广泛存在性,因此消除噪声成为语音处理中的一个重点研究方向。
我们关注的噪声通常分为冲激噪声、周期噪声、宽带噪声、语音干扰噪声等。
非加性噪声主要是传送网络的电路噪声等[9]。
(1)周期噪声:
往往来源于电动机、风扇等周期运转的机械,50或60Hz交流电源声也是周期噪声。
它们的频谱图特点为有许多离散的窄谱峰,通常可以通过功率谱发现,用滤波或变换技术予以滤除。
(2)冲激噪声:
通常是放电时会产生。
它的时域波形是类似于冲激函数的窄脉冲。
冲激噪声可以在时域内进行消除。
影响通常有两种方法:
对带噪语音信号的幅度求均值,将该均值作为判断阈值,凡是超过该阈值的均判为冲激噪声,把它进行衰减或者完全置零;
当冲激脉冲不太密集时,也可以通过某些点内插的方法避开或者平滑掉冲激点,从而能在重建语音信号中去掉冲激噪声。
(3)宽带噪声:
呼吸噪声、风、随机噪声源产生的噪声、量化噪声等均可视为宽带噪声,应用中常近似为高斯噪声或白噪声。
量化噪声通常作为白噪声来处理,也可以当作宽带噪声处理。
其显著特点是噪声频谱遍布于语音信号域频谱中,导致消除噪声较为困难。
一般需要采用非线性处理方法。
(4)语音干扰:
可能是受到其他语音源的干扰造成的。
干扰语音信号和待传语音信号同时在一个信道中传输所造成的干扰称为语音干扰。
考虑到一般情况下两种语音的基音不同,也不成整数倍,利用它们的基音差别可以用梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。
(5)传输噪声:
这是传输系统的电路噪声。
与背景噪声不同的是,语音和噪声需要通过卷积变换,转化为加性噪声来处理。
1.3语音增强技术发展历程
国内降噪技术始于20世纪50年代,早期的语音降噪技术多是采用模拟电路来实现,主要的产品是骨导式送话器,其原理是用送话器捕获发声部位的振动把转换为电信号。
这种情况下噪声信号不能激励送话器,从而达到降噪的目的,
一般降噪量在8-12dB。
这种技术清晰度差且对于不同的说话人,话音质量也会有差异。
80年代则采用声平衡原理改进的气导式抗噪送话器来降低通讯中的噪声,这种产品较以前的技术在语音清晰度上有了很大的提高。
但降噪量停留在8-12dB,因此在高噪环境下进入通讯系统的噪声电平对整个系统的干扰仍较大。
20世纪90年代后期主要采用动态降噪技术,这种方法是根据语音电平的幅度,动态调整输出信号的幅度,且对不同的噪声电平进行自动的抑制,降噪效果较好,信噪比有所提髙。
含噪信号信噪比较小时,轻音有可能被当作噪声消去,所以这种方法要求输入信号有一定的信噪比。
随着数字信号处理理论的成熟,20世纪70年代,语音增强发展成为语音信号数字处理的一个重要分支1974年,Weiss,Aschkenasy和Parsons最早提出了用谱相减法来抑制噪声,利用噪声的平均谱来估计含噪语音段的噪声,就可利用谱相减法抑制加性噪声。
1979年,Lin和Oppeheim提出了维纳滤波语音增强方法,估计带噪语音的AR模型参数,就能够以迭代的方式进行维纳滤波。
进入80年代后,VLSI技术的发展为语音增强的实时实现提供了可能。
使用统计方法的语音增强方法成为研究的中心。
1980年,Maulay和Malpass提出了软判决噪声抑制方法。
1984年,Ephrain和Malah提出了基于MMSE短时谱估计的语音增强方法。
在研究人员不断地努力中,许多语音增强方法不断被提出,奠定了语音增强的基础并使之逐渐走向成熟。
90年代后,移动通信的飞速发展为语音增强的研究提供了十分现实的动力,同时DSP原理和技术的进步以及其它相关理论在语音增强领域的应用,都促使了新的语音增强方法的相继出现。
例如对带噪语音信号进行小波变换、离散余弦变换(DiscreteCosineTransform)等来进行语音增强,以及基于人耳听觉掩蔽效应的语音增强方法,这些方法不断的被继承、发展。
1.4本文研究的重点
为了解决工程中的一些问题或者做科学研究,人们研究了许多种语音增强算法。
尽管目前语音增强尚没有建立起完整的理论体系,但有一些语音增强算法已被证明是有效果的。
目前有代表性的语音增强算法主要有自相关相减法、自适应噪声滤波法、谐波增强法、基于语音生成模型的增强算法、短时谱幅度估计算法、谱相减算法、小波变换法、人耳掩蔽效应法等。
本文所研究的重点在于通过小波分析方法对含高斯白噪声的语音信号的去噪增强。
论文中的实验中采用的语音信号有两种,一种是在安静的环境下,用普通计算机录制的语音信号。
用Matlab软件实现仿真,用函数生成噪声信号并对录制的语音信号进行软件加噪,然后用提出的改进思想进行降噪增强处理。
另一种就是录制的带有机箱噪声的语音信号。
本文研究的主要目的就是适应目前信息社会对语音信号处理技术的要求,结合小波分析理论在信号去噪方面的应用,对小波语音去噪的处理过程提出改进。
主要在以下几个方面进行研究:
(1)分析已有的语音增强方法,包括短时谱估计算法、谱减法等。
(2)对小波去噪方法进行研究,介绍小波去噪基本知识及原理,重点研究和讨论小波阈值函数和阈值两个方面。
在前人的研究基础上,提出自己改进的阈值函数,并通过实验仿真用BLOCKS信号、实际录制的语音信号加入白噪声,以及录制的带机箱噪声的语音信号来验证其效果。
主要从信噪比上观其效果。
受谱减法思想的启发,提出新的确定阈值的方法。
对其进行仿真实现,并跟使用其它阈值消噪的效果进行平行比较,讨论用各种阈值函数及阈值进行语音增强技术的消噪效果。
第二章语音增强技术
语音增强是解决噪声污染的一种有效方法,它的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音,即去掉语音信号中的噪声和干扰,改善它的质量。
对受背景噪声污染的语音进行增强去噪是一个具有重要实际意义的课题,它是目前迫切需要解决的问题,语音增强因而已成为当前语音处理中的一个重要方向。
语音增强技术有着很广泛的应用,例如,作为语音编码(线性预测编码)和语音识别的预处理,可以消除语音中的混响以便从录音中恢复出高质量的语音。
将语音增强应用于数字频谱编码传输系统的接收端,可有效地提高接收信号的信噪比,降低误码率。
这种技术对语音识别和说话人识别也是十分重要的,可使识别装置在通常的含噪环境中进行工作。
在实际语音通信中,语音信号很容易受到噪声污染,致使许多通信系统的性能急剧恶化。
语音增强作为一种预处理手段,是解决噪声污染、改善通信质量的有效方法。
近年来,人工智能、神经网络技术的发展,移动通信和个人通信的蓬勃兴起,激发了对语音增强领域更广泛的研究。
尽管目前语音增强在理论上并不十分完善,还有待发展,但某些增强方法己被证明是有效果的。
有关抗噪声技术的研究以及实际环境下的语音信号处理系统的开发,在国内外作为语音信号处理的非常重要的研究课题,己经做了大量的研究工作,取得了丰富的研究成果。
目前国内外的研究成果大体分为三类解决方法第一类是采用语音增强算法等,提高语音识别系统的前端预处理的抗噪声能力,提高输入信号的信噪比。
第二类方法是寻找稳健的耐噪声的语音特征参数,通过该特征参数来提取纯净的语音信号,从而达到消除噪声的功能。
第三类方法是基于模型参数适应化的噪声补偿算法,采用特定的语音模型作为系统框架,比较估计出语音信号,实现语音增强。
在实际语音增强系统中,有大概以下几种语音增强技术:
针对特定的,周期性的噪声的滤波法语音增强技术;
利用语音信号本身相关,而语音与噪声,噪声与噪声可认为互不相关特性的利用相关特性的语音增强技术;
对于消除宽带噪声,采用的非线性处理法语音增强技术;
在最小均方准则下用Weiner滤波器实现对语音信号估计,所采用的Weiner滤波法的语音增强技术,等等。
本文所研究的语音消噪主要是针对在高斯白噪声环境下,小波阈值法进行消噪的技术。
2.1谱减法
语音是一个非平稳过程,而标准傅立叶变换适用于周期瞬变或平稳随机信号,所以标准傅立叶变换不能直接用来表示语音信号,而应该用短时傅立叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。
基于短时谱估计的谱减方法就是从带噪语音的短时谱中估计出“纯净”语音的短时谱,以达到增强的目的。
谱减法语音增强技术是处理宽带噪声最为传统和有效的方法,其基本思想_是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音频谱。
在增强过程中如果同时考虑频谱的幅度和相位,那么算法将会十分复杂.好在人耳感知对语音频谱的相位并不敏感,所以目前的增强算法主要是针对短时谱幅度。
如果设s(t)为纯净的语音信号,n(t)为噪声信号,y(t)为带噪语音信号,则
有:
y(t)=s{t)+n{t)(2-1)
用y(w),s(w),n(w)分别表示y(t),s(t),n(t)的傅立叶变换,则可得下式:
Y(w)=S(w)+N(w)(2-2)
由于假定语音信号与加性噪声是相互独立的,因此有:
(2-3)
因此,如果用
分别表示y(t),s{t),n{t)的功率谱,则有:
(2-4)
由于平稳噪声的功率谱在发声前和发声期间可以认为基本没有变化,这样可以通过发声前的所谓“寂静段”(认为在这一段时间里没有语音只有噪声)来估计噪声的功率谱
从而有:
(2-5)
这样减出来的功率谱即可认为是较为纯净的语音功率谱,然后,从这个功率谱可以恢复降噪后的语音时域信号。
完整的谱减运算公式为式(2-6)。
C2-6)
谱减法语音增强技术的基本原理如图2.1所示。
图2.1减谱法语音增强原理图图2.1中频域处理过程中只考虑了功率谱的变换,而最后IFFT变换中需要借助相位谱来恢复降噪后的语音时域信号。
依据人耳对相位变化不敏感这一特点,可用原来带噪语音信号7(0的相位谱来代替估
计之后的语言信号的相位谱来恢复降噪后的语音时域信号。
谱减法是最早发展起来的语音增强方法之一。
一般谱相减法就是将短时噪声语音谱与一个估计的噪声谱相减来达到去噪声目的,这种方法非常简单,但有不足。
谱减法提高了信噪比意义上的语音“质量”,而没有真正提高语音的“可懂度”,消噪后的语音信号中存在中“音乐噪声”。
由于语音的能量往往集中在某些频段内,在这些频段内的幅度相对较高,尤其是共振峰处的幅度一般远大于噪声,因此应用同一标准处理效果不是很好。
随机白噪声能量统计特性服从正态分布,因此噪声帧功率谱
也会随机变化,其最大值与最小值之比往往达到几个数量级,而最大值与平均值之比也可达到6-8倍,只有对它作长期的平均才能得到较为平坦的谱。
因此,有时减谱后仍然会有较大的残余噪声。
而如果某些较大功率分量的噪声未被去除,仍然保留在语音谱中则很容易产生纯音噪声(若将其反变换到时间信号,在时域上它类似于纯音的波形)。
因此改进的方法是在幅度较高的
帧处减去
(a>
l),这样可以更好地突
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 变换 语音