书签分享收藏举报版权申诉 / 35

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 社交礼仪 > 语音识别.docx

语音识别.docx

文档编号：23607588
上传时间：2023-05-18
格式：DOCX
页数：35
大小：1.04MB

语音识别.docx

《语音识别.docx》由会员分享，可在线阅读，更多相关《语音识别.docx（35页珍藏版）》请在冰豆网上搜索。

语音识别.docx

语音识别

语音信号的声学原理

语音信号的产生

人类的发音器官主要包括肺、气管、喉、咽、鼻和口等。

这些器官共同形成了一条发声管道，其中喉以上的部分称为声道，其形状根据发出声音的不同而变化。

喉的部位称为声门。

如下图所示，它是语音产生的机理图。

正常呼吸时，肺部收缩产生空气流。

当空气流通过声带时，若声带是绷紧的，则声带将周期性地开启和闭合。

声带开启时，空气流将从声门喷射出来，形成一个脉冲;声带闭合时相当于脉冲序列的间隙期。

所以，这种情况下在声门出将产生出一个准周期性脉冲序列状的空气流。

该空气流经过声道响应后最终从嘴唇辐射出声波一浊音。

若声带是完全舒展开来的，空气流将顺利的通过声门。

这之后空气流将会遇到两种不同的情况:

如果声道的某个部位收缩形成了一个狭窄的通道.，空气流就会被迫高速通过该收缩区并在收缩区附近产生空气湍流，空气湍流通过声道后便形成摩擦音或清音;如果声道的某个部位完全闭合在一起，当空气流到达此处时就会产生空气压力，一旦闭合点突然开启便会让气压快速释放，经过声道后就会产生爆破音。

由此可见，语音是由空气流激励声道产生的。

三种不同的激励源激励声道产生了浊音、清音和爆破音三种不同类型的声音。

浊音激励源是位于声门处的准周期脉冲序列，清音的激励源是位于声道的某个收缩区的空气湍流（类似于噪声），而爆破音的激励源是位于声道某个闭合点建立起来的气压及其突然地释放。

语音信号产生的数字模型

通过研究发声器官和语音信号的产生过程便可以建立一个语音信号产生的数字模型。

如图下所示，该数字模型包括激励源、声道模型和辐射模型三个部分。

激励源分为浊音和清音两个分支，根据开关所处的位置决定产生的是浊音还是清音。

当开关接在浊音的分支上时，激励信号由一个准周期脉冲序列发生器产生，其重复频率由基因频率决定。

为了使浊音的激励信号具有声门气流脉冲的实际波形，还需要让冲击序列通过一个声门脉冲模型滤波器。

为了能够调节浊音信号的幅度或是能量，还要乘上系数Av。

当开关接在清音分支上时，激励信号由随机噪声发生器产生。

为了能够调节清音信号的幅度或是能量，需乘上系数Au。

大量实验证明，对于大多数的语音来说，声道模型的传递函数是全极点函数。

辐射模型与嘴型有关。

在该数字模型中，除了声门脉冲模型和辐射模型参数保持不变外，基因频率、Av、Au、清浊音开关位置和声道模型参数都是随时间变化的。

但是，由于发生器官的惯性使得声道模型参数的变化速度十分缓慢，在10一30ms的时间间隔内可以认为参数保持不变，所以在作语音信号的短时处理时帧长一般取10一30ms。

语音信号的声学特性

语音是由人的发音器官发出来的一种声波，它和其它的各种声音一样，具有声音的各种物理特性。

也就是说，语音也具有一定的音色、音调、音强和音长。

音色---也称为音质，它是一种声音区别与其它声音的一项基本属性。

音色由以下三个因素所决定：

声带是否振动、是否采用送气的方法和声道的形状和尺寸。

音调---它是指声音的高低，在汉语语音学中又称为音高。

音调的高低取决于声波的频率，而声波的频率又与声带的长短、薄厚以及松紧程度有关。

音强---声音的强弱。

它由声波振动的幅度所决定。

音长---声音的长短。

它由发音持续时间的长短所决定。

在汉语的普通话中，一个音节中的各个音素由于作用不同，其音的长短就不同。

对于一个多音节的词，由于每个音节的轻重不同，其长短也就不一样。

音节---它是最容易觉察，最自然的语音单位，是语音的基本结构单位，由一个或多个音素构成。

音素是语音的最小单位。

任何语言的语音都包括元音和辅音两种音素。

元音是由声带振动产生的语音。

元音的性质由声道的形状和尺寸所决定。

辅音是由肺呼出的气流克服发音器官的阻碍产生的。

汉语的一个音节由声母、韵母和声调构成。

声母都是由辅音充当的，但辅音不一定都是声母。

汉语中共有22个辅音，其中21个可以充当声母。

韵母可以由元音充当，也可以由复合元音充当，还可以由元音加上鼻音充当，所以汉语中共有39个韵母。

语音信号的数字化

语音信号的数字化是信号处理的前提条件，一般包括两个步骤:

采样和量化。

根据奈奎斯特采样定理，采样频率必须大于或等于信号最高频率的2倍，这样才能完整的保留原始信号中的信息。

又由于语音信号的频谱分量主要集中在300一3400Hz范围内，所以在应用中一般使用的采样频率为:

5KHz，10KHZ或16KHz。

。

为了抑制输入信号频谱分量中频率超过1/2采样频率的分量，以防止混叠失真，在采样之前需要对语音信号作低通（反混叠）滤波，然后再进行A/D转换，如下图。

采样之后要对语音信号进行量化，量化后的取值与信号的实际值之间的差值成为量化误差。

目前，我们一般采用8bit量化。

语音识别系统的分类

语音识别主要有以下几种不同的分类方式：

1）根据识别的词汇量的大小来分。

每一个语音识别系统都必须有一个词汇表，系统只能识别词汇表中有的词条，词汇表之外的词条则无法识别。

通常根据词汇表中词条的数目，语音识别系统可以分为：

小词汇量语音识别系统，通常包括几十个词条;中等词汇量语音识别系统，通常包括几百到上千个词条;大词汇量语音识别系统，通常包括几千到几万个词条。

系统的识别率随着词汇量的增加下降，语音识别的难度随着词汇量的增加而逐渐增加。

2）根据发音方式分，语音识别系统可以分为：

孤立词（IsolatedWord）语音识别系统，该系统要求输入的语音只能是一个个的孤立的音节、词或是短语等；连接词（ConnectedWord）语音识别系统，该系统的输入一般特指十个数字（0一9）连接而成的多位数字或是少数指令构成的连接词条;连续语音（ContinuousSpeech）识别系统，该系统可以对说话人的日常讲述进行识别。

三种识别难度逐次增加。

3）根据说话人的限定范围分，语音识别系统可以分为特定人（SpeakerDependent）和非特定（SpeakerIndependent）人语音识别系统。

前者只能识别某个固定人的语音，其他想要使用该系统的人必须事先录入大量的语音数据进行训练，之后才可以使用。

而后者则对说话人没有特定的要求，但是它的实现也要难上许多。

说话人识别技术发展概述

经过几十年的发展，说话人识别技术的研究已经取得了很大的进步。

作为语音识别的一个重要研究领域，说话人识别的研究始于20世纪30年代。

早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。

随着研究手段和工具的改进，研究工作逐渐脱离了单纯的人耳听辨。

在七十年代初期，大多数说话人识别系统都是基于频谱和模板匹配方法实现的，而其普遍采用的特征矢量是LPC倒谱系数（LPCC）。

到七十年代后期，动态时间规整（DTW）和矢量量化（VQ）开始被应用到说话人识别中，使说话人识别的性能有了很大的提高。

八十年代以来，Mel频率倒谱系数的出现，使说话人识别的正确率有了进一步的提高。

与此同时，人工神经网络（ANN）和隐马尔可夫模型（HMM）在语音识别领域得到了成功和广泛的应用，并且成为说话人识别的重要技术。

进入九十年代后，特别是Reynolds对高斯混合模型（GMM）做了详尽的介绍之后，因其描述语音特征空间概率分布的精确性以及简单、灵活、有效和较好的鲁棒性，迅速成为当今与文本无关的说话人识别中的主流技术。

由于具有良好的区分性，近年来备受关注的支持向量机（SVM）也开始用于说话人识别的建模，并迅速成为研究热点，并且出现了多种用于说话人识别的核方法。

近年来，大量说话人识别新技术的出现，将说话人识别带入到一个新的发展阶段。

如在端点检测方面，提出了利用子带谱熵来检测语音信号与噪声的新方法，其性能明显优于传统算法。

在语音信号增强方面，提出了与信噪比相关的自适应语音增强算法，有效地减少了传统谱减法中存在的音乐噪声。

在特征参数提取方面，对传统的MFCC参数作了一系列改进，例如在提取参数前对语音数据进行频率掩蔽滤波，对MEL滤波器组进行加权处理，对得到的MFCC参数进行倒谱提升或倒谱均值相减，在MEL子带域对MFCC参数进行改进，将MEL倒谱和差分MEL倒谱相结合以及MFCC与表征语音其它信息的参数的组合等，所有这些技术的运用均在不同程度上提高了语音特征参数表征语音信息的能力，并在很大程度提高了参数的抗噪声性能，为系统从实验室走向实际应用提供了技术支持。

GMM-UBM结构、大规模连续语音识别（LVCSR）、HMM、ANN、SVM及各种模型之间的组合（如GMM-SVM）、基于评分的说话人规整技术、语音高层信息的探讨、以及针对通道失配问题的补偿技术等也均应用于与文本无关的说话人识别。

由于说话人识别技术的不断完善，相应的商用系统已从实验室走向市场。

如一些关键部门的出入控制、电话语音交易的身份验证、公安司法、军事上电话语音的监听、语音数据流中的说话人检测等均使用了说话人识别系统。

在国外，AT&T公司运用说话人识别技术研制出了智慧卡，并已经应用于自动提款机。

欧洲电信联盟在电信与金融结合领域应用说话人识别技术，于1998年完成了CAVE计划，可在电信网上进行说话人识别。

2007年，美国科学家为行动不便的人设计了一个受声音控制的房屋，它可以对主人所发出的声音命令进行解释并执行，如可以利用命令OPENCOMPUTER来打开电脑等。

所有这些都意味着语音识别正逐步从实验室走向实际应用。

我国对说话人识别技术的研究也非常重视，其主要研究机构有中科院声学所、中科院自动化所、清华大学、北京大学、北京交通大学信息科学研究所等，并先后得到了国家自然科学基金重点项目、攀登计划等基金的支持，取得了丰硕的研究成果。

例如：

北京大学视觉与听觉信息处理国家重点实验室，受到国家自然科学基金及863计划的支持，其说话人识别技术的研究代表着国内的先进水平；中国科学院自动化所模式科技公司推出的PATTEKSV声纹识别产品，将声纹鉴别软件和其核心识别引擎集成在一起，具有良好的识别性能。

同时，中国科学院自动化所研制的电话身份认证系统集成了基于声纹的身份认证技术和语音识别技术，通过一个电话语音对话系统与用户交流，在人机语音对答的过程中在后台进行用户的身份认证；北京得意音通公司在国际上率先推出的声纹S锁，利用人类具有唯一性声纹这个主要的生物特征，把声纹识别技术和数据安全技术紧密结合在一起，对个人电脑甚至服务器中的重要数据进行双重安全认证，有效地保证了数据的安全性。

我国在语音信号处理方面的逐渐成熟，为说话人识别从理论走向实际应用打下了坚实的基础。

与文本无关的说话人识别

说话人识别按照说话内容的类型可以分为与文本有关和与文本无关两种形式。

前者要求说话人提供指定语义内容的语音，可以用在使用者比较配合的场合，并且语义内容可以作为说话人身份的补充信息来提高系统的识别性能，后者则不关心语音信号中具体的语义内容。

一般说来，与文本无关的说话人识别的应用更为灵活和广泛，但难度较大，而且训练和测试都需要较长的语音和音素内容丰富的文本。

与文本无关的说话人识别的基本流程为：

（1）对输入的语音信号进行预处理；

（2）提取所需特征参数；（3）将所提取的特征参数与已有的说话人识别模型进行相似性评估，然后根据评估结果对待识别说话人的身份作相应判断。

由此可以看出，说话人识别可分为两个环节：

说话人辨认和说话人确认。

前者是要辨认待识别的人来自若干人中的哪一位，需要将待识别语音与每一位说话人的模型进行匹配，取输出概率最大者作为辨认结果。

后者是确认说话人的身份，即做出是与否的判决，此时需要确定是与否的门限。

研究重点及难点

说话人识别技术的基本步骤可分为：

语音信号的预处理、特征提取、建模、根据相似性准则进行判定。

要提高说话人识别的正确率，应从以上几个方面进行研究。

其中特征提取和模型建立是说话人识别技术研究的重点，其系统性能的优劣往往取决于这两方面。

虽然说话人识别技术已经取得了长足的发展，在理论上已获得众多的突破，各个研究机构也都成功的开发出了自己的说话人识别系统，但要使其普遍、并像指纹识别一样成为十分可靠的生物特征识别技术而得到广泛应用，还有许多尚需进一步探索的研究课题及要攻克的难题。

这主要是由于说话者本身发音的不稳定性、语音信号的复杂性、实际应用环境的多变性等造成的。

例如，随着时间的变化，说话人的声音相对于模型来说要发生变化，所以要采用对说话人的标准模板或模型进行定期更新的技术。

更重要的是，对存在各种噪声的实际环境下的说话人识别技术，目前还没有得到充分的研究。

下面列举说话人识别技术中存在的一些难点。

（1）语音信号具有不稳定性，因此提取的说话人特征不是固定不变的，它与说话人所处的环境、情绪、健康状态等密切相关。

其次，语音信号中除包含实际发音内容的语音信息外，还包括发音者是谁及喜怒哀乐等各种表征说话人个性特征的信息，如何从语音信号中提取纯粹的仅反映说话人个性的特征参数，这到目前为止还是一个无法解决的难题。

（2）声音容易被他人模仿。

在某些场合中，这个问题具有特殊的重要性。

例如有人可能模仿他人的声音从而冒充他人进行一系列非法活动。

这个问题在司法领域和安全领域尤为突出。

（3）在实际应用中，识别系统所处的外界环境也是随时改变的，即周围的噪声我们并不能完全提前预知。

因此，研究如何使系统的抗噪声性能不受周围噪声变化的影响，即研究如何使模型能够对周围的噪声进行自适应也是一个十分重要的课题。

（4）寻求更有效的识别算法问题。

包括如何提高GMM模型算法的训练和识别速度的问题，提高GMM模型参数的精度问题，提高训练语音长度与模型混合度不匹配的问题，提高模型的区分性的问题。

（5）怎样消除由于环境的加性噪声、通道的卷积噪声、说话人自身的语音声学的变异、训练环境和测试环境的差异等因素导致的对识别结果的影响。

这个问题关系到与文本无关的说话人识别系统能否得到推广。

语音信号的预处理

在说话人识别系统中，我们需要对语音信号进行分析，提取能够表征语音信息的特征参数。

在提取之前，对语音信号进行预处理是一项必不可少的关键工作，它直接关系到所提取特征参数的精度。

语音信号的预处理过程一般包括预加重，归一化，加窗分帧和端点检测等几个步骤。

具体的过程如下图所示。

预加重

由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB/倍频程衰落，所以对于求得的语音信号频谱，频率越高相应的成分就越少，为此要在语音预处理中进行预加重处理。

预加重处理的目的是提升高频部分，使信号的频谱变得平坦，以便于频谱分析或声道参数分析。

一般语音识别系统采用一阶数字滤波器进行预加重，它的传递函数为：

分帧加窗

语音信号是一种非平稳的时变信号，其特性及表征其本质特征的参数均是随时间变化的，所以不能用处理平稳信号的处理技术对其进行分析处理。

但是，由于语音的形成过程是与人的口腔肌肉运动密切相关，而这种口腔肌肉运动相对于声音振动速度来讲要缓慢得多，所以在一个极短时间范围内（10-30ms），其特性可认为是基本保持不变的。

因此语音信号通常可假定为短时平稳的，即语音信号具有短时平稳性，这是语音信号处理的一个重要基础。

在预处理过程中，我们就需要把语音信号分成一段一段的，其中每一段称为一帧，帧长一般取10-30ms。

分帧时，为了使帧与帧之间平滑过渡，保持其连续性，一般采用交替分段的方法。

前一帧与后一帧的交叠部分称为帧移，帧移与帧长的比值范围一般取为0-1/2（即帧与帧之间最多有一半重叠）。

为了减小语音帧的截断效应，即对截断处的不连续变化进行平滑，减少泄漏，我们一般对语音帧进行加窗处理，即用一定的窗函数w（n）来乘语音信号x（n），从而形成加窗语音信号。

窗函数w（n）的选择（形状和长度）对于短时分析的参数特性影响很大。

为此应选择合适的窗函数，使其短时参数能够更好地反映语音信号特性的变化。

不同的短时分析方法以及求取不的语音特征参数对窗函数的要求不尽一样。

一般来讲，一个好的窗函数的标准是：

在时域因为是语音波形乘以窗函数，所以要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语音波形缓慢降为零，减小语音帧的截断效应。

在频域内要有较宽的3dB带宽以及较小的边带最大值。

在语音信号处理中常用的窗函数是矩形窗和汉明窗，它们的表达式如下（其中N为帧长）：

对矩形窗和汉明窗的频率特性进行比较可知，汉明窗的主辨宽度和带外衰减都比矩形窗大。

矩形窗损失了高频成分，使波形细节丢失，而汉明窗则相反。

因此，汉明窗比矩形窗更为合适。

端点检测

端点检测是语音分析中重要的组成部分，其在语音信号处理中一直有着重要的意义。

语音端点检测的准确性对于语音识别系统的性能有着较大的影响。

有效的端点检测不仅可以在语音增强时进行准确的噪声模型估计，去除背景噪声的干扰，而且能够有效降低系统的运算复杂度，使得处理时间减少，提高了系统的实时性，从而大大提高系统的识别性能。

在过去的十几年里，研究人员一直致力于该方面的研究，提出了多种语音端点检测算法，如：

基于信号短时能量和过零率的双门限端点检测算法、基于子带谱熵的端点检测算法、基于频带方差的端点检测算法、基于高斯统计量的端点检测算法等。

基于短时能量和过零率的双门限端点检测算法

一、语音信号的短时能量分析

能量是语音信号在时域的一个重要的特征，对语音的能量进行分析是区分语音有声段和无声段的一个重要手段，此外其还经常被用于区分噪音、清音段和浊音段。

语音的短时能量定义如下：

二、语音信号的短时过零率分析

短时过零率表示一帧语音中语音信号波形穿过零电平的次数，表现在离散信号序列上就是相邻两个采样值异号，其定义如下：

由定义可以看出，短时过零率对噪音的干扰非常敏感，如果背景中有反复穿过零点的随机噪声，那么将会产生大量的虚假过零点，从而影响计算结果。

为了解决这个问题，我们通常对零率进行修正，使其穿越某个门限而非零点才认为是一次过零，从而很好的避免了这个问题。

修正后的符号函数定义如下：

三、双门限端点检测算法

语音信号分为清音和浊音，其中浊音具有能量高、过零率低的特点，可用短时能量特征与噪声进行区分。

而清音具有能量低、过零率高的特点，可用短时过零率进行区分。

因此，基于短时能量和过零率相结合的检测算法可以很好的区分语音和噪声。

下面介绍基于短时能量和过零率的双门限端点检测算法，其基本过程描述如下：

首先为短时能量和过零率分别确定两个门限。

一个是比较低的门限，其数值比较小，对信号的变化比较敏感，很容易被超过。

另一个是比较高的门限，数值比较大，信号必须达到一定的强度，该门限才可能被超过。

低门限被超过未必就是语音的开始，有可能是时间很短的噪声引起的。

高门限被超过则可以基本确定是由语音信号引起的。

整个语音信号的端点检测可以分为四段：

静音段、过渡段、语音段、结束。

在静音段，如果能量或过零率超越了低门限，就应该开始标记起始点，进入过渡段。

在过渡段中，由于参数的数值比较小，不能确信是否是真正的语音段，因此只要两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态，而如果在过渡段中两个参数中的任意一个超过了高门限，就判断为进入了语音段。

一些突发噪声也可能因为短时能量过高而超过高门限值，但是往往不能够维持足够长的时间，因此可以通过设定最短时间门限来判别。

当前状态处于语音段时，如果短时能量的数值降低到低门限以下，而且总的记时长度小于最短时间门限，则认为是一段噪音。

这种算法在高信噪比条件下可以准确检测出语音信号的端点，但在信噪比较低时其性能迅速下降，不适合在实际环境中应用。

四、基于信息熵的端点检测算法

由于上述端点检测算法是基于短时能量和过零率的，而这两个参数易受噪声影响，从而影响了端点检测的效果。

为此，Shen等人提出了基于信息熵的端点检测方法。

信息熵是对信号随机性的一种描述。

信号的随机性越高，信息熵越大。

由于噪声信号随机性较强，谱分布比较平坦，谱熵较大，而语音信号则相反，因此可利用其差异区分语音和噪声。

而且，从理论上来说，如果语音的谱分布保持不变，那么语音的谱熵就不会受能量幅值的影响，因此谱熵参数具有一定的抗噪声能力。

所以后来的许多学者都采用谱熵与其它语音特征参数相结合的方法进行端点检测。

一、Shannon熵

设信号x（n）的N点FFT为X（k），则其每个频率分量的归一化谱密度函数为

则x（n）的Shannon熵可表示为

二、Renyi熵

Renyi熵是Shannon熵的广义形式，它对谱窗的微小变化较为敏感，其定义如下：

与Shannon熵相比，Renyi熵可以更好的区分语音成分与非语音成分，这是因为参数α有效地削减了低能量在Renyi熵中的贡献，使其具有更强的区分性。

虽然谱熵参数对噪声具有一定的鲁棒性，但是语音信号每个频谱点上的幅度易受噪声的干扰，在更低的信噪比下该参数的性能会有所下降。

因此，实际中多以子带能量为单位计算谱熵。

研究研究证明，对大多数噪声而言，即使在信噪比很低的情况下，语音帧中仍然存在信噪比较高的子带，而噪声帧则不具备这个特点。

因此，以子带能量为单位计算谱熵不仅解决了单个频点易受噪声影响的问题，而且充分利用了受噪声影响不大的子带，具有更好的鲁棒性。

虽然基于子带能量的谱熵参数具有较强的抗噪声能力，但将它单独用于端点检测仍有一定的不足之处。

当噪声和语音的谱分布近似时，两者的谱熵值近似，此时谱熵参数不能可靠地检测到语音端点，需要对此算法进行修正。

基于能量-Renyi熵参数的端点检测

在上述算法的基础上，将短时能量和Renyi熵的结合能量-Renyi熵参数用于端点检测。

该参数既具有短时能量和RE参数的优点，同时又补偿了两者的缺点，而且包含了更多的信息，因此具有较好的性能。

能量-Renyi熵（ERE）参数的表达式可由下式来定义：

算法流程如下：

（1）由于语音信号的起始10帧可以看成是由纯噪声信号构成的，所以我们可以利用起始10帧来估计噪声信号的短时能量

，

语音信号的增强

人们在语音通信过程中不可避免的会受到来自周围环境和传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的干扰。

这些干扰最终将使接收者接收到的语音己非纯净的原始语音信号，而是受噪声污染的带噪语音信号。

若语音识别系统处在强噪声环境中，其识别率将会受到严重影响，以致无法工作。

因此，我们通常将语音增强作为一种预处理方式来抑制背景噪声，提高语音质量。

通过语音增强后，我们可以得到较为纯净的语音信号，可以极大地提高系统在噪声环境中的识别率。

因此，语音增强在说话人识别系统中起着举足轻重的作用，它是说话人识别系统走向实用的关键。

语音增强方法简述

一、噪声对消法

噪声对消法的基本原理是从带噪语音信号中直接减去噪声，它需要采集背景噪声作为参考信号（一般需要2个以上麦克风以便采集背景噪声数据）。

参考信号准确与否直接决定着噪声对消法的性能。

在采集背景噪声时，通常采用自适应滤波技术，这可以使参考信号尽可能接近带噪语音中的噪声分量。

二、谱减法

谱减法主要是对带噪语音信号进行傅里叶变换，在频域减去噪声的频谱。

主要有幅度谱减法，功率谱减法及增强型谱减法等。

谱减法因其简单有效而被认为是迄今为止最实用的语音增强算法而得到了广泛的应用。

它是从带噪语音频谱估值中减去噪声频谱估计，从而得到纯净语音的频谱。

设带噪语音模型为

x（n）=s（n）+d（n），则其频域表示为X（k）=S（k）+D（k），由假设可知，语音和噪声的频谱分量是统计独立的高斯随机变量，因此有：

由此可得原始语音频谱的估计值：

从式2-22中可以清楚地看出谱相减的物理意义：

它相当于对带噪语音的每一个频谱分量乘以一个系数Gk。

信噪比高时，含有语音的可能性大，衰减小。

反之，则认为含有语音的可能性小，衰减大。

该方法的缺点是增强后的语音中含有明显的音乐噪声，这是由频谱相减而产生的一种残留噪声，具有一定的节奏起伏感，故而得名音乐噪声。

音乐噪声产生的原因是因为在谱相减法过程中，由于对噪声的

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 语音识别

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：语音识别.docx
链接地址：https://www.bdocx.com/doc/23607588.html

语音识别.docx

热门标签