语音端点检测.docx
- 文档编号:25377733
- 上传时间:2023-06-07
- 格式:DOCX
- 页数:38
- 大小:605.03KB
语音端点检测.docx
《语音端点检测.docx》由会员分享,可在线阅读,更多相关《语音端点检测.docx(38页珍藏版)》请在冰豆网上搜索。
语音端点检测
第1章绪论
1.1课题背景
语音端点检测在语音识别中占有十分重要的地位。
语音信号处理中的端点检测技术,是指从包含语音的一段信号中确定出语音信号的起始点及结束点。
是进行其它语音信号处理(如语音识别、讲话人识别等)重要且关键的第一步。
进行有效的端点检测能够对语音信号更好的进行分析和训练,这样语音识别才能有好的识别率[1]。
实际运用中,通常要求首先对系统的输入信号进行判断,准确地找出语音信号的起始点和终止点。
这样才能采集真正的语音数据,减少数据量和运算量,并减少处理时间。
目前,语音技术正进入一个相对成熟点,很多厂商和研究机构有了语音技术在输入和控制上令人鼓舞的演示,输入的硬件和软件平台环境也日益向理想化迈进,但语音技术比起人类的听觉能力来还相差甚远,其应用也才刚刚开始,进一步规范和建设语音输入的硬件通道、软件基本引擎和平台,使语音技术能集成到需要语音功能的大量软件中去。
而且语音产业需要更加开放的环境,使有兴趣和实力的企业都能加入到这方面的研究和开发中,逐步改变。
随着声控电子产品的不断研发,语音识别技术在开发和研究上还有大量的工作需要做。
1.2语音端点检测现状
作为一个完整的语音识别系统,其最终实现及使用的效果不仅仅限于识别的算法,许多相关因素都直接影响着应用系统的成功与否。
语音识别的对象是语音信号,端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束。
一般的信号流都存在一定的背景声,而语音识别的模型都是基于语音信号训练的,语音信号和语音模型进行模式匹配才有意义。
因此从信号流中检测出语音信号是语音识别的必要的预处理过程[2]。
在识别系统中,语音端点检测可以大量减少信号传输量及识别器的运算负载,对于语音对话的实时识别有重要作用。
对非语音信号的识别不仅是一种资源浪费,而且有可能改变对话的状态,造成对用户的困扰。
在需要打断(barge-in)功能的系统中,语音的起始点是必须的。
在端点检测找到语音的起始点时,系统将停止提示音的播放。
完成打断功能。
随着语音识别应用的发展,越来越多系统将打断功能作为一种方便有效的应用模式,而打断功能又直接依赖端点检测。
端点检测对打断功能的影响发生在判断语音/非语音的过程出现错误时。
表现在过于敏感的端点检测产生的语音信号的误警将产生错误的打断。
例如,提示音被很强的背景噪音或其它人的讲话打断,是因为端点检测错误的将这些信号作为有效语音信号造成的。
反之,如果端点检测漏过了事实上的语音部分,而没有检测到语音。
系统会表现出没有反应,在用户讲话时还在播放提示音。
语音技术的应用己经成为一个具有竞争性的高新技术产业,它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。
语音处理内容涉及到计算机科学、模式识别、信号处理、生理学、语音学、心理学等学科,还涉及到信号和信息处理系统、通信和电子系统等具体应用领域。
多媒体技术的发展,使语音技术逐渐在越来越多的场合中推广使用,语音信号处理技术发展迅速,其研究成果具有重要的学术及应用价值,涉及一系列前沿课题。
语音信号处理与信息科学中最活跃的前沿科学密切联系,并且共同发展。
例如,神经网络理论、模糊集理论、小波理论是当前热门的研究领域,这些领域的研究常常把语音处理任务作为一个应用实例,而语音处理研究者也从这些领域的研究进展中找到突破口,使语音处理技术研究取得进展[3]。
从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。
经过几十年的努力,语音信号处理在语音识别、语音增强、语音编码、说话人识别、说话人情感识别、语音合成等方面取得了巨大的进步,然而,一旦这些技术应用在实际环境中,由于环境噪声、信道、说话人自身因素等方面的影响,性能急剧下降,因为在实际环境中没有完全纯净的语音信号,一般都会伴有噪声或其它干扰[4]。
例如,办公室环境下,电脑风扇转动的声音,键盘敲打的声音等都是噪声,而语音信号处理系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段。
语音端点检测的任务就是判断待处理信号是语音还是非语音,从输入信号中找到语音部分的起止点。
端点检测是语音识别、语音增强以及语音编码等中的一个重要环节。
有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续工作的性能得以较大提高[5],[6]。
随着越来越多的学者对语音端点检测技术的关注,大量的新的语音端点检测算法相继被提出,而基于同一种算法又有不同的方法。
例如对于熵值参数特征的检测算法,有基于信息熵[7][8]、基于自适应子带谱熵[9]、子带二次谱熵[10]、基于小波能量熵[11]、基于样本熵等的方法[12]。
信息愈来愈趋近多样化。
同样也有检测不同参数特征相结合来进行语音端点检测[13],比如倒谱的方法[14][15]和熵谱相结合而形成的算法[16]。
尽管算法和方法多种多样,都是为了更简便、更易于实现、运算量小、鲁棒性好等特点,并且对于不同的信噪比具有较好的效果。
1.3相关工作
随着生活品质的不断提高,对声控产品的要求越来越高。
基于语音端点检测的识别系统则有不可替代的作用,在不同的声控产品语音识别系统中,有效准确地确定语音段端点不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的性能。
通过大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足。
对于语音信号在低信噪比时的端点检测的研究有待进一步深入研究。
当前,语音端点检测技术还远滞于通信技术发展的脚步,在此领域还有很多问题需要研究。
对于强干扰非平稳噪声和快速变化的噪声环境,如何找到更好的端点检测方法是进一步研究的主要方向。
提取人耳听觉特性可以更加有效地区分语音和噪声,从而更加准确的检测语音端点。
预先未知噪声统计信息条件下的语音端点检测算法已经出现,但仍出去萌芽阶段。
虽然预先未知噪声统计信息条件下的端点检测是未来语音端点检测技术的发展方向,但在理论方法和技术参数等方面还有待进一步突破[17]。
根据语音信号的特点可以从两个大的方向入手。
一个是努力寻求新的特征参数,再一个是利用现有的特征参数进行多特征融合。
这两大问题将是以后研究的主要对象[18]。
1.4本文主要研究内容
第2章,简述了语音信号的一些基础知识,包括预处理、分帧、加窗。
分析了语音信号的时域和频域,介绍了几种语音端点检测算法,简述了我的实施方案
第三章,从每一种算法的方程式入手,以原理简便、运算量小等方面为标准,通过大量的文献调研与实际研究,本课主题要研究语音起点和终点的检测,以短时能量和短时过零率相结合的双门限语音端点检测算法以及倒谱分析和谱熵技术等进行语音端点检测,并分析各算法在低信噪比和高信噪比条件下的检测效果进行对比。
对这种信号进行Matlab进行编程,对于不同信噪比的声音片段,最后用前后的噪声信号进行对比以得出结论
第2章语音信号时频域分析及预处理
语音信号处理包括语音识别、语音合成、语音编码、说话人识别等方面,但是其前提和基础是对语音信号进行分析。
语音端点检测是语音识别系统的前期处理,而语音信号的分析则是语音端点检测的前期处理。
2.1语音信号简述
通过对于语音信号发声过程的研究以及观察记录的各种语言的各种语音波形,便可知语音信号的频谱分量主要集中在300~3400Hz的范围内。
如果用一个防混叠的带通滤波器将此范围的语音信号频谱分量取出,然后按8kHz采样率对语音信号进行采集,就可以得到离散时域的语音信号。
为了实现更高质量的语音,编译码器或者是语音识别系统得到更高的识别率,某些近代语音系统将此频率范围扩展到7~9kHz,相应的采样率也提高到15~20kHz。
语音信号的另一个重要特点是它的短时性。
在默写短时段中它呈现出随即噪声的特性,另一些短时段则呈现出周期信号的特征,其他一些是二者的混合。
简而言之,语音信号的特征是随时间变化而变化的。
只有在意短段时间间隔中,语音信号才保持相对稳定的特种,者短段时间一般可取为5~20ms。
因此,对于语音信号的分析和处理必须建立在短时的基础上,最重要的语音信号短时特征和短时参数包括他的短时能量、短时过零率、短时相关函数、短时频谱等。
语音信号的最基本组成单位是音素。
音素可分成浊音和清音两大类。
如果将不存在语音而只有背景噪声的情况成为“无声”,那么音素可分成“无声”、“浊音”和“清音”三类。
在短时分析的基础上可判断一短段语音属于哪一类。
如果是浊语音段,还可测定它的另一些重要参数,如基音和共振峰等。
2.2语音信号分析
语音信号处理包括语音识别、语音合成、语音编码、说话人识别等方面,但是其前提和基础是对语音信号进行分析。
只有将语音信号分析成表示其本质特性的参数,才有可能利用这些参数进行高效的语音通信,以及建立用于识别的模板或知识库。
而且,语音识别率的高低,语音合成的音质好坏,都取决于对语音信号分析的准确性和精度
2.2.1时域分析
语音信号本身就是时域信号,因此,时域分析方法是应用最为广泛的一种方法,这种方法直接利用语音信号的时域波形。
时域分析通常用于最基本的参数分析以及用于语音的分割、预处理等。
语音信号的时域参数有短时能量、短时平均幅度、短时过零率、短时自相关函数等,这些是语音信号中一组最基本的短时参数,在各种语音信号数字处理技术中都有重要应用。
进行语音信号分析时,最先接触到且最直观的就是它的时域波形。
时域分析通常用于最基本的参数分析,语音的分割、预处理和大分类。
这种分析方法的特点是:
表示语音信号比较直观、物理意义明确;实现起来比较简单、运算量少;可得到语音的一些重要参数;可采用示波器等通用设备进行观测等。
取样之后要对信号进行量化,而量化过程不可避免地会产生量化误差,即量化后的信号值与原信号之间的差值。
2.2.2频域分析
语音信号频域分析,主要是对一些频域的参数进行分析,常用的一些频域参数有频谱、功率谱、倒谱等等,最常用的频域分析方法有傅立叶变换法、线性预测法等。
2.2.2.1傅立叶变换法傅里叶频谱变换是语音信号频域分析中广泛使用的方法,是分析线性系统和平稳信号稳态特性强有力的手段,对分帧加窗后的语音信号,进行傅里叶变换和逆傅里叶变换,可以相应的得到频谱,功率谱,倒谱距离,嫡等特征。
由于语音信号的特性是随着时间缓慢变化,所以采用短时傅里叶变换,相应的求得特征为短时频域特征,这里的窗函数都使用汉明窗。
(1)短时频谱和短时功率谱设信号
经过傅里叶变换后在频域记为
,则
与
的关系如公式:
(2-1)
语音的频谱为
的幅度,则有:
(2-2)
语音的短时功率谱的是幅度的平方,其公式为:
(2-3)
(2)倒谱距离语音信号的倒谱分析是通过同态处理来实现的。
同态信号处理也称为同态滤波,就是将非线性问题转化为线性问题的处理方法。
由于语音信号可视为声门激励信号和声道冲击响应的卷积,可以对语音信号进行解卷。
倒谱能很好表示语音的特征,在强噪声环境下,可通过倒谱系数求得倒谱距离,使用倒谱距离来作为端点检测的特征。
信号的倒谱也可以定义为信号的能量谱密度函数S(叻的对数的傅里叶级数展开式的系数,见式2-4:
(2-4)
即为倒谱系数,通过倒谱系数求得倒谱距离几
为
(2-5)
(3)熵熵(用
表示)是物质的复杂程度的一种反映。
熵
代表
的信息量,当
的分布概率相等时,熵取最大值,也就是说,
的概率分布越模糊,越难判断,
值也越大设
是取有限个值的随机变量则
取
的概率函数表示为:
(2-6)
则
的熵为:
(2-7)
2.2.2.2线性预测法线性预测分析的基本思想是:
由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。
通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。
而这组预测系数就反映了语音信号的特征,可以作为语音信号特征参数用与语音识别、语音合成等。
将线性预测应用与语音信号处理,不仅是因为它的预测功能,而且更重要的是因为它能提供一个非常好的声道模型及模型参数估计方法。
线性预测的基本原理和语音信号数字模型密切相关。
2.3语音信号分析处理
为了消除因为人类发声器官本身和因一些采集语音信号的设备等所引起的混叠、高次谐波失真现象,在对语音信号进行分析和处理之前,必须对其进行预处理。
语音信号的预处理应尽可能地保证处理后得到的信号更均匀、平滑,且能提高语音的质量。
2.3.1预加重
在进行语音信号数字处理时,为了获取一段语音信号的时域波形,首先要将语音信号转换成电信号,再用A/D转换器将其变换为离散的数字化采样信号。
己经数字化的语音信号将依次进入一个数据区。
由于语音信号的平均功率受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,即6dB/oct(2倍频)或20dB/dec(10倍频),所以求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重处理。
目的是提升高频部分,使信号变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,而且预加重零点与辐射零点将抵消声门波的影响,使语音信号中只包含声道部分,以便于频谱分析或声道参数分析。
如图2.1
语音信号
图2.1语音信号的预处理
预加重一般是在语音信号数字化之后,用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器:
(2-8)
式中
的取值接近于1。
有时要恢复原信号,需要从做过预加重的信号频谱来求实际的频谱时,要对测量值进行去加重处理,即加上6dB/倍频程的下降的频率特性来还原成原来的特性。
2.3.2加窗分帧
语音端点检测首先要进行分帧处理,然后依次判断每一帧是否为语音的端点。
在端点检测时如果采用较大的窗长,则帧长长,帧数少,这样计算量会小些,而且进行端点检测时速度也会快些,但是这样端点检测的误差容易增加。
如果采用较小的窗长,则计算量增加,语音识别的速度会降低。
我们可以在语音静音段时,采用较长的窗;在语音和静音的过渡段时采用较小的窗,可以确切判断语音的起始点;一旦确定语音的起点,就改用常规窗长。
在进行了预加重后,接下来就要对语音信号进行加窗分帧处理。
将语音信号划分为许多短时的语音段,每个短时的语音段称为一个分析帧。
帧和帧之间既可以连续,也可以重叠。
另外,由于不同语音信号的基音周期不同,在女性儿童的2ms到老年男子的14ms之间变化,为了兼顾男声和女声的最高和最低基音频率,且能准确地描述语音能量自身的实际变化规律,通常将窗宽选为10ms~20ms。
分帧一般采用交叠分段的方法,这是为了使帧与帧之间能平滑过渡,保持其连续性。
前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0~0.5之间。
分帧是用可移动的有限窗口长度进行加权实现的,即用窗函数
乘以语音信号s(n),从而形成加窗的语音信号:
(2-9)
由于窗函数一般取为S(n)中间大两头小的光滑函数,这样的冲激响应所对应的滤波器具有低通特性,其带宽和频率取决于窗函数的选取。
用得最多的三种窗函数是矩形窗、汉明窗(Hamming)和汉宁窗(Hanning),它们的定义如下:
矩形窗:
(2-10)
汉明窗:
(2-11)
汉宁窗:
(2-12)
式中N为窗长,窗函数
的选取(形状和长度)对于短时分析参数的特性影响很大,为此应该选择合适的窗口,使其短时参数能更好地反映语音信号的特性变化。
2.4本章小结
本章分析了语音信号的时域和频域的一些特征,并列举了语音的几个特征参数,如熵、短时能量、倒谱特征等。
介绍了语音信号前期处理的两个步骤:
预加重、加窗分帧。
有时要恢复原信号,需要从做过预加重的信号频谱来求实际的频谱时,要对测量值进行去加重处理,即加上6dB/倍频程的下降的频率特性来还原成原来的特性。
语音信号时时域信号,分帧则有助于计算语音信号的各个参数特征,是进行语音端点检测比不可少的步骤。
第3章语音端点检测算法研究
本章将重点介绍语音端点检测的原理,本章还对语音端点检测算法的进一步研究,列举了三种不同的语音端点检测算法,并对每一种语音端点检测算法进行了实验仿真,最后对各种算法优缺点进行了比较。
3.1语音端点检测
3.1.1简述
语音端点检测是语音识别中的一个重要步骤,所谓端点检测就是将输入的语音信号从背景噪声和环境噪声中准确地判断出语音信号中各种段落的开始点和结束点。
理想的端点检测算法应当具有以下几个特征:
可靠性、鲁棒性、精确性、自适应性、实时性和对噪声特征无需先验知识。
在语音识别系统中,正确、有效地进行端点检测不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别的正确率。
研究表明,即使是在安静的环境下,语音识别系统一半以上的错误可能主要来自端点检测。
除此之外,在语音合成、编码等系统中,高效的端点检测也直接影响甚至决定着系统的主要性能。
因此,端点检测的效率、质量在语音处理系统中显得至关重要,广泛开展端点检测实现手段方面的研究,有一定的现实意义。
3.1.2语音端点检测原理
语音端点检测本质上是通过语音和噪声对于相同参数所表现出的不同特征来区分两者的,。
其中预处理通常包括分帧和预滤波等。
分帧是指将语音信号分段(称为语音帧,各帧通常是有交叠的),预滤波一般是指采用高通滤波器滤除低频噪声;参数提取是指选取可以反映语音和噪声差别的特征参数;端点判决是指采用一种判决准则(如门限判决或模式分类等)来区分语音帧与非语音帧;后处理是指对上述判决结果进行平滑滤波等处理,得到最终的语音端点判决结果。
在语音端点检测的流程中,参数提取和端点判决是两个关键步骤。
参数提取是指选取能够反映语音和噪声差别的特征参数,是以语音和噪声的特性为基础。
语音信号是一种典型的非平稳信号。
但是,语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度要缓慢得多,因此语音信号常常可假定为短时平稳的。
语音可粗略分为清音和浊音两大类。
浊音在时域上呈现出明显的周期性,在频域上出现共振峰,而且能量大部分集中在较低频段内。
但清音段相对于很大一类噪声没有明显的时域和频域特征,类似于白噪声。
在语音端点检测算法研究中,可利用浊音的周期性特征,而清音则难以与宽带噪声区分。
语音端点检测流程如图3-1所示:
信号输入
是
结果输出
图3-1语音端点检测流程图
噪声来源于实际的应用环境,因而其特性变化无穷。
混入语音中的噪声可以是加性的,也可以是非加性的。
考虑到加性噪声更普遍且易于分析问题,并且对于非加性噪声,有些可以通过一定变换转换为加性噪声,因此几乎所有研究语音端点检测技术的学者都是针对加性噪声展开研究的。
端点判决通常是通过门限判决的方式实现的,即设定一定的判决门限,当所提参数大于(小于)该门限时认为是语音,而小于(大于)该门限时认为是噪声。
语音端点的判决方式最初是单一门限和双门限的形式,随后又逐步发展为基于模糊逻辑和模式分类的判决方式。
一种好的语音端点检测算法通常应具备以下四个特征:
(1)语音端点判决的准确率高,尤其强调对于清音段端点的正确判决;
(2)检测算法必须具有对绝大多数噪声的鲁棒性,抗干扰能力强;
(2)判决准则应具有自适应性,而不是简单的固定门限判决;
(4)检测算法应较简单,且运算量较小,易于硬件实现。
以上特征分别是从语音端点检测的准确性、稳定性、自适应性和运算量上对算法提出要求。
3.1.3语音端点检测算法及实施方案
语音端点检测算法是各种技术的大融合,到目前为止还没有统一的分类方法。
一般可以按照应用的范围分类,也可以按照所使用的特征参数或判决准则分类。
按照所采用的特征参数或判决准则的不同,本文将语音端点检测算法分为以下几类:
(1)时域参数方法主要是指基于短时能量和过零率、短时自相关及一些其他时域参数(如对数能量、绝对值能量、最小均方参数等)的方法。
此外,基于几何自适应门限和基于Sigma函数旧。
的方法也归入这一类。
(2)变换域参数方法包括基于频域参数、时频域参数及小波域参数的方法。
此外,还包括一些基于Walsh谱能量分布和Hilbert-Huang变换的检测方法。
(3)距离和失真测度方法包括基于LPC距离、倒谱距离、Kullbaek.Leible距离及长时谱差异旧的方法等。
(4)信息论方法主要是指基于熵函数的检测算法和基于信号编码理论的检测算法。
(5)人工神经网络方法包括基于前馈网络、自组织和循环自组织模糊推理神经网络、径向基函数网络、多层感知器网络、自适应线性神经元网络等的方法。
(6)统计模型和模式分类方法主要是指基于HMM模型、Laplacian模型和Bayesian模型的方法。
此外,还有一些基于多统计模型、似然检验(1ikelihoodratioteat,LRT)、模式识别、模糊逻辑及高阶累计量旧的方法。
短时能量和过零率相结合的方法常用于高信噪比下,而现实生活中的语音信号常为低信噪比。
谱熵的大小取决于功率谱的方差而不是其大小,如果谱的分布保持不变,信号幅值的大小不会影响归一化谱概率密度函数,因而谱熵对于噪声有一定的鲁棒性。
倒谱能很好表示语音的特征,在强噪声环境下,常常采用倒谱系数来作为端点检测的特征量。
因此在低信噪比下选择熵值或者倒谱特征参数来进行语音端点检测。
本文拟用短时能量和过零率相结合的方法检测高信噪比,熵谱和倒谱系数来检测低信噪比。
流程图如图3-2所示:
高信噪比低信噪比
图3-2算法研究流程图
3.2基于短时能量和短时过零率的语音端点检测
传统的短时能量和过零率相结合的语音端点检测算法利用短时过零率来检测清音.用短时能量来检测浊音,两者相配合便实现了信号信噪比较大情况下的端点检测。
算法对于输入信号的检测过程可分为短时能量检测和短时过零率检测两个部分。
算法以短时能量检测为主,短时过零率检测为辅。
根据语音的统计特性,可以把语音段分为清音、浊音以及静音(包括背景噪声)三种。
在本算法中,短时能量检测可以较好地区分出浊音和静音。
对于清音,由于其能量较小,在短时能量检测中会因为低于能量门限而被误判为静音;短时过零率则可以从语音中区分出静音和清音。
将两种检测结合起来,就可以检测出语音段(清音和浊音)及静音段
3.2.1短时平均能量
语音和噪声的主要区别在它们的能量上,所以能量是经常使用的音频特征参数,是对语音信号最直观的表示。
语音信号一般可分为无声段(静音段)、清音段和浊音段。
由于语音是不稳定的,所以我们采用“短时能量”。
所谓短时能量,就是先对语音信号进行分帧处理,然后对每一帧分别求其能量。
短时能量是随机参数,在无声段,清音段和浊音段,它们分别具有不同的概率密度函数。
浊音的短时能量最大,清音的短时能量次之,无声的短时能量最小。
n时刻某语音信号{x(n)}的短时平均能量定义为:
(3-1)
式中,
为汉明窗。
令
,则有:
(3-2)
式中,
为可移动的有限长度的窗函数,用来实现分帧处理,是低通滤波器的单位冲激响应。
上式表明,经过窗口加权的短时能量相当于将“语音平方”信号通过一个线性滤波器的输出,这个滤波器的取样响应为
。
短时能量函数可用来区分清音段和浊音段。
值大的对应于浊音段,而
值小的对应于清音段。
对于高信噪比的语音信号,无语音信号的噪声能量
很小,而
语音信号的能量显著增大到某一数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 端点 检测