书签分享收藏举报版权申诉 / 32

立即下载加入VIP,免费下载

当前位置：首页 > 总结汇报 > 工作总结汇报 > 基于时域特征的语音自动分割算法实现本科本科毕业论文.docx

基于时域特征的语音自动分割算法实现本科本科毕业论文.docx

文档编号：29015187
上传时间：2023-07-20
格式：DOCX
页数：32
大小：450.63KB

《基于时域特征的语音自动分割算法实现本科本科毕业论文.docx》由会员分享，可在线阅读，更多相关《基于时域特征的语音自动分割算法实现本科本科毕业论文.docx（32页珍藏版）》请在冰豆网上搜索。

基于时域特征的语音自动分割算法实现本科本科毕业论文.docx

基于时域特征的语音自动分割算法实现本科本科毕业论文

1引言

众所周知，语言是人们之间彼此交流沟通的最方便最快捷的手段之一。

在如今这个信息时代中用数字化的方式来实施语音的传输、储存、识别、合成、增强是整个数字通信系统中最为关键的要素之一[1]。

连续语音的自动分割是我们在进行语音信号处理的过程中遇到的首个需要解决的复杂难点。

之所以要进行语音的自动分割，就是为了减少语音识别的计算量并提高语音识别系统的识别精度。

我们在对语音进行过分割之后就可以将语音段和噪声段分离开来，这样后续再进行语音识别的时候识别系统只需要对语音段进行检测。

如果语音自动分割出现错误，那么语音信号的识别也就无法实现。

这在许多语音处理领域中是一个十分基本的问题。

特别是在进行独立的单个文字自动识别的时候，能否准确的找到每个单字的语音信号范围，以及能否将声母、韵母分割开都是十分重要的。

语音信号分割的准确与否对于一个完整的语音识别系统具有重要意义，不仅算法会影响其最终实现和使用效果，最终结果在很大程度上受外界环境的影响是非常大的。

因为输入信号的时候基本不可能是纯粹的语音输入，多多少少都会带有一定的背景噪声。

研究人员通过实验对比发现，语音自动分割的准确性会直接影响到语音识别的结果，因为如果分割算法对于语音和噪声的判断出现错误那么之后对所谓语音段进行的识别也就变得毫无意义。

因此一个优秀的语音自动分割结果就意味着语音识别过程的一个好的开始。

进行自动分割为了达成的目的就是，在各种各样的应用环境下的信号流中将人声段和噪声段分开，并进一步确定语音信号的起始点及结束点[2]。

1948年香农（C.E.Shannon）把关于熵的概念引入到信息论中，把熵看作是一个随机事件的不确定性的度量[3]。

熵的大小和一个系统的有序度直接相关，有序度越高，熵就越低；反之，一个系统随机性越高，其熵就越高。

本课题是要提出一种相对简便并具有一定准确率的语音自动分割算法。

综合对比各类算法后决定采用一种子带谱熵的改良算法来进行语音分割。

算法的总体流程主要包括输入语音文件、进行预处理、选择合适参数、分析确定阈值、检测语音信号端点。

该算法在传统谱熵法的基础上进行了改进，提出了一些经验性的约束，设定了归一化谱概率密度的上限，并引入了子带谱熵的思想从而进一步提高了语音自动分割的准确性[12]。

2概述

2.1课题背景

语音自动分割技术在语音识别系统中占有重要地位，是整个系统的重要组成部分。

所谓语音自动分割技术，就是通过计算机的智能识别将人说话的音节部分和说话人所处的背景噪声相分离，从而为下一步进行的语音识别打好基础。

如果对于语音的分割不准确，语音信号识别就会因为音节错误而无法实现或出现大量错误。

在实际工程应用中，我们需要在进行语音内容识别之前先对输入系统的连续语音信号进行预处理，将每个音节的起始点和终止点划分出来。

这样识别系统才能有效的针对每个音节分别进行识别操作，不会盲目识别噪声信号的内容，使得语音识别系统能够尽可能的做到对语音信号实时、准确的判断。

随着数字信号处理技术和计算机性能的不断发展，一些具有自适应、人工智能特性的语音识别系统已经可以在不是特别复杂的环境下对语音信号做出较为精确的判断。

随着市场需求的不断增加，各研发机构在相关硬件和软件配套设施的投入上越来越大，各类高鲁棒性的新型算法正不断走进我们的日常生活。

虽然我们在日常使用中会发现内置于各类终端中的语音识别功能并不是十分好用，很多时候都会出现错误，但我们仍然应该对语音识别技术为我们生活提供的方便表示感谢，并对该领域技术的发展持有乐观态度。

语音识别技术的市场应用还处于初期阶段，为了使该技术的市场化应用更为便利，目前需要为语音输入通道硬件和软件的基本引擎和平台建立相应的规范和标准，这样一来语音识别技术就可以通过统一规范的结构集成到各种各样需要语音功能的软件、操作系统中去，从而改变电子产品传统的人机交互模式，实现大量的语音控制。

随着语音电子产品的不断发展，语音识别技术为了适应市场的现实需求，其在研究和开发中还有着大量的工作要做。

2.2语音信号简述

通过对人们讲话语音在时域和频域两个方面进行研究分析，发现无论人们的年龄处于哪个阶段，语音的频率分布都是相对密集的，大部分都集中分布在300~3400Hz的频率范围内。

基于这一特征，研究人员可以在对语音进行识别之前先将其通过一个带通滤波器，将处于300~3400Hz的语音信号分离出来得到所需要的频谱，这样的初步筛选将有利于提高语音自动分割算法和语音识别系统的准确性以及运行效率。

然后我们需要对选定频谱范围内的连续语音信号进行采样，使其变成计算机能够处理的离散时域的语音信号，采样率通常取8kHz左右，也可以根据具体情况进行相应的调节。

当实验或应用对采样出来的信号有更为苛刻的要求时，我们就可以通过提高语音信号的采样率或者扩大语音信号的采样范围等手段提供更为精确、更为全面的采样结果。

由于为了适应实际应用的要求，实现在低信噪比条件下的准确语音自动分割，现在的语音自动分割算法多采用自适应的采样率而不再是传统的系统指定的采样率。

由于人体的发声特性使得语音信号是一个非稳态的、时变的信号。

众所周知，计算机和人耳不同，对于这类信号是无法进行处理的，研究人员为了解决这个问题就发现了可以利用“短时特性”来进行语音信号处理。

所谓短时特性之所以存在就是因为人的口腔在发出各种声音的时候需要进行缓慢的肌肉运动，和肌肉运动的时间相比几十毫秒就相当于是一个短时间，在这个短时间内我们就可以认为语音信号是稳定的、时不变的。

语音信号必须要保持它的短时特点才能进行语音信号处理，所有的语音信号处理系统都是根据这种短时特性开发出来的。

根据这种短时特性就相应的产生了一系列的语音信号处理的参数，如短时能量、短时过零率、短时频谱以及短时自相关函数等，根据这些参数我们才能对语音信号实施有效的处理。

对整段信号进行分帧处理后我们就可以得到这些短时参数特征，整个信号中的每一段叫作“一帧”，帧长一般取10~30ms，通常情况下我们可以将这段短时间内的语音信号看作是相对平稳的。

这样一来从整个语音的角度来看，每一帧的特征参数就共同组合成了特征参数的时间序列。

从另一个方面看，语音信号另有一个相对较为简单的分类方式，就是根据人们发声的音素进行分类。

根据这种分类方法，无论语音的发声者使用何种语言、带有何种音调，从声学上来看都可以按照清音和浊音来进行分类。

我们对这两种类型语音的短时特性进行分析就可以发现这种分类方式的依据。

清音的短时能量要远高于浊音，浊音的短时过零率则远高于清音。

在进行语音自动分割时，噪声一般具有较小的能量和较低的过零率，我们只需要结合这两个参数就可以在信噪比条件不是很差的条件下对语音信号做出较为准确的分割。

2.3语音自动分割现状

对语音自动分割算法的研究最初能够上溯到上世纪50年代。

那个时候为了能够将语音段和噪声段区分开来，从而实现一个实时语音翻译系统，该算法应运而生，并把该算法定名为VAD（voiceActivityDetection），指的是将语音段和背景噪声段分离开来的处理过程[16]。

要想实现一次高准确性、高可靠性的语音自动分割或者语音识别，影响其结果的因素不仅仅局限于所采用的算法。

除了语音识别外，还有语音自动分割，他们对于大部分整体系统最终结果的影响都是非常大的。

语音识别以及语音自动分割应用的领域是很广的，除了用于实验、商业还有一些高精度的检测或者识别需要用到他们，在识别过程中产生的一些误差也许对于实验的影响不是很大，但是对于那些要求很高的高精度检测来说这些误差将是不能接受的。

为了实现高精度的检测，我们需要根据识别系统对性能要求的不同而采用专门的算法，否则语音识别的准确性将无法得到保证[5]。

在21世纪，电子信息技术伴随着摩尔定律飞速发展，各类语音数字信号处理技术也取得了日新月异的成就，尤其是语音识别技术在手机和电脑上的应用实践最为出众，让人们真正体会到了科学技术的进步为生活带来的便利。

但是，由于人们的语音输入经常伴有较大的背景噪音，在这些噪声的干扰下语音识别的准确性就会大大降低，在一些专业领域的语音识别同样面临着严峻的问题。

而语音信号处理是为了识别纯净的人声设计出来的，或者通过各种手段将没有用处的噪声信号去除。

为了实现这一目标，语音自动分割技术就是一个有效的手段。

语音自动分割就是指通过设计好的算法，将一段连续的语音信号分割为有用的语音（人声等）和无用的噪声，并且将每个语音音节的起始点和终止点进行标记处理。

语音自动分割是各类语音信号处理的应用中不可缺少的环节。

一段混杂着噪声的语音信号经过自动分割以后会极大的改善识别系统的整体性能和识别精度[6]。

随着应用前景的日渐广阔，语音自动分割技术已经日益成为众多学者研究的热点方向，研究人员提出了很多新型语音自动分割算法，如：

基于混淆网络、基于仿生识别、基于短时分形维数、基于神经网络等的算法。

不仅有许多新型、先进的分割算法，而且每种算法的具体实现也是多种多样的。

2.4本文内容和章节安排

论文要做的内容主要是综合评估了各种语音分割算法的优缺点后，采用改进后的谱熵法来进行语音信号自动分割。

算法分析语音的时频域特性，选取合适的参数，计算出当前语音文件的参数值，再用合适的算法确定阈值，最后实现语音自动分割。

第1章引言主要介绍语音自动分割算法的概况。

第2章简要概述了语音自动分割算法的课题背景、研究现状等。

第3章语音信号的基本处理方法和经典语音自动分割算法。

前者从时域和频域两个角度介绍了语音信号分析的基本模式。

后者详细分析、介绍了几种具代表性的语音自动分割算法。

第4章基于语音熵的自动分割方法的分析与研究深入介绍了熵的概念以及谱熵法在语音自动分割中的应用，并最终确定了本文的语音分割方案。

第5章算法实现与仿真主要介绍了算法的具体实现过程以及仿真结果。

第6章结论主要是对实验结果的总结分析以及对算法发展的展望。

3经典语音自动分割算法

所谓语音自动分割就是在一段连续语音中，把有用的语音音节和构成干扰的背景噪声区分开来，明确每个音节的起始点和终止点。

随着语音信号处理技术的不断发展，语音自动分割方法越来越多，每种算法都有各自的特点和应用场景。

比较经典的语音自动分割算法包括短时能量检测法、自相关函数法、倒谱距离检测法等。

本章将对各类算法进行详细的分析总结，进而引出一种鲁棒性较好的语音自动分割算法。

3.1语音信号的时域分析

语音信号是时域信号，时域在对语音信号进行分析时是最直观的，通常来说语音信号处理的仿真结果都是以时间为横坐标的。

所谓时域分析一般就是指基于短时能量、短时过零率、短时功率谱等参数，来对语音信号进行相应的分析。

通过对这些短时参数的提取、利用，我们就能够实现语音信号的时域分析。

再对任何一种数字信号进行分析处理时，时域波形总是我们最早了解到的而且是最直观的语音状态描述。

时域分析方法的特点有：

（1）能够直接观察语音信号的波形；

（2）不需要进行复杂的计算就能够实现；（3）能获得重要的短时特征；（4）信号特征能够直观体现出来，减小理解难度。

3.1.1连续信号数字化

语音信号之所以要进行预滤波的主要原因有二：

（1）抑制系统输入的语音信号中高于二分之一采样频率fs的频域分量；

（2）抑制50Hz的电源工频干扰。

因此只有带通滤波器才能符合预滤波器的使用要求。

设其上截止频率为fh，下截止频率为fl。

一般情况下，众多语音编译码器上截止频率和下截止频率都设定为

=3400Hz、

=60~100Hz、采样率为

=8kHz。

而对于语音识别系统来说，当应用的场景不一样的时候，选用的参数也是不同的。

当用于电话用户时，指标通常采用fh=3400Hz、fl=60~100Hz、采样率为fs=8kHz。

当用于对语音识别系统要求很高的场所时，通常就要采用更狂的频谱范围、更高的采样率。

语音信号通过预处理之后就会转化为二进制数字码。

模拟信号需要通过采样量化转化为数字信号，在这个过程中，由于量化过程的基本原理导致其必然会有一定的误差出现。

当语音信号波形的变化幅度特别大或者量化间隔Δ特别小时，可以发现量化噪声与输入信号是不存在相关关系的，根据这个特点就可以实现相关法的语音自动分割。

数模变换又可以称作数字化的反过程，他的核心意思就是指从已经进行过数字化的语音信号中重新构建起模拟的语音信号波形。

在进行了A/D、D/A转换之后语音信号会产生高次谐波失真，为了有效地避免这种情况的发生，我们必须在数模转换之后加一个平滑滤波器。

这个平滑滤波器将对语音波形的高次谐波起到平滑作用，从而有效消除高次谐波失真。

3.1.2预加重处理

根据人的发声原理可以得知，声门激励和口鼻辐射等因素都将对语音信号的平均功率谱产生较为明显的影响。

这种影响主要体现在，输入的语音信号会因此在高频端产生较为严重信号衰减，这就有可能导致信号高频端的信噪比居高不下，不能满足语音信号识别的要求，与低频段产生鲜明的对比。

当衰减到达一定程度时就会出现高频部分的语音频谱求不出来的问题。

怎么才能减小高频端的信号低落程度，或者能够通过某种方式抵消信号衰减带来的影响成为了研究人员需要解决的问题。

目前，较为行之有效的一种方式就是对语音信号进行预加重处理。

预加重成功的利用语音信号与噪声信号具有不同特性的特点，对输入信号高于800Hz的高频分量进行人为的加重处理。

这样一来高频部分的信噪比就会得到相应的提高，使其满足系统要求，这样将有助于之后进行的频谱分析或声道参数分析过程。

在进行预加重的同时，为了有效地提高语音信号信噪比，压缩信号的动态范围，我们可以在语音信号数字化时在反混叠滤波器之前进行预加重处理。

但大多数情况下，预加重处理是放在语音信号数字化之后进行，

常有6dB/

器[6]：

（3-1）

式中μ值接近于1[9]。

在进行信号处理的过程中，我们不仅需要对信号进行预加重处理，很多时候我们也需要将信号恢复成原始信号，这个时候就要使用去加重。

去加重技术的思想和预加重基本相同，只不过实现方式不同。

3.1.3分帧加窗处理

对语音信号实施过预加重之后，下一步就是要对其实施分帧加窗处理。

通过实验，我们发现语音信号在30~100ms的范围内，其频谱特征以及一些物理特征基本保持不变。

为了方便计算机的处理，只要将语音信号按此长度进行分帧处理，就可以将平稳过程的处理方法和理论引入到语音短时处理中。

在进行分帧处理时，如果帧与帧之间是连续分段的，则有可能发生帧与帧之间的信号发生突变的情况，为了避免这种情况的发生，在分帧时通常使用如图3.1所示的交叠分段法。

图3.1中两帧之间的重叠部分称为帧移。

我们大多数情况下都将帧移与帧长的比设为0~1/2。

所谓分帧其实就是用选定的窗函数

乘以

，类似于一个滤波器，在窗以外的语音信号都会被抑制掉，只有窗内的信号可以通过，这样就得到了加窗语音信号

。

图3.1帧长与帧移的示例

矩形窗和海明窗是我们经常使用的两种窗函数，它们的表达式如式（3-2）、（3-3）所示：

矩形窗：

（3-2）

海明窗：

（3-3）

其中N为帧长。

我们对语音信号进行加窗分帧处理就是为了得到对之后的语音识别有用的各项短时参数，短时参数会受到多方面因素的影响，窗函数的选择是否正确就是其中的一个重要因素。

为了解决这个问题，我们接下来就从窗函数的形状和长度来仔细讨论这个问题。

1．窗口形状

通常情况下，窗函数应该能够尽量减小语音帧的截断效应（波形峰起值趋于总跳变值的9%），为了实现这一目标我们需要尽量减小时间窗两端的坡度；在频域上3dB带宽要尽量宽，而边带最大值则要做的尽量小。

虽然基于时域、频域、倒谱域等不同的短时分析方法对于窗函数的要求各有不同，但该标准还是适用于大多数一般情况的。

本文只以最为典型的矩形窗和海明窗（Hamming）为例进行比较：

矩形窗：

（3-4）

数字滤波器的频率响应为：

（3-5）

它具有线性的相位，其频率响应为：

（3-6）

这里，fs为采样频率，

为采样周期。

海明窗：

（3-7）

通过窗函数可以发现海明窗频率响应

的带宽以及通带外衰减都远大于矩形窗。

矩形窗与海明窗的对比见表3.1中。

表3.1矩形窗与海明窗的对比

窗函数类型

旁瓣峰值

主瓣宽度

最小阻带衰减

矩形窗

-13

4π/N

-21

海明窗

-41

8π/N

-53

2．窗口长度

频率分辨率Δ

可表示为：

（3-8）

式（3-8）中，

为采样周期（采样频率的倒数），N为窗长。

通过式（3-8）可知，在采样周期一定的情况下，频率分辨率与窗口宽度成反比例，当窗口宽度N增加时频率分辨率Δ

会随之减小；由此可见这两者之间是矛盾的，如果窗口取得短，则Δ

会减小，而时间分辨率则会提高。

所以需要根据实际应用场景来进行衡量，因此，窗口的长度选择应合适。

而有时基音周期也会对窗口长度的选择产生至关重要的影响。

语音信号的数字化和预处理过程对于整个系统来说是十分关键的一个环节，正因为如此在对一整个系统进行性能评定的时候，必须要详细交代系统的采样频率、精度、预加重方法、窗函数、帧长以及帧移等语音参数。

综上所述，通过对以上处理过程的详细介绍，语音信号就从一整段连续的信号被分割为以帧为单位的短时信号了，之后再将每个短时语音帧看成是近似平稳的随机信号，再来提取出其中的语音特征参数。

在处理过程中，将以帧为单位从整段数据中逐帧取出数据，逐帧处理，全部帧都处理完成后进行汇总[9]。

3.2语音信号的频域分析

频域分析是从另一个方面对信号进行分析，虽然频域分析方法没有时域分析形象、直观，但它却有着更为简练、剖析问题更加深刻等时域分析无法比拟的优势。

两者共同组成了语音信号分析。

目前，

。

然而，它们是互相联系，缺一不可，相辅相成的。

3.2.1傅立叶变换法

傅里叶变换（FourierTransform,FT）不仅仅在数学上广泛应用，同时也应用于工学的各个领域，语音信号频域分析就是其中之一，是对线性系统进行分析时最有效的手段。

要想得到语音信号相应的功率谱、频谱、倒谱距离、谱熵等特征，我们可以将加窗分帧后的语音信号做傅氏变变换再做傅氏反变换。

如上文所述，因为语音信号的特性是时变的，为了便于计算机处理所以采用短时傅氏变换，由此得出的为短时频域特征，窗函数均选取Hamming。

（1）短时频谱和短时功率谱假设信号

经傅氏变换后在频域记为

，则

与

的关系如公式（4-1）：

（3-9）

语音的频谱为

的幅度，则有：

（3-10）

语音信号的短时功率谱取值实际上就是幅度的平方，公式为：

（3-11）

（2）倒谱距离在低信噪比条件下，可以使用倒谱系数求得倒谱距离，并以此为参数进行语音自动分割。

语音信号的倒谱可定义为：

（3-12）

为语音信号能量谱密度函数，

为倒谱系数，通过

可得到倒谱距离

为：

（3-13）

（3）熵熵是一个用来描述物质的概率程度的物理量。

熵

是用来表示

的信息量的，当

的分布概率相同时，熵取最大值，也就是说，

的随机性越高，其所包含的信息量就越大，熵值越高。

取

的概率函数可以表示为：

（3-14）

则

的熵为：

（3-15）

3.2.2线性预测法

由于语音信号各个样点之间存在着一定的联系，所以在进行信号分帧采样之后，我们可以根据样点之间的联系预测当前帧或者之后几帧的样点值。

也就是说可以通过线性组合用先前帧的参数值近似估计出后面帧的采样值。

语音信号前后帧之间的联系可以总结为一组参数特征，而噪声信号则因为前后不存在相关性所以没有这种参数特征。

这样一来我们就找到了语音段和噪声段之间的区别，这种区别能够为后续的语音信号处理工作提供相关依据。

线性预测分析的重要性不是其预测功能，而是它能够提供一组简洁的语音信号模型参数。

该方法的有效运用能够提高语音识别率并减少计算时间。

3.3经典语音自动分割算法的分析

所谓的语音自动分割，就是讲人说话的有用的语音信号段从带有背景噪声的整段音频信号中分离出来，将语音段和噪声段通过算法自动分离。

目前这种自动分割技术的准确性还会受到很多因素的影响，分割效果普遍没有人工分割准确，但这种技术有巨大的市场需求，随着相关领域的研发投入日益加大，各类能够在低信噪比条件下对语音进行准确分割的新型算法不断涌现。

不过这些算法还是以最为经典的语音自动分割算法为基础发展而来的，本章就先来详细介绍一下包括短时能量、短时过零率、倒谱距离在内的几种经典算法。

在下一章则会对MATLAB仿真实验所采用的改进后的谱熵法做详细介绍。

3.3.1语音自动分割

（1）简述

可靠性、自适应性、实时性、鲁棒性和精确性是有效的自动分割算法应当具备的几个基本要素。

当语音音节端点被准确的检测出来以后，才有可能实现语音识别系统的基本功能，实现高效、准确的语音识别，还能够减小系统计算量，排除无声段干扰。

实验发现，无论在什么环境下，语音端点分割错误都会对整体的语音识别准确性产生巨大的影响。

不仅如此，在语音合成、编码等各种各样的语音信号处理系统中，语音自动分割算法的准确性、鲁棒性等性能指标都对整体系统发挥着至关重要的作用，因此不断研究语音自动分割算法并对其进行改进具有重大意义。

（2）语音自动分割原理

语音自动分割所依据的原理就是：

通过对各种特征参数的提取可以发现，语音段和噪声段的参数值具有一定的差异，越为优秀的算法其两部分特征参数所体现出来的差异就会越大，这样语音自动分割才会更加精准。

而且这种差异要尽量不会因为外界背景噪声的影响而产生大幅变化，如果容易受到背景噪声的影响则说明算法的鲁棒性不是很好。

为了便于提取所说的特征参数并对其进行有效地分析，每个语音信号段进入系统后都需要先对其进行预处理。

需要进行预加重，这样才能使语音信号的低频段和高频段的信噪比参数表现的平滑。

需要进行分窗加帧，这样语音信号才能具有短时性。

在进行分帧的时候，为了保证信号的连续变化、防止突变，我们通常会在两帧之间设置好帧移，使起短时特性能够表现的更加平滑，易于分析。

预处理完成后就可以对信号提取特征参数，并根据语音段和噪声段特征参数的差异来对其进行分割。

根据特征参数差异的大小，以及使用的参数的个数，可以分为单参数或者双参数、单门限或者双门限。

一般来说，用于判断的参数越多自动分割的准确性也越高，但同时我们也要考虑到计算量大小的问题，不能盲目的增加算法中的特征参数个数。

参数提取是对语音和噪声信号进行提取的参数。

声音是人体的声音，人体发声的原理是来自人体器官声带的振动。

而噪声信号的出现，多是由大自然、完结物体碰撞等因素引起的，在频率和能量上有很大的不同。

本文基于能量差分，对该算法的短时能量和短时过零率进行了分析，并根据其它特征参数进行频谱和频谱熵的研究。

语音可分为两类：

清音和浊音。

，

度比较低，而浊音正好与之相反。

短时幅度这项参数适合在信噪比较高的环境中使用，但当背景噪声较大、较为复杂的时候，短时平均过零率就可以发挥出它的优势，获得较好的判断结果。

由此可见，参数提取的是否正确，该参数能否真正有效的反映出人声和背景噪声之间的区别对于整个系统最终效果有着十分重要的作用。

语音自动分割流程如图3.2所示：

图3.2语音自动分割流程图

说话人的语音信号和噪声信号在特征参数上有明显的差异，不同环境下的噪声信号特征参数也有差异，自动分割系统就根据这些提取出来的各不相同的特征参数来设置相应的门限，在满足一定的规则后就会被判定为语音开始或者语音结束。

门限值设定好之后，当信号超过预先设定的门限值时，语音信号有可能已经开始，但是这里还需要对其持续时间做一个判决。

若信号连续超过设定的门限几帧都没有衰落回去，则说明信号进入了语音段。

对于结束点的判断与起始点基本类似。

当检测到语音信号低于预先设定的门限值且连续几帧均低于该门限时，则说明语音信号结束。

由于单门

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于时域特征语音自动分割算法实现本科本科毕业论文

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：基于时域特征的语音自动分割算法实现本科本科毕业论文.docx
链接地址：https://www.bdocx.com/doc/29015187.html

基于时域特征的语音自动分割算法实现本科本科毕业论文.docx

热门标签