书签分享收藏举报版权申诉 / 22

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 化学 > 信息工程学院届毕业论文设计模板讲义.docx

信息工程学院届毕业论文设计模板讲义.docx

文档编号：28978602
上传时间：2023-07-20
格式：DOCX
页数：22
大小：586.21KB

《信息工程学院届毕业论文设计模板讲义.docx》由会员分享，可在线阅读，更多相关《信息工程学院届毕业论文设计模板讲义.docx（22页珍藏版）》请在冰豆网上搜索。

信息工程学院届毕业论文设计模板讲义.docx

信息工程学院届毕业论文设计模板讲义

2014届本科毕业论文（设计）

题目:

※※※※※※※※※※※※※※※

系别:

信息工程学院

班级:

2010级计算机科学与技术（嵌入式技术方向）

学号:

201060861?

?

姓名:

※※※

指导教师:

※※※职称※※※

起讫日期:

2013年10月16日-2014年5月31日

噪声环境下语音特征参数鲁棒性的研究

张三丰

三明学院信息工程学院2010级计算机科学与技术（嵌入式技术方向）

摘要：

实用有效的说话人识别系统越来越成为研究的重点。

语音特征参数的鲁棒性直接影响一个说话人识别系统的具体性能，过去主要针对移动通信环境下存在信道失真的问题，研究差分倒谱的鲁棒性。

文中则主要在加性白噪声环境下研究Mel倒谱参数、Mel差分倒谱参数的顽健性以及它们经过倒谱系数零均值化（CMN）处理后识别性能的改进。

从仿真结果可以看出：

在加性白噪声环境下，差分倒谱参数具有很好的鲁棒性；倒谱系数零均值化能有效的除去加性白噪声。

关键词：

语音识别；鲁棒性；Mel倒谱参数；Mel差分倒谱；倒谱系数零均值化

第一章绪论1

1.1语音识别简介1

1.1.1什么是语音识别1

1.1.2语音识别的应用及分类1

1.2国内外语音识别技术的发展历史及现状1

1.3语音识别面临的问题2

1.4本课题研究背景及内容2

第二章语音识别基础理论3

2.1语音信号产生的机理3

2.2语音信号的预处理4

2.2.1预滤波、采样、A/D转换4

2.2.2预加重4

2.2.3分帧加窗5

2.3端点检测5

2.3.1短时能量6

2.3.2短时平均过零率7

第三章常用的语音识别模型8

第四章噪声下语音特征参数的提取识别9

第五章结论10

参考文献11

附件语音“0”的各状态频谱图13

第一章绪论

语言，是人类进行行为沟通和思想交流最重要的工具[1]，也是人类最重要的信息载体。

随着信息科技的快速发展，计算机的越来越便携化和应用的复杂化，在越来越多的领域有了让计算机听懂人言的要求，这样，就引出了语音处理技术这门交叉学科。

语音识别技术，是语音处理技术中的一个重要组成。

1.1语音识别简介

1.1.1什么是语音识别

所谓的语音识别是指利用计算机自动识别语音的技术，有狭义和广义之分。

狭义的语音识别特指利用计算机识别出语音信号所表达的内容，其目的是要准确地理解语音所蕴含的含义，例如将语音转换成其所对应的文字。

而广义的语音识别则泛指利用语音信号识别出其中所包含的“任何感兴趣”的内容的一种技术，例如利用语音信号中所包含的特定人的信息进行说话人身份辨认的说话人识别技术[2]。

1.1.2语音识别的应用及分类

语音识别的应用范围十分广泛，遍及各行各业。

如智能家居、语音拨号、信息通讯、自动应答系统、工业控制、机器人、交通导航等等。

语音识别是一门新兴的交叉性学科，它广泛涉及声学、语音学、语言学、数字信号处理、通信学、网络技术、电子技术、计算机科学、模式识别和人工智能等众多学科。

如前所述，语音识别系统有广义和狭义之分，这里所讨论的语音识别分类特针对狭义的语音识别而言[3]。

由文献[4,5-8]可知“从不同角度，语音识别系统可以分为以下几类：

按词汇量大小，可分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别系统；按对说话人的依赖程度可以分为特定人和非特定人语音识别系统；按对说话人说话方式的要求，可以分为孤立词语音识别系统、连接词语音识别系统及连续语音识别系统；按识别的目的来分，可以分为说话人语音识别系统和语音内容理解的语音识别系统”。

1.2国内外语音识别技术的发展历史及现状

语音识别的历史可以追溯到20世纪50年代。

1952年AT&TBell实验室的确K.H.Davis等人利用带通滤波器进行语音频谱的分析和匹配，并成功用于对10个英文数字的识别，识别率达到98%。

1960年P.Denes等研制成功第一个计算机语音识别系统，同年G.Fant提出了语音产生的声源——滤波器模型，对语音识别工作起到了巨大的推动作用。

20世纪80年代语音识别研究进一步走向深入，其研究重点是连接词语音识别，用于连接词识别的分层构筑技术（levelbuilding）得到发展。

另一个重要的发展是语音识别算法从模板匹配技术发展到基于统计模型的技术。

期间，美国CMU大学的J.K.Baker等人将隐马尔可夫模型（HiddenMarkovModel,HMM）应用到语音识别领域，在语音识别中获得极大的成功，成为语音识别的主要方法。

HMM模型的研究使大词汇量连续语音识别系统的开发成为可能。

1988年，美国CMU大学用VQ（VectorQuantization）/HMM的方法实现了997个词的非特定人连续语音识别系统，其后，连续语音识别技术获得长足的发展。

近年来，人工神经网络（ArtificialNeuralNetwork,ANN）以及支持向量机（SupportVectorMachine,SVM）由于其较强的自适应性和学习能力而获得了普遍的重视，并在语音识别中获得了成功的应用。

国外的IBM、APPLE、MOTOROLA等公司也投入了汉语语音识别系统的开发。

IBM公司于1997年正式推出中文听写机系统ViaVoice，该系统对新闻语音识别有较高的精度，是目前比较有代表性的汉语连续语音识别系统。

国内汉语语音识别的研究紧密跟踪识别领域的最新研究成果并基本与之保持同步。

目前，国内一些研究机构对大词汇量连续语音识别系统的研究已经接近国外最高水平[1]，其中，具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

1.3语音识别面临的问题

语音识别系统存在一些困难[3]：

语音识别系统的适应性差，对环境依赖性强，

即在一种环境下训练得到的语音识别系统只能在这种环境下得到最优的性能；强噪声环境下语音识别率急剧下降，语音信号在受到干扰后表现出多变性，必须寻找新的信号分析处理方法，提高语音识别的抗噪性；如何将语言模型、语法及词法模型应用到大词汇量连续语音识别中去；人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识，以及如何将这些知识应用到语音识别中去。

1.4本课题研究背景及内容

如前所提到的，语音识别系统目前还面临着很多问题，其中的噪声干扰，是最常见也是影响最广泛的一个难题。

实际应用中很多情况下是要求语音识别系统工作在噪声环境下，因此一个高性能水平的语音识别系统必需要对不同类型各强度的噪声具有较强的鲁棒性。

尽管过去的研究对抗噪声的语音识别技术做了大量工作，但到目前为止仍未能找到一种独立于噪声的可靠的识别算法[4]。

语音识别系统在噪声环境下性能下降的原因在于噪声造成了训练环境与识别环境之间的不匹配，因此，必须尽量减少这种不匹配，以提高识别率。

通常，可通过修改训练参数使之适应识别环境，或用消除噪声的方法来增强识别率。

现有的抗噪语音识别技术通常可分为以下三类[5]：

抗噪语音特征提取技术、语音增强技术和模型补偿技术。

基于这样的背景，本文提出了一个新的在噪声环境下提取特征值的识别方法——分频带识别法。

本法是在已有的识别方法基础上，稍加一点改进而来的。

经过实验，发现，其对噪声环境下的语音识别还是有效果的。

但是目前只是初期研究，我相信，此法应该会有广阔的发展，有待于我们进一步探讨。

………………

（1.1）

第二章语音识别基础理论

2.1语音信号产生的机理

人类的发音器官包括肺、气管、喉（包括声带）、咽、鼻和口等。

这些器官共同形成一条形状复杂的管道，其中喉以上的部分称为声道，随着发出声音的不同形状是变化的；面喉的部分称为声门。

人的发声是由于肺部的收缩，压迫气流由支气管经过声门和声道引起音频振荡而产生的。

声道截面积是随纵向位置而变的函数，称为声道截面积函数，声道的共振峰特性主要取决于声道截面积函数，声道的共振峰特性决定所发声音的频谱特性，即音色。

人类发音过程有三类不同的激励方式，因而能产生三种不同的声音，即浊音、清音和爆破音。

当气流通过声门时声带的张力刚好使声带发生较低频率的张弛震荡，形成准周期的空气脉冲，这些空气脉冲激励声道变小产生浊音;如果声道中某处面积很小，气流高速冲过此处时产生湍流，当气流速度与横截面积之比大于某个门限时便产生摩擦音，即清音。

如果声道某处完全闭合建立起气压，然后突然释放而产生的声音就是爆破音。

语音的产生机理可以由图2-1来描述[6]。

图2-1语音产生机理

2.2语音信号的预处理

系统要想获得一个比较理想的处理对象，对原始信号进行预处理是必要的。

在语音信号处理中，预处理包括预滤波、采样、A/D转换、分帧加窗、预加重及端点检测。

2.2.1预滤波、采样、A/D转换

预滤波的目的有两个：

（1）抑制输入信号各频域分量中频率超出

/2的所有分量（

为采样频率），以防止混叠干扰。

（2）抑制50Hz的电源工频干扰。

这样，预滤波必须是一个带通滤波器，设其上、下截止频率分别是

，和

，则对于绝大多数语音编译码器，

=3400Hz，

=60~100Hz，采样频率为

=8kHz；而对于语音识别而言，当用于电话用户时，指标与语音编译码器相同。

当使用要求较高或很高的场合时，

=4500Hz或8000Hz，

=60Hz，

=10kHz或20kHz。

语音信号经预滤波和采样后，由A/D转换器转换为二进制数字码。

2.2.2预加重

由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，语音信号从嘴唇辐射后，高频端大约在800Hz以上按6dB/倍频程跌落[7]，即语音信号的频谱产生高频衰落现象。

所以系统得到语音信号频谱时，频率越高响应的成分越少，高频部分的频谱比低频部分的难求。

因此，为抵消这种影响，就在对语音信号分析前进行预加重（Pre-emphasis）处理。

预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。

预加重一般是在语音信号数字化之后、参数分析之前在计算机里用具有提升高频特性的预加重数字滤波器来实现，它一般是一个一阶的数字滤波器，其函数为：

（2.1）

其中，

为预加重滤波器的系数，决定截止频率，取值范围一般在0.94~0.97，本文

的取值为0.95。

图2-2为数字3的原始语音信号与预加重后的信号对照图，其语音采样频率为16K。

从图中可以看出，预加重后，清音段的能量得到了提升，甚至接近浊音段的能量。

图2-2数字“3”的原始语音信号与预加重后的信号对照

2.2.3分帧加窗

语音信号是一种非平稳信号，但其具有短时平稳的特点。

因此，为了能对语音信号进行处理，我们需将语音信号划分为一个一个的短时段，每一个短时段称为一帧。

通过对语音的分帧操作，可以撮其适时特性，便于模型的建立。

数据帧长一般可取为20~30ms，前一帧与后一帧的交叠部分称为帧移，帧移与帧长的比例一般取为0~0.5。

分帧可用移动的有限窗口进行加权的方法来实现的，从……………………

2.3端点检测

端点检测在语音识别中有着重要的作用。

其目的是从包含语音的一段信号中检测出语音信号段和噪声段，确定语音段的起点和终点。

准确的端点检测不仅可以减少计算量，而且能排除无声段的噪声干扰，从而提高系统的识别率。

下面，简单介绍几种目前常用的检测方法。

2.3.1短时能量

能量是语音的一个重要特性，清音的能量较小，浊音的能量较大。

由于语音信号的能量随时间而变化，静音段和语音段之间的能量差别明显，静音段的能量很小，而语音段的能量明显增大。

因此，可以考虑用信号的能量作为特征，区分静音段和语音段。