信息工程学院届毕业论文设计模板讲义.docx
- 文档编号:28978602
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:22
- 大小:586.21KB
信息工程学院届毕业论文设计模板讲义.docx
《信息工程学院届毕业论文设计模板讲义.docx》由会员分享,可在线阅读,更多相关《信息工程学院届毕业论文设计模板讲义.docx(22页珍藏版)》请在冰豆网上搜索。
信息工程学院届毕业论文设计模板讲义
2014届本科毕业论文(设计)
题目:
※※※※※※※※※※※※※※※
系别:
信息工程学院
班级:
2010级计算机科学与技术(嵌入式技术方向)
学号:
201060861?
?
?
姓名:
※※※
指导教师:
※※※职称※※※
起讫日期:
2013年10月16日-2014年5月31日
噪声环境下语音特征参数鲁棒性的研究
张三丰
三明学院信息工程学院2010级计算机科学与技术(嵌入式技术方向)
摘要:
实用有效的说话人识别系统越来越成为研究的重点。
语音特征参数的鲁棒性直接影响一个说话人识别系统的具体性能,过去主要针对移动通信环境下存在信道失真的问题,研究差分倒谱的鲁棒性。
文中则主要在加性白噪声环境下研究Mel倒谱参数、Mel差分倒谱参数的顽健性以及它们经过倒谱系数零均值化(CMN)处理后识别性能的改进。
从仿真结果可以看出:
在加性白噪声环境下,差分倒谱参数具有很好的鲁棒性;倒谱系数零均值化能有效的除去加性白噪声。
关键词:
语音识别;鲁棒性;Mel倒谱参数;Mel差分倒谱;倒谱系数零均值化
目录
第一章绪论1
1.1语音识别简介1
1.1.1什么是语音识别1
1.1.2语音识别的应用及分类1
1.2国内外语音识别技术的发展历史及现状1
1.3语音识别面临的问题2
1.4本课题研究背景及内容2
第二章语音识别基础理论3
2.1语音信号产生的机理3
2.2语音信号的预处理4
2.2.1预滤波、采样、A/D转换4
2.2.2预加重4
2.2.3分帧加窗5
2.3端点检测5
2.3.1短时能量6
2.3.2短时平均过零率7
第三章常用的语音识别模型8
第四章噪声下语音特征参数的提取识别9
第五章结论10
参考文献11
附件语音“0”的各状态频谱图13
第一章绪论
语言,是人类进行行为沟通和思想交流最重要的工具[1],也是人类最重要的信息载体。
随着信息科技的快速发展,计算机的越来越便携化和应用的复杂化,在越来越多的领域有了让计算机听懂人言的要求,这样,就引出了语音处理技术这门交叉学科。
语音识别技术,是语音处理技术中的一个重要组成。
1.1语音识别简介
1.1.1什么是语音识别
所谓的语音识别是指利用计算机自动识别语音的技术,有狭义和广义之分。
狭义的语音识别特指利用计算机识别出语音信号所表达的内容,其目的是要准确地理解语音所蕴含的含义,例如将语音转换成其所对应的文字。
而广义的语音识别则泛指利用语音信号识别出其中所包含的“任何感兴趣”的内容的一种技术,例如利用语音信号中所包含的特定人的信息进行说话人身份辨认的说话人识别技术[2]。
1.1.2语音识别的应用及分类
语音识别的应用范围十分广泛,遍及各行各业。
如智能家居、语音拨号、信息通讯、自动应答系统、工业控制、机器人、交通导航等等。
语音识别是一门新兴的交叉性学科,它广泛涉及声学、语音学、语言学、数字信号处理、通信学、网络技术、电子技术、计算机科学、模式识别和人工智能等众多学科。
如前所述,语音识别系统有广义和狭义之分,这里所讨论的语音识别分类特针对狭义的语音识别而言[3]。
由文献[4,5-8]可知“从不同角度,语音识别系统可以分为以下几类:
按词汇量大小,可分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别系统;按对说话人的依赖程度可以分为特定人和非特定人语音识别系统;按对说话人说话方式的要求,可以分为孤立词语音识别系统、连接词语音识别系统及连续语音识别系统;按识别的目的来分,可以分为说话人语音识别系统和语音内容理解的语音识别系统”。
1.2国内外语音识别技术的发展历史及现状
语音识别的历史可以追溯到20世纪50年代。
1952年AT&TBell实验室的确K.H.Davis等人利用带通滤波器进行语音频谱的分析和匹配,并成功用于对10个英文数字的识别,识别率达到98%。
1960年P.Denes等研制成功第一个计算机语音识别系统,同年G.Fant提出了语音产生的声源——滤波器模型,对语音识别工作起到了巨大的推动作用。
20世纪80年代语音识别研究进一步走向深入,其研究重点是连接词语音识别,用于连接词识别的分层构筑技术(levelbuilding)得到发展。
另一个重要的发展是语音识别算法从模板匹配技术发展到基于统计模型的技术。
期间,美国CMU大学的J.K.Baker等人将隐马尔可夫模型(HiddenMarkovModel,HMM)应用到语音识别领域,在语音识别中获得极大的成功,成为语音识别的主要方法。
HMM模型的研究使大词汇量连续语音识别系统的开发成为可能。
1988年,美国CMU大学用VQ(VectorQuantization)/HMM的方法实现了997个词的非特定人连续语音识别系统,其后,连续语音识别技术获得长足的发展。
近年来,人工神经网络(ArtificialNeuralNetwork,ANN)以及支持向量机(SupportVectorMachine,SVM)由于其较强的自适应性和学习能力而获得了普遍的重视,并在语音识别中获得了成功的应用。
国外的IBM、APPLE、MOTOROLA等公司也投入了汉语语音识别系统的开发。
IBM公司于1997年正式推出中文听写机系统ViaVoice,该系统对新闻语音识别有较高的精度,是目前比较有代表性的汉语连续语音识别系统。
国内汉语语音识别的研究紧密跟踪识别领域的最新研究成果并基本与之保持同步。
目前,国内一些研究机构对大词汇量连续语音识别系统的研究已经接近国外最高水平[1],其中,具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
1.3语音识别面临的问题
语音识别系统存在一些困难[3]:
语音识别系统的适应性差,对环境依赖性强,
即在一种环境下训练得到的语音识别系统只能在这种环境下得到最优的性能;强噪声环境下语音识别率急剧下降,语音信号在受到干扰后表现出多变性,必须寻找新的信号分析处理方法,提高语音识别的抗噪性;如何将语言模型、语法及词法模型应用到大词汇量连续语音识别中去;人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识,以及如何将这些知识应用到语音识别中去。
1.4本课题研究背景及内容
如前所提到的,语音识别系统目前还面临着很多问题,其中的噪声干扰,是最常见也是影响最广泛的一个难题。
实际应用中很多情况下是要求语音识别系统工作在噪声环境下,因此一个高性能水平的语音识别系统必需要对不同类型各强度的噪声具有较强的鲁棒性。
尽管过去的研究对抗噪声的语音识别技术做了大量工作,但到目前为止仍未能找到一种独立于噪声的可靠的识别算法[4]。
语音识别系统在噪声环境下性能下降的原因在于噪声造成了训练环境与识别环境之间的不匹配,因此,必须尽量减少这种不匹配,以提高识别率。
通常,可通过修改训练参数使之适应识别环境,或用消除噪声的方法来增强识别率。
现有的抗噪语音识别技术通常可分为以下三类[5]:
抗噪语音特征提取技术、语音增强技术和模型补偿技术。
基于这样的背景,本文提出了一个新的在噪声环境下提取特征值的识别方法——分频带识别法。
本法是在已有的识别方法基础上,稍加一点改进而来的。
经过实验,发现,其对噪声环境下的语音识别还是有效果的。
但是目前只是初期研究,我相信,此法应该会有广阔的发展,有待于我们进一步探讨。
………………
(1.1)
第二章语音识别基础理论
2.1语音信号产生的机理
人类的发音器官包括肺、气管、喉(包括声带)、咽、鼻和口等。
这些器官共同形成一条形状复杂的管道,其中喉以上的部分称为声道,随着发出声音的不同形状是变化的;面喉的部分称为声门。
人的发声是由于肺部的收缩,压迫气流由支气管经过声门和声道引起音频振荡而产生的。
声道截面积是随纵向位置而变的函数,称为声道截面积函数,声道的共振峰特性主要取决于声道截面积函数,声道的共振峰特性决定所发声音的频谱特性,即音色。
人类发音过程有三类不同的激励方式,因而能产生三种不同的声音,即浊音、清音和爆破音。
当气流通过声门时声带的张力刚好使声带发生较低频率的张弛震荡,形成准周期的空气脉冲,这些空气脉冲激励声道变小产生浊音;如果声道中某处面积很小,气流高速冲过此处时产生湍流,当气流速度与横截面积之比大于某个门限时便产生摩擦音,即清音。
如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破音。
语音的产生机理可以由图2-1来描述[6]。
图2-1语音产生机理
2.2语音信号的预处理
系统要想获得一个比较理想的处理对象,对原始信号进行预处理是必要的。
在语音信号处理中,预处理包括预滤波、采样、A/D转换、分帧加窗、预加重及端点检测。
2.2.1预滤波、采样、A/D转换
预滤波的目的有两个:
(1)抑制输入信号各频域分量中频率超出
/2的所有分量(
为采样频率),以防止混叠干扰。
(2)抑制50Hz的电源工频干扰。
这样,预滤波必须是一个带通滤波器,设其上、下截止频率分别是
,和
,则对于绝大多数语音编译码器,
=3400Hz,
=60~100Hz,采样频率为
=8kHz;而对于语音识别而言,当用于电话用户时,指标与语音编译码器相同。
当使用要求较高或很高的场合时,
=4500Hz或8000Hz,
=60Hz,
=10kHz或20kHz。
语音信号经预滤波和采样后,由A/D转换器转换为二进制数字码。
2.2.2预加重
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后,高频端大约在800Hz以上按6dB/倍频程跌落[7],即语音信号的频谱产生高频衰落现象。
所以系统得到语音信号频谱时,频率越高响应的成分越少,高频部分的频谱比低频部分的难求。
因此,为抵消这种影响,就在对语音信号分析前进行预加重(Pre-emphasis)处理。
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。
预加重一般是在语音信号数字化之后、参数分析之前在计算机里用具有提升高频特性的预加重数字滤波器来实现,它一般是一个一阶的数字滤波器,其函数为:
(2.1)
其中,
为预加重滤波器的系数,决定截止频率,取值范围一般在0.94~0.97,本文
的取值为0.95。
图2-2为数字3的原始语音信号与预加重后的信号对照图,其语音采样频率为16K。
从图中可以看出,预加重后,清音段的能量得到了提升,甚至接近浊音段的能量。
图2-2数字“3”的原始语音信号与预加重后的信号对照
2.2.3分帧加窗
语音信号是一种非平稳信号,但其具有短时平稳的特点。
因此,为了能对语音信号进行处理,我们需将语音信号划分为一个一个的短时段,每一个短时段称为一帧。
通过对语音的分帧操作,可以撮其适时特性,便于模型的建立。
数据帧长一般可取为20~30ms,前一帧与后一帧的交叠部分称为帧移,帧移与帧长的比例一般取为0~0.5。
分帧可用移动的有限窗口进行加权的方法来实现的,从……………………
2.3端点检测
端点检测在语音识别中有着重要的作用。
其目的是从包含语音的一段信号中检测出语音信号段和噪声段,确定语音段的起点和终点。
准确的端点检测不仅可以减少计算量,而且能排除无声段的噪声干扰,从而提高系统的识别率。
下面,简单介绍几种目前常用的检测方法。
2.3.1短时能量
能量是语音的一个重要特性,清音的能量较小,浊音的能量较大。
由于语音信号的能量随时间而变化,静音段和语音段之间的能量差别明显,静音段的能量很小,而语音段的能量明显增大。
因此,可以考虑用信号的能量作为特征,区分静音段和语音段。
只要设定一个门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下时,就认为语音结束。
能量是语音的一个重要特性,清音的能量较小,浊音的能量较大。
由于语音信号的能量随时间而变化,静音段和语音段之间的能量差别明显,静音段的能量很小,而语音段的能量明显增大。
因此,可以考虑用信号的能量作为特征,区分静音段和语音段。
只要设定一个门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下时,就认为语音结束。
能量是语音的一个重要特性,清音的能量较小,浊音的能量较大。
由于语音信号的能量随时间而变化,静音段和语音段之间的能量差别明显,静音段的能量很小,而语音段的能量明显增大。
因此,可以考虑用信号的能量作为特征,区分静音段和语音段。
只要设定一个门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下时,就认为语音结束。
能量是语音的一个重要特性,清音的能量较小,浊音的能量较大。
由于语音信号的能量随时间而变化,静音段和语音段之间的能量差别明显,静音段的能量很小,而语音段的能量明显增大。
因此,可以考虑用信号的能量作为特征,区分静音段和语音段。
只要设定一个门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下时,就认为语音结束。
能量是语音的一个重要特性,清音的能量较小,浊音的能量较大。
由于语音信号的能量随时间而变化,静音段和语音段之间的能量差别明显,静音段的能量很小,而语音段的能量明显增大。
因此,可以考虑用信号的能量作为特征,区分静音段和语音段。
只要设定一个门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下时,就认为语音结束。
能量是语音的一个重要特性,清音的能量较小,浊音的能量较大。
由于语音信号的能量随时间而变化,静音段和语音段之间的能量差别明显,静音段的能量很小,而语音段的能量明显增大。
因此,可以考虑用信号的能量作为特征,区分静音段和语音段。
只要设定一个门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下时,就认为语音结束。
语音信号的短时能量定义如下:
(2.2)
其中
为窗函数,N为窗长。
计算短时能量之前,要将语音信号进行预加重,目的是提升语音信号的清音部分。
图2-3为数字“3”的原始语音信号与预加重后的信号及信号短时能量的对照图。
可见,清音部分的能量提高了。
图2-3数字“3”的原始语音信号与预加重后的信号及信号短时能量的对照
图2-4数字“3”开始部分的波型
2.3.2短时平均过零率
顾名思义,过零就是指时域波形穿过坐标轴,即当离散信号的相邻两个取样值具有不同的符号时,便出现过零现象。
单位时间内过零发生的次数称作短时过零率。
图2-5为数字“3”的原始语音信号与过零率对照图。
过零率定义如下:
2-7
其中,sgn[x]是取符号函数,它和窗函数w(n)的定义如下
2-8
图2-5数字“3”的原始语音信号与过零率对照
第三章常用的语音识别模型
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
第四章噪声下语音特征参数的提取识别
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
表4-1各SNR低频噪声环境下两种识别方法识别率比较
方法
-5db时的识别率
0db时的识别率
5db时的识别率
10db时的识别率
传统法
56%
86%
96%
98%
分频带法
88%
96%
96%
96%
第五章结论
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
参考文献
[1]王士元,彭刚.语言、语音与技术[M].上海:
上海教育出版社,2006.
[2]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:
清华大学出版社,2003.
[3]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.
[4]宁更新.抗噪声语音识别新技术的研究[D].博士学位论文.广州:
华南理工大学,2006.
[5]李萱.语音特征参数提取方法研究[D].硕士学位论文.西安:
西安电子科技大学,2006.
[6]赵力.语音信号处理[M].北京:
机械工业出版社,2003.
[1]马静.基于HMM模型的汉语数字语音识别算法的研究[D].硕士学位论文.太原:
太原理工大学,2008.
[8]毛峡,丁玉宽.图像的情感特征分析及其和谐感评价[J].电子学报,2001,29(12A):
1923-1927.
[9]MaoXia,ZhangSan.AffectivePropertyofImageandFractalDimension[J].Chaos,Solitons&Fractals.U.K,2003(15):
905-910.
参考文献四字用小四号黑体字,内容用五号宋体字。
其格式为:
参考文献的著录均应符合国家有关标准(按GB7714—87《文后参考文献著录格式》执行)。
以“参考文献”居中排作为标识;参考文献的序号左顶格,并用数字加方括号表示,如[1],[2],…,以与正文中的指示序号格式一致。
每一参考文献条目的最后均以“.”结束。
各类参考文献条目的编排格式及示例如下:
1.连续出版物
[序号]作者.文献题名[J].刊名,出版年份,卷号(期号):
起止页码.
例如:
[1]毛峡,丁玉宽.图像的情感特征分析及其和谐感评价[J].电子学报,2001,29(12A):
1923-1927.
[2]MaoXia,etal.AffectivePropertyofImageandFractalDimension[J].Chaos,Solitons&Fractals.U.K,2003:
V15905-910.
2.专著
[序号]作者.文献题名[M].出版地:
出版者,出版年:
起止页码.
例如:
[3]刘国钧,王连成.图书馆史研究[M].北京:
高等教育出版社,1979:
15-18,31.
3.会议论文集
[序号]作者.文献题名[A].论文集名[C].出版地:
出版者,出版年:
起止页码.
例如:
[4]毛峡.绘画的音乐表现[A].中国人工智能学会2001年全国学术年会论文集[C].北京:
北京邮电大学出版社,2001:
739-740.
[5]MaoXia,etal.AnalysisofAffectiveCharacteristicsandEvaluationofHarmoniousFeelingofImageBasedon1/fFluctuationTheory[A].InternationalConferenceonIndustrial&EngineeringApplicationsofArtificialIntelligence&ExpertSystems(IEA/AIE)[C].Australia:
SpringerPublishingHouse,2002:
17-19.
4.学位论文
[序号]作者.文献题名[D].保存地:
保存单位,年份.
例如:
[6]张和生.地质力学系统理论[D].太原:
太原理工大学,1998.
5.报告
[序号]作者.文献题名[R].报告地:
报告会主办单位,年份.
例如:
[7]冯西桥.核反应堆压力容器的LBB分析[R].北京:
清华大学核能技术设计研究院,1997.
6.专利文献
[序号]专利所有者.专利题名[P].专利国别:
专利号,发布日期.
例如:
[8]姜锡洲.一种温热外敷药制备方案[P].中国专利:
881056078,1983-08-12.
7.国际、国家标准
[序号]标准代号,标准名称[S].出版地:
出版者,出版年.
例如:
[9]GB/T16159—1996,汉语拼音正词法基本规则[S].北京:
中国标准出版社,1996.
8.报纸文章
[序号]作者.文献题名[N].报纸名,出版日期(版次).
例如:
[10]毛峡.情感工学破解‘舒服’之迷[N].光明日报,2000-4-17(B1).
9.电子文献
[序号]作者.电子文献题名[文献类型/载体类型].电子文献的出版或可获得地址,发表或更新的期/引用日期(任选).
例如:
[21]王明亮.中国学术期刊标准化数据库系统工程的[EB/OL].pub/wml.txt/980810-2.html,1998-08-16/1998-10-04.
外国作者的姓名书写格式一般为:
名的缩写、姓。
例如A.Johnson,R.O.Duda
[1]作者1,作者2.论文名[J].杂志名,年,卷(期)XX页—XXX页。
附件1语音“0”的各状态频谱图
纯净语音
1.未分频:
TheInvestigationoftheRobustofFeatureExtractedfrom
SpeechSignalsinAdditiveGaussianNoiseEnvironments
ZhangSanfeng
2010ComputerScienceandTechnology(EmbededTechnology)Major,
SchoolofInformationEngineering,SanmingUniversity
Abstract:
Withincreasingdemandforsecurityininformationsystem.thedevelopmentofeffectivespeakerrecognitiontechnologiesisveryimportant.Therobustoffeatureextractedfromspeechsignalshasadirectinfluenceonrecognitionsystem.Inthepast,underthecircumstanceofchanneldistortion,deltacepstrumhasbeenwidelystudied.ThispaperfocusesontherobustoffeatureinadditiveGaussiannoiseenvironments.ExperimentsshowthatdeltacepstrumisrobustfeaturesinadditiveGaussiannoiseenviron-ments.andthatCMN(cepstralmeannormalization)canefectivelyremovetheeffe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息工程学院 毕业论文 设计 模板 讲义