小词汇量语音识别系统的设计.docx
- 文档编号:9141595
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:36
- 大小:380.79KB
小词汇量语音识别系统的设计.docx
《小词汇量语音识别系统的设计.docx》由会员分享,可在线阅读,更多相关《小词汇量语音识别系统的设计.docx(36页珍藏版)》请在冰豆网上搜索。
小词汇量语音识别系统的设计
小词汇量语音识别系统的设计
学生:
詹晶晶
指导教师:
沈晓波
淮南师范学院电气信息工程系
摘要:
随着语音识别理论研究的深入和数字信号处理软、硬件技术的发展,语音识别技术应用的研究越来越受到人们的关注。
人类与计算机进行交流时,最直接和方便的方式就是语言交流,语音识别成功完成人机交互新领域。
虽然大字表非特定人连续语音识别技术仍有诸多难点尚未解决,基特定人小字表孤立词语音识别技术(LPC和DTW算法)已相对成熟。
本文中首先对浯音识别技术研究与应用的历史和现状做了简单的介绍,并指出了该论文的研究意义所在。
论文中对语音识别系统中涉及到的基本概念及原理进行了简单的分析,之后分别针对语音识别系统中预处理阶段的端点检测算法、语音信号的特征提取算法以及模式匹配和模型训练算法进行了深入的理论研究。
采用“双门限”法实现语音端点检测,在实验室环境下取得了较为理想的检测效果;系统地研究了语音识别系统各种主要特征参数的提取方法,特别分析和研究了线性预测分析系数(LPC)的提取方法和美尔频率倒谱系数(MFCC)的提取方法;针对模式匹配和模型训练问题,本文采用了基于连续概率密度隐马尔可夫模型(HMM)的语音识别模型。
实验证明,在信噪比较低的实验室环境下,该模型取得了良好的识别结果。
关键词:
语音识别;端点检测;特征提取
Thedesignofsystemofsmall-vocabularyandspeechrecognition
Student:
ZhanJingJing
Directorteacher:
ShenXiaoBo
Electrical&InformationEngineeringDepartmentofHuaiNanNormalUniversity
AbstractWiththedevelopmentofSpeechRecognitiontechniqueandthesoftwareandhardwareforDigitalSignalProcessinginrecentyears,theresearchofspeechrecognitionandcontrolsystemhavebeenmoreandmoreattended.Communicatingthroughspeechwithcomputeristhemostcomfortway,sothespeechrecognitionbecomeallimportantresearchfieldofmodemcomputertechnology.Althoughtherestillexistmanyproblemswhichneedtobeovercomesuchasthetechniqueoflarge-vocabulary,speaker-independent,continuousspeechrecognition,thetechnique(LPCandDTW)forsmall-vocabulary,speaker-dependent,isolated-wordspeechrecognitionhascometotheageofmaturity.
Inthepaper,Ifirstpresentasimpleintroductionofthehistoryandthecurrentstatusoftheresearchandapplicationofspeechrecognitiontechnique,andpointoutthesignificationaboutourwork.Firstweanalysesomebasicconceptandtheoryaboutspeechrecognitionsystem.Thenaccordingtothealgorithmsoftheend—pointdetectionforpretreatment,featureextractionofspeechrecognition,patternmatchingandmodeltraining,wehaveadeepstudyonthem.Usingthe“doublethreshold”lawwecancompletetheend-pointdetectionofthepronunciation,andobtainthemoreidealexaminationeffectunderthelaboratoryenvironment.Discussthemethodsofextractingthedifferentmaincharacteristicparametersofspeechrecognitionsystematically,especiallyanalyzeLPCandMFCCparametersofthecharacteristicparameters,Aimingthepatternmatchingandthemodeltrainingquestion,thisarticleproposethespeechrecognitionmodelbasedontheHMM.Theexperimentprovedthatunderthesignaltonoiseratiolowerlaboratoryenvironment,thismodelhasobtainedthegoodrecognitionresult.
Keywords:
speechrecognition;end-pointdetection;featureextraction
1绪论
语言是人类交换信息最方便、最常用的一种方式,在高度发达的信息社会中,那个数字化的方法进行的、存储、识别、合成和增强等是正规数字化通信网中最重要、最基本饿组成部分之一。
语音信号是一门新兴的边缘学科,它是语音学与数字信号处理两个学科相结合的产物。
它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科有着紧密的联系。
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。
而语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
近年来,语音识别技术取得显著进步,开始从实验室走向市场,人们预计未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
计算机的高速发展既对语音识别技术提出了越来越高的要求(如用语音输入替代键盘输入以实现直接的人机对话),同时也为语音识别技术的进步提供了效率不断提高的软、硬件实现手段。
由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能满足特定的场合。
语音识别系统的性能大致取决于以下4类因素:
1.识别词汇表的大小和语音的复杂性;2.语音信号的质量:
3.单个说话人还是多个说话人;4.硬件平台。
语音作为当前通讯系统中最自然的通信媒介,随着计算机和语音处理技术的发展,不同语种之间的语音——语音翻译也将成为语音研究的热点。
近年来,随着世界科技的蓬勃发展,诸如人工神经网络、模糊理论和小波信号处理等技术在语音处理技术的研究当中得到了广泛的应用,进而促进了语音识别技术的进步。
1.1语音识别技术的历史与现状
1.1.1语音识别的发展历史
语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。
但是直到60年代末70年代初期,语音识别才作为一个重要的课题展开工作,并且逐步取得实质性的进展。
一方面是因为计算机产业的迅速发展提出了使用要求,同时又提供了实现复杂算法的软、硬件平台;另一方面是因为数字信号处理的理论和算法在这一时期取得了飞跃性的发展,如快速傅里业变换、倒谱计算、线性预测算法、数字滤波器等。
其中比较著名的是语音信号线性预测编码(LPC)技术的提出,以及将动态规划的概念用于解决孤立词识别时说话速度不均匀的难题,提出了著名的动态时间规整算法,简记为DTW(dynamictimewarping)。
这有效地解决了语音信号的特征提取和不等长匹配问题。
当词汇量较少以及各个词条不易于混淆时,DTW算法取得了很大的成功,从而自60年代末期开始引起了语音识别的研究热潮。
早期的语音识别系统大多是按照简单的模板匹配原理工作的特定人、小词汇量、孤立词识别系统。
随着应用领域的扩大,小词汇量、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:
第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰,因此原有的模板匹配方法已不再适用。
60年代初,日本的东京无线电实验室、京都大学和LrEc实验室都制作了能够进行语音识别的专用硬件,在语音识别领域进行了开拓性的工作。
同时在世界范围内,也进行了对今后语音识别研究和发展有着深远意义的研究工作。
RAC实验室为解决语音时间尺度的非均匀性问题,以便能可靠的检测到语音的起始点和终止点,提出了一组基本的时间归一化方法,有效地减少了识别结果的可变性。
前苏联的Vintsyuk提出了使用动态[1]规划的方法,对一组语音在时间上对准,包含了动态时间轴归整的思想。
CarnegieMellon大学的Reddy通过对音素的动态跟踪,对连续语音识别方法做了开创性的工作。
60年代中期以后,计算机产业的迅速发展给语音识别提供了实现复杂算法的软、硬件环境,并提出了使用要求。
同时,数字信号处理理论和算法也取得了飞跃发展,产生了快速傅里叶变换、倒谱计算、数字滤波器等算法和理论,大大促进了语音识别技术的发展并使语音识别的研究从模拟技术转到数字技术。
70年代,语音识别领域取得突破,语音识别技术在理论和实践方面都有了很大的发展,语音识别的两大基本技术——特征提取和模板匹配技术取得了长足的进步。
在理论上,LPC技术得到进一步发展,动态时间规正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立词识别系统。
这一时期的特征提取技术主要有三个方法:
频谱分析、线性预测分析和倒谱分析。
FFF技术用于特征提取,使频谱的实时分析成为可能:
找到了相应的距离测度准则,线性预测编码技术作为一种有效的特征提取技术而被广泛采用:
随着数字信号处理技术的发展,倒谱分析等同态处理方法在特征提取方面发挥重大的作用[2]。
这一时期也开始出现了一些连续语音识别系统。
1971至1975年,美国国防部推出ARPA五年计划,目标是1000词的连续语音识别。
在参与此计划的单位中,卡内基一梅隆大学的1000词、连续语音、安静环境条件下的语音识别系统Hearsay.Harpy效果较好。
80年代,语音识别研究进一步走向深入,逐渐从特定人、小词汇表、孤立词识别向非特定人、大词汇表、连续语音识别转移,出现了以隐马尔可夫模型为建模的语音识别方法。
这一时期较好的系统还有日本电气公司Sakoe等开发的连接词语音识别系统,它采用双层动态时间规正技术,将识别率提高到99%。
英国的Bridle和Brown利用全字模板和帧同步算法设计的连接词识别硬件系统;IBM公司开发的30000词的语音打字系统TANGORA等[3]。
进入90年代,随着多媒体时代的来临迫切要求语音识别系统从实验室走向实用。
许多发达国家如美国、日本、韩国以及IBM,Apple,AT&T,NTr等著名公司都为语音识别系统的实用化开发研究投以巨资。
而且小波理论得到迅速发展,出现了各种基于小波理论的算法,也有研究者尝试把小波分析技术应用于特征提取,但目前性能不太理想,有待迸一步研究。
随后神经网络的研究也取得了很大的进步,出现了许多以神经网络为建模方式的语音识别算法。
人工神经元网络在语音识别中的应用是现在研究的又一热点。
ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。
这些能力是HMM模型不具备的,但ANN又不具有HMM模型的动态时间归正性能。
随着计算机的运算能力和内存的迅速增长以及硬件价格的大幅度下降,人们也越来越重视语音识别模块和芯片的研究与开发。
面对各种用户、各种使用环境,人们也在研究更具适应性和抗噪性的识别系统。
1.1.2语音识别的分类
语音识别大致可分为如下几类:
1.讲话者识别。
这又可以分为讲话者辨认和讲话者确认两种。
前者是判定某一待识别的声音是由N个讲话者中的哪一位的语音。
其输出有N个可能的结果,这属于闭集识别的范畴。
判别的方法是从N个讲话者参考模板中选出与输入语音有最大似然的那一个模板。
虽然,其结果的正确与否是与N有关的。
随着讲话人数的增加,正确率将迅速下降。
后一种讲话者确认,是判定某一待识别的声音“是或不是”某一特定的讲话者的语音。
其输出只有两种结果(是该特定讲话者,或者不是该讲话者)。
虽然这种判决比前一种简单些,然而,对语言的可变性(如样本的训练时间、次数以及感冒变了声音等)必须要加以注意。
如果从话音文本来分,讲话者识别又可分为:
与文本有关和与文本无关两种。
前者要求讲话者讲的文本式预先指定的、固定的;而后者则要求文本式自由的。
2.语言识别。
这可以有下面四种分类:
1、从识别的基元或识别的单位来分。
按人们开始研究的先后次序有:
孤立词识别、音素识别、音节识别、连词(即孤立旬)识别、连续语言识别与理解等。
理解是在识别了语音之后,再根据语言学知识来推断语言的内容。
不过理解常与识别有交叉,或者存在着层次之间的反馈和含义上的交叉。
2、从识别的词汇量来分有:
小词汇量(10-50)、中词汇量(50-200)、大词汇量(200个以上)等孤立词识别。
此外,还有某特定用途的中词汇量连接词识别和无限词汇连续语音的识别等,一般识别的词汇量愈多,所用基元应愈小、愈少才是可行的。
3、从讲话语音的来源来分。
有单个特定讲话者、多讲话者和与讲话者无关三种。
这主要是从语言库的训练与建立的方法来区分的。
但讲话者是,一般不必使用聚类技术;但在讲话者大词汇量[4]情况时,也要用该讲者的多次语音进行聚类。
多讲话者识别则必定要多个讲话者的语言样本进行聚类,才能建立有效的语言库。
而且,还要求聚类之前,应先去除讲话者的个性特征;而仅利用对讲话者不敏感的共性特征。
不过,相对于讲话者无关情况来说,这是系统中每个识别基元常只用一个模板。
对于与讲话者无关的情况,比前两种要复杂些。
建立这种系统的语言库,要求考虑训练模板的人数、年龄、性别等因素。
训练时要使用各种加权信息的聚类技术,通常每个识别基元要建立几个甚至十几个模板。
4、从识别方法来分。
有目前发展情况可以分为三种:
模板匹配法、随机模型法和概率语法分析法;这也可说有三种战略。
虽然,这三种方法都建立在统计模式识别的最大似然决策贝叶斯判决的基础上,它们都要涉及一些共同的内容。
如:
识别的参数都是连续的特征或离散的符号,该矢量或该符号都是有限的(如LPC空间等,都是有限状态空间),技术上都是采用局部最优的动态规划技术等,但是这三者还有很大的差异。
现简单介绍如下:
a、模板匹配法。
它是使用不变的测度(如距离测度)来对似然函数进行参量估计于判决,不变的测度是指:
对语音信息的各种变化,具有顽健性(Robustness),但是,可以使用局部加权技术,使测度更符合或更接近于最佳。
b、随机模型法。
它是使用隐马尔柯夫链的信号模型化技术,对似然函数进行参量估计于判决。
这里,考虑了语音频谱的内在变化(如:
讲话速度,不同讲话者特性等)之外,还可考虑它们的相关(记忆性)。
因此,这个方法能比较精确的使用语言的结构知识。
c、概率语法分析法。
这是一种考虑形式语法约束(尤其句子以上连续语言识别情况)时,对似然函数进行参量估计与判决的方法。
这里形式语法可以是非参数形式,也可以是参数形式;或者是二者的结合。
因此,这个方法可将a或b方法结合使用进来。
组成连续词以上的识别系统。
除了统计模式识别方法外,还有句法模式识别方法,也可用于语言识别中。
近年来,有人提出将模糊数学用于语言识别与理解:
还有人提出从仿生学的观点,应该用语言的主观感知机理来进行语言的识别与理解;以及用人工神经网络[5]来进行语言识别[6]。
1.1.3语音识别的困难与对策
尽管各种语音识别产品层出不穷,但与语音识别的最终目标还有一定的距离,且目前研究工作进展缓慢,主要表现在理论上一直没有突破。
虽然各种新的修正方法不断涌现,但其普遍适用性都值得商榷。
具体来讲,困难主要表现在:
语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。
高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音交高、语速变慢、音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。
虽然语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别还需研究。
而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
因此,语音识别系统要从实验室演示系统转化到商品还需要解决许多具体问题,如识别速度、拒识问题以及关键词(句)检测技术,即从连续语音中去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分等等。
为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练,基于最大互信息准则(MMI)[7]和最小区别信息准则(MDI)的区别训练和“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应用人工神经元网络等,所有这些努力都取得了一定成绩。
不过,如果要使语音识别系统性能有大的提高,就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。
1.2语音识别系统的研究目的和意义
语音识别是以语音为研究对象,使计算机能够从人的语音信号中提取出最有用的信息,从而确定语音信号的语言含义的过程。
它是模式识别的一个分支,同生理学、心理学、语言学、计算机科学以及数字信号处理、信息论等诸多学科紧密相连。
语音识别具有广阔的应用前景。
目前,语音识别已经在听写机、电话查询系统、家电控制等诸多领域得到了充分的应用。
虽然语音识别系统在实验室环境下能够拥有比较高的识别率,但在语音识别技术从各个不同的突破口进行应用和产业化过程中,有几个问题逐渐显现出来,成为研究的重点。
首先是方言或口音会降低语音识别率,对于汉语来说尤显突出。
其次是背景噪声,人多的公共场所巨大的噪音对于语音识别的影响自不用说,即使是实验室环境下,敲击键盘、甚至挪动麦克风都会成为背景噪声。
它将破坏原始语音的频谱,或者把原始语音部分或全部掩盖掉,造成识别率的下降。
在实际应用中,噪音是无法避免的。
研究将要解决的问题就是如何把原始语音从背景噪声中分离出来,这将会使识别系统具有很强的适应性。
第三个就是“口语”问题,语音识别技术的最终目的是要让用户在“人机对话”的时候,能够像进行“人人对话”一样自然。
而一旦用户以跟人交谈的方式来进行语音输入时,口语的语法不规范和语序不正常的特点会给语义的分析和理解带来很大的困难。
另外一点就是人的肢体语言和面部表情等因素。
人们在讲话时习惯用眼神、手势、面部表情等动作协助表达自己的思想。
由于这种体态语言的含义与个人习惯、文化背景、宗教信仰以及生存环境等因素有关,因此其信息提取是非常困难的。
近十年来,语音识别的产品也逐渐多起来,例如Motorola的语音拨号电话、IBM的语音听写机等。
但是,现有的语音识别系统都存在一个共同的问题,即性能的稳定性。
不同的用户、不同的信道、不同的背景噪音环境等都对识别性能有很大的影响。
最近10多年来抗噪音识别方法形成了高潮,被EI收录的文章就有1000多篇。
因此,提高语音识别系统的鲁棒性,是目前及今后语音识别研究的一个重点。
相信经过研究者的不断努力,在攻克语音识别中的主要难题后,语音识别技术将对人类的生活方式产生深远的影响。
1.3本论文所要完成的主要工作
虽然语音识别理论和算法研究已经发展到一定的成熟程度,但是我们必须对人的发声器官和发生机理进行研究,建立数字模型,在此基础上应用目前比较成熟的语音识别模型HMM实现孤立词识别,体会语音识别的整体流程。
本文所作的研究工作主要可以概括为以下几个方面:
1、语音信号基本理论研究部分介绍语音信号的发声机理和听觉特性,在次基础上学习建立较精确的语音信号模型。
2、介绍语音识别系统中涉及到的基本概念及原理,分析一般的语音识别系统的结构及所用到的各种理论技术,包括语音识别单元的选取、特征参数的提取、模式匹配[8]等。
3、针对语音信号特征参数求解算法的复杂性以及本实验的需要,研究特征参数的提取过程。
一种是线性预测系数(LPC)的求解,另一种是线性预测倒谱参数(LPCC)的求解,还有一种是Mel频率倒谱系数(MFCC)。
分析在采取不同的特征参数的情况下,对语音识别系统最后的识别率的不同影响。
4、分析利用统计的方法来进行语音识别最常用的一个模型——HMM模型。
该模型中涉及到的三个基本问题,分别用三种算法来进行解决。
建立了一个特定人、孤立词、小词汇量的语音识别系统。
2语音信号基本理论研究
为了用数字信号处理的方法对语音信号进行处理,首先需要简历语音信号产生的数字模型,因此,我们必须在对人的发声器官和发声机理进行研究的基础上,才能建立精确的模型。
作为接受语音信息的人耳听觉系统,其听觉机理也是非常复杂的。
听觉模型的精确建立对于语音识别和理解是非常重要的。
2.1语音信号基本理论
2.1.1语音的发声学机理
人类的语音是由人的发声器官在大脑控制下的生理运动产生的。
人的发声器官由3部分组成:
肺和气管产生气源;喉和声带组成声门;有咽啌、口腔、鼻腔组成声道,参见图2.1所示的发声器官机理模型。
空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。
在声门(声带)以左,称为“声门子系统”,它负责产生激励振动;右边是“声道系统”和“辐射系统”。
当发不同性质的语音时,激励和声道的情况是不同的,他们对应的模型也是不同的。
发浊音的情况,空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和闭合。
声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。
因此,这种情况下在声门处产生出一个准周期脉冲状的空气流。
该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。
这个准周期脉冲的周期即为基音周期。
基音频率是由声带张开闭合的周期所决定的:
男性的基音频率一般为50~250Hz;女性基音频率为100~500Hz。
发清音的情况,空气流经过声带时,如果声带是完
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 词汇量 语音 识别 系统 设计