基于嵌入式语音识别系统研究.docx
- 文档编号:29317597
- 上传时间:2023-07-22
- 格式:DOCX
- 页数:34
- 大小:32.10KB
基于嵌入式语音识别系统研究.docx
《基于嵌入式语音识别系统研究.docx》由会员分享,可在线阅读,更多相关《基于嵌入式语音识别系统研究.docx(34页珍藏版)》请在冰豆网上搜索。
基于嵌入式语音识别系统研究
基于嵌入式语音识别系统研究
西安科技大学
硕士学位论文
基于嵌入式语音识别系统的研究
姓名:
宋艳
申请学位级别:
硕士
专业:
计算机应用技术
指导教师:
朱宇
2011-06
论文题目:
基于嵌入式语音识别系统的研究
专业:
计算机应用技术
硕士生:
宋艳签名
指导老师:
朱宇签名
摘要
近些年来,随着科学技术的不断发展,语音识别技术开始从实验室走向市场。
语音
识别技术就是让机器通过识别和理解的过程将获取的语音信号转变成文本或命令的技
术。
由于其研究的难度以及重要性,语音识别技术成为当前研究的热点与难点。
将其应
用于嵌入式系统中,使得嵌入式语音识别技术成为语音识别领域新的发展方向,并且其
应用已成为具有竞争性的高技术的新兴产业。
本文首先对语音识别的基本理论进行研究,包括语音信号的预处理、特征提取、模
型匹配三个方面的重要方法,给出了基于MFCC+△MFCC的语音特征参数提取方法。
基于理论的研究,在实验室环境下提取了特定人的0-9的10个语音数据,分别对语音
信号预处理中的预加重、端点检测,MFCC+△MFCC语音特征参数提取方法及语音模
型匹配算法进行了实验仿真。
结果表明了以上理论的有效性。
然后将以上研究结果应用
于嵌入式语音识别系统中。
通过对嵌入式语音识别系统的开发环境、硬件处理器的选择
等相关理论研究,进行了嵌入式语音识别系统硬件和软件的设计,系统包括硬件平台、
Bootloader、Linux内核及根文件系统。
基于硬件设计部分,选用以ARMS3C2440处理
器为核心的开发板,搭建系统的硬件平台,通过UDA1341TS语音芯片的串行口软件来
实现语音信号的A/D采样,ARMS3C2440处理器的选用大大提高了系统的运行速度及
性能。
基于软件的设计部分,对系统软件的开发流程及实现方案做了详细介绍,并在
Liunx交叉开发环境下,对MFCC+△MFCC语音特征参数提取方法及DTW算法的功能
模块进行程序调试。
最后,通过ARMS3C2440采集语音数据,且经过具体实验验证了基于MFCC+△
MFCC语音特征参数提取方法及DTW模板匹配算法的特定人孤立词嵌入式语音识别系
统的性能,系统测试结果达到预期目标。
关键词:
语音识别;特征提取;DTW;嵌入式;ARMS3C2440
研究类型:
应用研究
Subject:
TheResearchofSpeechRecognitionSystemBasedon
EmbeddedSystem
Specialty:
Computerapplicationtechnology
Name:
SongYanSignature
Instructor:
ZhuYuSignature
ABSTRACT
Inrecentyears,withthedevelopmentoftheembeddedtechnology,speechrecognition
technologystartedfromlabtomarket.Speechrecognitiontechnologyisakindoftechnologywhichmakethemachineconvertthelinguisticsignalsintothetextorcommand
throughtheprocessofrecognitionandunderstanding.Itbecomesaresearchfocusbecauseof
itsstudydifficultyandimportance.Applyingspeechrecognitiontechnologyinembedded
systemsmakesembeddedspeechrecognitiontechnologybecomethenewdevelopment
directioninspeechrecognitionfield.Andtheapplicationofembeddedspeechrecognition
technologyhasbecomeacompetitivehigh-techemergingindustryInthispaper,westudiedthebasictheoryofspeechrecognitionfirstly,whichincludsthe
speechsignalpretreatment,featureextractionandmodelmatching,andthephoneticfeatures
parametersextractionmethodwhichbasedonMFCC+△MFCCisgiven.Basedonthetheory,
weextracted10speechdatawhichisfrom0to9ofthespecificpersoninlaboratory
environment.Theexperimentalsimulationofspeechsignalpretreatmentmethodwhich
includeincreaseinadvance,endpointdetectionandfeatureparametersextractionmethod
whichbasedonMFCC+△MFCCandvoiceonthesimulationmodelmatchingalgorithmwas
carriedrespectively.Theeffectivenessoftheabovetheorywasprovedbytheexperimental
result.Then,weappliedtheaboveresearchresultstoembeddedspeechrecognitionsystemBasedonthestudyofrelevanttheoriesofembeddedspeechrecognitionwhichincludethe
systemdevelopmentenvironment,thechoiceofhardwareprocessorandsoon,wedesigned
thehardwareandsoftwareofembeddedspeechrecognitionsystem.Thesystemincludes
hardwareplatform,Bootloader,Linuxkernelandrootfilesystem.Hardwaredesignpart,we
chooseARMS3C2440processorascoredevelopmentboard,thendesignedthehardware
modulesincludingsystemcontrol,systemaudioinput/output,systemstorageand
communicationinterface,andbuildthesystemhardwareplatform,throughtheserialport
UDA1341TSpronunciationchiptorealizethesoftwareofspeechsignalA/Dsampling.The
selectionofARMS3C2440greatlyimprovedthesystemspeedandperformance.Software
designpart,thesystemsoftwaredevelopmentprocessandimplementationschemeis
introduced.ThephoneticfeaturesparametersextractionmethodwhichbasedonMFCC+△
MFCCandDTWalgorithmfunctionalmodulesaredebuggedandimplementatedinLinux
developmentenvironment
Finally,throughtheARMS3C2440collectspeechdataandthespecificexperimental
resultsverifiedtheperformanceinspecificpersonisolatedwordsofspeechrecognition
systemwhichbasedonMFCC+△MFCCphoneticfeaturesparametersextractionmethodand
theDTWtemplatematchingalgorithm,systemtestresultstoachievethedesiredgoals
Keywords:
SpeechRecognitionFeatureExtractionDTWEmbeddedtypeARMS3C2440
Thesis:
ApplicationResearch1绪论
1绪论
随着嵌入式技术的发展和嵌入式设备计算能力的提高,将语音识别技术应用于具有
一定计算能力和存储资源的嵌入式平台上,对人们的日常生活和工作有着重要的作用和
意义。
1.1研究的背景与意义
语言是人类创造的,语音是语言的声学表现,是实现人们之间沟通交流的最直接最
方便的手段,也是人类进行思维的一种依托。
“阿里巴巴与四十大盗”的故事说明了让
机器能听懂人类的语言,执行人表达的口头指令,是人类古已有之的理想。
人类已经进
入了科学技术发展信息化的时代,结合科学技术来研究语音识别的技术,更能使现代社
会的人们,在生产生活中有效地产生、传递、储存和获得一定的语音信息,这样对促进
社会的发展具有重要的意义。
近三十年来,语音识别在计算机、通信与电子系统、自动
控制、信息处理等领域的应用越来越广泛,并且在保密系统、机器人控制等一些高科技
领域中正成为关键、具有竞争力的技术。
应用语音识别技术,实现计算机与人类之间畅
通无阻的语音交流,一直是人们不懈追求的梦想,用语言对计算机直接发号施令,让机
器听懂人类的语言来工作,可免除操作人员大量重复的劳动,既经济又方便。
世界上各
大著名的IT公司如:
IBM、Intel等大型公司也投入了相当大的精力及许多财力来研究
语音的识别技术。
微软总裁盖茨说过:
“我们将在这以后的几十年中,有效克服语音识
别的障碍,使操作系统软件及应用程序抛弃鼠标与键盘,成为真正意义上的人机对话。
”
语音识别技术是计算机发展技术重要发展的方向,随着多媒体时代的到来迫切要求
解决自动语音识别的难题。
语音识别技术已经成为计算机在亿万百姓中普及的关键技
[1]
术,并且必将成为信息产业的标志性技术和未来计算机重要特征。
其在嵌入式系统中
主要应用于语音的控制,使用语音对于人机交互是最方便自然的方式,同时结合小型嵌
入式设备可以节省体积。
例如:
日本研制的能识别主人声音的智能玩具、德国开发的汽
车车载声控系统以及在安防仪器中有效地嵌入语音识别技术来解决相应的安全问题等。
嵌入式技术中ARM几乎成了代名词,ARM技术平台下实现语音的识别功能是目前语音
识别中的又一个新的挑战点,要建成具有和人相比拟的语音识别系统仍然是人类面临的
[2]
一个很大的挑战。
目前,对于语音识别技术的研究大多数都是基于统计模式识别的理论,由于统计模
型训练时的计算方法复杂,运算量比较大,一些计算工作都是通过计算机来完成,这样
在许多便携式设备中就限制了语音识别技术的运用。
本文通过研究动态时间规整DTW
技术识别算法的特点,比较当前的硬件设备,选取了ARM9系列的S3C2440芯片硬件
1西安科技大学硕士学位论文
设备,进行嵌入式语音识别系统的研究,为目前嵌入式语音识别技术的应用做了一些有
意义的工作。
1.2国内外研究现状
1.2.1国外研究现状
语音识别的研究工作大约开始于上世纪50年代,这一阶段主要研究语音学和声音
的基本概念和原理。
1952年,Bell实验室的Davis等人首次成功研制实现了第一个可识别
十个英文数字的离散数字语音识别系统?
?
Audry系统,此系统主要依赖于测量数字元
音区域的的共振波普。
MIT林肯实验室的研究人员则是构建一种非特定人的元音识别
[3]
器,用于识别嵌在语境中的10个元音。
60年代中期,在RCALab实验室的第一个研究项目,目的是研究语音事件在时间刻
[4]
度上不均匀性的解决办法。
同时,前苏联的研究人员Vintsyuk提出使用动态规划DP
[5]
技术来将两个不同长度的语音段对齐。
此时引入的动态规划DP和线性预测分析技术
LP,大大加快了语音识别方法研究的进展。
DP技术有效解决了不等长的语音匹配的问
题,LP技术较好地解决了语音信号产生模型的问题,用硬件实现的滤波器组来提取频谱
特征,使用计算机匹配计算和判决语音信号,对语音识别的发展产生了深远影响。
70年代,语音识别领域取得了突破性的进展。
在许多方面线性预测分析技术LPC
[6][7]
的应用已取得成功,并且得到进一步发展,动态时间规整技术DTW应用基本成熟,
尤其是提出了隐马尔可夫模型HMM和矢量量化VQ模板匹配和识别技术理论。
实践
上,实现了基于线性预测倒谱LPCC特征参数提取和动态时间规整DTW技术的特定人
孤立词语音识别系统,成为现今多数嵌入式语音识别系统研究的理论基础。
80年代,语音识别技术研究更加深入,即由传统的标准模板匹配识别技术思路开始
转向基于统计模型HMM模型匹配识别的技术,并且人工神经元网络ANN和隐马尔可
夫HMM模型在语音识别中成功应用。
通过ANN和HMM模型建立的语音识别系统,
其系统的性能相当。
AT&TBell实验室Rabiner等科学家的共同努力使得HMM模型能
广泛的应用,他们把HMM纯数学模型通过研究计算工程化,从而使更多的专业人士来
了解和认识。
进入20世纪90年代后,语音识别在参数提取和优化、细化模型设计以及系统自适
应性等方面取得了关键性的进展,特别是在现代信号处理技术中,如混沌与分形理论、
模糊理论、小波分析、时频分析、遗传算法等都正在应用于语音识别技术上,使得语音
识别技术进一步走向成熟。
随着计算机科学技术、信息处理等领域的飞速发展,迫使
语音识别系统开始从实验室走向实用市场。
IBM公司率先推出的汉语听写机产品,为语
音识别技术在汉字输入方面的实际应用开辟了新的道路。
21绪论
现代的ARM技术发展就相对比较迟,进入二十一世纪,正像美国微软公司总裁所
说的那样,语音识别技术将使计算机丢掉键盘和鼠标,为我们的生活来很大方便,并将
改变一些人的工作和生活方式。
1.2.2国内研究现状
国内最初期的语音识别技术研究工作始于中科院声学所。
在20世纪50年代后期,
中科院声学所采用频谱分析的方法对汉语中10个元音的语音识进行了研究;20世纪70
年代后期,研究构建了基于模板匹配的孤立词语音识别系统。
到80年代后期,主要研
究了八五期间中科院人机语音对话项目。
在这个过程中,随着中科院声学所对语音识别
的研究取得相应的成果,国内的许多大专院校及研究所也陆续开始对其研究。
由此,中
科院声学所、自动化所、北大、清华等国内的研究机构为中国的语音识别研究起了积极
的催化和引导作用。
由于中国未来的庞大市场,国外也非常重视,一些公司投资巨大的人力、财力、精
力对汉语语音识别进行研究,美国、新加坡等地聚集了很多来自大陆、香港、台湾等地
的学者,研究成果已经达到相当高水平。
因此,国内对语音识别系统的研究除了要不断
加强理论的研究以外,还要加快从实验室的演示系统实现到商品转化的步伐。
1.3嵌入式技术现状
嵌入式系统是指以计算机技术为基础、以应用为中心、软件硬件可剪裁、适应对功
能、可靠性、成本、体积、功耗具有较高要求的专用计算机系统,主要由嵌入式微处理
器、外围硬件设备、嵌入式操作系统以及用户应用软件等部分组成,实现对其它设备监
控和管理等功能。
嵌入式操作系统分类很多,根据功能不同可以分为重量级和轻量级的
操作系统。
常见的重量级的嵌入式操作系统有Linux、VxWorks、WinCE等,是以系统的
内核为基础,并且扩充了网络系统、文件系统、图形界面等多项功能,常用于开发大型
[10]
系统。
轻量级的操作系统有μC/OS-II、FreeRTOS、Salvo等,通常只提供任务管理、
内存管理、时间管理、信号量、消息队列等内核服务,适用于较小系统的需要;
后PC时代的到来以及智能化设备的发展为32位的嵌入式系统的应用提供了广阔的
发展空间,同时对当前嵌入式系统发展应用力不从心的8位机向32位高端发展起了接
力的作用。
由于32位嵌入式系统的应用,使得大量的计算机专业人士来深入研究它。
同时基于嵌入式系统软硬件技术不断的发展,其应用模式的也发生了巨大的变化,使其
应用进入到了一个基于软硬件平台、集成开发环境的嵌入式应用系统开发时代,并且带
动了片上系统SOC技术的发展。
嵌入式系统应用于语音识别系统中,和PC机的语音识别系统相比,其内存容量和
运算速度相对有一些限制,但是各自也有其优点。
嵌入式语音识别系统和PC机的语音
3西安科技大学硕士学位论文
识别系统相比的最大优势是它的体积小、投入小、耗电低、可靠性高、便于移动等,并
且大多数采用实时操作系统RTOSRealTimeOperateSystem作为软件核心用以提高系
统的实时性能,当用户说话以后,系统能立即做出相应的反应。
嵌入式微处理器的不断发展和嵌入式实时操作系统的广泛应用,使嵌入式语音识别
系统的发展和应用走向一个新的发展里程。
1.4主要研究内容
本文主要研究基于嵌入式的语音识别系统。
在研究和比较传统的特征提取方法的基
础上,探索了一种基于传统美尔倒谱MFCC的语音特征提取方法MFCC+△MFCC,并
将其应用于嵌入式语音识别系统中。
本文从语音识别基础理论分析、系统硬件平台的设
计、系统软件平台分析等方面讨论说明了语音识别在ARMS3C2440开发板上的设计实
现过程。
系统硬件设计上,设计了语音识别系统的控制部分、语音程序的存储部分以及
语音的输入输出部分等;系统软件设计方面,则是对交叉编译环境、系统软件开发流程
以及对系统的编译和实现做了详细说明。
主要研究内容如下:
1
○通过深入学习研究语音识别的基本理论,对特定人孤立词语音识别系统进行了深
入研究。
比较动态时间规整DTW和隐马尔可夫模型HMM两种识别方法的优缺点。
经
过对比研究得出基于特定人小词汇量的语音识别系统,选用DTW模型匹配方法更好。
2
○研究和比较传统的语音特征提取方法、语音模板训练匹配算法并进行matlab仿真,
选择识别率更高,能提高系统效率的方法,给出了MFCC+△MFCC的语音特征参数提取
方法。
实验数据采集了0~9的10个数字的语音数据信号,将其通过预处理、端点检测
及特征提取,存储计算10个特征矩阵作为语音参考模板,并对语音系统模块进行了程
序设计,然后进行实验。
实验结果表明预处理过程中采用双门限端点检测方法、特征参
数提取采用MFCC+△MFCC方法以及选用DTW模型匹配方法更能满足特定人孤立词的
语音识别系统的要求,并且提高系统的识别效率及准确率。
3
○将以上的研究结果应用于嵌入式语音识别系统中。
系统包括硬件平台、
Bootloader、Liunx内核及根文件系统,即硬件和软件设计两个部分。
硬件设计部分,通
过研究比较市场上的语音处理的硬件平台,选用先进的以ARMS3C2440处理器为核心的
开发板,通过对系统控制模块、系统音频输入输出模块、系统存储模块及系统的通信接
口模块等硬件模块的设计,搭建系统的硬件平台,通过UDA1341TS语音芯片的串行口
软件来实现语音信号的A/D采样,ARMS3C2440的选用大大提高了系统的运行速度及性
能。
软件设计部分,对系统的开发坏境、系统的实现方案及系统软件的开发流程做了详
细的介绍,并在Liunx交叉开发环境下对DTW算法功能模块进行程序实现。
最后将三组
待测语音与参考模板进行匹配识别,通过具体实验验证了特定人孤立词的语音识别系
41绪论
统。
1.5论文结构安排
第一章绪论。
简单介绍了语音识别技术和嵌入式技术发展的背景和现状,阐述了论
文的研究内容以及论文的组织结构。
第二章主要介绍了语音识别的基本理论。
从语音信号的预处理、特征提取、模板训
练方法、模板匹配与识别方面进行了阐述。
第三章对语音识别系统进行了仿真。
主要是运用MATLAB7.0软件工具对语音信号
的预加重、端点检测方法、特征提取及DTW算法进行仿真,得出仿真结果并进行了实
验结果的分析。
第四章主要基于嵌入式语音识别系统应用平台的研究。
介绍了嵌入式语音识别系统
的要求、系统软硬件的应用平台、Bootloader以及系统的开发环境。
第五章详细介绍了嵌入式语音识别系统的软硬件架构及各功能模块的设计过程,对
系统进行测试,并对结果进行了讨论。
第六章对本文的工作进行了总结,并展望了未来。
5西安科技大学硕士学位论文
2语音识别的基本理论
2.1语音识别的基础
2.1.1语音信号产生的数学模型
语音信号是发声过程中通过声道的激励发生共振而产生的,由于声道的运动可以将
[11]
其看作是激励信号激励一个线性系统而产生的信号输出。
人类发音过程有三类不同的
激励方式,因此能产生浊音、清音及爆破音三类不同的声音。
语音信号的浊音是利用基音周期控制脉冲串激励声道产生的,即是由一个准周期性
的空气脉冲激励一个线性系统而产生的语音输出,这个线性系统由声门脉冲模型Gz、
声道模型Vz和辐射模型Rz级联而成。
而语音信号清音的产生是当气流速度与横截面
积之比大于临界速度时产生的摩擦音,也就是由白噪声序列来激励线性系统而产生的输
出,此线性系统由声道模型Vz和辐射模型Rz级联而成。
语音信号产生的数学模型如
图2.1所示。
声道参数
周期脉冲声门脉冲模
发生器型GZ
声道模型辐射模型
清浊音开关
VZRZ
随机发生器图2.1语音信号数学模型
由图2.1可以看出,一个完整的语音信号数学模型应由激励模型、声道模型及辐射
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 嵌入式 语音 识别 系统 研究