基于WEB的SALT语音识别技术应用研究硕士学位论文.docx
- 文档编号:23782771
- 上传时间:2023-05-20
- 格式:DOCX
- 页数:74
- 大小:1.08MB
基于WEB的SALT语音识别技术应用研究硕士学位论文.docx
《基于WEB的SALT语音识别技术应用研究硕士学位论文.docx》由会员分享,可在线阅读,更多相关《基于WEB的SALT语音识别技术应用研究硕士学位论文.docx(74页珍藏版)》请在冰豆网上搜索。
基于WEB的SALT语音识别技术应用研究硕士学位论文
工程硕士学位论文
基于WEB的SALT语音识别技术应用研究
TheApplicationandResearchofAutomaticSpeechRecognitionTechnologyBasedonSALT
毕业设计(论文)原创性声明和使用授权说明
原创性声明
本人郑重承诺:
所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:
日 期:
指导教师签名:
日 期:
使用授权说明
本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:
按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:
日 期:
学位论文原创性声明
本人郑重声明:
所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。
除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律后果由本人承担。
作者签名:
日期:
年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名:
日期:
年月日
导师签名:
日期:
年月日
注意事项
1.设计(论文)的内容包括:
1)封面(按教务处制定的标准封面格式制作)
2)原创性声明
3)中文摘要(300字左右)、关键词
4)外文摘要、关键词
5)目次页(附件不统一编入)
6)论文主体部分:
引言(或绪论)、正文、结论
7)参考文献
8)致谢
9)附录(对论文支持必要时)
2.论文字数要求:
理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。
3.附件包括:
任务书、开题报告、外文译文、译文原文(复印件)。
4.文字、图表要求:
1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写
2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。
图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画
3)毕业论文须用A4单面打印,论文50页以上的双面打印
4)图表应绘制于无格子的页面上
5)软件工程类课题应有程序清单,并提供电子文档
5.装订顺序
1)设计(论文)
2)附件:
按照任务书、开题报告、外文译文、译文原文(复印件)次序装订
指导教师评阅书
指导教师评价:
一、撰写(设计)过程
1、学生在论文(设计)过程中的治学态度、工作精神
□优□良□中□及格□不及格
2、学生掌握专业知识、技能的扎实程度
□优□良□中□及格□不及格
3、学生综合运用所学知识和专业技能分析和解决问题的能力
□优□良□中□及格□不及格
4、研究方法的科学性;技术线路的可行性;设计方案的合理性
□优□良□中□及格□不及格
5、完成毕业论文(设计)期间的出勤情况
□优□良□中□及格□不及格
二、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
三、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
建议成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
指导教师:
(签名)单位:
(盖章)
年月日
评阅教师评阅书
评阅教师评价:
一、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
二、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
建议成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
评阅教师:
(签名)单位:
(盖章)
年月日
教研室(或答辩小组)及教学系意见
教研室(或答辩小组)评价:
一、答辩过程
1、毕业论文(设计)的基本要点和见解的叙述情况
□优□良□中□及格□不及格
2、对答辩问题的反应、理解、表达情况
□优□良□中□及格□不及格
3、学生答辩过程中的精神状态
□优□良□中□及格□不及格
二、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
三、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
评定成绩:
□优□良□中□及格□不及格
教研室主任(或答辩小组组长):
(签名)
年月日
教学系意见:
系主任:
(签名)
年月日
摘要
长久以来,人们都渴望以一种最简单、最轻松的方式进行沟通。
而随着语音识别技术的飞速发展,人与计算机之间的沟通也变得越来越简单。
SALT(SpeechApplicationLanguageTags)技术是一项新兴技术,它是一种独立平台的标记语言,可以用于创建经由语音平台接入的应用系统。
语音识别拥有可观的应用前景,尤其在我们生活信息化越来越加深的今天,应用于Web的语音识别技术作为一个语音识别应用的热点方向,也具有深远广阔的应用前景。
该技术在进行Web开发中,可以提供一种全新的解决思路,因此“基于WEB的SALT语音识别技术应用研究”实例的实现是对这一新技术进行研究和实践的很好的学习、应用、检验、改进,甚至提高的过程。
在本课题的研究中,主要完成了基于WEB具有语音识别功能并可以根据语音命令完成一定操作基本功能的语音应答平台系统的实现,需要将SALT技术应用于ASP.NET服务系统页面之中。
具体工作如下:
(1)研究了经典的HMM算法及其他算法,分析其算法性能的优劣。
(2)本文重点集中讨论了基于SALT(SpeechApplicationLanguageTags)的语音识别应用,介绍了语音合成技术、文语转换系统的组成及其实现过程、自动语音识别技术、自动语音识别系统的组成及其实现过程,探讨基于SALT的语音识别技术在软硬件平台上的实现以及实际应用中的具体问题。
(3)本文结合SALT论坛最新即将发布的SALT(语音应用语言标记)技术,提出了基于SALT的语音识别系统实现的体系结构,论述了具体的实现方案和方法,并结合中小企业实际情况,开发了一套语音识别示例系统,初步实现了基于SALT技术的语音识别系统的开发,并初步实现了基于Web的远程部署,为下一步的工作打下一个较为可靠的基础。
系统开发集成环境包括:
WindowsXP操作系统、Microsoft的C#、ASP.NET、ADO.NET和SALT1.1final版插件。
关键词:
Web,语音识别,SALT,程序设计,ASP.NET
Abstract
Foralongtime,peoplehaveallwishedeagerlytocommunicateinakindofsimplest,mostrelaxedway.Andwiththedevelopmentatfullspeedoftherecognitiontechnologyofthepronunciation,thecommunicationbetweenpeopleandcomputerbecomessimplerandsimpler.SALT(SpeechApplicationLanguageTags)isamarkuplanguagethattakeserviceinopen,freepatentableaccess,independentofplatform,itisusedforcreatingthenewlyapplicationsystemthatiscutoverthroughspeechplatform.AutomaticSpeechRecognition(ASR)hasconsiderableandbrightfuture,whilemoreandmoreInformationTechnologyhasbeenusedinourdailylife.Andasahotdomain,ASRbasedonSALTalsowillbepopulareverywhere.ThetechnologyinourdevelopmentoftheWeb,youcanprovideuswithabrand-newideastosolve,"theSALTWEB-basedvoicerecognitiontechnologyappliedresearch"istherealizationofourexamplesofthisnewtechnologytostudyandpracticeofgoodStudy,application,testing,improvingandevenimprovetheprocess.
Inthisstudyofthesubject,IhaveprimarilyresponsibleforWEB-basedspeechrecognitionfeaturesandcanoperatewithvoicecommandstocompletecertainbasicfunctionsofthevoiceresponsesystemplatformtherealizationoftheneedtoSALTtechnologyinASP.NETpagesoftheservicesystem.Majorworkisasfollows:
(1)IstudiedclassicalHMMalgorithmandotheralgorithms,analysisthemeritsofitsalgorithm.
(2)WithafocusontechnologyofSALT(SpeechApplicationsLanguageTags)thatSALTforumwillpublishrecently,thisessaybringsupthetotalstructureofAutomaticSpeechRecognition(ASR)systembasedonSALT,andexpoundsthetheoryschemeandmethodsofrealization.AnAutomaticSpeechRecognition(ASR)examplesystemhasbeendevelopedbasedontheactualcircumstancesatsmall-andmedium-sizedenterprises,whichhasprovidedasetofsoftwareforsmall-andmedium-sizedenterprisesthatconformstopracticeandsuitsthedemandincustomerservice.TheessayachievestheASRdevelopmentbasedonSALT,andfinishedthelong-distancearrangement,bringsareliablebaseforthecomingworkinthenextround.
(3)Thissystemenvironmentinclude:
OperatorSystemofWindowsXPandthedevelopmenttoolsoftheMicrosoftVisualC#.NET,ASP.NET,ADO.NET,andsoon.TheversionofSALT1.1finalisthesubjectivesoftwaretoolwhichisusedtodevelopthespeechinterfaceofthewebsystem.
KEYWORD:
Web,SpeechRecognize,SALT,Programming,ASP.NET
目录
第一章 绪论1
1.1研究背景1
1.2研究现状2
1.3研究内容4
1.4全文的组织安排5
第2章语音识别技术6
2.1语音识别的原理6
2.2语音识别的基本算法9
2.2.1概述9
2.2.2HMM模型的结构12
2.2.3前向和后向算法14
2.2.4Viterbi算法15
2.2.5Baum-Welch算法16
2.3Internet中语音识别的应用17
2.4本章小结18
第3章基于WEBSALT语音识别19
3.1SALT技术19
3.1.1SALT技术知识分析19
3.1.2SALT技术的优越性22
3.2基于WEBSALT语音识别的体系结构23
3.2.1SALT体系结构23
3.2.2SALT开发流程25
3.3基于WebSalt语音识别的算法分析27
3.4本章小结29
第四章基于WEBSALT语音识别系统的设计与实现30
4.1系统功能分析30
4.2系统总体模块划分30
4.3使用技术及方法31
4.3.1面向对象的技术31
4.3.2并行工程设计32
4.3.3采用VS.NET平台及B/S结构技术32
4.3.4系统开发环境及运行环境的选择33
4.3.5开发平台和Web服务33
4.3.6开发工具和语言34
4.3.7运行环境35
4.4系统接口设计35
4.4.1用户界面设计35
4.4.2SALT接口应用设计36
4.5系统实现36
4.5.1设计模式的应用36
4.5.2Web应用程序的详细设计37
4.5.3语音识别系统语法(Grammer)设计39
4.5.4语音识别系统的功能设计40
4.6系统运行及特点41
4.7运行测试评价42
4.7.1测试环境42
4.7.2运行测试42
4.7.3测试结果分析45
4.7.4测试结论46
4.8本章小结47
第五章 总论和展望48
5.1结论48
5.2 进一步研究工作49
5.3本章小结49
参考文献50
致谢54
第一章 绪论
1.1研究背景
在现代社会中,人们逐渐习惯借助计算机来完成各项事务。
在这种形势下,如何让计算机智能化地与人通信,使人机交互更加自然方便成为现代计算机科学的一个重要的研究课题。
语音是人际交流的最习惯、最自然的方式,它将成为人机交互方式的理想选择。
让机器能听会说,是人类由来已久的理想。
语音技术主要包括语音合成技术和语音识别技术。
语音合成技术解决机器说的问题,语音识别技术解决机器听的问题。
设计和开发的应用实例或系统是语音技术商业化、社会化的重要手段,语音技术的应用在当今社会有着重要的意义。
首先政府开通的咨询热线、咨询服务业对于语音技术的应用期待己久。
语音识别技术和语音合成技术,再加上数据库共同组成咨询服务业务的解决方案。
呼叫中心必须迅速地走上机器智能应答和记录的道路,否则,呼叫中心只能变成为一个美丽而不实际的神话,24小时的热线服务,不均匀的问讯量峰谷,日益增高的工资成本,坐席人员的培训与流失,很快就会使政府、企业不堪其负。
机器的语音应答,白动的问讯和需求记录,将大幅度降低呼叫中心的投资及其运转成本,将会受到各级政府、广大中小企业的欢迎。
其次,语音自然交互更具有其它信息终端不具备的优势,利用自然语音交互技术,用户不再需要一项一项的填写Web的Form表单,不再需要痛苦的在小小的手机键盘上换着数字输入名字和E-mail地址。
基于关键字捕捉和自然语言处理技术,用户进入个人界面后可以轻松的说一句:
“旅游信息,杭州”,相应地计算机回应“杭州”的有关信息,一切轻松自然而又随意。
再次,国际上衡量一个国家的咨询服务业发展程度有一个参考值,即信息咨询产值与电子产品工业产值的比率,这个比值在欧美日的平均水平是1:
1强,而中国的这个比值是不到9%,香港、新加坡的平均水平是中国大陆的4倍左右。
最后,广阔的市场前景。
美国的著名咨询企业安达信公司曾报告指出,按照中国的市场化发展速度看,到2010年中国的信息咨询业将达到100亿美元,即1000亿人民币左右的规模。
这还不包括各级政府、大中小企业自建的咨询服务热线,中国互联网中心也预计语音产品及其咨询业规模将达到1300亿元。
1.2研究现状
语音识别(AutomaticSpeechRecognition,ASR)的研究工作起始于上个世纪50年代,1952年贝尔实验室的Davis,Biddulph和Balashek建立了一个与说话人有关的孤立英文数字语音识别系统[1,3]。
在说话人和麦克风距离保持不变的情况下,该系统正确识别率达到了98%。
1959年,美国Lincoln实验室的Rorgie和Forgie[3]首次采用数字计算机识别英文的元音和以摩擦音开头的孤立字,这标志着计算机语音识别时代的开始。
60年代末70年代初,一系列里程碑似的基础性突破为语音识别的发展奠定了基础。
在语音学方面,瑞典通信工程师Fant发表了著名的博士论文《语音产生的声学理论》。
在信号处理方面,线性预测编码(LinearPredictionCoding,LPC)技术在70年代被日本学者Itakura[5]成功地应用于语音识别,使语音信号的特征提取有了一次飞跃。
前苏联科学家Vintsyuk60年代将动态规划应用于模式识别,成为语音识别方法的重要基础。
日本学者Sakoe和Chiba[6]提出了动态时间归整(DynamicTimeWarpingDTW)技术用来解决语音识别中不等长语音的对整问题。
语音信号线性预测编码技术和动态时间归整技术,结合模板匹配原理,有效地解决了特定人、小词汇表的孤立词语音识别问题。
美国于70年代实施了美国国防高级研究项目计划(USDefenceAdvancedResearchProgramAgency,DARPR),对语音识别研究给予很大支持,DARPA采用有多个说话人发音的1000词的语料库,作为参加DARPR计划的大学和公司研发的语音识别系统的性能评估语料库。
80年代以后,语音识别的任务开始由特定人孤立词语音识别转向非特定人、中等词汇量的连续语音识别,识别的方法也逐渐从模板匹配方法转变到统计模型方法。
以隐马尔可夫模型典型代表的统计方法,由于其在参数、结构和训练方法的选择上有很大的灵活性,逐渐成为语音识别技术的主流。
HMM的理论基础在1970年前后由Baum等人建立起来,随后由CMU的Baker和IBM的Jelinek等人应用于语音识别之中,HMM模型的广泛应用归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,使世界各国从事语音处理的的研究者所了解和熟悉,进而成为公认的一个研究热点。
人工神经网络(ANN)[7,8]在语音识别中的应用研究的也在这一时期兴起。
在此期间,美国国防部的DARPA计划对语音识别研究起了巨大的推动作用,当时DARPA的相应评估语料库为100个带不同方言的说话者、词汇量为一千的ResourceManagement(RM)语料库,参加DARPA计划评测的各研究机构都推出了各种识别系统,如Carnegie-Mellon大学用VQ/HMM的方法实现了SPHINX系统,这是第一个高性能的非特定人、大词汇量连续语音识别系统。
Bell实验室以Rabiner为首的小组对英语数字串识别作了大量的研究,成为小词表语音识别
的典范。
90年代语音识别转向大规模、非特定人自然语言的识别。
1993年,DARPA采用华尔街杂志语料库(WallStreetJournalCorpus)[9]进行语音识别系统评估,该语料库包含两万个词汇。
另外还有Switchboard语料库,它是个含有2.6万个词汇的自然电话交谈语音数据库。
1998年,DARPR用广播新闻语料作评估,这些语料来自英语电台和电视新闻节目录音,背景噪声、说话人口音和失真等情况复杂,因此识别难度大。
其中低噪声部分评测结果剑桥大学的HTK[10,11]系统正确识别率最高,字错误率为7.8%,自然发音部分法国国家实验室的LIMSI正确识别率最高,字错误率为14.4%。
美国国家标准和技术协会(NationalInstituteofStandardsandTechn
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 WEB SALT 语音 识别 技术 应用 研究 硕士学位 论文