语音识别综述.doc
- 文档编号:341592
- 上传时间:2022-10-09
- 格式:DOC
- 页数:7
- 大小:232.50KB
语音识别综述.doc
《语音识别综述.doc》由会员分享,可在线阅读,更多相关《语音识别综述.doc(7页珍藏版)》请在冰豆网上搜索。
山西大学研究生学位课程论文
(2014----2015学年第2学期)
学院(中心、所):
计算机与信息技术学院
专业名称:
计算机应用技术
课程名称:
自然语言处理技术
论文题目:
语音识别综述
授课教师(职称):
研究生姓名:
年级:
学号:
成绩:
评阅日期:
山西大学研究生学院
2015年6月2日
语音识别综述
摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。
本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。
关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理
1.引言
语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。
语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。
2.语音识别技术的发展历史及现状
2.1语音识别发展历史
语音识别的研究工作起源与上世纪50年代,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。
1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。
60年代,计算机应用推动了语音识别的发展。
这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。
70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。
80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。
隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连续语音识别系统的开发成为可能,在80年代中期在实践开发中成功应用了HMM模型和人工神经网络(ANN)。
1988年Kai-FuLee等用VQ/HMM方法实现的非特定人连续语音识别系统SPHINX是语音识别历史上的一个里程碑。
90年代以后,人工神经网络技术为语音识别开辟了一条新途径,ANN具有自适应性、并行性、鲁棒性、容错性和学习特性,在结构和算法都显示了很大的潜力,更在细化模型的设计、参数提取和优化,以及系统的自适应技术上取得了关键进展,语音识别开始进入实际应用。
2.2语音识别国内外发展现状
近几年语音技术发展迅速,虽然国内对语音识别商业化仍有一些欠缺。
但整体来说国内的语音技术研究与国外基本同步。
科大讯飞,捷通华声等语音企业相继成立。
2010年Google发布的VoiceAction支持语音操作与检索,2011年初微软的深度神经网络(DNN)模型在语音搜索任务上获得成功;同年10月苹果公司Siri首次亮相,人机交互开启了新的篇章;国内科大讯飞首次将DNN技术运用到语音云平台;2013年Google发布的Glass使用语音交互,同时苹果公司加大了对iWatch的研发投入,穿戴式语音交互设备成为新热点。
我国在语音识别方面的研究最早起源于1958年,当时中科院声学所通过最简单的电子管电路来完成对10个元音的识别,由于计算机技术的滞后,直到国家执行863计划后,语音识别技术和其他关键技术才得到一定的扶持,研究工作才步入了高速发展时期,目前我们的研究水平基本与国外接轨,在汉语语音识别已经处于领先水平,
3.语音识别基本原理方法
3.1语音识别基本原理
语音识别其实是一个模式识别匹配的过程,语音系统一般可以分为前端处理和后端处理,如图1所示。
前端包括语音信号的输入,预处理,特征提取,后端是对数据库的搜索过程,分为训练和识别。
训练是对所建模型进行评估,匹配,优化,获得模型参数。
识别时一个专用的搜索数据库,获得前端数值后,在声学模型,语言模型,字典。
声学模型是通过训练来识别特定用户的语音模型和发音环境特征。
语言模型就涉及到中文信息处理的问题,在这要对语料库单词规则化建一个概率模型。
字典则列出了大量的单词和发音规则。
图1语音系统结构图
具体过程如下,计算机先根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需要的模板,然后在识别过程中,计算机根据语音识别所需的模板。
然后在识别过程中,计算机根据语音识别的整体模型,讲计算机中以经存在的语音模板与输入语音信号的特征进行比较,并根据一定的搜索和匹配策略找出一系列最优的与输入语音匹配的模板。
最后通过查表和判决算法给出识别结果。
显然识别结果的准确率与语音特征的选择,语音模型和语音模板的好坏,准确度有关。
语音识别的目标是把需要的语音特征向量序列X=x1,x2,…xt转化成词序列W=w1,w2…wn并输出,基于最大后验概率的语音识别模型如下式:
找最可能的词序列W,要使得P(X|W)与P(W)乘积达到最大,其中P(X|W)是特征矢量序列X在给定W条件下的条件概率;P(W)是W独立于语音特征矢量的先验概率,λ是平衡声学模型与语言模型的权重。
3.2语音识别分类
目前语音识别系统的分类主要有孤立语音和连续语音识别系统,特定人和非特定人语音识别系统,大词汇量和小词汇量语音识别系统,嵌入式/服务式模式。
自然语言只是在句尾或者文字需要加标点的地方有个间断,其他部分都是连续的发音,以前的语音系统,主要是对于单字单词这些孤立的语音系统。
近年来,连续语音系统已经渐渐成为主流。
根据声学模型建立的方式,特定人语音系统是在前期需要大量的用户发音数据来训练模型,非特定人系统则在系统构建成功后,用户不需要大量语音数据训练就可以使用。
在语音识别技术的发展过程中,词汇量是不断积累的,随着词汇量的增大,对系统的稳定性要求也越来越高,系统的成本也越来越高。
比如一个识别电话号码的系统只需要听懂十个数字就可以了,如果是一个订票系统就需要能识别各个地名,如果需要识别一个报道稿,就需要一个大词汇量的语音系统。
嵌入式是将语音识别系统安装在终端设备,比如手机移动终端,识别过程在终端进行。
如果是服务器模式,终端是需要收集传导语音信号,服务器进行识别过程。
因此对大规模、多用户和大量识别需求的系统,服务器模式可以提供一个有效的解决方案,另外服务器对用户知识需求少,系统整体的更新升级维护更加方便。
4.语音识别的主要模型
4.1样本匹配法
语音识别模型通常有声学模型和语言模型,语言模型能否表达自然语言所包含的丰富语言学知识,是语音识别系统性能好坏的关键。
主要的语音识别分类方法有样本匹配法,吧特征缝隙提取的一组随时间而变特征矢量序列和事先通过学习后存在机器里的样本序列进行比较,输入特征序列和存储的样本通过一定失真准则比较后可找到和输出特征矢量序列最接近的样本序列,由于自然语言语言速度不是恒定的,故动态时间归正方法是样本匹配法成功的关键。
4.2隐马尔科夫(HMM)模型
HMM是目前最强有力的语音识别算法,是对语音信号的时间序列结构所建立的统计模型,是在马尔科夫链的基础上发展起来的。
对语音识别系统而言,通常HMM模型有两个假设前提,一是内部状态的转移只与上一状态有关,一是输出值只与当前状态或当前状态转移有关,除了这两个假设外,他还假设语音是一个严格的马尔科夫过程。
他说一种基于参数模型的统计识别方法,可以视作一个双重随机过程,来模仿人的言语过程,比如用具有有限状态数的马尔科夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔科夫链的每一个状态相关联的观测序列的随机过程。
通常我们从左向右的单向的、带自环的、带跨越的HMM拓扑结构来对识别基本建模。
例如一个音素对应一个三至五状态的HMM,一个词对应于构成该词的多个音素的HMM串,而连续语音则对应于词和静音组合起来的HMM串。
HMM模型在某状态j下对应的观察值可以由一组概率bk,k=1,2…m,来描述,它是M个离散可数的随机变量X,也可以由一个观察概率密度函数bj(X)表示,这就是一个连续的HMM,目前运用最广泛的是高斯型,如下公式:
4.3人工神经网络(ANN)模型
多层神经网络广泛应用于语音模型,不同层之间的神经元通过一定加权系数相互连接,这些加权系数可以在训练过程中学习。
通过模拟人类神经元活动原理,具有自学,联想对比,推理和概括能力。
单个神经元模型如下图:
图2单个神经元模型
Yk代表某一时刻神经元k的输出,f为激活函数,uk表示第k个神经元的净输入,通过下式计算:
x1,x2…xm表示共有m个输入,wk1…wkm分别对应于每个输入的权值,bk称为偏置值,其中激活函数f在该模型中起着很重要的作用,因为一个神经网络分类或者是函数逼近能力,除了和网络拓扑结构有关,还与激活函数有密切的关系,一般传输函数用来控制输入对输出的激活作用以及限制神经元输出的范围既可以将无限输入映射到有限的输出。
现在主流的神经网络有前馈神经网络,它具有很强的学习能力,且结构清晰,便于编程,该网络可以用一个有向无环图表示如下图:
图3多层前馈神经网络图
5.语言识别的难点及未来发展趋势
语音识别面临的主要困难是理论上没有突破,虽然出现了很多新的修正方法,但在识别速度,关键词检测等仍有许多问题亟待解决。
这些困难主要表现在:
(1)语音识别对环境依赖性强,经过某一环境的训练学习后,在别的环境下性能有一个急剧的下降。
(2)高噪音环境下语音识别困难,此时对语音不同音频的抽取也很困难。
(3)模型算法大都存在一定缺陷,比如经典的HMM语音识别模型在一些重要方面也有缺陷,既不符合语音信号的实际情况,又使得模型需要的训练量太大,目前以及提出各种HMM改进算法也加入了遗传算法,并行算法等新技术使得HMM的训练和识别更加准确。
(4)我们人类的听觉理解,知识积累学习机制和人脑神经系统的控制机理等方面的认识还不是很清楚,所以仍然有一些技术上的难关。
(5)语音系统涉及众多领域的学科,像语音学,人工智能,模式识别,数理统计,通信学,计算机科学甚至心理学,因此这些学科的发展也制约着语音识别。
语音识别技术是非常重要的人机交互技术,应用语音的自动理解和翻译,可消除人类相互交往语言障碍。
未来语音识别技术将为网上会议,商业管理,医药卫生,教育培训等各个领域带来极大的便利。
参考文献
[1]马志欣,王宏等.语音识别技术综述.昌吉学院学报,2006,3:
93—97.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 识别 综述