基于小波消噪及端点检测的语音识别.docx
- 文档编号:478806
- 上传时间:2022-10-10
- 格式:DOCX
- 页数:65
- 大小:780.93KB
基于小波消噪及端点检测的语音识别.docx
《基于小波消噪及端点检测的语音识别.docx》由会员分享,可在线阅读,更多相关《基于小波消噪及端点检测的语音识别.docx(65页珍藏版)》请在冰豆网上搜索。
基于小波消噪及端点检测的语音识别
1绪论
语音是人类进行相互通信和交流的最方便、最快捷的手段。
在高度发达的信息社会中,用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网络中最重要、最基本的组成部分之一。
非特定人连续语音识别在电话拨号系统、家电遥控、工业控制、信息查询系统等领域有广泛应用。
在本文中,将虚拟仪器技术应用于语音识别系统,实现了仪器的软件化,真正体现了“软件就是仪器”的思想。
利用计算机强大的图形环境和硬件资源建立的图形化的虚拟仪器面板,实现对语音信号的实时采集、分析处理与特征提取等,利用软件实现仪器功能的模块化、智能化,使其具有成本低廉、数据分析便利和设备管理良好等优点。
本章综述了语音识别技术的学科背景、发展历程,介绍了当前语音识别领域的主流技术、典型系统及其应用前景,特别分析了汉语语音识别的难点,阐明了本论文的研究框架和内容。
1.1语音识别的学科背景与发展历程
语音是人类最自然、最常用的交流方式,语音识别是近半个世纪发展起来的新兴学科,其目标是使机器“听懂”人的自然语言。
由识别得到的信息可作为控制信号在工业、军事、交通、医学、民用等各个方面都有着广阔的应用前景,例如声控电话交换、语音拨号系统、各类语音声讯服务(股票信息、天气预报等)、智能玩具、语音呼叫中心等。
语音识别技术将大大改善人机交互界面,提高信息处理自动化程度,具有巨大的社会、经济效益。
正因为如此,语音识别正迅速发展为“改变未来人类生活方式”的关键技术之一。
作为专门的研究领域,语音识别又是典型的交叉边缘学科,它要依赖众多学科的科研成果。
从计算机学科角度来看,它属于智能计算机的智能接口部分;从信息处理学科来看,它属于信息识别的一个重要分支;从通信及电子系统、电路、信号及系统定学科来看,它又可视为信息和通讯系统的信源处理科学;而从自动控制学科来看,它则可堪称模式识别中的一个重要部分--时序模式识别;此外,语音识别与声学、生理学、心理学、语音学、语言学有着密不可分的联系,而且语音识别与语音压缩、语音合成、语音增强、说话人识别等语音研究有着更为直接、紧密的关系。
语音识别是颇具挑战性的研究领域,仅从模式识别角度来看,语音信号属于瞬时事件性信号,同时它又是时变的非平稳随机过程,有内在的多种可变性,这使得语音识别成为多维模式识别中一个很难的课题。
语音识别系统根据对语音方式要求的不同,可以分为孤立字(词)语音识别系统,连接词语音识别系统以及连续语音识别系统;根据对说话人的依赖程度,可以分为特定人和非特定人语音识别系统;根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
不同的语音识别系统,虽然实现细节有所不同,但所采用的基本框架相类似,其关键技术主要包括特征提取技术、模式匹配和数据训练技术三个方面。
语音识别的研究工作大约开始于20世纪50年代,当时AT&T贝尔实验室实现了第一个可识别10个英文数字的语音识别系统。
60年代,这时期的重要成果是提出了线性预测分析技术(LP)和动态规划(DP),前者较好的解决了语音信号产生模型的问题,后者则有效解决了不等长语音匹配问题,对于语音识别发展产生可深远的影响。
70年代语音识别领域取得了突破:
在理论上,LP技术得到进一步发展,DTW(DynamicTimeWarp)技术基本成熟,特别是提出了矢量量化(VQ)和隐马尔科夫模型(HMM)理论;在实践上,实现了基于LPC和DTW技术型结合的特定人孤立语音识别系统。
80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。
语音识别算法从模版匹配技术转向基于统计模型技术,语音模型也从规则描述转向统计描述。
连接词语音识别系统、连续语音识别系统相继出现,其中1998年美国CMU大学基于VQ/HMM开发的997词非特定人连续语音识别系统SPHINX具有里程碑的意义。
90年代以来,语音识别技术在多项关键技术上更加成熟,同时在计算机技术、电信应用等领域飞速发展的带动下,出现了一批走向实用化的语音识别系统和语音服务应用。
在嵌入式应用中,出现了可以语音拨号的手机、与人对话的智能玩具;在计算机应用中,出现了以IBMVia-Voice为代表的语音录入系统;在商业服务中,出现了以语音识别、语音合成为核心技术的呼叫中心(CallCenter)、语音门户网站等等。
目前,语音识别研究时仍以HMM为主流,同时出现了多种技术方向并存的局面。
特别是在语音识别系统的框架设计上、在实践序列建模上、在融合多层信息源的能力上,HMM仍有着很大的优越性。
大多数语音识别系统以HMM为主框架,在系统局部辅以其他技术手段加以优化,例如通过采用听觉模型提取鲁棒性更高的声学特征,在HMM系统的底层利用ANN的非线性影射能力区分较小的语音单元(音素级)等等。
1.2汉语语音识别的难点
经过50多年的发展,语音识别技术经历了从特定人、小词汇量、孤立词的语音识别到非特定人、大词汇量、自然语音识别的发展过程,取得了辉煌的成就。
但是,现有的语音识别系统还面临着许多困难,远远达不到广泛实用化的要求,具体来说,主要表现在以下几个方面:
(1)语音识别系统的适应性差。
全世界有近百种官方语音,每种语音有多达几十种的方言,随着语言环境的改变,系统性能会严重下降。
(2)噪声问题:
目前的语音识别系统大多只能工作在安静的环境下,在受环境噪声干扰时,语音识别系统性能变差。
(3)端点检测:
连续语流中语音单元间存在协同发音(co-articulation),且各语音单位之间不存在明显的边界,因此很难分割。
语音信号的端点检测是进行语音识别的重要部分,研究表明,即使在安静的环境下,语音识别系统一半以上的识别错误来自端点检测。
(4)由于对人脑的记忆、听觉的神经生理学机理没有彻底的认识,使语音识别技术没有突破性进展。
汉语语音识别除具有一般语音识别系统的特点外,还有其独特的方面,因为汉语发音与英语发音比较有以下特点:
(1)汉语字以单音节(Syllable)为单位,发音时间短,而英语以多音节为主。
(2)汉语有大量的同音字,由60个左右的声母和韵母组成40多个无调音节和1200多个有调音节,音节与音节之间相似性大、易混淆。
英语则不存在这方面的问题。
(3)中国民族众多,不同地区之间发音变化很大,方言多。
基于以上原因,与比较成熟的英语语音识别相比,汉语语音识别仍是一个富有挑战性的课题。
1.3虚拟仪器简介
虚拟仪器(VirtualInstrument,简称VI)是现代计算机技术和仪器技术深层次结合的产物,是当今计算机辅助测试(CAT)领域的一项重要技术。
虚拟仪器是计算机硬件资源、仪器与测控系统硬件资源和虚拟仪器软件资源三者的有效结合。
所谓虚拟仪器,就是在通用计算机为核心的硬件平台上,由用户设计定义、具有虚拟面板、测试功能由测试软件实现的一种计算机仪器系统。
使用者用鼠标点击虚拟面板,就可操作这台计算机系统硬件平台,就如同使用一台专用电测量仪器。
虚拟仪器的特点可归纳为:
(1)在通用硬件平台确定后,由软件取代传统仪器中的硬件来完成仪器的功能。
(2)仪器的功能是由用户根据需要由软件来定义的,而不是事先由厂家定义好的。
(3)仪器性能的改进和功能扩展只需进行相关软件的设计更新,而不需购买新的仪器。
(4)研制周期较传统仪器大为缩短。
(5)虚拟仪器开放、灵活,可与计算机同步发展,可与网络及其它周边设备互联。
决定虚拟仪器具备上述传统仪器不可能具备的特点的根本原因在于:
“虚拟仪器的关键是软件”。
LabVIEW(LaboratoryVirtualInstrumentEngineeringWorkbench,实验室虚拟仪器工程平台)是美国NI公司(NationalInstrumentCompany)推出的一种基于G语言(GraphicsLanguage,图形化编程语言)的虚拟仪器软件开发工具。
LabVIEW软件工具的特点可归纳为:
(1)图形化的编程方式,无须写任何文本格式的代码,是真正的工程师语言。
(2)提供了丰富的数据采集、分析及存储的库函数。
(3)既提供了传统的程序调试手段,如设置断点、单步运行,同时又提供了独到的高亮执行工具,使程序动画式运行,利于设计者观察程序运行的细节,使程序的调试和开发更为便捷。
(4)32bit的编译器编译生成32bit的编译程序,保证数据采集、测试和测量方案的高速执行。
(5)囊括了DAQ、GPIB、PXI、VXI在内的各种仪器通信总线标准的所有功能函数,使得不懂总线标准的开发者也能够驱动不同总线标准接口设备与仪器。
(6)提供大量与外部代码或软件进行连接的机制,诸如DLLs(动态连接库)、DDE(共享库)、ActiveX等。
用LabVIEW设计的虚拟仪器主要包括三个部分:
(1)仪器前面板的设计
仪器前面板的设计指在虚拟仪器开发平台上,利用各类子模板图标创建用户界面,即虚拟仪器的前面板。
(2)仪器流程和算法的设计
仪器流程或算法的设计是根据仪器功能要求,利用虚拟仪器开发平台所提供的子模板,确定程序的流程图、主要处理算法和所实现的技术方法。
(3)I/O接口仪器驱动程序的设计
I/O接口仪器驱动程序是控制硬件设备的驱动程序,是连接主控计算机与仪器设备的纽带。
用LabVIEW设计的虚拟仪器可脱离LabVIEW开发环境,最终用户看见的是和实际的硬件仪器相似的操作面板。
1.4MATLAB语言
MATLAB语言[1]是在20世纪80年代初期,由美国的MathWorks软件开发公司正式推出的一种数学工具软件。
它拥有功能全面的函数库,把大量的函数封装起来,让用户脱离了复杂繁琐的程序计算过程,大大提高了工作效率。
利用MATLAB可以实现科学计算、符号运算、算法研究、数学建模和仿真、数据分析和可视化、科学工程绘图以及图形用户界面设计等强大功能。
同时MATLAB为用户提供了丰富而实用的资源,它涵盖了许多门类的科学研究,如数学、控制、通信、数字信号处理、数字图像处理、经济和地理等。
其主要特点有:
(1)简单易学。
与C和FORTRAN等高级语言相比较,MATLAB语法规则简单,
语言思维特点更符合人们在实际应用中的习惯。
(2)先进的技术界面支持。
MATLAB提供给用户的是一种最简洁、最直观的程序开
发环境。
用MATLAB编程时,就如同在现实中的便签上列公式和求解一样。
(3)开放式的体系结构。
除了内部函数外,所有的MATLAB主包文件和各工具包
文件都是对用户开放的源程序文件,用户可以通过修改源程序文件来构成新的适合自己
使用的专用工具包。
(4)丰富的函数工具箱。
可以提供专门的对语音信号进行处理的工具箱。
对于比较简单的和“一次性”问题,通过直棂窗中直接输入一组指令求解或许是比较简便、快捷的。
但当待解决问题所需的指令较多而且所用指令结构较复杂时,或当一组指令通过改变少量参数就可以被反复使用去解决不同问题时,直接在直棂窗中输入指令的方法就显得繁琐、累赘和笨拙。
设计M脚本文件就是用来解决这个矛盾的。
M脚本文件是指:
(1)该文件中的指令形式和前后位置,与解决同一个问题是在指令窗中输入的那组指令没有任何区别。
(2)MATLAB在运行这个脚本时,只是简单地从文件中读取那一条条指令,送到MATLAB中去运行。
(3)与在指令窗中直接运行质量一样,脚本文件运行产生的变量都驻留在MATLAB基本工作空间中。
(4)文件的扩展名是“.m”。
其具体步骤如下:
1)编辑调试器的开启
缺省情况下,M文件编辑器(Editor/Debugger)不随MATLAB的启动而开启,通常只在编写M文件时才启动如图的M文件编辑器窗口。
M编辑器不仅可以编辑M文件,而且可以对M文件进行交互式调试;M文件编辑器不仅可以处理带.m扩展名的文件,而且还可以阅读和编辑其他ASCII码文件。
M文
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 小波消噪 端点 检测 语音 识别