国内统计信号处理在语音识别的应用.docx
- 文档编号:29401536
- 上传时间:2023-07-23
- 格式:DOCX
- 页数:21
- 大小:43.13KB
国内统计信号处理在语音识别的应用.docx
《国内统计信号处理在语音识别的应用.docx》由会员分享,可在线阅读,更多相关《国内统计信号处理在语音识别的应用.docx(21页珍藏版)》请在冰豆网上搜索。
国内统计信号处理在语音识别的应用
国内统计信号处理在音频模式识别中的应用
摘要
语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。
语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业,目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。
在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。
语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。
语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。
这些技术已经能够满足通常应用的要求。
由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。
在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。
一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。
人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。
调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。
可以预测在近五到十年内,语音识别系统的应用将更加广泛。
各种各样的语音识别系统产品将出现在市场上。
人们也将调整自己的说话方式以适应各种各样的识别系统。
在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。
至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。
就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。
在语音识别系统中必然存在预处理,存在语音信号处理的过程,因此能否对语音信号作很好的处理则是一个很重要的环节,因此我们可利用信号处理的理论对其进行描述。
主题
一:
我国信号处理技术的发展
98年在中国电子学会和中国仪器仪表学会的组织下成立了信号处理学会该学会分个专业学组,即:
理论与方法学组,振动信号处理学组,语声、图像及通信信号处理学组,雷声信号处理学组和信号处理系统与设备学组。
在信号处理的理论和应用方面取得了一大究成果,使我国信号处理技术水平由起步一跃而进入了国际先进行列。
1990年我国在北京主持召开了第一届国际信号处理学术会议,来自23个国家和地区的专家学者,交流了学科最新成果,250余篇论文中一半以上集中了国内的优秀成果。
会议的胜利召开是我国信号进入国际学术行列的标志。
特别值得欣慰的是我们学会的取名。
我们的学会自成立开始即为信号处理学会,而国际IEEE的相应学会“声学,语言信号处理学会"(ASSP)亦于1990年起更名为信号处理学会(SP)采用了与我国相同的名称。
第二届国际信号处理学术会议IcsP’93将于1993年10月在北京召开,将有国内外稿件35。
余篇发表,其中有近一半是国内稿件,将充分反映国内的研究水平。
国内信号处理技术的进展可以从以下三个方面来介绍,即:
1.理论和算法;2应用发展。
1理论和算法
.⑴离散变换1960年Good提出了快速付立叶变换的想法,1965年Cooley和Tukcy又独立地发表了FFT算法,数字信号处理发生了革命性的改变。
Rader等于1970年提出了计算素数点的DFT方法(PFA)使FFT算法所适用的范围从幕次序列长度推广到了素数序列长度的场合。
Winograd于1978年在总结了Rader算法后,系统地提出了算法的结构理论。
1984年Duhmel发表了义基基ZFFT算法,即SPFFT使DFT和FFT的算法进入了比较完善的地步。
我国学者在PFA方法方面详细地讨论了它与FFT的关系,从映射的角度统一了素因子分解算法(PFA)、时域分解的Cooley一TukeyFFT算法和频域分解的Cooley一TukeyFFT算法。
对PFA算法与基ZFFT算法的差别有了深刻的认识,并且指出基ZFFT的计算误差可以用点数近似的素因子分解算法的误差来计算。
在义基基SPFFT的研究中指出,时域分解sPFFT与频域分解的SPFFT信号流图之间,并没有经典FFT算法那种互相置换的拓扑关系。
在算法速度上,除了N~32、N一64及N一128时,义基算法明显快于经典算法外,点数较大时两者速度几乎接近。
WFTA一般仅适合于小点数的变换,对于N)16以后,其编程工作的复杂性按指数规律增加,所以对大点数的DFT仍是一个待研究的问题。
利用两个模块构成第4期袁保宗:
信号处理技术的若干进展(国内)·3·PFFT算法已经给出了N一13、17、19、23及29、31点DFT算法。
根据这一方法实现了长度为1009点的DFT快速算法。
我国学者在实现FFT方面还提出了素数长度的递归DFT算法,并且在此基础上又提出了具有N次乘法的快速付立叶变换算法。
1978年至1981年,H.J.Nussbanmer在利用多项式变换计算DFT和卷积后,我国学者也做了很多工作,先后实现了二维数字卷积的FPT(快速多项式变换)和超大型二维循环卷积的FPT和FNT(Fermat数论变换),这种超大型二维卷积是利用M=ZJ十1,d一2b的FNT计算规模大于二维循环卷积的方法,研究表明将FNT和FPT结合可以计算任何N·M二维循环卷积(N三2t,M一2’十一’)。
多变量多项式变换的研究也得到了发展,一种计算卷积的新算法已被提出,它比传统办法压缩更多的乘法和加法次数,它被用来计算三维(16·16·16)的卷积时间为17.325,或三维(128·128·8)的卷积时间为73.325,或三维(128.128·8)的卷积时间为73.185(在VAX830o机上)。
⑵离散W变换是我国学者的贡献,现在得到国际学术界的引用。
但是二维离散W变换不能直接分解为两个一维DWT的乘积。
我国学者又提出了用一维DWT表示及计算DWT的新形式,并构造了用一维快速DWT来计算二维DWT及实现二维卷积。
⑶谱估计理论随机信号的谱估计是信号处理的主要内容之一,它在振动、医学、航天、航空以及雷达等领域有重要用途。
尽管以付立叶变换为基础的周期图法是长期以来最流行的功率谱估计算法,但是它致命的弱点是频谱分辨率的限制。
为了克服这个缺点,1967年Burg提出了最大嫡谱估计,E.Paraen1986年提出AR谱估计,从此,高分辨率谱估计方法成了研究的热点,相继出现一系列非线性谱估计方法,如最小交叉嫡谱分析法,ARMA模型参数估计法,Pisorenk。
谱分解法,最大似然法,Prony复极点模型法等。
我国学者编写的《随机数字信号处理》一书,详细地总结了各类谱估计方法,有关的算法程序亦由我国学者完成的《近代数字信号处理通用程序》一书中以源程序方式刊出。
这些方法在国内已有了广泛的研究及应用。
最大嫡方法MEMZ和倒谱分析方法,初看起来是互不相关的两个领域,但是它们的联系被我国学者发现:
最大嫡MEMI公式中的拉格朗日不定乘子与自相关序列的复倒谱及时间序列的实倒谱互为复共扼,从而使倒谱分析方法可用于MEMZ开辟了新的途径。
利用二阶矩理论所能解决的谱估计或建模问题,一般仅能涉及最小相位,因果型,高斯过程激励以及线性问题。
而事实上,许多地震信号、天文时间序列,数字通信中的信道等效信号等问题,常常涉及到非最小相位,非因果,非高斯过程以及非线性系统等严重问题。
这时高阶统计量以及高阶谱起到重要作用。
早在60年代,H.Akaike,K.Hasslman,M·D·Godfrey等人已提出高阶谱的数字基础。
但由于计算量大及结构复杂等原因未能应用。
直到80年代初期才又被人们所重视,C.L.Nikais,J.M.Mendel,M.Rosenblat等人做了大量的工作,才使其成为最近以来谱估计方面兴起的又一个新热点。
我国是在1986年第三届信号处理会议时开始注意多谱估计问题。
1989年在《电子学报》上较系统地介绍了多谱估计的参数方法,之后相继的研究工作给出了一种两步法的扩展,根据最小嫡原理,提出了一基于2阶和4阶积累序列匹配的辨识非最小相位系统的有效方法。
对于非线性系统,我国学者首次推导出非线性Volterra核函数和高阶统计量之间的关系。
这种关系从形式上与线性模型一样,但意义完全不同,且线性模型是它的一种特例。
对于一类非线性模型即Hammerstein模型,已提出了多种该模型估计线性子系统参数的算法。
这些算法,无迭代过程。
⑷空间谱估计将现代谱估计方法用于空间目标的参数估计,常称为空间谱估计。
空间谱估计所估计的参数为信号的空间频率。
空间谱估计具有高精度和超高分辨率的性能,在无线电·4·电信科学1”3年测向方面有广阔的应用前景。
1979年R.0.Schmidt提出了MUSIc(MultiplesignalCharae-terization)方法,开拓了空间谱分析的序幕。
它利用空间相关矩阵作特征分解,来确定信号子空间,然后利用信号子空间的正交特性确定信号的方向参数,从而可以实现信号源之间的分离。
由于MUSIC方法仅适用于非相干信号源,对于有相干源存在的情况,1981年J.E.Evans等人提出空间平滑法,经过空间平滑后的阵列信号按照MUsIC方法就可以估计出相干源的方向参数,但这种方法是以损失阵列的有效孔径为代价.我国学者在1988年提出大量实验证明:
一种以MUSIC为基础的特征值分解一奇异值分解法(EVD一SVD),利用此法比空间平滑法有更好的分辨率和信号方向估计性能,更重要的是我国学者所提方法是在广义信号子空间概念上建立的,能更清楚地揭示提高分辨率的关键所在。
除此之外,在任意几何排列阵列对相干信号源的测向,
在短数据、低信噪比时的测向以及阵元位置误差与阵元间互报对测向性能的影响等问题也进行了深入的研究,提出了有效的解决方法。
另一种具有很高运算效率的空间谱分析方法,
于1985年由T.Kailath等人提出。
该法称为ESpRIT(Estimationof519:
ia
rametersviaRotationInvariantTeehn叫ue)方法。
它同样也不适用于相干信号源,亦不能用于二维参数估计。
我国学者近来对ESPRIT方法作了发展,把它推广到相干源的估计和二维的参数估计,提出了ZDcA一EsPRIT(2一menoionalCombin
edArray一ESPRIT)方法,这种方法所费的时间仅为一维EsPRIT方法的两倍,
同样具有高时效的优点,同时分辨率比二维MUsIC方法更高。
此外在宽带信号的测向、
相关信源的自适应特征子空间算法等方面也做了很多工作。
⑸自适应滩波算法信号处理的另一个活跃领域是自适应滤波。
因为信号采集过程中都伴随着噪声,因而滤波是必需的。
维纳撼波和卡尔曼滤波都要求对信号及噪声的统计知识有一定的先验了解。
而自适应滤波却不需这些知识,自适应滤波在1967年由B.Widrow提出后,一直发展很快。
B.Widrow的LMS法是根据最优方法中的最速下降法提出的,
它是通过橄向滤波器来实现的。
之后在1980年前后,khoul提出了模型自适应撼波,M.MQrf及B.FreLander研究了递归型自适应数字撼波及最小二乘递归格式滤彼等。
在国内对自适应滤波算法进行了广泛的研究。
在平方根递归最小二乘自适应均衡方面,提出了一种分数间隔平方根RLS判决反馈算法,该算法比普通RLS算法(如加速卡尔曼,斜格算法)有较好的数值稳定性。
对J.M.Cioffi及T.Kailath提出的非归一化FTF(FastTransversalFilter)算法在有限精度数字实现时的数值不稳定性,提出了一种改进的措施,并给出了相应算法。
我国学者在超稳定自适应递归滤波方面,提出了符号超毯定自适应滤波,使算法的计算量大大减少.我国学者还证明了,当信息矢量的内积同原ARMA模型的AR部分所构成的线性时变系统严格无关时,不需要严格的SPR条件,算法就能一致收敛
⑹数字滚波器数字滤波器是信号处理技术的重要组成部分常规的设计方法已经编入已出版的《数字信号处理程序库》和《近代数字信号处理通用程序》等书,同时引进的一些程序库,都已广泛地应用于实际工作。
近几年在数字滤波器研究中也有很多进展。
在研究llR滤波器的极限环振荡时,我国学者提出一种以有限状态机表示抑止极限环振荡的方法。
在滤波器组设计方面,提出了利用全通滤波器组成多相网络,并实现了话带撼波器组,用于FDM一TDM数字转换系统。
在滤波器组的实现方面曾提出了用多速率格形浪数字滤波组开关电容的实现方案。
非线性滤波技术在国内也有明显的成果,各种类型的近代非线性滤波方法均有实验结果。
一种新的二维Leapfrog滤波器的设计方法可以不受各种非线性的影响,这种滤波是由LC格形滤波器的二维双线性变换实现的,并且具有很低的灵敏度。
同时二维数字滤波器的稳定性判定方面,提出了一种新的定理,使用非常方便。
三维数字滤波器的稳定性判定是一个困难的问题,国内学者提出了第二类非本征奇异值的三维数字滤波器的稳定性充分必要条件。
2应用领域
国内语声处理技术已有30多年的历史积累了丰富的研究经验七五和“八五”期间是一个由理论研究走向实用的决定性的时刻。
(a)语声处理,首先在语音编码领域,在此期间国际CCITT等组织相应对各种码率的编码技术均制订了标准。
编码分为64kb/s、32kb/s、16kb/s、skb/s、4.skb/s、2.4kb/s六种,以满足不同的应用领域。
由于高速信号处理器的发展,不同编码速率的编解码器大都可以容纳在一块DSP芯片内执行实时的操作。
因而编码不仅停留在算法的研究上,而且可以实用于一些如移动数字无线电话中。
“七五”期间,32kb八的ADPcM技术已经满足了CCITT的要求,而且研究完成了多路复用终端,可试用于交换网中,使话路数目增加一倍。
16kb/s的多脉冲激励线性预测编码MPLPC已经经过多次改进算法,并且装入在一片TMS320C25的DSP芯片,可以试用于数字无线电话系统,音质达到长话的要求。
多种新型的语音重建编码,如码激励线性预测(CE一LPC)正弦模式语音编码,子带编码,变换编码等中速率编码均得到了研究结果,音质一般还比较满意,编码速率分别16kb/s,8kb/s,正在达到实用的程度。
在4.skb/s,2.4kb/s低速编码方面我国学者在改进原有LPC音质的同时,试验了多种新的编码。
利用正弦编码,多脉冲编码(MPLPC)均可以在4.skb/s时得到比较好的音质,CELPC方式是很有竟争力的一种,但算法过于复杂,一般要求有26MFLOP运算速率,需要两片TMS320C25才能实现,目前国内还处于研究改进之中。
在2.4kb/s低速编码方面我国学者提出了一种MSLpC(Multi一SequeneeExeitedLpC)多序列线性预测方案,他们报导了4.8kb/s的4一MSLPC及2.4kb/s的2一MSLPC方案均得到良好的音质。
一种以2.4kb/s码率的HQLSP(混合量化线谱对)声码器方案,采用两片TMS32o20可实现双工通话。
语音识别及合成是语声处理的另一重要分支.这方面的工作是非常突出的。
语音识别技术的进展有三大特点,即:
(l)由模拟算法到实时实现,
(2)从小词量特定人到大词量非特定人的进步;(3)由单词识别走向句子理解。
在1986年前后,国际间常用的一些语音识别算法如LPC参数提取,CEP参数提取,VQ矢量量化技术,DTW动态时间转折,HMM(隐马尔柯夫模型)以及LSP线谱对参数等,都分别在各大学研究室中得到实现,但由于计算机速率及容量(一般仅PC/XT水平)的限制,都不能实时实现。
目前,由于微机速度容量迅速增长(进入PC/AT286,386,486,外存由loMbyte增加到ZooMbyte)以及TMS32o系列接板的推广,小词量以至中等词量,甚至全音节的汉语语音识别系统已经有多处实现,并进入商品化市场。
尽管研制的方法已经很多,可是320系列的汇编级语言还没有公共的子程序库,都是各单位自行研制。
(b)在国家科技项目的支持下,大词量(约几千词到二万词)和非特定人的识别研究亦已开始,特定人20000词表的识别系统亦已研制成功。
在非特定人识别方面,目前尚处于小词表范围,对十个数字或地名的识别率可达到95%~98%,利用HMM研究非特定人识别亦有进展,用ANN人工神经元网络对汉语声母、四声的识别都得到了很好的结果。
现在正在一方面完善全音节汉字语音的识别,另一方面从音家识别着手,解决大词量和非特定人的间题。
(c)基于语音识别的单词识别率一般徘徊在90%~”%之间,要想使识别技术尽早实用化,人们只能从智能化的角度来借鉴。
至今已有几家研究单位开始研究汉语语音理解工作。
他们把语句组成的句法知识,以及有限目标任务的语句语义关系,采用人工智能的方法,作成知识库,在识别的过程中,或在识别的过程之后,加人知识库的知识,修正识别结果,达到汉语理解的目的。
这方面一种能自动收集启动性知识的理解系统ALLA已经实验成功。
另外作为火车售票的语音对话系统也已做了试验。
作为机场英汉自动售票用的翻译识别系统也可以进行实验表演。
这方面工作与国际间差距已经缩短。
在利用大型机进行汉语研究工作方面差距比较大。
语音合成已开始实用,各种小词量合成器,重放机,报站机,语音报替器等已被采用。
自然语言合成正在研究之中,可望在近期内达到实用化.文语转换也有了进展。
二:
统计信号处理
⑴统计信号处理的发展:
在各种各样的实际通道中,所传输的随机信号往往受到信道噪声的影响,带来了很复杂的随机性,而信道本身的传输特性也经常具有时变性,如果人们用经典的信号分析方法来观察和分析各类通信问题总会带来很大的误差,对提高传输质量和通信效率都非常不利,甚至无法进行正常通信。
自从本世纪四十年代开始,不少专家努力探索有概率与数理统计的方法来分析和研究通信问题,开始建立近代通信技术的基础,例如著名的通信理论专家,D.Middleton和,苏联学者提出潜在抗干扰理论,美国学者,他们的研究成果对发展通信理论作出了内重要的贡献,在广大通信工作者前展示了一副光辉夺目的前景。
六十年代中期,数理统计理论在雷达声纳等相关学科领域内也得到了广泛应用,并建立起信号检测理论,受到通信和控制专家的极大重视。
随着数字通信的崛起,信号检测理论和方法立即在通信系统内得到应用,使通信理论又上一个新台阶。
这个时期最有代表性的著作就是Trees的“检测,估值和调制理论”,他将信号检测的概念开拓到估值,滤波调制解调的范围内,将数字通信和模拟通信中的主要理论问题都可以用统一的数理统计理论和方法研究,并取得了满意的结果。
七十年代以后通信理论又有了新的发展,这是与信号处理技术的兴起密不可分的有人将统计通信称之为统计信号处理是非常恰当的。
因为无论是调制解调,编码和滤波或者检测估值都可以看作是某种特定的信号处理,并且它们都是采用数理统计的理论和方法来研究这些问题。
事实上,与通信科学相关的雷达,声纳,导航,遥控遥测,甚至地震,气象,生物医学等学科也都可以用统计信号处理的理论和技术来分析和研究问题。
⑵统计信号处理的任务:
1.信号检测:
就是在信号传输过程中检测信号是否存在,因此也可以是信号状态的检测。
2.信号估值:
在应用系统中不仅要知道信号的状态,而且还要知道信号的参数,因此这是进一步的信号检测也可以称为广义的信号检测。
3.信号滤波:
在实际传输信道中信号和各种干扰总是同时存在的,因此要用数理统计的方法来排除干扰,或者提高信噪比,这就是统计滤波的任务。
它与传统的滤波方法有很大的区别,这里需要考虑信号与干扰各自的统计特性和它们之间的相关性,由此因此引出相关检测,相关接收等概念。
⑶统计信号处理中的数学方法:
1.概率与数理统计
2.随机过程理论
3.时间序列分析
4.状态空间分析
5.矩阵代数
⑷统计信号处理的应用领域:
1.现代通信,如高速数据通信,多媒体通信等;
2.现代控制,如工业过程控制,机器人等;
3.雷达声纳等军用和民用领域;
4.地震,气象,水文预报等;
三:
语音识别
语音识别技术的最终目标是要让计算机能与人自由交谈。
目前,连续语音识别技术正趋于成熟,语音识别也延伸出了诸多实用化的研究方向。
今后,语音识别的重点将集中在自然话语识别与理解、实时语音识别和语
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 国内 统计 信号 处理 语音 识别 应用