书签分享收藏举报版权申诉 / 96

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 中医中药 > 语音信号的提取与识别技术说话人识别系统的研究.docx

语音信号的提取与识别技术说话人识别系统的研究.docx

文档编号：24682775
上传时间：2023-05-31
格式：DOCX
页数：96
大小：691.95KB

《语音信号的提取与识别技术说话人识别系统的研究.docx》由会员分享，可在线阅读，更多相关《语音信号的提取与识别技术说话人识别系统的研究.docx（96页珍藏版）》请在冰豆网上搜索。

语音信号的提取与识别技术说话人识别系统的研究.docx

语音信号的提取与识别技术说话人识别系统的研究

毕业设计说明书

语音信号的提取与识别技术

——说话人识别系统的研究

作者:

学号：

学院（系）:

专业:

指导教师：

评阅人：

20**年6月

中北大学

毕业设计（论文）任务书

学院、系：

专业：

学生姓名：

学号：

设计（论文）题目：

语音信号的提取与识别技术

起迄日期:

20**年2月15日~20**年6月21日

设计（论文）地点:

指导教师:

系主任:

发任务书日期:

20**年2月15日

毕业设计（论文）任务书

1．毕业设计（论文）课题的任务和要求：

1.了解声音信号的特征参数，及现阶段研究处理方法。

以现阶段信号处理领域比较活跃的语音信号为具体研究对象，进行相关知识的了解与学习。

2.学会在语音信号处理中使用MATLAB软件工具。

3.针对基本的个别个体的特定声音进行与信识别研究。

4.根据研究情况利用MATLAB语言进行相关算法的实现。

2．毕业设计（论文）课题的具体工作内容（包括原始数据、技术要求、工作要求等）：

1.查阅相关资料，利用已学的相关知识进行消化和理解。

2.了解现阶段的语音处理情况，分析研究相关的产品。

3.研究学习基本的识别处理方法。

4.学习相关信号处理软件。

。

5.对软件的学习达到能对基本的算法进行软件的处理。

6.完成毕业设计论文。

毕业设计（论文）任务书

3．对毕业设计（论文）课题成果的要求〔包括毕业设计（论文）、图纸、实物样品等）：

1、毕业论文一份；

2、英文文献1份，相应的中文译文1份。

4．毕业设计（论文）课题工作进度计划：

起迄日期

工作内容

2006年

2月15日~3月31日

4月1日~5月31日

6月1日~6月20日

6月20日~6月21日

系统学习，查阅资料，作开题报告；

英文资料翻译；

撰写毕业论文；

论文答辩。

学生所在系审查意见：

系主任：

年月日

中北大学

毕业设计（论文）开题报告

学生姓名：

学号：

学院、系：

专业：

设计（论文）题目：

语音信号提取与识别技术

指导教师:

20**年3月8日

毕业设计（论文）开题报告

1．结合毕业设计（论文）课题情况，根据所查阅的文献资料，撰写2000字左右的文献综述：

文献综述

语音信号识别研究的根本目的是研究出一种具有听觉功能的机器，能直接接受人的口呼命令，理解人的意图并做出相应的反映。

语音识别系统的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域，是一个多学科综合性研究领域。

近年来，高性能数字信号处理芯片DSP（DigitalSignalProcess）技术的迅速发展，为语音识别的实时实现提供了可能，其中，AD公司的数字信号处理芯片以其良好的性价比和代码的可移植性被广泛地应用于各个领域。

因此，我们采用AD公司的定点DSP处理芯片ADSP2181实现了语音信号的识别。

1　语音识别的基本过程

　　根据实际中的应用不同，语音识别系统可以分为：

特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。

但无论那种语音识别系统，其基本原理和处理方法都大体类似。

一个典型的语音识别系统的原理图如图1所示［1］。

语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。

预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。

语音信号识别最重要的一环就是特征参数提取。

提取的特征参数必须满足以下的要求：

（1）提取的特征参数能有效地代表语音特征，具有很好的区分性；

（2）各阶参数之间有良好的独立性；

　　（3）特征参数要计算方便，最好有高效的算法，以保证语音识别的实时实现。

　　在训练阶段，将特征参数进行一定的处理后，为每个词条建立一个模型，保存为模板库。

在识别阶段，语音信号经过相同的通道得到语音特征参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。

同时，还可以在很多先验知识的帮助下，提高识别的准确率。

2　系统的硬件结构

2．1　ADSP2181的特点［2］

　　AD公司的DSP处理芯片ADSP2181是一种16b的定点DSP芯片，他内部存储空间大、运算功能强、接口能力强。

有以下的主要特点：

（1）采用哈佛结构，外接16．67MHz晶振，指令周期为30ns，指令速度为33MI／s，所有指令单周期执行；

（2）片内集成了80kB的存储器：

16kB字的（24b）的程序存储器和16kB（16b）的数据存储器；

　　（3）内部有3个独立的计算单元：

算术逻辑单元（ALU）、乘累加器（MAC）和桶形移位器（SHIFT），其中乘累加器支持多精度和自动无偏差舍入；

　　（4）一个16b的内部DMA端口（IDMA），供片内存储器的高速存取；一个8b自举DMA（BDMA）口，用于从自举程序存储器中装载数据和程序；

　　（5）6个外部中断，并且可以设置优先级或屏蔽等。

　　由于ADSP2181以上的特点，使得该芯片构成的系统体积小、性能高、成本和功耗低，能较好地实现语音识别算法。

2．2　系统的硬件结构

　　在构成语音识别电路时，我们采用了ADSP2181的主从结构设计方式，通过IDMA口由CPU装载程序。

语音识别系统的硬件结构如图2所示。

　　在这种结构中，PC机为主CPU，ADSP2181为从CPU，由PC机通过IDMA口将程序装载到ADSP2181的内部存储器中。

PC机总线通过CPLD译码，形成

等控制信号，与ADSP2181的IDMA口相连。

这样，在ADSP2181全速运行时，主机可以查询从机的运行状态，可以访问到ADSP2181内部所有的程序存储器和数据存储器。

这对程序的编译和调试，以及语音信号的实时处理带来了极大的方便。

参考文献

［1］RabinerL，JuangBH．Fundamentalsofspeech　recognition［M］．PTRPrenticeHall，1993．

［2］　苏淘，吴顺君，廖晓群．高性能数字信号处理器与高速实时信号处理［M］．西安：

西安电子科技大学出版社，1999．

［3］ AnalogInc.UsingADSP-2100familyvolumel[Z].

［4］ AnalogInc.UsingADSP-2100familyvolume2[Z].

毕业设计（论文）开题报告

２．本课题要研究或解决的问题和拟采用的研究手段（途径）：

语音识别的DSP实现技术

1　浮点运算的定点实现

　　在语音识别的算法中，有许多的浮点运算。

用定点DSP来实现浮点运算是在编写语音识别程序中需要首先解决的问题。

这个问题可以通过数的定标方法来实现。

数的定标就是决定小数点在定点数中的位置。

Q表示法是一种常用的定标方法。

其表示机制是：

　　设定点数是x，浮点数是y，则Q法表示的定点数与浮点数的转换关系为：

2　数据精度的处理

用16b的定点DSP实现语音识别算法时，虽然程序的运行速度提高了，但是数据精度比较低。

这可能由于中间过程的累计误差而引起运算结果的不正确。

为了提高数据的运算精度，在程序中采用了以下的处理方法：

（1）扩展精度　

　　在精度要求比较高的地方，将计算的中间变量采用32b，甚至48b来表示。

这样，在指令条数增加不多的情况下却使运算精度大大提高了。

（2）采用伪浮点法来表示浮点数　

　　伪浮点法即用尾数＋指数的方法来表示浮点数。

这时，数据块的尾数可以采用Q1．15数据格式，数据块的指数相同。

这种表示数据的方法有足够大的数据范围，可以完全满足数据精度的要求，但是需要自己编写一套指数和尾数运算库，会额外增加程序的指令数和运算量，不利于实时实现。

　　以上两种方法，都可以提高运算精度，但在实际操作时，要根据系统的要求和算法的复杂度，来权衡考虑。

3　变量的维护

　　在高级语言中，有全局变量与局部变量存储的区别，但在DSP程序中，所有声明的变量在链接时都会分给数据空间。

所以如果按照高级语言那样定义局部变量，就会浪费大量的DSP存储空间，这对数据空间较为紧张的定点DSP来说，显然是不合理的。

为了节省存储空间，在编写DSP程序时，最好维护好一张变量表。

每进入一个DSP子模块时，不要急于分配新的局部变量，应优先使用已分配但不用的变量。

只有在不够时才分配新的局部变量。

4　循环嵌套的处理

　　语音识别算法的实现，有许多是在循环中实现的。

对于循环的处理，需要注意以下几个问题：

（1）ADSP2100系列DSP芯片中，循环嵌套最多不能超过4重，否则就会发生堆栈溢出，导致程序不能正确执行。

但在语音识别的DSP程序中，包括中断在内的嵌套程序往往超过4重。

这时不能使用DSP提供的do…until…指令，只能自己设计出一些循环变量，自己维护这些变量。

由于这时没有使用DSP的循环堆栈，所以也不会导致堆栈溢出。

另外，如果采用jump指令从循环指令中跳出，则必须维护好PC，LOOP和CNTR三个堆栈的指针。

（2）尽量减少循环体内的指令数。

在多重循环的内部，减少指令数有利于降低程序的执行次数。

这样有利于减少程序的执行时间、提高操作的实时性。

5　采用模块化的程序设计方法

　　在语音识别算法的实现中，为了便于程序的设计和调试，采用了模块化的程序设计方法。

以语音识别的基本过程为依据进行模块划分，每个模块再划分为若干个子模块，然后以模块为单元进行编程和调试。

在编写程序之前，首先用高级语言对每个模块进行算法仿真，在此基础上再进行汇编程序的编写。

在调试时，可以采用高级语言与汇编语言对比的调试方式，这样可以通过跟踪高级语言与汇编语言的中间状态，来验证汇编语言的正确性，并及时的发现和修改错误，缩短编程周期。

另外，在程序的编写过程中，应在关键的部分加上必要的注释与说明，以增强程序的可读性。

　　在总调时，需要在各模块中设置好相应的入口参数与出口参数，维护好堆栈指针与中间变量等。

6　利用C语言与汇编语言的混合编程

　　现在，大多数的DSP芯片都支持汇编语言与C或C＋＋语言的混合编程，ADSP2181也不例外。

用C语言开发DSP程序具有缩短开发周期、降低程序复杂度的优点，但是，程序的执行效率却不高，会增加额外的机器周期，不利于程序的实时实现。

为此，在用C语言编写语音识别算法时，我们采用了定点化处理技术。

ADSP2181是16位定点处理器，定点化处理应注意以下几个问题［3，4］：

（1）ADSP2181支持小数和整数两种运算方式，在计算时应选择小数方式，使计算结果的绝对值都小于1；

（2）用双字定点运算库代替C语言的浮点库，提高运算精度；

　　（3）注意在每次乘加运算之后进行饱和操作，防止结果的上溢和下溢；

　　（4）循环处理后的一组数据可能有不同的指数，要进行归一化处理，以便后续定点操作对指数和尾数部分分别处理。

毕业设计（论文）开题报告

指导教师意见：

指导教师：

年月日

所在系审查意见：

系主任：

年月日

附件：

参考文献注释格式

学术期刊作者﹒论文题目﹒期刊名称，出版年份，卷（期）：

页次

如果作者的人数多于3人，则写前三位作者的名字后面加“等”，作者之间以逗号隔开。

例如：

[1]李峰,胡征,景苏等.纳米粒子的控制生长和自组装研究进展.无机化学学报，2001,17（3）:

315~324

[2]J.Y.Li,X.L.Chen,H.Li.Fabricationofzincoxidenanorods.JournalofCrystalGrowth,2001,233:

5～7

学术会议论文集作者﹒论文题目﹒文集编者姓名﹒学术会议文集名称，出版地：

出版者，出版年份：

页次

例如：

[3]司宗国谢去病王群﹒重子湮没快度关联的研究﹒见赵维勤，高崇寿编﹒第五届高能粒子产生和重离子碰撞理论研讨会文集，北京：

中国高等科学技术中心，1996：

105

图书著者﹒书名﹒版本﹒出版地：

出版者，出版年﹒页次

如果该书是第一版则可以略去版次。

例如：

[4]韩其智孙洪洲﹒群论﹒北京：

北京大学出版社，1987﹒101

预印本作者﹒论文题目﹒预印本编号（出版年份）

例如：

[5]XiaofengGuoandJianweiQiu﹒Theleadingpowercorrectionstothestructurefunctions﹒hep—ph/9810548（1998）

学位论文作者﹒论文题目﹒学士（或硕士、博士）学位论文.出版地：

出版者，出版年份

例如：

[6]陈异.纳米粒子形貌控制研究.硕士学位论文.北京：

中国科学院,2002

电子文献主要责任者.电子文献题名﹒电子文献的出处或可获地址.发表或更新日期

例如：

[7]王明亮.关于中国学术期刊标准化数据库系统工程的进展.1998-08-16

专利专利所有者.专利名称.专利国别：

专利号，日期.

例如：

[8]姜锡洲.一种温热外敷药制备方案.中国专利：

881056073，1989-07-26.

语音信号的提取与识别技术

摘要

语音识别（SpeechRecognition）是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术.说话人识别是语音识别的一种特殊方式.本论文中,将主要介绍说话人识别系统.说话人识别是指通过说话人的语音来自动识别说话人的身份，它在许多领域内有良好的应用前景。

本文通过分析语音特征参数的特点和说话人识别的基本方法，提出了以美尔倒谱差分和线性预测差分为特征，通过动态时间归整算法来识别的文本相关说话人辨认系统。

关键词:

语音识别,说话人识别,线性预测倒谱，美尔倒谱系数，动态时间归整

Thepick-upofspeechsignalandspeechrecognition

Abstract

SpeechRecognitionisakindoftechnologythatisusingcomputertotransferthevoicesignaltoanassociatedtextorcommandbyidentificationandunderstand.SpeakerrecognitionisakindofspecialwayofVoice-identifications.Thepaperisgoingtointroducespeakerrecognition.Speakerrecognitionistheprocessofautomaticallyrecognizingwhoisspeakingonthebasisofindividualinformationincludeinspeechsignals.Ithaswellapplicationprospectsinmanyfields.Byanalyzingspeechcharacteristicparametersandthebasismethodsofspeakerrecognition,wechooseMFCCandLPCC'sdifferencetobethespeechcharacteristicparameters.UsingDTWtorecognizetext-dependentspeech,wehavedevelopedaspeakeridentificationsysteminthispaper.

Keywords:

Voice-Identification,Speaker-identificationLPCC,MFCC,DynamicTimeWarping

1引言1

2语音识别技术的基础2

2.1语音识别发展简史2

2.2语音识别技术的应用3

3说话人识别技术的国内外研究现状5

3.1国内外发展水平5

3.2主要应用领域5

3.3技术难点6

4说话人识别技术基础8

4.1说话人识别的基本原理8

4.2说话人识别系统中常用的特征9

4.3说话人识别的分类10

4.4说话人识别的主要方法11

4.5说话人识别系统的性能评价13

5语音信号分析与预处理16

5.1语音产生机理16

5.2语音信号的数字化和采集17

5.3语音信号的数字模型18

5.3.1激励模型18

5.3.2声道模型18

5.3.3辐射模型20

5.4语音信号的预加重处理20

5.5语音信号的短时参数特征21

5.5.1短时频谱22

5.5.2短时自相关函数22

5.5.3短时能量和短时平均幅度22

5.5.4短时过零分析23

5.5.5倒谱24

5.5.6线性预测编码（LPC）参数24

5.5.7短时基音周期估计25

5.6语音信号端点检测27

5.6.1双门限端点检测算法28

5.6.2LPC美尔倒谱特征端点检测方法28

6说话人特征提取32

6.1线性预测系数LPC32

6.1.1线性预测的基本原理33

6.2.2线性预测系数的求取35

6．2线性预测倒谱系数LPCC36

6.2.1同态处理基本原理36

6.2.2线性预测倒谱37

6.2.3线性预测差分倒谱38

6.3美尔倒谱系数MFCC39

6.3.1MFCC系数的提取39

6.3.2美尔差分倒谱参数40

6.4特征参数的实际提取41

6.4.1LPCC参数计算流程41

6.4.2MFCC的计算43

7．说话人识别系统实现46

7.1文本相关说话人辨认系统的实现46

7.2线性预测倒谱参数的提取实现47

7.3美尔倒谱系数及其差分的提取实现48

7.4MFCC参数文本相关系统实现51

8结论54

致谢55

参考文献56

1引言

语言是人类交流信息的基本手段，在人们日益扩大的交流中占据着重要的地位.在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一。

随着信息科学技术的飞速发展，语音信号处理的研究也日益显示出它的重要性，并取得了重大进展。

大体上说，语音信号处理技术可以分为以下四个方面:

即语音编码，语音合成、说话人识别和语音识别等。

语音压缩编码是压缩语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能;语音识别系统则是模仿或代替人耳的听觉功能，说话人识别系统属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，识别说话人身份的技术。

与语音识别不同的是，说话人识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调一说话人的个性;而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。

说话人识别的应用有一些特殊的优势:

比如使用者的接受程度高:

获取语音的识别成本低廉，使用简单;适合远程身份确认;配合一些其他措施，如语义识别等，可以进一步提高准确率等。

随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展，己经越来越深入地影响并改变着我们每个人的生活和工作方式，这同时也对语音信号处理的研究工作提出了更高的要求，它在各方面的进展也今人嘱目。

本文主要研究了说话人识别中所使用的基于短时频谱分析的传统特征基音周期、共振峰、LPC倒谱特征、美尔倒谱特征等，通过对语音信号的分析和预处理，进行特征提取，根据线性预测倒谱参数及美尔倒谱系数，最后利用动态时间归整法实现说话人的识别。

2语音识别技术的基础

2.1语音识别发展简史

50年代至60年代初是语音识别的初始研究阶段，主要探索声音和语音学的基本概念和原理。

1952年Bell实验室的DavisBuddulph,Balashe等人研制出世界上第一个语音识别系统，该系统采用第一和第二共振峰作为特征参数，能够识别孤立发音的英文数字，识别率高达97%。

该系统的出现标志着语音识别开始的里程碑。

1960年瑞典科学家Fant提出了语音产生理论和声源滤波器模型，指出语音信号由激励分量和声道分量作用产生,为语音信号处理奠定了基础。

60年代中期后，随着计算机技术和数字信号处理的兴起，新的有效的数字算法及信号处理技术层出不穷，也出现了语音识别方面能够影响至今的几种有效的技术措施。

1963年Bogert等提出了倒谱算法。

1965年Cooly和Tukey提出了快速傅立叶变换。

1968年Oppenheim把谱应用到语音信号处理，提出了同态声码器[1]。

RCA实验室的Martin的一些研究工作在对语音起始和终止可靠检测的基础上解决了语音事件中因时间量度不一致引起的一系列问题。

苏联科学家Vintsyuk提出了一种用动态规划方法，使一组语音发音在时间上进行对齐，其中包含了动态时间规整的思想和进行连续语音识别的一些基本算法。

这些技术对后来语音识别研究产生了深远的影响，为计算机深入应用于语音识别的研究提供了可能性。

与50年代相比，60年代人们在语音识别的研究上大大前进了一大步，不过由于模型及算法的原因，使得语音识别的研究仍处于实验室研究阶段。

70年代在语音识别领域取得了许多具有里程碑意义的研究：

苏联的Velichko和Zagoruyko将模式识别思想引入到语音识别领域中来。

日本的Stakoe和Chiba提出动态时间规整DynamicTimeWarping的匹配算法大大提高识别率导致了七十年代语音识别研究的高潮。

美国的Itakura[2]将线性预测编码技术LPC扩展到语音识别领域，较好的解决了基于语音特征提取问题，这种算法在语音识别应用方面取得基本令人满意的效果。

中后期J.K.Baker等人将隐马尔可夫模型HiddenMarkovModel技术引入语音识别领域，这是语音识别上的重大突破，由于隐马尔可夫模型合理有效地描述语音信号的统计特性，从而成为80年代至今应用非常广泛的语音识别方法；另外矢量量化（VectorQuantization）[3]技术被应用到说话人识别上来，使说话人识别的性能得到了大幅度的提高。

这两大技术推动语音识别的迅速发展。

80年代连续语音识别的研究开始取得重要成果。

技术上从模板匹配方法转向统计建模方法特别是隐马尔可夫模型得到广泛的引用。

人工神经网络方法研究的再度兴起为语音识别注入了新的活力，神经网络方法本身具有自学习自组织联想记忆和抗干扰等特性,它已逐