书签分享收藏举报版权申诉 / 14

立即下载加入VIP,免费下载

当前位置：首页 > 法律文书 > 起诉状 > 语音信号的采集与分析文献综述.docx

语音信号的采集与分析文献综述.docx

文档编号：9688969
上传时间：2023-02-05
格式：DOCX
页数：14
大小：434.15KB

语音信号的采集与分析文献综述.docx

《语音信号的采集与分析文献综述.docx》由会员分享，可在线阅读，更多相关《语音信号的采集与分析文献综述.docx（14页珍藏版）》请在冰豆网上搜索。

语音信号的采集与分析文献综述.docx

语音信号的采集与分析文献综述

注：

该文档为原创，仅提供参考

语音信号的采集与分析的研究现状与进展

学生姓名：

陈静波指导教师：

张石清

班级：

11级电子信息2班学号：

**********

摘要：

语音信号的采集与分析技术是一门涉及面很广的交叉科学，它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。

其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快，分析速度较以往也有了大幅度的高。

本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法，主要运用Matlab以及DSP等一些电脑软件进行仿真分析，最后加入噪声进行滤波处理，比较滤波前后的变化

关键词：

语音信号，采集与分析， Matlab

1.　课题背景

ThespeechprocessingstudieshaveadvancedrapidlyinrecentyearsspurredonbygreatprogressesintheVLSItechnologiesandinthedigitalizationofthenetworks.Thispaperoffersanoverviewofthemostattractivetechniqueswhichhavefocusedtherecentresearchs

anddevelopmentsinspeechcoding,recognitionandsynthesisareas.Forspeechcompression,theemphasisisputonafamilyoftechniquesnamedcode-excitedlinearprediction（CELP）whichdominatescurrentstudiesforratesintherangeof4to16kbit/s.Intermsofspeechrecognition,particularemphasisisplacedontheollowingthreeelementswhichareessentialinordertoincreasetherobustnessofthesystems:

telephonelineadaptation,rejectionofparasitenoiseandout-of-vocabularywords,andkeywordspotting.Intermsoftext-to-speechsynthesis,thePSOLA（pitchsynchronousoverlapandadd）techniqueisoutlinedherein.Thisechniquegivesrisetoanewgenerationofsynthesissystemswhichproducespeechwithverynaturaltimbre.Theanalysisofcurrenttendenciesforeachareaallowstosuggestattractivedirectionsforfutureresearch.

语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科，与心理学、生理学、通信与信息科学、计算机科学以及模式识别和人工智能等学科都有着非常密切的关系。

对语音信号进行采集与分析的研究一直是数字信号处理技术发展的重要推动力量，这是因为许多新的处理方法的提出，首先是在语音信号处理中获得成功，然后再推广到其他领域。

语音信号的分析与处理作为一个重要的研究领域，随着通信技术的发展，语音采集和分析仪器的数字化、智能化、小型化和多功能化的发展越来越快，其分析速度也有了大幅度的提高。

但现在市场上的语音分析系统价格昂贵、操作复杂，且仅能用于特定的测量分析项目。

基于上述不足，设计一款基Maflab的语音信号采集与分析系统[1]，其具有价格便宜、使用方便、通用性强等优点。

2.研究现状

语音信号的采集与分析作为一个重要的研究领域，已经有很长的研究历史。

但是它的快速发展可以说是从1940年前后Dudley的声码器（vocoder）和potter等人的可见语音Visible Speech）开始的[1]。

1952年贝尔（Bell）实验室的Davis等人首次研制成功能识别十个英语数字的实验装置。

1956年Olson和Belar等人采用8个带通滤波器组提取频谱参数作为语音的特征，研制成功一台简单的语音打字机。

20世纪60年代初由于Faut和Steven的努力，奠定了语音生成理论的基础，在此基础上语音合成的研究得到了扎实的进展。

20世纪60年代中期形成的一系列数字信号处理方法和技术，如数字滤波器、快速傅里叶变换（FFT）等成为语音信号数字处理的理论和技术基础。

在方法上，随着电子计算机的发展，以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。

然而，在语音识别领域内，初期有几种语音打字机的研究也很活跃，但后来已全部停了下来，这说明了当时人们对话音识别难度的认识得到了加深，所以1969年美国贝尔研究所的Pierce感叹地说“语音识别向何处去?

”。

到了1970年，好似反驳Pierce的批评，单词识别装置开始了实用化阶段，其后实用化的进程进一步高涨，实用机的生产销售也上了轨道[2]。

此外社会上所宣传的声纹（Voice Print）识别，即说话人识别的研究也扎扎实实地开展起来，并很快达到了实用化的阶段.到了1971年，以美国ARPA（American Research Projects Agency）为主导的“语音理解系统”的研究计划也开始起步。

这个研究计划不仅在美国国内，而且对世界各国都产生了很大的影响，它促进了连续语音识别研究的兴起。

历时五年的庞大的ARPA研究计划，虽然在语音理解、语言统计模型等方面的研究积累了一些经验，取得了许多成果，但没能达到巨大投资应得的成果，在1976年停了下来，进入了深刻的反省阶段。

但是，在整个20世纪70年代还是有几项研究成果对语音信号处理技术的进步和发展产生了重大的影响。

这就是20世纪70年代初由板仓（Itakura）提出的动态时间规整（DTW）技术，使语音识别研究在匹配算法方面开辟了新思路；20世纪70年代中期线性预测技术（LPC）被用于语音信号处理，此后隐马尔可夫模型法（HNMM）也获得初步成功，该技术后来在语音信号处理的多个方面获得巨大成功；20世纪70年代未，Linda、Buzo、Gray和Markel等人首次解决了矢量量化（VQ）码书生成的方法，并首先将矢量量化技术用于语音编码获得成功。

从此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用，而且很快推广到其他许多领域。

因此，20世纪80年代开始出现的语音信号处理技术产品化的热溯，与上述语音信号处理新技术的推动作用是分不开的。

20世纪80年代，由于矢量量化、隐马尔可夫模型和人工神经网络（ANN）等相继被应用于语音信号处理，并经过不断改进与完善，使得语音信号处理技术产生了突破性的进展。

其中，隐马尔可夫模型作为语音信号的一种统计模型，在语音信号处理的各个领域中获得了广泛的应用。

其理论基础是1970年前后，由Baum等人建立起来的，随后，由美国卡内基梅隆大学（CMU）的Baker和美国IBM公司的Jelinek等人将其应用到语音识别中。

由于美国贝尔实验室的Babiner等人在20世纪80年代中期，对隐马尔可夫模型深人浅出的介绍，才使世界各国从事语音信号处理的研究人员了解和熟悉，进而成为一个公认的研究热点，也是目前语音识别等的主流研究途径[2]。

进入20世纪90年代以来，语音信号采集与分析在实用化方面取得了许多实质性的研究进展。

其中，语音识别逐渐由实验室走向实用化。

一方面，对声学语音学统计模型的研究逐渐深入，鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工种经网络的结合成为研究的热点。

另一方面，为了语音识别实用化的需要，讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。

目前语音信号的采集和处理主要基于仿真软件如：

MATLAB仿真，以及基于DSP数字化模块处理、小波变换对语音信号的时域和频域的分析处理

2.1基于MATLAB语音信号的采集过程以及分析过程

MATLAB中提供了强大的数据采集工具箱[3]可满足控制声卡对数据进行采集的要求。

语音数据采集过程如图1所示

在Matlab环境中，可以通过多种编程方法驱动声卡实现对语音信号的采集与播放[4]，它的信号处理和分析工具箱为语音信号的分析提供了丰富的功能函数，利用这些功能函数可以快捷地完成语音信号的分析和处理。

使用Matlab语言编程可以将声音文件变换为离散的数据文件，然后利用其强大的矩阵运算能力处理数据，如数字滤波、时域和频域分析、傅里叶变换、各种分析图的呈现和声音回放等。

在Matlab环境中，可以通过以下3种方法驱动声卡：

一是将声卡作为对象处理采集语音信号；二是调用Wavrecord功能函数采集语音信号；三是运用Audiorecorder对象采集语音信号

语音信号是一种非平稳的时变信号，它携带着各种信息。

在语音编码、语音识别语音合成和语音增强等一系列语音处理中都需要提取语音信号中包含的各种信息。

语音信号分析的目的在于方便而有效地提取并表示语音信号所携带的各种信息。

语音信号分析可以分为时域和变换域等处理方法[5]。

信号的频域分析是研究信号特征的重要手段之一，通常是对信号进行傅里叶变换，这一方法在许多领域都发挥了重要的作用。

在进行时域分析时，要对输入的信号进行预加重，其目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。

一段语音信号预加重前后的频谱如2图所示。

图2一段语音滤波前后的频谱

对比预加重前和预加重后的语音信号频谱，可以看出，预加重后的频谱在高频部分的幅度得到了提升，信号的频谱变得平坦。

语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出，输出频谱是激励源频谱与声道系统频率响应的乘积。

激励源和声道系统的频率响应都是随时间变化的，因此一般标准的傅里叶变换虽然适用于周期和平稳随机信号的表示，但不能直接用于语音信号。

由于语音信号可以认为在短时间内近似不变，因而可以采用短时分析法。

我们将每个短时的语音称为一个分析帧。

一般帧长取10m8—30m8。

我们采用一个长度有限的窗函数来截取语音信号形成分析帧。

通常会采用矩形窗和汉明窗，图3是加不同窗函数时的语音波形及频谱图

图3加不同窗函数时的语音波形及频谱图

通过对比矩形窗和汉明窗及其频谱可知，采用矩形窗时，整个频谱图显得比较破碎，而当加汉明窗时，得到的短时频谱要平滑得多。

因而在语音频谱分析中汉明窗用得比较普遍

数字滤波器的设计处理：

采用数字滤波器来对语音信号进行去噪处理，可选用窗函数法设计FIR数字滤波器。

图4为窗函数法对语音信号进行去噪前后的波形及频谱图，也可选用双线性变换法设计巴特沃斯滤波器，图5为双线性变换法对语音信号进行去噪前后的波形及频谱图

图4窗函数法去噪前后语音信号波形及频谱图对比

图5双线性变换法去噪前后语音信号波形及频谱图对比

对比以上两种方法设计的滤波器，可得出以下结论：

窗函数法中相位响应有严格的线性，不存在稳定性问题，设计简单。

双线性变换法中不会出现由于高频部分超过折叠频率而混淆到低频部分去的现象，但会产生频率混跌现象，使数字滤波器的频响偏移模拟滤波器的频响。

在对语音信号进行滤波的时候，由于人的语音信号的能量主要集中在低频部分，双线性低通滤波器的滤波效果最好，滤波后的语音信号失真比较小[6]。

结论：

本系统运用Matlab软件实现了对语音的采集与分析[7]，分别对语音信号的时域与频域进行了分析，对所采集的语音信号加人干扰噪声，对加入噪声的信号进行播放，并进行时域和频域分析。

最后设计了滤波器，对有噪的语音信号进行去噪处理，充分利用了Matlab强大的数值计算功能、方便的声卡控制功能和信号分析能力，完成了设计的目的。

该系统在语音信号的采集与分析的实际应用中取得了良好的效果，具有较好的应用前景

2.2基于DSP语音信号的采集以及分析过程

系统采用1片TMS320VC5402芯片和2片TLC320AD50C的连接电路实现语音信号采集功能，其接口电路如图6所示[8-9]。

图6音信号采集电路

电路中的DSP工作在被动接收数据模式下,AD50C工作在主动模式下。

电路连接中选用TMS320-VC5402处理器的McBSP实现与TLC320AD50C之间的数据传输，由C5402的多通道缓冲串口（McBSP）的接收数据硬中断（BRINTl或BRlNT0）激活中断服务程序来完成数据的接收。

7rLC320AD50C的主时钟频率由DSP提供，引脚MCLK接DSP的CLKOUT脚，TLC320AD50C提供可与DSP通信的移位时钟SCLK和帧同步脉冲FS。

AD50C的采样频率Z与AD50C控制寄存器4的B位有关。

选择TLC320AD50C的INP和INM作为MD变换的语音信号输入端，ADC后的数据通过DOUT引脚传

送到McBSP的DR，同时可通过DIN接收来自McBSP的数据。

而且通过对M／S脚配置高电平输入（依据DSP的电源选择可连接3．3V），使第一个TLC320AD50C配

置为主片，设置第二片TLC320AD50C的M／S脚为接地，使其配置为从片，1个主片最多可以带3个从片，并且主片AD50C的FSD脚接至从片的FS脚。

整体电

路设计中还设置了硬件上电复位功能。

因为语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频段（大约在800Hz以上）会按照-6dB／oct跌落。

在采样和量化后，要增加1个6dB／oct的预加重滤波器提升高频部分，使语音信号频谱变得平坦，便于随后频谱分析或者声道参数分析。

预加重数字滤波器一般是一阶，其传递函数为

H（z）=1-μz-1

其中，μ值一般在0．92-0．96之间，系统中μ=O．94[10]。

图6中，ADC后的语音数据经过由电阻R和电容C组成的RC网络就是本系统中所采用的预加重滤波器电路部分，R和C的大小依据加重时间确定。

2.3语音信号数字化及其预处理

为了将原始模拟语音信号变为数字信号，必须经过采样和量化两个步骤，从而得到时间和幅度上均为离散的数字语音信号。

根据采样定理，当采样频率大于信号的两倍带宽时，采样过程不会丢失信息，利用理想滤波器可从采样信号中不失真地重构原始信号波形。

语音信号是随时间而变的一维信号，它所占据的频率范围可达l0kHz以上，但是对语音清晰度和可懂度有明显影响的成分，最高频率约为5.7kHz。

在将语音信号进行数字化前，必须先进行防混叠滤波，滤除高于1/2采样率的信号成分或噪声。

这种防混叠滤波通常与模数转换器做在一个集成块内，目前，市面上购买到的普通声卡在这方面做的都很好，语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号[11-12]。

文中后续研究采用的声音数据的采集就是通过声卡及录音程序将外部声源信号以wave形式存储在系统硬盘上完成的。

同样回放是通过语音播放程序将处理后的数据经过声卡输出到外部设备上或直接播放完成的。

语音信号是一种典型的非平稳信号，它的均值函数U（x）和自相关函数R（x1x2）都随时间而发生较大的变化[13]。

但是，语音是由十发声气流冲击发音器官产生物理振动而产生的，发音器官形状的变化与声音的变化速度相比较是很缓慢的过程。

因此，在信号处理时，往往将语音信号作为一个短时的平稳过程来处理，即假定在一段时间（20～30ms）内，发音器官的形状（频谱参数和物理特征）保持不变。

实践证明，这种假设与实际情况是相符合的。

因此，实际的语音预处理中可以采用平稳过程的分析处理方法：

先将连续的语音数据流用一个窗函数序列分割成一些连续段，然后对每一段（帧）进行处理。

大部分情况下，语音信号处理的帧长都是取20ms。

在取数据时，前一帧和后一帧的交叠部分成为帧移，帧移与帧长的比值一般取为0－1/2。

为了避免分帧时产生的截断效应，实际上已取出的一帧语音Sn要经过加窗处理，即用一定的窗函数Wn与Sn相乘，从而形成加窗语音。

在语音信号数字处理中常用的窗函数是矩形窗和海明窗

TheobjectofthestandardizationprocessstartedbyITU-Tin1988wastoprovideasingle16kbit/scodingalgorithmforgeneraluse,offeringperformanceatleastequaltothatofADPCMspeechcodingat32kbit/s.Inadditiontoqualityconstraints,ITU-Tsetsamaximumencoder-decodertime-delayof5ms.TheITU-Tqualityandtime-delaytargetscouldbemetonlybyusingdigitalsignalprocessingtechniquesbothmorepowerfulbutmorecomplexthantheADPCMtechnique,andemployingnalysis-by-synthesiswithaperceptualcriterionandlow-delaylinearprediction.TheLD-CELPcodingtechniquewasputforwardbyAT&T[14]ndadoptedbyITU-TinRecommendationG.728.hisarticlediscussesonlythemajormodificationstothebasicCELPtechniquewhichconstitutetheinnovativefeaturesoftheLO-CELPcoder.--Synthesisfilteranditscomputation.Thesynthesisfiltermodeldoesnotincludealong-termpredictor,buttheshort-termpredictorisa50thorderfiltertoimprovethequalityofhigh-pitchedvoices.Toachievethelowtime-delay,thepredictioncoefficientsarenolongertransmittedbutbackwardcomputedevery20samplesbylinearprediction[15]ontheconstructedsignalatthecoderandatthedecoder（byanalogywithADPCMcoding,inwhichthecoderalsoincludesalocaldecoder）

2.3ApplicationtoAutomaticSpeechRecognition

Nextwepresenttheevaluationresultsfordifferentaudi-torily/motivatedspectro-temporalfeaturesandSEs.TheblockdiagramoftheASRsystemusedintheexperimen-tationisdepictedinFig.[16].

FeatureExtraction

Toobtainthespeechfeatures,aconventionalSSwasappliedfirsttothenoisysignalinordertoemphasisethespeechsignaloverthenoise.Thenauditoryfilterbankanalysiswasperformedoverthis（partially）denoisedspectrogram.Twodifferentauditoryfilterbankswereconsidered:

asetoftriangularMel-scaledfilters（‘‘TheMelScale’’section）andasetofGammatonefilters（‘‘ERBandERB-Rate’’section）.Foreithertype,speechwasanalysedusingaframelengthof25msandaframeshiftof10msafterpre-emphasisandHammingwindowing.Inordertodecorrelatethefilterbanklog-energiesobtainedinthepreviousstage,aDiscreteCosineTransform（DCT）wascomputedoverthem,yieldingMFCCorGTC,respectively.Ofthese,coefficientsC0toC12andtheircorrespondingdelta（D）andacceleration（DD）coefficientsweretakenyieldingfeaturevectorsof39components.Thelaststepinthefeatureextractionstagewastoapplymeanandvariancenormalisationoneithertypeofcoefficient.

ISOLETDatabaseandTestbed

Foreachtypeoffeatures,wetrainedandtesteddifferentMLP/HMMhybridspeechrecognisersfollowingtheISO-LETtestbed.ISOLETisadatabaseoflettersoftheEnglishalphabetspokeninisolation[17].Thedatabaseconsistsof7800spokenletters（twoproductionsofeachletterbyeachof150differentspeakers）atasamplerateof16KHz.Spe-cifically