书签分享收藏举报版权申诉 / 51

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 文学 > Matlab在语音识别中的应用.docx

Matlab在语音识别中的应用.docx

文档编号：688947
上传时间：2022-10-12
格式：DOCX
页数：51
大小：3.53MB

《Matlab在语音识别中的应用.docx》由会员分享，可在线阅读，更多相关《Matlab在语音识别中的应用.docx（51页珍藏版）》请在冰豆网上搜索。

Matlab在语音识别中的应用.docx

Matlab在语音识别中的应用

1.基于GUI的音频采集处理系统

注：

本实验是对“东、北、大、学、中、荷、学、院”孤立文字的识别！

首先是GUI的建立，拖动所需控件，双击控件，修改控件的参数；主要有stringTag（这个是回调函数的依据），其中还有些参数如valuestyle也是需要注意的，这个在实际操作中不能忽视。

这里需要给说明一下：

图中所示按钮都是在一个按钮组里面，都属于按钮组的子控件。

所以在添加回调函数时，是在按钮组里面添加的，也就是说右击三个按钮外面的边框，选择ViewCallback——SelectionChange,则在主函数中显示该按钮的回调函数：

functionuipanel1_SelectionChangeFcn（hObject,eventdata,handles）

以第一个按钮“录音”为例讲解代码；

下面是“播放”和“保存”的代码：

以上就是语音采集的全部代码。

程序运行后就会出现这样的界面：

点击录音按钮，录音结束后就会出现相应波形：

点击保存，完成声音的保存，保存格式为.wav。

这就完成了声音的采集。

2.

声音的处理与识别

2.1打开文件

语音处理首先要先打开一个后缀为.wav的文件，这里用到的不是按钮组，而是独立的按钮，按钮“打开”的回调函数如下：

functionpushbutton1_Callback（hObject,eventdata,handles）

其中pushbutton1是“打开”按钮的Tag.

在回调函数下添加如下代码：

运行结果如图：

2.2预处理

回调函数如下：

functionpushbutton2_Callback（hObject,eventdata,handles）

运行结果如图：

2.3

短时能量

短时能量下的回调函数：

functionpushbutton3_Callback（hObject,eventdata,handles）

其回调函数下的代码是：

2.4

端点检测

这里要先声明一点，为了避免在以后的函数调用中，不能使用前面的变量，所以其实后面的函数都包含了前面的部分。

显而易见这样程序就会显得很冗长，这也是值得以后修改的地方。

functionpushbutton4_Callback（hObject,eventdata,handles）

2.5

生成模版

本功能和上面重复的部分省略掉了，现在只补充添加的代码：

2.6

语音识别

将打开的语音与提前录好的语音库进行识别，采用的是DTW算法。

识别完后就会在相应的文本框里显示识别的文字。

代码如下：

程序运行前后的对比图：

GUI的整体效果图：

总结

实验已经实现了对“东、北、大、学、中、荷、学、院”文字的识别，前提是用模版的语音作为样本去和语音库测试，这已经可以保证１００％的正确率，这说明算法是正确的，只是需要优化。

而现场录音和模版匹配时，则不能保证较高的正确率，这说明特征参数的提取这方面还不够完善。

特征参数提取的原则是类内距离尽量小，类间距离尽量大的原则，这是需要以后完善的地方。

ＧＵＩ也需要优化，先生成一个模版库，然后用待测语音和模版库语音识别，让这个模版库孤立出来，不需要每次测试都要重复生成模版库，提高运算速率。

以后有机会可以实现连续语音的识别！

附件

这是全部代码文件

mfcc.mat文件是程序运行过程中生成的；

test文件夹里面存放了录音的模版：

这里是6个.M文件，如下：

1WienerScalart96.m

functionoutput=WienerScalart96（signal,fs,IS）

%output=WIENERSCALART96（signal,fs,IS）

%WienerfilterbasedontrackingaprioriSNRusingDecision-Directed

%method,proposedbyScalartetal96.Inthismethoditisassumedthat

%SNRpost=SNRprior+1.basedonthistheWienerFiltercanbeadaptedtoa

%modellikeEphraimsmodelinwhichwehaveagainfunctionwhichisa

%functionofaprioriSNRandaprioriSNRisbeingtrackedusingDecision

%Directedmethod.

%Author:

EsfandiarZavarehei

%Created:

MAR-05

if（nargin<3|isstruct（IS））

IS=.25;%InitialSilenceorNoiseOnlypartinseconds

end

W=fix（.025*fs）;%Windowlengthis25ms

SP=.4;%Shiftpercentageis40%（10ms）%Overlap-Addmethodworksgoodwiththisvalue（.4）

wnd=hamming（W）;

%IGNOREFROMHERE...............................

if（nargin>=3&isstruct（IS））%Thisoptionisforcompatibilitywithanotherprogramme

W=IS.windowsize

SP=IS.shiftsize/W;

%nfft=IS.nfft;

wnd=IS.window;

ifisfield（IS,'IS'）

IS=IS.IS;

else

IS=.25;

end

%......................................UPTOHERE

pre_emph=0;

signal=filter（[1-pre_emph],1,signal）;

NIS=fix（（IS*fs-W）/（SP*W）+1）;%numberofinitialsilencesegments

y=segment（signal,W,SP,wnd）;%Thisfunctionchopsthesignalintoframes

Y=fft（y）;

YPhase=angle（Y（1:

fix（end/2）+1,:

））;%NoisySpeechPhase

Y=abs（Y（1:

fix（end/2）+1,:

））;%Specrogram

numberOfFrames=size（Y,2）;

FreqResol=size（Y,1）;

N=mean（Y（:

1:

NIS）'）';%initialNoisePowerSpectrummean

LambdaD=mean（（Y（:

1:

NIS）'）.^2）';%initialNoisePowerSpectrumvariance

alpha=.99;%usedinsmoothingxi（ForDeciesionDirectedmethodforestimationofAPrioriSNR）

NoiseCounter=0;

NoiseLength=9;%Thisisasmoothingfactorforthenoiseupdating

G=ones（size（N））;%InitialGainusedincalculationofthenewxi

Gamma=G;

X=zeros（size（Y））;%InitializeX（memoryallocation）

h=waitbar（0,'Wait...'）;

fori=1:

numberOfFrames

%%%%%%%%%%%%%%%%VADandNoiseEstimationSTART

ifi<=NIS%IfinitialsilenceignoreVAD

SpeechFlag=0;

NoiseCounter=100;

else%ElseDoVAD

[NoiseFlag,SpeechFlag,NoiseCounter,Dist]=vad（Y（:

i）,N,NoiseCounter）;%MagnitudeSpectrumDistanceVAD

end

ifSpeechFlag==0%IfnotSpeechUpdateNoiseParameters

N=（NoiseLength*N+Y（:

i））/（NoiseLength+1）;%Updateandsmoothnoisemean

LambdaD=（NoiseLength*LambdaD+（Y（:

i）.^2））./（1+NoiseLength）;%Updateandsmoothnoisevariance

end

%%%%%%%%%%%%%%%%%%%VADandNoiseEstimationEND

gammaNew=（Y（:

i）.^2）./LambdaD;%ApostirioriSNR

xi=alpha*（G.^2）.*Gamma+（1-alpha）.*max（gammaNew-1,0）;%DecisionDirectedMethodforAPrioriSNR

Gamma=gammaNew;

G=（xi./（xi+1））;

X（:

i）=G.*Y（:

i）;%ObtainthenewCleanedvalue

waitbar（i/numberOfFrames,h,num2str（fix（100*i/numberOfFrames）））;

end

close（h）;

output=OverlapAdd2（X,YPhase,W,SP*W）;%Overlap-addSynthesisofspeech

output=filter（1,[1-pre_emph],output）;%UndotheeffectofPre-emphasis

functionReconstructedSignal=OverlapAdd2（XNEW,yphase,windowLen,ShiftLen）;

%Y=OverlapAdd（X,A,W,S）;

%Yisthesignalreconstructedsignalfromitsspectrogram.Xisamatrix

%witheachcolumnbeingthefftofasegmentofsignal.Aisthephase

%angleofthespectrumwhichshouldhavethesamedimensionasX.ifitis

%notgiventhephaseangleofXisusedwhichinthecaseofrealvaluesis

%zero（assumingthatitsthemagnitude）.Wis

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Matlab 语音识别中的应用

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：Matlab在语音识别中的应用.docx
链接地址：https://www.bdocx.com/doc/688947.html

Matlab在语音识别中的应用.docx

热门标签