基于MFCC和GMM的异常声音识别算法研究精.docx
- 文档编号:23100979
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:79
- 大小:78.32KB
基于MFCC和GMM的异常声音识别算法研究精.docx
《基于MFCC和GMM的异常声音识别算法研究精.docx》由会员分享,可在线阅读,更多相关《基于MFCC和GMM的异常声音识别算法研究精.docx(79页珍藏版)》请在冰豆网上搜索。
基于MFCC和GMM的异常声音识别算法研究精
西南交通大学
硕士学位论文
基于MFCC和GMM的异常声音识别算法研究
姓名:
吕霄云
申请学位级别:
硕士
专业:
通信与信息系统
指导教师:
王宏霞
20100501
西南交通大学硕士研究生论文第1页
摘要
异常声音识别是声音识别系统中的一种,是应用音频波形中反映异常声音的特征参数,自动识别异常声音的一种技术。
声音识别系统具有计算效率高,复杂度小,采集设备简单,成本低,而且能更好的保护人们的隐私等优点,它还可以和视频监控系统协作。
因此,声音识别技术是具有广泛的应用前景,值得很多人投身其研究中。
本文针对异常声音识别系统低识别率和高复杂度的问题,将梅尔频率倒谱系数(MelFrequencyCepstrumCoefficients,简称MFCC)与短时能量混合特征应用到异常声音识别系统中。
该混合特征使得高斯混合模型(GaussianMixtureModel,简称GMM)分类器可获得比使用MFCC特征及其差分MFCC更好的分类性能。
分类器的平均识别率可达到90%以上,并且计算复杂度小。
给出了系统实现的具体步骤,并通过仿真实验证明了该算法的有效性。
在性能研究方面,分析了不同特征参数下异常声音识别系统的识别率,获得特征参数的性能与系统的识别率相关的结果;此外还分析不同高斯混合阶数下异常识别系统的识别率,获得高斯密度个数的选择与训练音频数据量相关的结果;最后对比分析了最大期望(ExpectationMaxinum,EM)和最小描述长度(Minimum
Length,MDL)算法,结果表明MDL算法能够有更好的应用空间。
Description
在系统构建方面,本文用MATLAB实现了一个完整的异常声音识别系统,包括音频信号的预处理,特征提取以及分类器的训练和识别。
在预处理模块中,对原始音频进行了归一化,预加重,重叠分帧等处理;在特征提取模块中,提取了MFCC,过零率(TheZero.CrossingRate,ZCR),短时能量(Short.Energy),对数频率倒谱系数
Coeffidents,LFCC)等特征参数。
在模型训练与识别模块(TheLogFrequencyCepstral
中,使用了高斯混合模型作为分类器,它与其他分类器相比,能更好的分辨出异常声音的差别。
该系统实现了对8种异常声音的分类识别,能够得到较高的识别率,而且系统性能好,方法简单,计算效率高,能够保护人们的隐私。
关键词:
异常声音识别;梅尔倒谱系数;短时能量;高斯混合模型;识别率
西南交通大学硕士研究生论文
第1I页
Abstract
As
one
oftheaudiosurveillancesystem,abnormalaudiorecognitionisthe
processof
on
automaticallyrecognizingwhichiSbasedthefeaturesincludedin
on
abnormal
sound
waveform.Becauseofitsparticularlyadvantage
hi曲efficiency,economy,small
complexityandprotectionofpeople’Sprivacy,thistechniqueCanbecombinedwithvideo
surveillancesystem.Therefore,the
isworth
a
audio
surveillance
technologyisverypromising,andit
lotofscientificresearcherstoengageintheirstudies.
Toovercomethe
problem
audio
oflowraterate
andhi.曲complexitybased
on
inabnormalaudio
recognition,the
abnormal
recognition
is
system
theMelfrequencycepstnma
vector
coefficientsandshort・temlenergy
proposed.Thisfeature
makestheGaussian
mixturemodelclassifieravailablethantheuseofMFCCandDifferentialMFCCfeatures
forbetterclassificationofmore
performance.The
thesmall
provedthe
classifier
Call
achieve
is
anaveragerecognitionshowed
rate
than90%,and
computationalcomplexity.It
effectiveness
theelaboratesteps
ofsystemimplemention,andofthealgorithmwithresultsfrom
simulationevironment.
Intheaspectof
performanceresearch,The
rate
author
analyzestherecognition
tothefeatures
rateof
differentfeatures,inwhichtherecognitionauthoralso
choiceoftheEM
tests
related
performance.The
analyzes
theperformanceofdifferentnumbersofGaussianmixtures,inwhichthenumbersrelated
to
mixture
thetrainingdata
are
concluded.Theauthor
a
andMDLalgorithmin
whichthe
MDLalgorithm
hasbetter
use
ofspace.
offull
Inaspectofsystem
construction,thisauthordescribesthe
implementation
abnormalaudiorecognitionsystembyMATLAB,includingaudiosignalpreprocessing,
featureextractingoriginalaudiois
andclassifier
training
and
recognition.Inthepreprocessingmodule,the
normalized,pre—emphasis,overlapping
as
use
divide;Infeatureextraction
module,It
uses
MFCC,ZCR,Energy,LFCCfeatureparameters.Inthemodeltraining
a
andrecognitionmodule,authorcomparisonwith
other
theGaussianmixturemodelas
identifyabnormalaudio
classifier,whichin
audio
classifiers,Canbetter
difference.The
abnormal
system
systemclassifyanddiscriminateei曲tabnormalaudio.The
isoneofthebestsystembecauseofits
hi曲recognitionrateandgoodperformance,
audiorecognitionand
simpleness
key
hi曲efficiency,privacy.
mixturemodel;Accuracy
words:
Abnormalaudiorecognition;MelFrequencyCepstrumCoefficients;short—term
energy;Gaussian
西南交通大学曲南父逋大罕
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。
本学位论文属于
Ⅺ,保密口,在莎保密口,使用本授权书。
(请在以上方框内打“寸’)年解密后适用本授权书;
学位论文作者签名:
吕霄云
日期:
训rp.6、牛指导老师签名:
z旁往日期:
杪,7./・7
西南交通大学硕士学位论文主要工作(贡献)声明
本人在学位论文中所做的主要工作或贡献如下:
(1)针对音频信号的短时平稳性,对音频信号进行预处理,以此来提高特征提取及识别算法的准确度。
(2)对预处理以后的音频文件进行合理的分帧,依次分析音频信号的时域和频域特征参数,并给出每个特征的计算方法,最终得到单特征和多特征的矢量空间。
(3)深刻理解高斯混合模型,将提取到的特征参数应用于高斯混合模型中,并给出了两种训练算法的计算过程,最后用实验得到了平均识别率和系统复杂度这两个评价指标。
本人郑重声明:
所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。
除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。
对本文的研究做出贡献的个人和集体,均己在文中作了明确说明。
本人完全了解违反上述声明所引起的一切法律责任将由本人承担。
学位论文作者签名:
g荡云
日期:
≯oz汐.6.4
西南交通大学硕士研究生学位论文第1页
第1章绪论
随着社会的不断发展,传统的视频监控系统已经不能满足社会的需要,基于音频的监控技术为我们提供了一个更方便,更容易被人们接受的方法。
其中异常声音识别技术是音频监控系统中的一个重要分支。
本章系统的描述了异常声音识别系统的组成和评价标准以及国内外的研究动态。
本章在总结了异常声音识别技术的主要发展现状及所存在的一些问题后,针对这些问题,简要的阐述了本论文的主要工作。
1.1课题的研究背景和意义
随着全球化,网络化,数字化,信息化时代的到来,计算机已经成为人们生活中不可缺少的一部分。
国内外监控系统在技术水平和实际应用等方面都取得了长足的进步,在社会众多领域得到了广泛的应用。
监控系统是安防系统中应用最多的系统之一,监控系统一般是由前端设备和后端软件系统组成。
长期以来,监控系统主要用于对重要区域或远程地点的监视和控制,监控技术在电力系统、电信机房、工厂、城市交通、水利系统、小区治安等领域也得到了越来越广泛的应用。
监控系统将监控点实时采集到的信息实时地传输给监控中心,便于监控中心进行监控,对突发事件及时指挥处置。
在过去的二十几年研究人员主要是研究视频监控系统,使得视频监控系统从最早模拟监控到前些年数字监控再到现在方兴未艾网络视频监控,发生了翻天覆地变化【l】。
由于音频信号是一维信号,存储量相对较小,计算效率较高,弥补了视频监控系统高成本,高复杂度的缺点。
因此,近年来,一些研究人员已提出用音频分析进行监视的应用【2】。
相对于视频监控系统,基于声音识别技术的音频监控具有以下优点:
.
(1)音频监控系统比视频监控系统计算效率高,复杂度小。
(2)音频监控系统可以和视频监控系统进行协作,使得监控系统更加完备。
例如音频监控可以辅助移动机器人监视和监测摄像头看不见的环境【3】。
(3)音频监控系统能比视频监控更大程度的保护人们的隐私。
因为使用音频监控系统麦克风代替了摄像头作为监控设备,更好的保护了病人和老人的隐私权,更容易被人们接受。
(4)音频监控系统的采集设备简单易行,而且成本远低于视频监控的采集设备。
因此,音频监控技术是具有广泛应用前景,值得深入研究的音频监控技术。
其中异常声音识别技术是音频监控系统中一个重要的分支,很多场合对异常声音识别技术得到了广泛的应用。
在异常声音识别系统中,采集到的声音既包含被监控环境中存在的正常事件产生
曼曼皇皇=.-…I!
ii————i!
曼曼曼!
曼曼曼曼西南交通大学硕士研究生学位论文第2页
的声音,我们将其定义为正常声音,也包含被监测环境中,由一些异常事件,比如尖叫、枪声等声音,这些不经常出现的声音通常被定义为可疑的异常声音。
异常声音识别系统的目的是寻找异常声音,通过异常声音来监测异常事件的发生,从而报告给用户,让用户及时处理异常事件的发生。
但是目前对异常声音识别技术的研究刚刚起步,还没有大规模的展开。
识别算法还停留在借鉴其说话人识别算法的阶段。
本文研究的目的是深入分析异常声音自身的特点,充分利用异常声音的特征参数,选择适合的异常声音识别算法,开发异常声音识别系统,以便在未来的应用中不仅能打击犯罪份子而且能更好的保护人们的隐私。
1.2异常声音识别技术
1.2.1异常声音识别系统组成
异常声音识别系统的流程图如图1-1所示。
扎‘>爿模刿l练斟模板库J训练阶段/t
;。
特征提取’:
本。
//驯油\\/◆
测试阶段识别结果/,———\
图1.1异常声音系统流程图
异常声音识别系统主要分为两个阶段:
训练阶段和测试阶段。
在训练阶段,设计人员将采集到的音频样本进行预处理,并提取特征参数,根据提取的特征参数模型训练异常声音模板,系统对同一种声音建立一个统计模型,在本文中采用GMM来对声音特征进行建模。
并将训练得到的模板存入模板库中。
此时,用作训练的样本数目直接决定了统计模型的精度。
在测试阶段,用户将待识别的音频信号经过与训练阶段相同的预处理和特征提取后将其与模板库中的模板进行匹配,并找到与之最相近的模板作为识别结果输出。
在训练和识别阶段包括预处理,特征提取,分类决策这三个部分。
下面简单介绍一下各个模块的内容。
1、预处理
西南交通大学硕士研究生学位论文第3页
对异常声音能否做出正确识别,与原始音频文件的预处理是密不可分的。
正确的对音频文件进行预处理操作,可以提高特征提取及识别算法的精度。
音频信号的预处理是整个系统的基础,主要包括对音频信号进行预加重、加窗、滤波,分帧等操作。
输入音频流
图1.2预处理模块框图
预处理单元的过程如图1.2所示。
因为特征参数是基于短时音频帧的分析,在音频信号进入特征提取模块前,必须把音频信号由连续音频流段开为重叠的音频帧,同时对每帧音频信号进行预加重、加窗、滤波等操作,提高信号的信噪比,进一步增强特征提取的精度【41。
(1)带通滤波
滤波器的目的是把信号中的不包含音频的频率成分滤除,最大限度的提高后续单元输入信号的信噪比。
通过比较各种滤波器我们选择FIR滤波器,其设计为:
FIR的基本形式如式(1.1)所示:
N—l
y(胛)=∑h(k)x(n一后)函(1.1)
式中,Ⅳ为采样点总个数,h(k)为冲击响应,x(n)为输入信号,为y(n)滤波器响应。
(2)预加重
预加重是在音频信号数字化之后,用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现,目的是提升高频部分,使信号变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。
它一般是一阶的数字滤波器如式(1-2)所示:
疗(z)=1一∥zq
式中,∥为预加重系数,H(z)为滤波器响应,∥的取值范围如式(1—3)所示:
0.9<∥<1(1-2)(1-3)
有时要恢复原信号,需要从做过预加重的信号频谱来求实际的频谱时,要对测量・值进行去加重处理,即加上6dB/倍频程的下降的频率特性来还原成原来的特性。
(3)加窗和分帧
进行过预加重数字信号处理后,接下来就要进行加窗分帧处理。
分帧虽然可以采用连续分段的方法,但~般使用交叠分段的方法,这是为了使帧与帧之间平滑过渡,
曼曼曼曼曼曼皇曼曼曼皇!
曼!
蔓曼蔓曼曼曼曼曼曼曼皇曼!
!
曼曼曼!
曼曼曼曼曼曼!
!
!
!
曼曼!
曼!
皇!
曼曼曼曼曼曼苎曼曼II西南交通大学硕士研究生学位论文第4页
III曼曼曼曼!
曼!
曼!
曼曼!
保持其连续性,前一帧和后一帧的交叠部分称为帧移。
帧移与帧长的比值一般取为O.1/2。
分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的窗函数。
本文才采用256个点为帧长,128个点为重叠帧长。
2、特征提取
经过预处理的信息数据往往十分庞大。
因此需要对信息数据进行特征提取和选择,即用某种方法把数据从模式空间转换到特征子空间。
使得在特征空间中,数据具有很好的区分能力。
特征提取就是指从声音信号中提取出表示声音特性的基本特征。
一般情况要满足下述准则【51:
(1)特征易于从音频信号中提取;
(2)能够有效地区分不同的声音;
(3)尽量不随时间和空间变化;
(4)不易模仿;
(5)不受背景噪声及传输信道的影响;
音频信号具有随机性和短时平稳性,因此在对其处理之前首先要进行分帧处理,然后对每一帧计算其特征来表征该短时帧的特征,目前应用较多的特征参数是Mel频率倒谱参数。
在大多数的音频识别系统中,一般选取MFCC低阶系数作为系统的特征矢量,并且在识别系统中低阶系数也能获得比较好的效果。
目前大多数的音频特征提取方法都利用了音频信号的短时平稳特性,并认为音频信号的相邻帧间相互独立。
这样的特征提取方法丢失了音频信号的动态特征,随着时频分析、小波分析等信号处理方法的出现,人们研究了利用音频动态特性的音频特征提取方法。
其它的音频特征提取方法也有研究,如用混沌分维数来作为音频的辅助特征等。
虽然音频特征提取已由简单统计特征的提取发展到涉及倒谱分析、时频分析、小波分析、遗传算法等现代信号处理方法、但音频特征的提取仍是一个有待解决的重要问题。
常用的特征参数包括:
时域的简单参数如短时能量,过零率,以及同态倒谱分析得到的线性预测参数及派生参数和基于听觉模型的Mel倒谱参数,线性预测倒谱系数,小波子带能量等参数。
特征提取这个模块是为了训练后面的分类器做准备,通过将各个特征参数进行分类训练,才能最终得到识别模型,因此好的特征参数能够提高识别算法的性能。
3、分类决策
分类是将样本的特征空间划分为类型空间。
对于给定的未知模式,确定其为类型空间的某种模型。
特征提取和选择在很大程度上影响了分类效果,而好的分类器设计和方法也会提高系统分类性能。
由于异常声音识别还不太成熟,对于分类器的选择,我们更多的是借鉴语音识别方面的知识。
而对于语音识别的主要方法可以分为:
基于模板匹配模型的方法、基于
西南交通大学硕士研究生学位论文第5页
概率模型的方法、基于判决模型的方法和基于混合模型的方法。
这些方法各有优缺点
’
【6】,根据不同的应用环境而采用相应的方法。
1)基于模板匹配的方法
基于模板匹配的方法主要包括动态时间规整和矢量量化两种方法。
动态时间规整(DTw)【7】是一种典型的基于模板匹配模型的方法,DTW采用动态规划(Dynamicprogramming)思,想成功解决了音频信号特征参数序列比对时,时长不等的难题。
说话人信息不仅有相对稳定信息,而且有时变因素,如语速、语调、重音和韵律等。
即使是同一个人同样内容的两次发音,其长度和幅度也不可能相同,从而得到的特征参数序列的长度也不可能~致,因此需要对测试音频的特征参数序列进行非线性放缩,使其于参考模板的长度~致,然后进行比对,并按照某种距离测度得出模板间的相似程度。
DTW算法作为一种有效的时间归正和语音测度计算方法,广泛应用于说话人识别和语音识别中,取得了很好的识别效果。
尽管如此,DTW也存在着下列问题:
首先,由于要找到最佳匹配点因此要考虑多种可能的情况,运算量相对大些;其次,语音识别性能过分依赖于端点检测,端点检测的精度随着不同的语音而有所不同,有些语音的端点检测精度较低,由此影响识别率的提高;最后这种算法没有充分利用语音信号的时序动态信息。
矢量量化是一种极其重要的信号压缩方法,它广泛应用于音频编码、音频识别与合成、说话人识别等领域。
由于矢量量化技术可以有效的压缩和提取说话人的个性特征,其码本可以在最佳意义上代表说话人特征空间的所有训练矢量,因而可以作为有效的说话人模型,用于说话人识别【8‘101。
用矢量量化方法建立识别模型,既可以大大减少数据存储量,特别是当取的码本数量较少时,无论是训练还是测试,速度都很快。
同时又可避开困难的语音分段问题和时间规整问题。
但是每一个说话人的码本只是描述了这一说话人的语音特征在空间中聚类中心的统计分布情况,却没有描述语音信号特征的时序性。
因为其对各个类的区分性的刻画能力有限,当系统中说话人的人数增加时,识别性能下降的很快。
2)基于概率模型韵方法
基于概率模型的方法主要包括隐马尔卡夫模型和高斯混合模型,其中高斯混合模型的应用更加广泛。
音频中说话人信息在短时间内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,然后可以利用均值、方差等统计量和概率密度函数进行分类判决。
与模板匹配模型相比,概率统计模型具有更大的灵活性,说话人识别的问题可以表示为给定说话人模型,然后利用该模型计算产生一个可观察的特征矢量的似然概率,某一说话人的条件概率密度可以由训练矢量估计得出,给定概率密度函数,则该说话人产生特征矢量的概率即被确定。
这类方法优点是不用对特征参数在时域上进行归整,适用于文本无关的说话人识别,但准确的概率统计模型需要长时间的训练才能
西南交通大学硕士研究生学位论文
获得,而且训练和识别的计算量都比较大。
第6页
隐马尔可夫模型是一种用参数表示的,用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变而来的。
HMM即解决了短时模型描述平稳段的信号,又解决了每一个短时平稳段是如何转变到下一短时平稳段的问题。
它利用概率及统计理论成功的解决了如何辨识具有不同参数的短时平稳的信号段以及如何跟踪它们之间的转化等问题[11。
”】。
HMM既能用短时模型.状态解决声学特性相对稳定段的描述,又能用状态转移规律刻画平稳段之间的时变过程,所以能统计的吸收发音的声学特性和时间上的变动。
目前,HMM在说话人识别和语音识别方面应用广泛。
HMM能很好的描述语音信号的平稳性和可变性,这是VQ模板匹配方法所欠缺的。
VQ只能描述说话人特征的静态变化,而HMM能反映语音信号的动态变化。
值得注意的是离散HMM说话人识别正确率和系统的鲁棒性与VQ方法比较没有明显的提高,而且充分训练需要更多的语料,连续HMM在经过充分训练后,系统的鲁棒性和识别正确率比VQ要好。
HMM实现方法比VQ复杂,而且系统训练较VQ要求高,HMM模型的好坏和系统的状态分割数与观测符号序列的乘积大小有关,并且在符号序列长度一定的情况下,状态数的增加对改善系统的性能不明显。
高斯混合模型本质上是一种多维概率密度函数,在说话人识别中,不同说话人的差异主要表现在其短时音频谱的差异,而这又可以用每个说话人的短时谱特征矢量所具有的概率密度函数来衡量。
我们可以用高斯混合模型GMM来表示这一概率密度函数。
典型的单峰高斯说话人模型代表了一个以均值矢量和协方差矩阵表示的说话人特征分布,而矢量量化模型代表了说话人特征模板的离散分布。
通过高斯函数的离散组合,每一个高斯函数用其均值和协方差矩阵表示,即得到高斯混合模型。
在某种意义上,高斯混合模型是单峰高斯模型和矢量量化模型的混合,它的一个强有力的属性是能够形成任意分布的光滑近似,可以更好的表示模型的概率密度。
高斯混合模型本质上是一种基于参数估计的多维概率统计模型,GMM[14‘17】模型认为每一说话人的音频特征在特征空间中都形成特定的分布,并且可以用多个高斯分布组合对每个说话人的音频特征分布进行拟合,不同参数的高斯分布组合可以用来表征不同的说话人,即每个说话人特征参数对应一个GMM模型。
基于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 MFCC GMM 异常 声音 识别 算法 研究