基于Gammatone滤波器组的听觉特征提取Word文档格式.docx
- 文档编号:21488330
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:8
- 大小:23.11KB
基于Gammatone滤波器组的听觉特征提取Word文档格式.docx
《基于Gammatone滤波器组的听觉特征提取Word文档格式.docx》由会员分享,可在线阅读,更多相关《基于Gammatone滤波器组的听觉特征提取Word文档格式.docx(8页珍藏版)》请在冰豆网上搜索。
【中图分类】工业技术
第38卷V01.38第21期No.21计算机工程ComputerEngineering2012年ii月November2012·
人工智能及识别技术·
文章■号t1000-3428(2012)21-0168-03文N标识码tA中田分ZIS号:
TP391基于Gammatone滤波器组的听觉特征提取胡蜂橙u,曹孝玉1(
1.湖南大学信息科学与工程学院,长沙410082;
2.北京师范大学管理学院,北京100875)摘要:
目前主流说话人特征参数在噪声环境中的鲁棒性较差。
为此,提出一种可用于说话人识别的听觉倒谱特征系数。
分析人耳听觉模型的工作机理,采用Gammatone滤波器组代替传统的三角滤波器组模拟人耳耳蜗的听觉模型,甩指数压缩代替固定的对数压缩,模拟人耳听觉模型处理信号的非线性特性。
在基于高斯混合模型分类器的识别算法下进行仿真实验,结果表明,该听觉特征具有比梅尔频率饲谱系数和线性预测倒谱系数更好的抗噪声能力。
关t请:
说话人识别;
特征提取;
Gammatone滤波器;
听觉模型;
倒谱系数;
鲁棒性AuditoryFeatureExtractionBasedonGammatoneFilterBankHUFeng-song12,CAOXiao-yul(1.CollegeoflnformationScienceandEngineering,HunanUniversity,Changsha410082,China;
2.SchoolofManagement,BeijingNormalUniversity,Beijing100875,China)lAbstractJAimingattheproblemthatspeaker'
sfeaturecoefficientshavepoorrobustnessinnoiseenvrronment,thispaperproposesanauditorycepstralcoefficientforspeakerrecognition.Itanalyzestheworkingmechanismofthehumanauditorymodel,simulatestheauditorymodelofhumanearcochleabyGammatonefilterbanksreplacesthetraditionaltriangularfilterbanks.Basedonthenonlinearsignalprocessingcapabilityofhumanauditorymodel,exponentialcompressionisusedinsteadofthefixedlogarithmcompression.SimulationexperimentisconductedbasedonGaussianMixedModel(GMM)recognitionalgorithm.ExperimentalresultsshowthattheauditoryfeaturehasbetternoiserobustnessthanMelFrequencyCepstralCoefficient(MFCC)andLinearPredictionCepstralCoefficient(LPCC).(Keywordslspeakerrecognition;
featureextraction;
Gammatonefilter;
auditorymodel;
cepstralcoefficient;
robustnessDOI:
10.3969/j.issn.1000-3428.2012.21.0451概述说话人识别是指从说话人的语音中提取说话人的个性特征对说话人身份进行认证的技术,其特征参数提取即提取语音信号中表征说话人的个性特征,它是说话人识别的关键技术之一。
目前,在说话人识别中常用的特征参数有梅尔频率倒谱系数(MelFrequencyCepstralCoeff-icient,MFCC)、线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)、基音周期等。
众所周知,在有噪声及多个说话人的复杂环境下,人耳仍然能够辨认出说话人的身份。
因此,将人耳听觉处理特性融入到说话人识别系统中可以极大地提高系统的性能。
近年来的研究发现,人耳的听觉系统具有十分优异的语音识别能力及噪声鲁棒性,这种优良特性吸引了众多的研究者从事入耳听觉模型的研究。
文献[1】提出了基于人类听觉特性的伽马通滤波器系数和伽马通滤波器倒谱系数。
文献[2]利用动态压缩Gammachirp听觉滤波器组提取话者特征参数,提高了系统的识别率。
文献[3]对基于听觉滤波器模型的特征参数及其历史进行了研究,分析了各模型的优缺点。
文献[4]对近30年听觉外周计算模型的研究及其在语音识别领域的应用进行了评述。
文献[5]对听觉系统的非线性压缩进行了研究,并论证了MFCC提取过程中对数压缩的缺点。
本文在对入耳听觉模型研究的基础上,用Gammatone滤波器模拟人耳耳蜗的听觉模型,用指数压缩代替固定的对数压缩来模拟人耳听觉模型处理信号的非线性特性,提出了一种基于Gammatone滤波器组的听觉特征提取方法。
2基于人耳听觉模型的特征参数提取人耳生理学研究表明,人耳听觉系统主要由外耳、中耳和内耳构成。
语音信号在听觉系统中,依次通过外耳、中耳和内耳,在经过耳蜗基底膜的频带分解作用后,沿听觉通路进入听觉中枢系统[6】。
在整个听觉系统中,耳蜗是非常重要的核心部件。
当外界的语音信号传入到耳蜗基底膜之后,基底膜将产生以行波传递形式的振动,且基底膜振动的听觉响应与受刺激的语音信号频率有关;
基底膜的这种频率分解作用是人耳听觉系统进行声音信号处理的重要环节。
在语音识别中,通常采用一组相互交叠的带通滤波器组模拟实现耳蜗基底膜的频率分解作用,本文采用Gammatone滤波器组实现耳蜗模型。
作者筒介:
胡蜂松(1969-),男,副教授、博士,主研方向:
语音识别,人脸识别;
曹孝玉,硕士研究生收稿日捆:
2012-02-14●圄日期:
2012-03-12E-mail:
cxy131517@第38卷V01.38第21期No.21计算机工程Computer年ii月November文N标识码tA中田分ZIS号:
TP391,曹孝玉1(1.湖南大学信息科学与工程学院,长沙410082;
2.北京师范大学管理学院,北京100875)摘要:
目前主流说话人特征参数在噪声环境中的鲁棒性较差。
分析人耳听觉模型的工作机理,采用Gammatone滤波器组代替传统的三角滤波器组模拟人耳耳蜗的听觉模型,甩指数压缩代替固定的对数压缩,模拟人耳听觉模型处理信号的非线性特性。
在基于高斯混合模型分类器的识别算法下进行仿真实验,结果表明,该听觉特征具有比梅尔频率饲谱系数和线性预测倒谱系数更好的抗噪声能力。
FilterBankHUFeng-song12,CAOXiao-yulCollegeoflnformationScienceandEngineering,HunanUniversity,Changsha410082,China;
2.SchoolofManagement,BeijingNormalUniversity,Beijing100875,China)lAbstractJAimingattheproblemthatspeaker'
sfeaturecoefficientshavepoorrobustnessinnoiseenvrronment,thispaperproposesanauditorycepstralcoefficientforspeakerrecognition.Itanalyzestheworkingmechanismofthehumanauditorymodel,simulatestheauditorymodelofhumancochleabyGammatonefilterbanksreplacesthetraditionaltriangularfilterbanks.Basedonthenonlinearsignalprocessingcapabilityofhumanauditorymodel,exponentialcompressionisusedinsteadofthefixedlogarithmcompression.SimulationexperimentisconductedbasedonGaussianMixedModel(GMM)recognitionalgorithm.ExperimentalresultsshowthattheauditoryfeaturehasbetternoiserobustnessthanMelFrequencyCepstralCoefficient(MFCC)andLinearPredictionCepstralCoefficient(LPCC).(Keywordslspeakerrecognition;
robustness1概述说话人识别是指从说话人的语音中提取说话人的个性特征对说话人身份进行认证的技术,其特征参数提取即提取语音信号中表征说话人的个性特征,它是说话人识别的关键技术之一。
目前,在说话人识别中常用的特征参数有梅尔频率倒谱系数(MelFrequencyCepstralCoeff-icient,MFCC)、线性预测倒谱系数(LinearPrediction众所周知,在有噪声及多个说话人的复杂环境下,人耳仍然能够辨认出说话人的身份。
因此,将人耳听觉处理特性融入到说话人识别系统中可以极大地提高系统的性能。
近年来的研究发现,人耳的听觉系统具有十分优异的语音识别能力及噪声鲁棒性,这种优良特性吸引了众多的研究者从事入耳听觉模型的研究。
文献[1】提出了基于人类听觉特性的伽马通滤波器系数和伽马通滤波器倒谱系数。
文献[2]利用动态压缩Gammachirp听觉滤波器组提取话者特征参数,提高了系统的识别率。
文献[3]对基于听觉滤波器模型的特征参数及其历史进行了研究,分析了各模型的优缺点。
文献[5]对听觉系统的非线性压缩进行了研究,并论证了MFCC提取过程中对数压缩的缺点。
本文在对入耳听觉模型研究的基础上,用Gammatone滤波器模拟人耳耳蜗的听觉模型,用指数压缩代替固定的对数压缩来模拟人耳听觉模型处理信号的非线性特性,提出了一种基于Gammatone滤波器组的听觉特征提取方法。
2人耳生理学研究表明,人耳听觉系统主要由外耳、中耳和内耳构成。
语音信号在听觉系统中,依次通过外耳、中耳和内耳,在经过耳蜗基底膜的频带分解作用后,沿听觉通路进入听觉中枢系统[6】非常重要的核心部件。
当外界的语音信号传入到耳蜗基底膜之后,基底膜将产生以行波传递形式的振动,且基底膜振动的听觉响应与受刺激的语音信号频率有关;
基底膜的这种频率分解作用是人耳听觉系统进行声音信号处理的重要环节。
在语音识别中,通常采用一组相互交叠的带通滤波器组模拟实现耳蜗基底膜的频率分解作用,本文采用作者筒介:
曹孝玉,硕士研究生E-mail:
cxy131517@第38卷第21期胡峰松,曹孝玉:
基于Gammatone滤波器组的听觉特征提取1692.1Gammatone滤波器组滤波器是一个标准的耳蜗听觉滤波器,其滤波器的时域脉冲响应为:
9i(t)=At"
-lexp(-27bit)cos(27cf,+pi)U(f),f≥0,1≤i≤Ⅳ
(1)其中,4为滤波器增益;
,是滤波器的中心频率;
u(r)为阶跃函数;
谚是相位,为了简化模型,本文取破=o;
n是滤波器的阶数,本文取n=4;
6.为滤波器的衰减因子,它决定了脉冲响应的衰减速度,并与相应的滤波器的带宽有关,6f=1.019ERB(,),ERB(Z)为等效矩形带宽,它可以由式
(2)得到:
ERB(fI)=24.7×
(4.37×
矗蒜钥)
(2)其中,Ⅳ为滤波器个数,本文取Jv=64,即由64个滤波器叠加成的带通滤波器组实现耳蜗模型。
各滤波器的中心频率在ERB域上等间距分布,整个滤波器组的频率覆盖范围为80Hz~8000Hz。
图1给出了其频率响应示意图。
—5-IO墨-is捌嚣-20耋-25-30-35-40圈1Gammatone蕾披器组昀冲击响应2.2听觉系统的非线性压缩——指数压缩语音信号处理及听觉研究表明,非线性特性是听觉系统具有抗干扰能力的重要原因之一[4]实际上听觉系统的非线性特性是“指数压缩”的且由低频到高频非线性逐渐增强‘7】。
听觉系统的非线性估计的基本方法就是测量语音信号通过听觉系统的输出输入比,而输出输入通常采用信号的声压级来表示,如式(3)所示:
1嘲吾).五≤1(3)·
Oxlgc考2五,五=1r其中,鼻表示输入信号的功率;
P表示输出信号的功率;
P表示参考声音信号的功率;
丑表示输出输入信号的比值。
式(3)可以进一步转换为:
鲁=c争4(4)上式说明听觉系统的非线性是服从指数压缩的。
非线性压缩具体数值的选择对倒谱系数的性能非常重要,由于具体实验方法的不同,各文献中给出的值也不同。
但目前有2点结论在听觉系统领域得到了普遍认可:
(1)频率在1kHz以上的信号,非线性压缩行为应该比较强,且具体数值也比较接近;
(2)频率在1kHz以下的信号,非线性压缩行为随着频率的降低越来越弱。
通过对仿真实验结果的多次分析,本文对1kHz以上的非线性压缩指数采用常数值0.2;
对1kHz以下部分,规定500Hz对应的非线性压缩值为0.7,0Hz对应的非线性压缩值为0.8,其他频率处的压缩值由线性插值的方法获得,其压缩值与频率的关系如图2所示。
lO0.8篓os出~0.40.20.00002000频率/Hz圈2指数压缩值与瓤事的关系2.3听觉特征提取本文采用Gammatone滤波器组模拟人耳耳蜗听觉模型,同时采用指数压缩来实现人耳听觉系统的非线性特性,提出了一种基于Gammatone滤波器的听觉模型倒谱特征参数,记为GFCC(GammatoneFrequencyCepstrumCoefficient)。
GFCC特征提取流程如图3所示。
叫习爿图3GFCC特征提取藏程GFCC特征参数提取算法如下:
(1)预加重、分帧和加窗。
为加强高频信号,需要对语音信号进行预加重处理,预加重系数为0.97。
假设x(n)是原始的语音信号,则其预加重之后的信号y(n)为:
y(n)=x(n)-0.97×
x(n-1)(5)根据语音信号的短时平稳特性,把语音信号分成若干帧,每一帧的帧长为256采样点、帻移为50%。
为了减少语音帧的边缘影响,对语音信号加汉明窗。
汉明窗的数学公式见式(6),加窗后的语音信号s。
(n)见式(7):
以玎,={:
’54一o.46xcos(号号),ifH=O,l,…,Ⅳ一1c6otherwises。
(”)=y@)×
w(胛)(7)快速傅里叶变换(FastFourierTransform,FFT)。
对加窗后的语音信号进行快速傅里叶变换,把语音信号由时域变到频域,得到语音信号的离散功率谱Ⅳ(k)。
(3)Gammatone滤波器组滤波。
对功率谱x(k)取平方胡峰松,曹孝玉:
基于Gammatone滤波器组的听觉特征提取2.1滤波器组9i(t)=At"
-lexp(-27bit)cos(27cf,+pi)U(f),f≥0,1≤i≤Ⅳ
(1)其中,4为滤波器增益;
n是滤波器的阶数,本文取n=4;
6.为滤波器的衰减因子,它决定了脉冲响应的衰减速度,并与相应的滤波器的带宽有关,ERB(fI)=24.7×
矗蒜钥)其中,Ⅳ为滤波器个数,本文取Jv=64,即由64个各滤波器的中心频率在ERB域上等间距分布,整个滤波器组的频率覆盖范围为80Hz~8000Hz。
图1给出了其频率响应示意图。
—5-IO墨-is捌嚣-20耋-25-30-35-40圈1Gammatone蕾披器组昀冲击响应增强‘7】听觉系统的非线性估计的基本方法就是测量语音嘲吾).五≤1(3)Oxlgc考五,五=r鲁=c争4(4)上式说明听觉系统的非线性是服从指数压缩的。
非线性压缩具体数值的选择对倒谱系数的性能非常重要,由于具体实验方法的不同,各文献中给出的值也不同。
但目前有数值也比较接近;
(2)频率在1kHz以下的信号,非线性压通过对仿真实验结果的多次分析,本文对1kHz以上的非线性压缩指数采用常数值0.2;
对1kHz以下部分,规定500Hz对应的非线性压缩值为0.7,0Hz对应的非线性压缩值为0.8,其他频率处的压缩值由线性插值的方法获得,lO0.8篓os出~0.40.20.00002000频率/Hz圈22.3听觉特征提取本文采用Gammatone滤波器组模拟人耳耳蜗听觉模提出了一种基于Gammatone滤波器的听觉模型倒谱特征参数,记为GFCC(GammatoneFrequencyCepstrumCoefficient)。
图3GFCC特征提取藏程预加重、分帧和加窗。
为加强高频信号,需要对语音信号进行预加重处理,预加重系数为0.97。
假设x(n)是原始的语音信号,则其预加重之后的信号y(n)为:
x(n-1)每一帧的帧长为256采样点、帻移为50%。
为了减少语音帧的边缘影响,对语音信号加汉明窗。
汉明窗的数学公式见式(6),加窗后的语音信号s。
(n)见式(7):
以玎,={:
’54一o.46xcos(号ifH=O,l,…,Ⅳ一1c6s。
(”)=y@)×
w胛)(7)快速傅里叶变换(FastFourierTransform,FFT)。
对加窗后的语音信号进行快速傅里叶变换,把语音信号由时域变到频域,得到语音信号的离散功率谱Ⅳ(k)。
(3)Gammatone滤波器组滤波。
对功率谱x(k)取平方170计算机工程2012年11月5日得到能量谱,然后用Gammatone滤波器组进行滤波处理。
(4)指数压缩。
对每个滤波器的输出进行指数压缩,得到一组对数能量谱%,m:
,…,mP。
川,=烈x(七)2×
皿(七)】‘cn(8)t;
le(/)是2.2节中介绍的指数压缩值。
离散余弦变换(DiscreteCosineTransform,DCT)。
对经过指数压缩的能量谱进行离散余弦变换,得到GFCC,其计算公式如下:
r~-,CGFCC(f)=焉蓍埘,'
os[P(/一o.5)],扛1,2,…,M(9)其中,M为GFCC特征的维数;
P为滤波器的个数。
(6)升半正弦倒谱提升。
对经过DCT得到的特征进行升半正弦倒谱提升,升半正弦窗函数如式(10)所示,倒谱提升后的特征如式(11)所示:
w(i)=0.5+0.5×
sin(兀i/N),l≤f≤|v(10)COFCC(i)=CGFCC(i),xw(i)(11)3仿真实验与结果分析3.1实验数据库简介本文实验采用的数据库为TIMIT和NOIZEUS语音库。
TIMIT语音库是语音识别研究中最常用的纯净语音库,在TIMIT语音库中,每个说话人包含10段3S~6s的语音,每段语音的内容都不同,其采样率为16kHz。
NOIZEUS是一种噪声语音库,其中含有Babblenoise、Airportnoise.Carnoise.Restaurantnoise等,它们的信噪比分别为0dB、5dB、10dB、15dB,有关NOIZEUS语音库的详细介绍见文献[8]。
3.2实验设计实验1测试GFCC听觉特征的有效性,采用不含噪声的TIMIT语音库中的drl和dr6部分作为2个子数据集进行实验。
其中,drl部分共选取40个说话人(男26个,女14个);
dr6部分共有46个说话人(男30个,女16个)。
对于每个说话人,分别从SA、SX和SI中各选取一段语音作为测试语句,剩下的7段语音作为训练语句。
实验2测试GFCC听觉特征的抗噪声能力,采用语音库,分别在Babblenoise、Airportnoise、Carnoise.Restaurantnoise条件下进行实验。
在实验中首先对语音信号进行预处理,然后对每一帧语音分别提取LP
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Gammatone 滤波器 听觉 特征 提取