基于RBF神经网络的抗噪语音识别精.docx
- 文档编号:29473547
- 上传时间:2023-07-23
- 格式:DOCX
- 页数:15
- 大小:22.94KB
基于RBF神经网络的抗噪语音识别精.docx
《基于RBF神经网络的抗噪语音识别精.docx》由会员分享,可在线阅读,更多相关《基于RBF神经网络的抗噪语音识别精.docx(15页珍藏版)》请在冰豆网上搜索。
基于RBF神经网络的抗噪语音识别精
2007,43(22ComputerEngineeringandApplications计算机工程与应用
基金项目:
国家自然科学基金(theNationalNaturalScienceFoundationofChinaunderGrantNo.60472094;山西省自然科学基金(theNatural
ScienceFoundationofShanxiProvinceofChinaunderGrantNo.20051039。
作者简介:
白静,博士研究生,研究方向:
语音信号处理等;张雪英,博士生导师,研究方向:
语音信号处理等;侯雪梅,硕士研究生,研究方向:
语音
识别等。
语音识别实用化所遇到的难题之一是在噪声环境下获得与净音环境下相接近的识别结果。
语音识别在实现过程中通常涉及多种因素,需要同时考虑。
由于语音信号的随机性,以及对人类听觉机理了解甚浅,因此,目前在噪音环境下语音识别系统尚不能达到全部实用化,语音识别实用化研究一直是业界的焦点。
本文采用符合人耳听觉特性的Mel频率与LP倒谱系数结合起来形成LPMel倒谱(LinearPredictiveMelCepstralCoeffi-
cients,
LPMCC作为提取的语音特征参数,用RBF神经网络模型作为识别网络,分别采用聚类算法和全监督算法,在VC++平台上用两种算法分别实现了基于RBF神经网络的孤立词语音识别系统,得到了在不同信噪比和不同词汇量下的识别率。
实验结果表明此种方法抗噪性能较强,识别效果好。
1语音识别系统基本结构
图1为基于RBF神经网络的语音识别系统结构。
预处理包括对原始语音信号进行预加重、加窗和分帧等处理。
预加重通过一个传递函数为H(Z=1-αZ-1
(0.9<α<1.0的滤
波器进行滤波;加窗分帧选用Hamming窗。
经过预处理后,将
语音信号的特征参数(
LPMCC提取出来,使用RBF神经网络得到识别结果。
2RBF神经网络的结构和映射2.1RBF神经网络的结构
图2为RBF神经网络的拓扑结构。
第一层为输入层,由信号源节点组成;第二层为隐含层,用径向基函数作为隐单元的“基”构成隐含层空间,其单元数视所描述问题的需要而定;第三层为输出层,它对输入模式的作用
基于RBF神经网络的抗噪语音识别
白静,张雪英,侯雪梅BAIJing,ZHANGXue-ying,HOUXue-mei
太原理工大学信息工程学院,太原030024
CollegeofInformationEngineering,TaiyuanUniversityofTechnology,Taiyuan030024,ChinaE-mail:
bj613@
BAIJing,ZHANGXue-ying,HOUXue-mei.Noise-robustspeechrecognitionbasedonRBFneuralnetwork.ComputerEngineeringandApplications,2007,43(22:
28-30.Abstract:
Tosolvetheproblemthatrecognitionratesofspeechrecognitionsystemsdecreaseinthenoisyenvironmentpresently,usescharacterpossessingRBFneuralnetwork,whichhaveoptimalapproachcapabilityandthefasttrainingspeed,adoptscluster-ingalgorithmandwholesupervisionalgorithmandrealizesanoise-robustspeechrecognitionsystembasedonRBFneuralnet-work.ThehiddenlayertrainingofclusteringalgorithmusedK-meansclusteringalgorithmandoutputlayerlearningusedlinearleastmeansquare.Theadjustmentoftheentireparametersofwholesupervisionalgorithmisbasedongradsdeclinemethod.Itisakindofsupervisedlearningalgorithmandcanchooseexcellentparameters.ExperimentsshowthatwholesupervisionalgorithmhavehigherrecognitionratesindifferentSNRsthanclusteringalgorithm.Keywords:
speechrecognition;RBFneuralnetwork;clusteringalgorithm;wholesupervisionalgorithm
摘要:
针对目前在噪音环境下语音识别系统性能较差的问题,利用RBF神经网络具有最佳逼近性能、训练速度快等特性,分别采用聚类和全监督训练算法,实现了基于RBF神经网络的抗噪语音识别系统。
聚类算法的隐含层训练采用K-均值聚类算法,输出层的学习采用线性最小二乘法;全监督算法中所有参数的调整基于梯度下降法,它是一种有监督学习算法,能够选出性能优良的参数。
实验表明,在不同的信噪比下,全监督算法较之聚类算法有更高的识别率。
关键词:
语音识别;RBF神经网络;聚类算法;全监督算法文章编号:
1002-8331(200722-0028-03文献标识码:
A
中图分类号:
TN912
◎
学术探讨◎
28
2007,43(22做出响应。
2.2RBF神经网络的映射关系
设RBF网络输入维数为N,隐单元数为P,输出维数为M。
(1从输入空间到隐层空间的非线性变换
第i个隐单元输出
hi=g(
‖x-c
i
‖
!
i
1≤i≤P(1
其中:
g(・为隐单元的变换函数(即径向基函数,它是一种局部分布的对中心点径向对称衰减的非负非线性函数,一般取为Gauss函数,即
g(x=exp(-x
!
(2x为N维输入向量,即
x=[x
1,x
2
…,x
N
]T
ci=[c1
i
c2
i
…,cN
i
]T
ck
i
表示第i个隐单元对应的第k个输入分量;
!
i
为第i个隐单元函数的宽度。
(2从隐含层空间到输出层空间的线性合并
第j个输出
yj=
P
i=1
#hiwij,1≤j≤M(3
其中:
w
ij
为第i个隐单元与第j个输出之间的联接权。
3RBF神经网络聚类算法
3.1隐含层训练
隐含层的学习用无监督训练来完成。
采用的是K-均值聚类算法,所用的聚类为集中每一样本点到该类中心的距离平方之和,并使之最小化。
其算法如下:
(1初始化聚类中心{C
j,j=1,2,…,N},通常将C
j
设为第一
次输入的样本。
设置停止门限";
(2循环开始;
(3将所有样本按最小距离的原则聚类。
即按#
j=min‖x
i
-
cj‖的原则,将x
i
归为第j个聚类#
j
中;
(4计算各类聚类中心的样本平均
C
j
=1
M
jxi∈$j
#xi(i=1,2,…,K(4
式中M
j
为该样本集的个数;
(5计算平均失真与相对失真[1];平均失真为
D(n=1
m
m
r=1
#mind(Xr,Cj(5
X
r为训练序列,r=1,2,…,m
相对失真为
D!
(n=D
(n-1
-D(n
D(n
(6
(6结束判断
当D!
(n≤",循环结束,反之,转到(2。
完成对样本聚类之后,就可以计算高斯核的归一化参数,
高斯半径为!
j
2
。
该参数表示对每个节点输入数据范围的度
量,即
!
j
2
=1
M
jxi∈$j
#(xi-CjT(xi-Cj(7
3.2输出层训练
输出层的学习是有导师式,采用的是线性最小二乘法
(LeastMeanSquare,简称LMS。
这种方法不需要迭代计算,收
敛速度非常快。
最小二乘法的目的就是要使网络的期望输出与
实际输出的均方误差达到最小,即满足‖Y-W#‖2最小,从而
寻找w
ij
的估计量w!
ij
。
其中Y为输出矢量,W为隐层至输出层权
值矩阵,Φ为隐层输出矢量。
根据微分法求解可得到式(8
W=(ΦTΦ-1Y(8
这样上述均方差的值即可达到最小。
一般为了防止矩阵ΦTΦ
出现奇异的情况,常将W表达为
W=(ΦTΦ+%‖ΦTΦ‖-1ΦTY(9
这里,%一般设成趋近于0的正数,由此可得参数w
ij
的估
计值[2]。
4RBF神经网络全监督训练算法
全监督算法基本思路是:
网络的所有参数调整是一个监督
学习的过程,以达到性能指标最小为目的。
RBF神经网络的性能指标为
E
i
=1
2
(y
i
-y!
i
2i≤1,2,…,N(10
y!
i
为对应第i个输入向量的期望输出值,y
i
为第i个输入向
量的实际输出值,N为样本数。
若将所有的待求参数,即RBF
网络的中心C=[c
1
c
2
…,c
h
]
p×h
、宽度"=[!
1
!
2
…,!
h
]
h×l
和连
接权值向量W=[w
11
…,w
ij
…,w
ho
]
h×o
构成一个集合,将性能指
标作为最优目标函数式(11
min
Z
E
i
=1
2
(y
i
-y!
i
2(11
来调整参数,则RBF网络的学习过程可以看作一个求多变量
函数的无约束极小值的过程[3]。
因此,整个网络的学习只是一个
监督学习的过程。
特别是中心的学习也是一个监督学习的过
程,从而避免了常规算法中非监督学习引起隐层节点中心对初
始值敏感的问题[4]。
本文采用基于梯度下降的误差纠正算法,具体算法步骤
如下:
(1初始化:
任意指定w
i
c
i
!
i
值,预置允许误差,预置学
习步长%
1
%
2
%
3
;
(2循环,直至达到允许误差或指定重复次数。
①
计算e
j
j=1,2,…,N
白静,张雪英,侯雪梅:
基于RBF神经网络的抗噪语音识别29
2007,43(22
ComputerEngineeringandApplications计算机工程与应用
1584.6286.4885.1688.7286.8289.3588.3790.8790.5691.26
2085.2187.2385.8989.3288.2390.2689.3791.1292.3792.87
2585.3689.3586.7990.1189.1691.6789.9692.7892.3392.54
3085.5389.2687.2491.3489.8991.9890.2692.7893.1193.56
Clean86.2291.3888.5792.5491.1893..0592.1393.7594.1294.21
聚类全监督聚类全监督聚类全监督聚类全监督聚类全监督
训练方法词汇量SNR/dB
10
20304050
%
表1使用聚类和全监督训练方法的识别率
ej=dj-
f(xj=dj-M
i=1
!
wi・G(xj,ci
(12
②计算输出单元的权值的改变量"E(
n"wi(n=-1NNj=1!
ejexp(-‖xj-ci‖2
2!
i
2(13
改变权值
wi(n+1=wi(n-"1"E(
n"wi(n(14
③计算隐单元的中心的改变量"E(
n"ci(
n=-wiN!
i2Nj=1!
ejexp(-‖xj-ci‖
2
2!
i
2・(xj-ci(15
改变中心
ci(n+1=ci(n-"2"E(n"ci(n(16
④计算函数宽度的改变量"E(
n"!
i(
n=-wiN!
i3N
j=1!
ejexp(-‖xj-ci‖
2
2!
i2・(‖xj-ci‖2(17改变宽度
!
i(
n+1=!
i(n-"3"E(n"!
i(n(
18⑤计算误差E=1
2N
N
j=1
!
e
2j
(19
5实验方法及结论
5.1网络训练与识别
(1语音数据
实验中,直接把由采样系统得到的语音数据文件作为处理对象,实验所采用的语音样本均为孤立词。
语音信号采样率为11.025kHz,帧长N=256点。
实验共使用了10词、20词、30词、40词、50词,分别是9人在不同SNR(无噪音、15dB、20dB、25dB、30dB下的发音作为训练数据库,每人每个词发音3次。
用另外7人在相应SNR下的发音进行识别,得到不同SNR下和不同词汇量下的基于RBF神经网络的语音识别结果。
(2网络结构
实验中输入向量由LPMCC特征参数构成,即每个人每个单词的每次发音所产生的特征矢量构成一个特征文件,作为RBF网络的输入。
并将LPMCC特征参数进行时间归一化处理,得到统一的1024维的语音特征矢量序列。
神经网络输入层节点数应与输入模式向量的维数一致。
实验采用训练词汇数作为隐层节点数,即网络中隐层节点数根据识别词汇量变化。
输出层节点是待分类的模式类别总数,即为待识别词汇数。
如果对40词汇的识别,相应地就有40种待分类模式,输出层节点数为40。
网络隐层设置一个偏置,其值固定为1,这个偏置因子也要和各个输出节点连接起来,参与权值训练。
输入层到隐层之间为全连接,权值固定为1。
(3网络训练
实验1聚类训练算法
以10词无噪音下为例,对用于训练的270×1024个特征矢量,生成聚类维数为1024,聚类大小为10的码书。
把所有的训练特征按照最近邻准则分到10个聚类中。
计算每个聚类的
中心及相对失真,当失真测度小于预先设定的门限#(实验取#<0.0001
所得聚类的中心即为隐节点函数中心。
函数半径!
j根据公式(7计算。
根据已知的输出层信息(即单词分类号用
线性最小二乘法算出隐层到输出层之间的连接权值。
实验2全监督训练算法以10词无噪音下为例,使用10个词的无噪音语音特征训练网络,由于每个训练特征文件对应于一个单词分类号,训练方法采用梯度下降算法,根据单词分类号不断地修改网络权值直到满足预先设置的误差精度。
实验中设置网络学习步长均为0.001,误差精度为10-5,最大学习次数为1000。
(4网络识别RBF神经网络模型确定后,将测试集的单词输入网络分别进行识别测试。
每输入一个单词的1024维特征矢量,经过隐
层、输出层的计算后就可以得到每个单词的分类号,将这个分类号与输入特征矢量自带的分类号比较,相等则识别正确,反之,识别错误。
最后将识别正确的个数与所有待识别单词数作比值即可得到最终的识别率。
5.2实验结果及结论
表1是在不同SNR和不同词汇量下,上述两种训练方法
的实验结果。
从表1中可以看到,RBF神经网络用于语音识别得到了较好的识别率,且随着词汇量增加识别率会上升,这是由于随着词汇量的增加,训练的隐节点的数目也会增加,网络训练会更充分,系统的鲁棒性也会增强,所以识别率会提升。
其次,比较两种训练方法的训练结果,可以看到用全监督训练算法,识别率明显高于常规聚类算法。
充分说明了全监督训练算法对RBF网络的性能提高有较大的作用,使RBF网络具备了更强的分类能力。
但缺点是训练速度较慢,可在以后的研究中加以改进。
(收稿日期:
2007年3月
参考文献:
[1]张刚,张雪英.语音信号处理[M].北京:
兵器工业出版社,2000:
72-73.[2]GuoJJ,LuhPB.SelectinginputfactorsforclustersofGaussian
radialbasisfunctionnetworkstoimprovemarketclearingpriceprediction[J].IEEETransactionsonPowerSystems,2003,18(2:
665-672.
[3]MusaviM,AhmedW,ChanK,etal.Onthetrainingofradialbasis
functionclassifiers[J].NeuralNetworks,1992,5(5:
595-603.[4]SchwenkerF,KestleHA.Threelearningphasesforradial-basis-
functionnetworks[J].NeuralNetworks,2001,14(4/5:
439-458.
30
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 RBF 神经网络 语音 识别