基于机器学习的数字音频分类方法研究.docx
- 文档编号:11519015
- 上传时间:2023-03-02
- 格式:DOCX
- 页数:55
- 大小:343.31KB
基于机器学习的数字音频分类方法研究.docx
《基于机器学习的数字音频分类方法研究.docx》由会员分享,可在线阅读,更多相关《基于机器学习的数字音频分类方法研究.docx(55页珍藏版)》请在冰豆网上搜索。
基于机器学习的数字音频分类方法研究
基于机器学习的数字音频分类方法研究
摘要:
让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。
随着经济的发展,人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。
这就使语音信号分析成为社会生活中越来越重要的一部分。
其中语音识别是语音信号分析的重要领域,而语音特征信号识别又是语音识别研究领域的一个重要方面。
语音特征信号识别一般采用模式匹配的方法解。
首先通过预处理提取语音特征,作为该语音片段的模型。
将该模型与已知的参考模型相比较,获得最佳匹配的参考模式作为识别结果,在论文中研究的是基于传统的BP神经网络的音频分类与SVM技术音频分类的仿真实验结果进行比较,对比两者各自优缺点,从而熟悉这两种技术的基本工作原理和算法。
通过实验对其性能进行了主观评价和客观数据分析,对于所选语音信号BP网络具有较快的训练速度,但是SVM技术具有较高的识别率。
BP网络的学习和记忆具有不稳定性。
也就是说,如果增加了学习样本,训练好的网络就需要从头开始训练,对于以前的权值和阈值是没有记忆的。
但是可以将预测、分类或聚类做的比较好的权值保存。
关键词:
语音识别,特征提取,梅尔倒谱系数,BP网络,SVM(支持向量机)
Researchondigitalaudioclassificationbaseonmachine-learning
Abstract:
Sincethebirthofthecomputerpeoplewanttoletthecomputercanunderstandhuman'slanguage.Peoplearebecomingmoreandmoreurgenttogetridofkeyboardandreplaceitbyvoiceinputthatispersonalized、convenientandnaturaltobeused.SothatAnalysisofspeechsignalbecomeamoreandmoreimportantpartinsociallife.ThespeechrecognitionisanimportantpartofAnalysisofspeechsignal,andthevoicesignalrecognitionisoneofthemostimportantaspectsofspeechrecognition.
Speechfeaturesignalsrecognitionusetousepatternmatchingmethod.Firstly,throughpretreatmentofphoneticfeatureextractionmakeasthemodel.Themodeliscomparedwithknownreferencemodel,getthebestmatchesthereferencepatternasaresultofrecognition.InthispaperresearchisbasedonthetraditionalBPneuralnetworkaudioclassificationandtechnologyofSupportvectormachineaudioclassificationtheexperimentalresultswerecomparedtofindeachofadvantagesanddisadvantages,sotounderstandwiththetwotechnicalbasicprincipleandalgorithm.Throughtheexperimentsontheperformanceofthesubjectiveevaluationandobjectivedataanalysis,forselectedspeechsignalBPnetworkhasfastertrainingspeed,buttheSVMtechnologyhashigherrecognitionrate.BPnetworklearningandmemoryhaveinstability.Thatistosaythatiftheincreaseoflearningsamples,thetrainednetworkisneededtostarttraining,forthepreviousweightsandthresholdsisnomemory.Butitcankeepthesebetterweightthatdowellinpredict,classificationorclustering.
KEYWORDS:
SpeechrecognitionfeatureextractionMelfrequencycepstrumcoefficientBPnetworksSVM(supportvectormachine)
目录
第一章绪论5
1.1语音信号处理发展前景5
1.2语音识别技术概述5
1.2.1语音识别技术的发展历史回顾6
1.2.2音频识别系统的基本原理6
1.2.3语音识别的意义7
1.3项目的主要研究内容7
1.4本文的主要章节安排7
第二章信号的预处理8
2.1信号的预加重8
2.2音频信号的加窗分帧9
2.3音频信号的端点检测10
2.3.1音频信号的短时能量分析10
2.3.2音频信号的短时过零率分析11
2.3.3基于短时平均能量和短时平均过零率的双门限端点检测12
第三章音频信号的特征矢量提取13
3.1信号的倒谱分析13
3.2梅尔倒谱参数14
第四章基于BP神经网络的音频信号数据分类19
4.1BP神经网络概述19
4.1.1BP神经网络19
4.1.2语音特征信号分类20
4.2BP网络的MATLAB实现21
4.2.1归一化方法及MATLAB实现21
4.2.2数据选择选择和归一化21
4.2.4仿真结果分析22
第五章利用SVM建立分类器来对语音特征信号进行分类预测25
5.1svm技术简述25
5.1.1SVM的原理和优点25
5.1.2SVM技术在本案例中的应用26
5.1.3实验的仿真结果与分析26
第六章总结与展望29
致谢30
毕业设计小结31
参考文献32
附录33
附录1:
相关文献的翻译33
第一章绪论
通过语音传递信息是人类最重要、最有效、最常用和方便的交换信息的形式。
语音是人类特有的功能,声音是人类最常用的工具,是相互传递信息的最主要的手段。
因此,语音信号是人们构成思想沟通和感情交流的途径。
1.1语音信号处理发展前景
让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。
随着计算机越来越向便携化方向发展,以及计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。
尤其是汉语,它的汉字输入一直是计算机应用普及的障碍,因此利用汉语语音进行人机交换是一个极其重要的研究课题。
作为高科技应用领域的研究热点,语音信号处理技术从理论的研究到产品的开发已经走过了几十个春秋平且取得了长足的进步。
它正在直接与办公、交通、金融、公安、商业、旅游的行业的语音咨询与管理,工业生产部门的语音控制,电话-电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活志愿系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。
可见,语音信号处理技术的研究将是一项极具市场价值和挑战性的生活。
我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走入人们的日常生活当中,并不断朝向更高目标而努力。
语音信号处理这门学科之所以能够长期地、深深地吸引广大科学工作者不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。
语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科都有着非常密切的关系。
对语音信号处理的研究一直是数字信号处理技术发展的重要推动力量。
因为许多的处理的新方法的提出,首先是在语音处理中获得成功,然后在推广到其他领域的[2]。
1.2语音识别技术概述
语音识别是指机器对人类说话的语句或命令进行识别和理解并做出相应的反应。
它是涉及语言学、计算机科学、生理学等诸多领域的一门交叉学科。
随着计算机软硬件和信息技术的飞速发展,以语音识别技术开发出的产品也广泛地应用于声控电话交换、信息网络查询、医疗服务、银行服务、工业控制等社会和人们生活的每个方面。
1.2.1语音识别技术的发展历史回顾
对语音识别技术的研究距今已有半个多世纪的历史。
1952年,AT&Tbell实验室的Davis等人成功研制的Audry系统标志着语音识别研究工作的开始。
它是世界上第一个能识别十个英文数字发音的实验系统。
进入20世纪60年代,计算机的应用推动了语音识别的发展。
在这一时期产生了动态规划(DP,DynamicProgramming)和线性预测分析技术(LP,LinearPrediction)两大重要理论,较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。
70年代,语音识别领域取得了较大的突破。
动态时间归正技术(DTW)基本成熟,有效地解决了语音信号特征提取和不等长语音匹配问题,同时还提出了矢量量化(VQ),隐马尔可夫模型(HMM)理论。
80年代语音识别研究进一步走向深入,各种连接词语音识别算法被开发,并从模板匹配技术转向基于统计模型技术,特别是在实践开发中成功应用了HMM模型和人工神经网络(ANN)。
1988年Kai-FuLee等用VQ/HMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX,这是世界上第一个高性能的非特定人、大词汇量、连续语音识别系统。
进入90年代后,语音识别技术开始向市场提供产品。
具代表性的是IBM的ViaVoice和Dragon公司的DragonDictate系统,这些语音识别系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。
进入21世纪,语音识别的研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。
而基于语音识别芯片的嵌入式产品也越来越多,如Infineon公司的Unispeech和Unilite语音芯片等。
我国对语音识别的研究也较早。
20世纪50年代后期,中科院声学所用频谱分析的方法研究了汉语10个元音的语音识别;20世纪70年代后期,构建了基于模板匹配的孤立词语音识别系统;20世纪80年代后期,研究了八五期间中科院人机语音对话研究项目。
目前我国语音识别技术的研究水平已经基本上与国际相当。
如以中国科学院自动化研究所模式识别国家重点实验室为依托的中科模识,其汉语连续语音、非特定人听写机系统的普通话系统的错误率可以控制在10%以内。
1.2.2音频识别系统的基本原理
语音识别属于模式识别的范畴。
根据模式识别的原理,未知语音的模式与己知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。
语音识别系统的工作过程可以描述如下:
待识别语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,包括反混叠失真滤波、预加重和端点检测从而将语音信号的特征被提取出来。
常用的特征包括:
短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、倒谱、共振峰等。
根据实际需要选择语音特征参数,这些特征参数的时间序列便构成了待识别语音的模式,将其与己经存储在计算机内的参考模式逐一进行比较,获得最佳匹配的参考模式便是识别结果。
参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练过程。
1.2.3语音识别的意义
语音识别(SpeechRecognition)主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。
它是一门涉及很广的交叉学科,与计算机、通信、语音语音学、数理统计、信号处理、神经生理学、神经心理学和人工智能等学科都有着密切的关系。
随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别的实现成为可能。
近二三十年来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的引用。
当今,语音识别在人机交换应用中,已经占到了越来越大的比例。
主要是有下面的例子:
语音打印机、数据库检索。
特定的环境所需的语音命令。
目前在语音识别中,如何充分借鉴和利用人在语音识别和理解时所利用的方法和原理的一个重要课题[1]。
1.3项目的主要研究内容
通过本次毕业设计应能够熟练掌握数字信号处理、信息论、语音信号处理、模式识别等课程的相关理论知识,并将其运用到实际的工程设计中。
掌握科学研究的一般方法,提高查阅文献和算法设计的能力,为今后的科学研究和工程设计打下基础。
语音特征信号识别是语音识别研究领域的一个重要方面,一般采用模式匹配的方法解决。
首先通过预处理提取语音特征,作为该语音片段的模型。
将该模型与已知的参考模型相比较,获得最佳匹配的参考模式作为识别结果。
要求基于神经网络相关理论,编程实现对不同类型音频信号的通用分类算法。
1.4本文的主要章节安排
第1章绪论:
语音信号的简介、语音识别简介、课题安排、章节设置
第2章语音识别技术综述:
语音识别的系统简介和模型设计、对目前主流的语音识别技术介绍
第3章信号的预处理:
介绍音频信号的预处理技术,包括预加重,加窗分帧,端点检测等。
第4章音频信号的特征矢量提取:
讨论音频信号的MFCC特征矢量提取方法,并给出适合本项目的MFCC矢量特征提取方案。
第五章基于BP神经网络的音频信号数据分类:
建立BP网络对语音特征数据进行分类、对仿真结果进行分析
第六章利用SVM建立分类器来对语音特征信号进行分类预测:
利用SVM建立分类器对特征型号进行、并对仿真结果进行分类
第七章总结与展望:
对两个方法进行比较、总结本项目的主要工作,给出结论及进一步的工作设想。
第二章信号的预处理
在对音频信号进行分析和处理之前,必须要对所采集的语音信号进行预处理。
信号的预处理包括预加重,加窗分帧,短时能量,短时过零率计算以及在此基础上进行的端点检测。
2.1信号的预加重
对音频信号进行分析之前,一般要对信号加以提升(预加重)。
预加重的目的是滤除低频干扰,尤其是50Hz或者60Hz的工频干扰,提升对音频识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。
语音信号的预加重一般在模/数转化后进行,利用6db/倍频的一阶数字预加重滤波器实现。
其函数为:
(2-1)、时域表达式为:
(2-2)
其中,
的取值范围是0.95~0.97。
图2-1预加重时域效果
图2-2预加重频域效果
对一帧信号的预加重时域效果如图2-1,频域效果如图2-2,从频域对比可以看出,信号经过预加重之后频谱相对平坦了一些,信号的高频分量得到了提升。
2.2音频信号的加窗分帧
由于音频信号是一种典型的非平稳信号,其特性是随时间变化的。
但是可假定在10~30ms这样的时间段内,音频信号是平稳信号,其频谱特性和某些物理特征参量可近似地看作不变。
目前,几乎所有的音频信号处理方法都是基于这个假定——将语音信号分成若干个短段,每一短段称为一个分析帧。
对该分析帧进行处理就相当于对固定特性的持续语音进行处理。
分析帧可以是连续的,也可以采用交叠分帧的方法。
经过处理后将从原始语音序列产生一个新的依赖于时间的序列,用于描述语音信号的特征[2]。
同时分帧也是整个识别流程的前提——后面的MFCC特征矢量提取,矢量量化等都是以一帧信号为单位进行计算。
为了减小音频数据帧的截断效应,降低帧两端的坡度,使音频帧的两端不引起急剧变化而平滑过渡到0,就要让音频帧乘以一个窗函数。
理想窗函数的频率响应要求主瓣无限狭窄且没有旁瓣(即无频谱泄漏),但这种窗函数在实际工程中是无法实现的。
窗函数越宽,对信号的平滑作用越显著,窗函数过窄,对信号平滑作用越不明显。
一般需要窗函数具有以下的性质:
(l)频率分辨率高,主瓣狭窄、尖锐;
(2)频谱泄漏少,旁瓣衰减速度快。
这里使用目前常用的Hamming窗:
(2-3)
其中N为每帧的采样点数。
设长度为N的一帧信号为
,则加窗后的帧信号
为:
(2-4)
2.3音频信号的端点检测
语音的端点检测在语音的编码、语音识别、语音增强、说话人识别中起着非常重要的作用,直接影响着后续工作的正确率。
在本项目中要依靠端点检测确定出一个广告音频信号处理分析的开始点。
目前常用的端点检测方法有如下几种:
基于短时能量的、基于短时过零率的、基于倒谱特征的、基于信息熵的端点检测的方法等[5]。
考虑到所处理的广告音频信号是从电视机里直接引出的音频信号,一般情况下可以有可靠的信噪比(目前数字电视的音频输出信噪比可以达到80dB以上),这里采用比较简单的基于短时能量和短时过零率的端点检测[13]。
2.3.1音频信号的短时能量分析
语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的能量小得多。
能量分析包括能量和幅度两个方面。
n时刻某音频信号的短时平均能量定义为:
(2-5)
其中
为上述分帧加窗所用的窗函数[2]。
实际操作时计算一帧信号的短时平均能量作为端点检测的依据。
一帧信号
的短时平均能量可以用加窗分帧之后的信号这样描述:
(2-6)
短时能量可用来区分清音段和浊音段。
En值大的对应于浊音段,而En值小的对应于清音段。
对于高信噪比的语音信号,无语音信号的噪声能量En很小,而有语音信号的能量En显著增大到某一数值,由此可以区分语音信号的起始点和结束点。
以短时平均能量为特征的起止点算法:
根据发音刚开始前己知为“静”态的连续10帧内的数据,计算每帧的短时平均能量,最大值称之为IMX,最小值为IMN,则计算低能量阀值ITL及高能量阀值RTU的经验公式如下。
(3-7)
(3-8)
(3-9)
(3-10)
由此可以进行起止点判断,做起点判别时:
先根据ITL算得一初始起点N1,把它定为最先升到低能量阀值的帧号,但是随着时间的后移,帧平均能量在升到ITU之前又下降到ITL之下,则原N1不作为初始起点,而改称下一个再升到ITL的点为N1,以此类推,在找到第一个平均能量超过ITU的帧时停止比较。
2.3.2音频信号的短时过零率分析
短时过零率表示一帧语音信号波形穿过横轴(零电平)的次数。
对于连续语音信号,过零即意味着时域波形通过时间轴,而对于离散信号,如果相邻的取样值具有不同的代数符号就称为发生了过零。
一段时间内(在本项目中是一帧信号时间长度)的过零率称作平均过零率。
窄带信号的过零率反映了该信号的频率。
当信号为单一正弦波时,过零率是信号频率的两倍。
对于宽带信号,因为过零率是随时间变化的,所以不能采用长时平均过零率,而必须采用短时平均过零率。
广告音频信号不仅仅是宽带信号,而且还是时变信号,它的频谱特性是随时间变化的,故短时平均过零率实际上是描述时变频谱的一种最简单的方法。
过零率的计算主要是将相邻两取样值的符号进行比较,若考虑噪声的存在,就必须规定一个噪声门限,超过这一门限正值的取样值认为是正,低于该门限负值的取样值被认为是负,界于该门限正负值之间的取样被认为是零。
显然,为了能够准确判定各取样值的符号,应要求信号中不含有直流偏移,噪声和电源干扰应尽可能小以及选择合适大小的正负门限值。
以短时平均过零率为特征的起止点算法:
根据发音刚开始前已知为“静”态的连续10帧内的数据,计算出过零率的阀值IZCT:
(2-11)
其中
,
为根据所取样值算得的均值及标准差的估值,IF为固定值,一般取为25。
由此可以进行起止点判断:
根据IZCT算得一个初始起点N1,把它规定为最先升到平均过零率阀值的帧号,随着时间的后移,过零率下降到IZCT之下,则这时的帧号N2点作为终点。
2.3.3基于短时平均能量和短时平均过零率的双门限端点检测
语音端点检测方法可采用测试信号的短时能量或短时对数能量联合过零率等特征参数,并采用双门限判定法来检测音频信号端点。
首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。
低门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。
具体方法为:
先使用短时能量判别法确定一个高过高能量阈值ITU的开始帧号N1,当N1确定后,从N1帧向前N1-25帧搜索,依次比较各帧的过零率,若有3帧以上的过零率大于或等于过零率门限,则将起点N1定为满足过零率大于等于过零率门限的最前帧的帧号,否则即以原N1为起点。
这种起点检测法也称双门限前端检测算法。
检测效果如图2-3所示。
图2-3双门限端点检测效果
第三章音频信号的特征矢量提取
音频信号的的特征提取是为了从信号中提取能表示音频特征的信息。
在现有的语音识别中主要有三类:
时域、频域、倒频域。
音频信号的时域分析就是分析和提取语音信号的时域参数。
进行音频信号分析时,最先接触到并且也是最直观的是它的时域波形。
音频信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。
音频信号的时域参数有短时能量、短时过零率、短时自相关函数和短时平均幅度差函数等。
音频信号的频域分析就是分析信号的频域特征、从广义上讲,音频信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法,线性预测法等几种。
,
音频信号的倒谱分析就是求取信号倒谱特征参数的过程,它可以通过同态处理来实现。
同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。
对语音信号进行解卷卷,可将信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音周期。
其中音频信号特征参数的发展也主要是从时域到频域,再到倒频域的过程。
广告音频信号是一种冗余度很高的随机信号,在进行信号处理的时候,必须经过特征提取才能有效的降低信号冗余度。
所以特征提取实际上是对音频信号进行大幅度压缩的过程。
广告音频信号虽然是时变信号,但是若把它分成10ms至30ms之间这样的音频段,则音频段是相对平稳的,这就是所谓的短时平稳性。
因此可以把短时音频段的特征提取出来。
这里介绍的特征矢量是梅尔倒频谱系数MFCC[6]。
3.1信号的倒谱分析
数字化的音频信号是声道频率特性和激励信号源二
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 数字音频 分类 方法 研究