完整版基于声纹的说话人特征识别毕业设计.docx
- 文档编号:29081337
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:74
- 大小:432.41KB
完整版基于声纹的说话人特征识别毕业设计.docx
《完整版基于声纹的说话人特征识别毕业设计.docx》由会员分享,可在线阅读,更多相关《完整版基于声纹的说话人特征识别毕业设计.docx(74页珍藏版)》请在冰豆网上搜索。
完整版基于声纹的说话人特征识别毕业设计
JIUJIANGUNIVERSITY
毕业论文(设计)
题目基于声纹的说话人特征识别
英文题目Speakerfeaturerecognition
basedonthevoiceprint
院系
专业
姓名
年级
指导教师
2013年6月
摘要
说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,而自动识别说话人身份的技术。
它也常被人们称为声纹识别技术,是生物认证技术的一种,其基本思想就是运用某种匹配方法进行特征识别,从而确定说话人的身份。
目前已知的语音特征包括基音周期、语谱图、自相关系数、能量、平均幅度、过零率、共振峰、线谱对、线性预测系数(LPC)、线性预测倒谱(LPCC)、Mel频率倒谱(MFCC)等。
本文介绍了说话人识别的概念、原理及其识别实现的方法,指出了说话人识别技术的应用前景。
通过在Matlab7.0平台上对语音的基音周期、线性预测倒谱和Mel频率倒谱等特征参数进行提取、分析、对比、识别实现一个简单的说话人识别系统,实验结果表明实验正确、有效。
关键字:
说话人识别;特征参数;基音周期;线性预测倒谱;Mel频率倒谱
Speakerfeaturerecognitionbasedonthevoiceprint
Abstract
Speakerrecognitionisthevoiceparametersinaspeechwaveformwhichreflectsthespeaker'sphysiologicalandbehavioralcharacteristics,andautomaticidentificationtechnologytospeakeridentity.Itisalsooftenreferredtoasthevoiceprintrecognitiontechnology,abiometricauthenticationtechnology.Thebasicideaistouseamatchingmethodforfeaturerecognition,inordertodeterminetheidentityofthespeaker.
Currentlyknownvoicefeaturesincludepitch,spectrogram,sincethecorrelationcoefficient,energy,averagemagnitude,thezerocrossingrate,formant,thelinespectrumoftheLinearPredictionCoefficient(LPC),LinearPredictionCepstrum(LPCC),MelFrequencyCepstral(MFCC).
Thisarticledescribesthespeakeridentificationconcepts,principlesandimplementationmethodsofidentification,andpointedouttheprospectofspeakerrecognitiontechnology.BytheMatlab7.0platform,voicepitch,linearpredictioncepstrumandMelFrequencyinvertedspectracharacteristicparameterextraction,analysis,contrast,identifyasimplespeakerrecognitionsystem,experimentalresultsshowthattheexperimentiscorrect,effective.
KeyWords:
SpeakerRecognition;FeatureParameter;Pitch;LinearPredictionCepstralCoefficient;MelFrequencyCepstralCoefficient
引言
语音是人类交流信息的基本手段。
随着信息科学飞速发展,如今语音信号处理技术已经拓展为语音学与数字信号处理技术相结合的交叉学科,它和认知科学、心理学、生理学、语言学、计算机科学和模式识别与人工智能等学科联系紧密。
语音信号处理技术的发展依赖这些学科发展,而语音信号处理技术的进步也会促进这些学科的进步。
因此,语音信号处理成为目前发展最为迅速的信息科学研究领域中的一个重要分支。
语音信号的研究一般都基于语音信号的数字表示,因此语音信号的数字表示是进行语音信号数字处理的基础。
语音信号的数字表示基本上可以分为两大类:
波形表示和参数表示。
波形表示仅仅是通过采样和量化的过程保存模拟语音信号的“波形”,而参数表示则是把语音信号表示成某种语音产生模型输出。
为了得到参数表述,首先必须对语音进行采样和量化,然后再进一步处理得到语音产生模型的参数。
语音模型的参数一般可分为两大类:
一大类是激励参数;另一大类是声道参数。
对语音处理的基础理论及各种处理算法的研究主要包括以下两个方面:
1.从语言中产生和听觉感知来研究——语音产生的研究涉及大脑中枢的言语活动如何转换成人发声器官的运动,从而形成声波的传播。
听觉感知的研究涉及人耳对声波的收集波并经过初步处理后转换成神经元的活动,然后逐级传递到大脑皮层的语音中枢。
2.将语音作为一种信号来处理——早期形成的数字滤波器、FFT等数字信号处理方法广泛应用在语音信号处理领域,后期出现的线性预测编码技术成为语音信号处理最有效的办法之一。
到了八十年代,出现了分析合成法、码激励线性预测(CELP)、矢量量化(VQ)以及马尔可夫模型(HMM)等一系列算法和模型在很大程度上推动了语音编码和语音识别技术的研究。
语音信号处理虽然包括了语音通信、语音合成和语音识别等方面的内容,但其前提是对语音信号进行分析。
只有将语音信号表示成其本质特征的参数,才有可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,也才可能建立用于识别模版或知识库。
而且语音合成的音质好坏、语音识别率的高低,都取决于对语音信号分析的准确性和精度。
例如,利用线性预测分析来进行语音合成,其先决条件是要先用线性预测方法分析语音库,如果线性预测分析获得的语音参数较好,则用此参数合成的语音音质就好。
有如,利用带通滤波器组法来进行语音识别,其先决条件是要弄清楚语音共振峰的幅值、个数、频率变化范围及其分布情况。
因此,应先对语音信号进行特征分析,得到提高语音识别率的有用数据,并据此来设计语音识别系统的硬件和软件。
根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方法。
进行语音信号分析时,最先接触到的、最直观的是它的时域波形。
语音信号本身就是时域信号,因而时域分析是最早使用的应用范围最广的一种方法。
时域分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点;但更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作用。
常用的频域分析方法有带通滤波器组方法、傅里叶变化法和线性预测分析法等。
频谱分析具有如下有点:
时域波形较容易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽建性。
另外,语音信号的频谱具有非常明显的声学特征,利用频域分析获得的语音特征具有实际的物理意义。
如共振峰参数、基音周期等参数。
倒谱域是将对数功率谱进行反傅里叶变换后得到,它可以进一步将声道特征和激励特征有效的分开,因此可以更好地揭示语音信号的本质特征。
语音信号处理的主要应用包括:
语音识别、语音合成、说话人识别、语音编码、语音增强等几个分支。
近年来,各个分支都取得了很大的进步,已经深入应用到通信、办公自动化、远程控制、声控电话拨号、计算机语音应答、机器人听觉与口语系统等使用系统中。
本文要进行的是语音信号处理在说话人识别中的应用,以完成说话人识别系统的功能实现。
人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理过程,人在讲话时使用的发生器官——舌头、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。
这就使得每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对、一成不变的。
这种差异可能来自生理、病理、心理、模拟、伪装,也可能与环境干扰有关。
尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,说话人的鉴定仍能区别不同的人或识别是否是同一个人的声音,从而进行个人身份识别。
说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,而自动识别说话人身份的技术,主要包括特征提取和模式匹配两个部分。
这项技术自研究发展至今,以其特有的方便性、经济性、安全性和准确性等优点受到特别关注,其研究和应用系统的开发具有重要的现实意义。
作为生物特征识别技术的一种,说话人识别技术在声音拨号、电话银行、电话购物、数据库访问、信息服务、语音电子邮箱、安全控制、计算机远程登陆等互联网及通信领域得到广泛应用;在呼叫中心应用上,说话人识别技术同样提供更加个性化的人机交互;在军事领域,说话人识别技术用于战场监听,以辨认出敌方的指挥员;在生物识别技术领域中,说话人识别技术日益成为人们日常生活和工作中重要且普及的安全验证方式。
第一章说话人识别研究
说话人识别(SpeakerRecognition,SR)技术,也常被人们称为声纹识别(VoiceprintRecognition,VR)技术,是生物认证技术的一种。
其基本思想就是运用某种匹配方法进行特征(本文指说话人的语音特征)识别,从而确定说话人的身份。
1.1说话人识别研究的意义
在生物学和信息学高度发展的今天,生物识别技术已经越来越广泛地应用于人们的工作、学习和生活中,作为一种便捷和先进的信息安全技术,它能满足现代社会对于身份鉴别的准确性、安全性和实用性的更高要求。
生物识别技术的崛起得益于信号检测与处理、模式识别、人工智能、机器学习等理论与技术的发展,由于它为身份识别提供了一个可靠的解决方案,其应用前景广阔,并能为构筑21世纪基于自主研究开发的国家信息安全体系提供强有力的技术支持。
生物识别技术是一种根据人体自身的生理特征(指纹、手形、脸部、DNA、虹膜、视网膜、气味等)和行为特征(声音、签名、击键方式等)来识别身份的技术。
它是集光学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技术,作为一种更加便捷、先进的信息安全技术,生物识别技术将全球带进了电子商务时代。
说话人识别作为生物识别的一种,是通过由计算机利用语音波形中所包含的反映特定说话人生理、心理和行为特征的语音特征参数来实现自动识别说话人身份的。
由于每个人的声音特征都是唯一的,而且几乎很少会发生变化的。
说话人识别技术正式根据这一特性,利用语音信号中说话人特有的“语音个性”,而不考虑语音中的字词意思,通过说话人识别系统对用户进行身份识别。
在当今社会,说话人识别几乎可以应用到人们的日常生活的各个角落,成为人们生活中和工作中重要且普及的安全验证方式。
1.2说话人识别应用领域
由于与其他生物识别技术相比,说话人识别技术具有不可遗忘和忘记、不需记忆、使用方便等优点,同时说话人识别还具有更为准确、经济及可扩展性良好等众多优势,因此,说话人识别技术在以下许多方面得到广泛应用。
1.用于银行、证劵系统——目前电话银行,炒股等业务不断增加,为了进一步提高这些实时性高、风险性高的业务操作的安全性,可采用说话人识别技术并结合设定的密码及其他安全措施进行真实、安全、有效地用户身份辨认,从而实现方便、快捷、安全有效地操作。
2.网络安全——在日益频繁的电子商务、电子购物、国际贸易领域中,越来越多的人们依赖于网上各种口令和密码,随着密码在不同场合的频繁使用,这种非特征性的依赖缺陷——安全缺陷,也越发明显。
同时,记忆并定期修改众多的密码是非常让人头疼的事情。
在说话人识别过程中,每次发音都可由随机产生的提示文本来控制,可有效的防止身份复制和账号、密码的盗窃,并且用户不需要记忆和修改任何东西。
因此,在网上交易时采用说话人识别技术要比其他生物识别技术更具有优势,且操作方便、简洁,很容易为广大计算机使用者接受。
3.语音检索——对于大量的录音素材,将说话人识别技术与连续语音识别技术相结合,可以检索出其中我们感兴趣的特定人所说的内容。
4.用于身份鉴别——利用不同人的声纹特征进行身份鉴别,为用户设计声纹打卡系统、声纹锁、声控防盗门、声控车载启动系统等等。
如国内的“得意身份证”、“昭德数字”声纹门禁系统等。
5.用于军事安全——随着现代信息技术的发展,现在各国的国防部门也已经逐步采用声纹信息管理系统,并将其应用到军事命令、机密情报等重要信息的获取和鉴别中。
6.医学应用——说话人识别的主要依据是说话人声道结构的差异,从而可知说话人识别技术的研究和医学中生理学的发展是相互促进的,一方面生理学和解剖学的进展可以促进说话人识别问题的研究,另一方面也可借助说话人识别技术进行声道特性的研究。
例如为响应病人请求的命令,设计一个针对患者的说话人识别系统,可方便地实现患者需求的控制等。
7.用于司法取证、刑事案件侦破——对于各种电话勒索、绑架、电话人身攻击等案件,说话人识别技术可以在一段录音中查找出嫌疑人,帮助对嫌疑人的查证,1971年美国警方就利用此技术协助破案。
另外,现在很多法庭已经使用声纹作为鉴别犯罪的依据。
当然,这也需要防止发音伪装的问题。
1.3说话人识别的技术优势
生物识别技术是目前最为方便、安全和环保的识别技术,具有不会遗失、无需记忆等优点。
此外,与其他生物认证技术相比,说话人识别技术还有以下几个方面的优势:
(1)用户接受程度高——以说话人的声音作为特征进行识别,用户不需要记住复杂、繁多、易忘的密码,不需要随时准备着携带智能卡、钥匙之类的东西,更不需要像其他生物识别技术一样,刻意的用手触摸传感器或把眼睛凑向摄像头,是一种比较自然的识别技术。
(2)设备成本低——说话人识别是一种比较经济的识别方式,一方面它所用的设备(如PC机、麦克风等)成本要求较低;另一方面声音的采样、量化芯片的要求也不高。
而如虹膜、视网膜等技术,虽然识别精确度很高,但设备造价也很高,性价比不高。
(3)可用于移动传输中——随着信息智能化发展,语音特征将成为嵌入式系统和手持移动设备最好的交互手段的可能性越来越明显,因此,以声音作为身份识别特征的技术也越来越受到重视,说话人识别技术也越来越重要。
(4)可实现远程操作——适合远程身份确认,通过麦克风或电话、手机就可以由网络(通讯网络或互联网络)实现远程登陆。
(5)实现算法简单——声纹辨认和确认的算法复杂度低,配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率。
(6)隐私保护性强——说话人识别技术采用语音特征进行身份确认,只需提供语音信号,不涉及隐私问题,用户无任何心理障碍。
1.4说话人识别研究的难点和热点
1.4.1说话人识别技术研究的难点
尽管对说话人识别的研究已长达半个世纪,说话人识别技术也已从实验阶段走向市场,进入是实用阶段。
但要使其普遍,并像指纹识别一样成为十分可靠的生物特征识别技术,得到广泛应用,还有许多尚需进一步探索研究的难题,主要有以下几个方面:
1.尚未找到简单可靠的说话人语音特征参数。
说话人语音信号中既包含了说话人语音内容的信息,也包含了说话人的个人信息,是语义特征和说话人特征的混合体。
目前还没有很好的方法把说话人的个性特征从语音特征中分离出来,也没找到简单的声学特征参数能够可靠的识别说话人。
2.语音信号的变异。
即对于同一说话人和同一文本,语音信号也有很大的变异性。
因为说话人的发音常常与环境、说话人的情绪、说话人的健康状况有密切关系,说话人的语音特征不是静态的、固定不变的,它具有时变特性。
会随时间、年龄和健康状况的变化而变化;另外,传输语音的通信通道的时变效应问题也是语音信号产生变异的重要方面。
语音信号的变异性从本质上说是说话人特征空间发生移动,说话人模式发生变异,从而增加识别过程中的不确定性。
说话人识别中存在的噪音、多通道、情感等热点研究方向都属于这方面。
3.声音容易被录音模仿。
如何处理故意伪装问题,在法庭的说话人识别应用中,这个问题具有特殊的重要性。
比如在法庭查证的识别应用中,罪犯可能会伪装他们的声音或模仿另一个人的声音来逃避罪名。
4.特征空间有限。
在汉语语音识别中,全体音节的集合很小,其数目仅几百个,而全体汉语说话人却有14亿多,对于由同一语音信号组成的特征空间,语音识别要将其划分为M个子空间,M为音节个数,而说话人识别要将其划分为N个子空间,N为说话人个数,由于N远大于M,使得识别说话人要比识别所说的内容复杂,而且当N很大时,说话人识别还在理论上存在将有限特征空间进行无限划分的问题,这是说话人识别所面临的新问题。
5.噪声问题。
鲁棒性问题一直是说话人识别研究的难点,像用麦克风录音时会产生低频干扰噪声,而在移动信道中传送语音时也会有加性或卷积噪声产生,这些噪声都会使得得到的信号产生失真,最终降低识别率。
目前说话人识别中存在的去噪、多通道等研究热点都属于这个方面的改善。
另外,说话人识别还存在以下一些实用性的问题需要在将来的研究中加以考虑和解决。
1.说话人识别系统设计的合理化及优化问题。
即在一定的应用场合下对系统的功能和指标合理定义、对使用者实行明智的控制以及选择有效而可靠的识别方法等问题,使得既能正确识别说话人,又能拒绝模仿者。
2.如何处理长时间和短时说话人的语音波动,如何区别有意模仿的声音,这点对于说话人识别在司法上应用尤为重要。
如何将语音识别和说话人识别有机的结合起来,对于这一点,指定文本型的说话人识别是一个有益的尝试。
3.说话人识别系统的性能评价问题。
需要建立与试听人试验对比的方法和指标;由于目前对于说话人识别的性能尚无一致的评价方法,所以这一问题的解决还需长期的努力。
4.可靠性和经济性。
和语音识别系统相比,说话人识别的使用者要多几个数量级,例如有信用卡的人可以是几百万或上千万,当然不一定所有的都用同一个系统来处理,但是在把说话人识别系统用于社会以前,必须现设想万位以上的说话人进行可靠的实验。
同理,在经济性方面,每一个说话人的标准模型必须使用尽量少的信息,因此样本和特征量的精选也是亟待解决的。
说话人识别的关键步骤可分为:
语音的预处理、语音特征提取、识别系统模型的建立、根据相似性准则进行判定等。
想要提高说话人识别的正确率,应从以上几个方面进行研究。
其中语音特征提取和识别系统模型的建立是说话人识别技术研究的重点。
上述提到的问题主要是这两方面引起的,其系统的优劣性也往往取决于这两方面。
识别模型常用的是高斯混合模型(GMM)、矢量量化模型(VQ)和隐马尔可夫模型(HMM),已有实验表明,对于相同的特征参数的与文本无关的说话人识别系统,GMM的识别率可以达到93.6%,性能也是最好的,其次是HMM,而VQ的识别率最高仅为86.2%,模型处理的主要问题集中在算法的准确度和复杂度上。
此外,由于目前大多数研究的说话人识别过程都认为相邻帧间的特征参数是相互独立的,所以如何寻求新的更具个性和更强鲁棒性的动态语音特征,或者对现有的特征参数进行优化的选择、补偿等,仍然是说话人识别技术领域中的研究热点。
1.4.2说话人识别研究的热点
由于应用的需求和数字信号处理技术的飞速发展,说话人识别的研究越来越受到人们的重视。
在国际声学、语音和信号处理会议(InternationalConferrenceonAcousticSpeechandSignalProcessing,ICASSP)论文集中,每年都有关于说话人识别的专题。
说话人识别的研究已经逐渐从实验室走向实际应用。
目前,说话人识别的研究主要集中在如下几个方面:
1.语音特征参数的提取和混合。
语音特征参数对说话人识别系统的性能至关重要,虽然倒谱参数得到广泛应用,但语音特征参数仍是一个研究热点。
寻找新的有效的语音特征参数以及已有特征参数的有效组合是语音特征参数研究的两个方向。
2.在模型训练和识别技术方面:
HMM模型与其他模型结合,改善说话人识别系统的性能。
如HMM模型与神经网络,HMM模型与支持向量机SVM(SupportVectorMachine)的结合都可以有效地改善系统的性能。
高斯混合模型方面:
模型参数估计方法的改进,减少模型运算量及算法复杂度的研究。
矢量量化方面:
量化方法的鲁棒性及改进算法。
神经网络方面:
大人群识别,级联神经网络。
3.带噪音,特别是电话和移动通信环境中的语音的说话人识别是现今说话人识别的一个热点。
4.文本无关的说话人识别技术是当今说话人识别研究的又一个热点。
1.5影响说话人识别性能的因素
说话人识别技术发展至今已经变的相当成熟,而且在国际上已经有了一些成功的应用。
但是在实际的问题中,说话人识别技术仍然有一些弱点。
人们常认为说话人识别的难点在于有些人的声音非常相似,以至于有时连我们自己都会弄错。
不过这只是原因之一,说话人识别技术中的难点并不局限于此。
最关键的问题是语音信号本身的多变性,而不是相似性。
也就是说,难度在于要从多变的语音信号中找出每个说话人的特有特征。
语音信号的变化是如此错综复杂,其原因之一就在于说话人自身语音的变化。
人与人之间声音存在差异使得自动说话人识别技术能够成为可能,但同时也正是因为人的语音具有多变性使得这个问题变得复杂起来。
语音是人的固有生物特征,但同时也是人的一种行为,它同时具有行为和属性两种特点,个人的属性可以不变,而行为却是每一次都不完全相同的。
语音产生的变化有些是刻意为之,有些则不然。
仅仅依靠发音器官的特点而提取出来的特征不足以表示每个说话人的特点。
由于健康状况、紧张程度、不愿意合作等生理和心理因素会大大降低说话人识别系统的辨识率。
除了说话人自身的因素以外,还有其他方面也会造成说话人识别系统性能表现不稳定。
如噪声、传输信道匹配、系统使用时间长短的。
1.噪声——噪声的影响是语音信号处理中最常见也是影响系统性能最关键的因素之一。
R.C.Rose等人证明,通常的说话人识别系统在噪声干扰情况下识别效果会严重下降。
DOBTOTH等学者从电话交换机上获取的语音信号表示,39.3%的对话过程中都含有其他噪声信号干扰。
因此如何解决噪声条件下的说话人识别是第一重要问题。
通常研究者会从两个方面来解决:
一是如何在噪声环境下提高识别率,另外就是训练时和识别时噪声环境不同的情况下如何保证识别效果。
目前多数说话人识别系统都是在实验室里完成的,其训练和识别的数据结果在实验环境中得到。
实际情况中像实验室那种相对安静理想的环境并不是很多,由此带来的问题就是容易造成训练环境和识别环境的不匹配。
现有的识别系统在噪声环境中其实别效果下降的很严重。
语音增强技术属于信号级抗噪处理方法,假设在加性噪声环境下,可以根据噪声的短时平稳特征,通过谱减法来处理带噪语音。
在进行语音信号提取之前,将语音中噪声部分有效的去除,使去噪后的语音背景和信噪比与训练语音相似,特征提取的时候就能得到较为理想的语音特征。
提取对噪声不敏感的语音特征参数属于特征级抗噪处理方法,如果所提取的特征对噪声免疫,这种语音特征就有了抗噪声的能力。
语音信号处理技术和物理学、心理学、医学都有密切联系,任何一门学科的发展都有可能推
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整版 基于 声纹 说话 特征 识别 毕业设计