声纹识别.docx
- 文档编号:24790342
- 上传时间:2023-06-01
- 格式:DOCX
- 页数:17
- 大小:314.23KB
声纹识别.docx
《声纹识别.docx》由会员分享,可在线阅读,更多相关《声纹识别.docx(17页珍藏版)》请在冰豆网上搜索。
声纹识别
声纹识别
摘要
声纹识别广泛应用于安防、公安、军队、银行、证券、个人身份认定等领域.
本文首先先利用MATLAB对说话人数据进行预处理,提取到MFCC参数,然后利用MFCC参数采用DTW算法建立声纹识别模型,
关键词:
MATLAB,预处理,MFCC系数,dtw算法
一、问题重述
1.1问题的重述
生物认证是通过人体特征进行人物身份认证的重要手段,包括人脸识别、虹
膜识别、指纹识别、体态识别和声纹识别等方法,它们被广泛地应用于国防、军
事和民用等诸多领域,推动着信息产业的蓬勃发展。
声纹识别又称说话人识别,是通过分析说话人的语音的特点,利用计算机自
动识别说话人的身份。
声纹识别又分为文本相关和文本无关说话人的识别两大类。
文本无关是指说话人的说话内容不受限制,文本相关是指说话人的说话内容必须
是指定的内容。
评价声纹识别方法或模型的最重要指标是识别准确率,准确率越高越宜于应
用于实际。
评价的另外一个重要指标就是识别所花的时间,即输入待识别的说话
人语音到识别结果的输出说话的时间,该时间越短约好。
请试着利用采集到的说话人语音数据(文本相关和文本无关两类),完成以
下几点:
1)建立代表说话人身份的语音特征模型,通过编程从语音数据中提取说话
人特征;
2)利用说话人特征建立说话人模型或声纹识别模型;
3)利用语音数据评价你的说话人模型或声纹识别模型评价的好坏;
4)分析影响准确率的因素,采取措施进一步提高声纹识别的准确率。
二、问题分析
1.2问题的分析
1.2.1针对第一问,我们原准备直接对音频文件进行特征提取,后经编程提取后发现有大量无用数据,且干扰结果的准确性。
于是,我们决定先对音频文件编程进行预处理,处理过程包括:
预加重、分帧、加窗、端点检测。
然后对预处理后所得数据进行MFCC特征提取,得到合并的mfcc参数和一阶差分mfcc参数(即MFCC和△MFCC)。
1.2.2针对第二问,我们利用第一问建立的模型特征:
mfcc参数和一阶差分mfcc参数(即MFCC和△MFCC)用DTW算法进行建模。
1.2.3针对第三问,声纹识别假设已训练了n个(n>2)声纹模型,现输入一位话者的语音序列(已经过mfcc参数提取),要求判断该话者是谁,即语音序列与哪一个声纹模型匹配。
统计识别结果的准确性。
识别准确性越高说明模型越好。
1.2.4针对第四问,
三、基本假设
假设1、
四、符号说明
MFCCMel频率倒谱系数
五、声纹识别理论
声纹识别原理
声纹生理图所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。
人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。
每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。
这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。
尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。
。
语音识别本质上是一种模式识别的过程,其基本结构原理框图如图所示,主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、模式匹配等几个功能模块。
一个语音识别系统主要包括训练和识别两个阶段。
无论是训练还是识别,都需要首先对输入的原始语音进行预处理,并进行特征提取。
六、模型建立
6.1针对第一问,首先是预处理分析,主要包括:
预加重、分帧和加窗、端点检测等。
6.1.1预加重
预加重是一阶网络,用来对声音信号的高频部分进行加重,以增强声音的高频分辨率,可由软件来实现,表示为:
数字信号S^(n)通过一个高通滤波器,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 声纹 识别