语音信号的时域特征分析.docx
- 文档编号:22791082
- 上传时间:2023-04-28
- 格式:DOCX
- 页数:27
- 大小:223.67KB
语音信号的时域特征分析.docx
《语音信号的时域特征分析.docx》由会员分享,可在线阅读,更多相关《语音信号的时域特征分析.docx(27页珍藏版)》请在冰豆网上搜索。
语音信号的时域特征分析
中北大学
课程设计说明书
学生:
宝哲学号:
24
学生:
瓮泽勇学号:
42
学生:
侯战祎学号:
47
学院:
信息商务学院
专业:
电子信息工程
题目:
信息处理实践:
语音信号的时域特征分析
指导教师:
徐美芳职称:
讲师
2013年6月28日
中北大学
课程设计任务书
2012-2013学年第二学期
学院:
信息商务学院
专业:
电子信息工程
学生:
宝哲学号:
24
学生:
瓮泽勇学号:
42
学生:
侯战祎学号:
47
课程设计题目:
信息处理实践:
语音信号的时域特征分析
起迄日期:
2013年6月7日~2013年6月28日
课程设计地点:
学院楼201实验室、510实验室、608实验室
指导教师:
徐美芳
系主任:
王浩全
下达任务书日期:
2013年6月7日
课程设计任务书
1.设计目的:
通过设计,掌握USB总线或PCI总线的基本结构,了解基于USB总线或PCI总线A/D卡的通用结构。
较全面地掌握语音信号的时域特征的基本理论、原理和实现手段,较系统地分析语音信号的时域特征,使学生具有一定综合分析问题和解决问题的能力。
2.设计容和要求(包括原始数据、技术参数、条件、设计要求等):
原始数据:
仿真信号或实验采集语音信号。
技术要求:
(1)完成基于USB总线或PCI总线A/D卡通用结构报告;
(2)通过A/D卡,利用高级语言编写信号的采集、存储和显示程序。
(3)完成题目所要求技术:
直接对语音信号的时域波形进行分析,提取的特征参数主要有:
语音的短时能量,短时平均过零率,短时自相关函数等;通过仿真(实验)验证,编程实现各时域特征参数提取的处理和实现手段,并进行结果分析。
设计要求:
课程设计的目的在于培养学生的综合素质,要求学生做到:
(1)根据题目要求查阅有关资料,确定方案,写出设计方案;
(2)根据对选题的理解,消化查阅资料,给出相关的实现算法和理论根据;
(3)在Matlab或VC环境下,实现算法,并给出仿真结果;
(4)对结果进行分析总结
3.设计工作任务及工作量的要求〔包括课程设计计算说明书(论文)、图纸、实物样品等〕:
设计工作任务:
(1)了解选题背景,掌握基本技术,制定设计思路,写出设计方案。
(2)完成设计容:
包括算法和程序设计;实验验证及技术改进,写出设计说明书。
(3)设计答辩。
工作量的要求:
(1)通过查阅资料了解选题相关的基本理论、原理以及技术背景,理解选题意义;
(2)掌握USB总线或PCI总线的基本结构,了解基于USB总线或PCI总线A/D卡的通用结构;
(3)完成语音信号特征提取;
(4)通过实验仿真验证算法的可行性;
(5)给出技术总结。
课程设计任务书
4.主要参考文献:
[1]L.R.Rabiner,B.H.Juang.FundamentalsofSpeechRecognition.PrenticeHall,EnglewoodCliffs,1993.清华大学(影印),2002年.
[2]胡航.语音信号处理(修订版),工业大学,2002年.
[3]吴家安等.语音编码技术及应用,机械工业,2006年.
[4]继庆等.语音信号处理,清华大学,2004年.
[5]D.G.Childers.Matlab之语音处理与合成工具箱(影印版),清华大学,2004年.
[6]ThomasF.Quatieri著,胜辉等译,《离散时间语音信号处理—原理与应用》,电子工业,2004.
5.设计成果形式及要求:
仿真结果;
课程设计说明书。
6.工作计划及进度:
2013年
6月7日~6月15日:
理解选题,查资料,掌握USB总线或PCI总线的基本结构,基于USB总线或PCI总线A/D卡的通用结构;
6月16日~6月19日:
在教师指导下给出设计方案;
6月20日~6月28日:
在指导教师辅导下完成实验;撰写课程设计说明书;
6月28日:
答辩
系主任审查意见:
签字:
年月日
语音信号的采集与分析
摘要
语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。
其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。
本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用Matlab进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。
关键词:
语音信号,采集与分析,Matlab
0引言
通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。
语言是人类持有的功能.声音是人类常用的工具,是相互传递信息的最主要的手段。
因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。
并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。
现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。
让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。
随着计算机越
来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。
作为高科鼓应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。
它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理.工业生产部门的语声控制,、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。
可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。
我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标而努力。
语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系.并且一起发展。
语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。
对语音信号采集与分析的研究一直是数字信号处理技术发展的重要推动力量。
因为许多处理的新方法的提出,首先是在语音信号处理中获得成功,然后再推广到其他领域。
1.语音信号的介绍
1.1语音信号的特点
通过对大量语音信号的观察和分析发现,语音信号主要有下面两个特点:
①在频域,语音信号的频谱分量主要集中在300~3400Hz的围。
利用这个特点,可以用一个防混迭的带通滤波器将此围的语音信号频率分量取出,然后按8kHz的采样率对语音信号进行采样,就可以得到离散的语音信号。
②在时域,语音信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔,语音信号保持平稳。
在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。
下面是一段语音信号的时域波形图(图2-1)和频域图(图2-2),由这两个图可以看出语音信号的两个特点。
图2-1语音信号时域波形图图2-2语音信号频域波形图
Figure2-1Speechsignaltime-domainwaveformFigure2-2Frequency-domainspeechsignalwaveform
1.2语音信号的采集
在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波的目的有两个:
①抑制输入信导各领域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰。
②抑制50Hz的电源工频干扰。
这样,预滤波器必须是一个带通滤波器,设其上、下截止颜率分别是fH和fL,则对于绝人多数语音编译码器,fH=3400Hz、fL=60~100Hz、采样率为fs=8kHz;而对丁语音识别而言,当用于用户时,指标与语音编译码器相同。
当使用要求较高或很高的场合时fH=4500Hz或8000Hz、fL=60Hz、fs=10kHz或20kHz。
为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。
采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔△t在模拟信号x(t)上逐点采取其瞬时值。
采样时必须要注意满足奈奎斯特定理,即采样频率fs必须以高于受测信号的最高频率两倍以上的速度进行取样,才能正确地重建波它是通过采样脉冲和模拟信号相乘来实现的。
下图时一段语音信号在采样频率44.1KHz情况下的频谱图。
由图可知,这段语音信号的频率主要集中在1KHz左右,当采样频率为44.1KHz时,由于采样频率比较大,所以采样点数就越密,所得离散信号就越逼近于原信号,频谱也没有发生混叠。
对上述信号进行1/80采样频率抽取,即采样频率变为将近500Hz时,由于采样频率比较小,所以采样点数就稀疏,所得离散信号就越偏离于原信号,频谱也发生了混叠。
在采样的过程中应注意采样间隔的选择和信号混淆:
对模拟信号采样首先要确定采样间隔。
如何合理选择△t涉及到许多需要考虑的技术因素。
一般而言,采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。
但过高的采样频率并不可取,对固定长度(T)的信号,采集到过大的数据量(N=T/△t),给计算机增加不必要的计算工作量和存储空间;若数据量(N)限定,则采样时间过短,会导致一些数据信息被排斥在外。
采样频率过低,采样点间隔过远,则离散信号不足以反映原有信号波形特征,无法使信号复原,造成信号混淆。
根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。
量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。
量化电平按级数变化,实际的振动值是连续的物理量。
具体振值用舍入法归到靠近的量化电平上。
语音信号经过预滤波和采样后,由A/D变换器变换为二址制数字码。
这种防混叠滤波通常与模数转换器做在一个集成块,因此目前来说,语音信号的数字化的质量还是有保证的。
市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。
在实际工作中,我们可以利用windows自带的录音机录制语音文件,图2-3是基于PC机的语音信号采集过程,声卡可以完成语音波形的A/D转换,获得WAVE文件,为后续的处理储备原材料。
调节录音机保存界面的“更改”选项,可以存储各种格式的WAVE文件。
图2-3基于PC机的语音信号采集过程
Figure2-3VoicePC-basedsignalacquisitionprocess
采集到语音信号之后,需要对语音信号进行分析,如语音信号的时域分析、频谱分析、语谱图分析以及加噪滤波等处理。
2语音信号的分析
2.1语音信号分析技术
语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理[8]。
而且,语音合成的音质好坏,语音识别率的高低,也都取决于对语音信号分桥的准确性和精确性。
因此语音信号分析在语音信号处理应用中具有举足轻重的地位。
贯穿于语音分析全过程的是“短时分析技术”。
因为,语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非乎稳态过程,不能用处理乎稳信号的数字信号处理技术对其进行分析处理。
但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音倍号具有时变特性,但是在一个短时间围(一般认为在10~30ms的短时间),其特性基本保持不变即相对稳定,因面可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。
所以任何语音信号的分析和处理必须建立在“短时”的基础上.即进行“短时分析”,将语音信号分为一段一段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为10~30ms。
这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。
根据所分析出的参数的性质的不同,可将语音信号分析分为时域分析、频域分析、倒领域分析等;时域分析方法具有简单、计算量小、物理意义明确等优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说频域分析更为重要。
本文将简要介绍时域分析、频域分析以及语谱图分析。
2.2语音信号的时域分析
语音信号的时域分析就是分析和提取语音信号的时域参数。
进行语音分析时,最先接触到并且也是最直观的是它的时域波形。
语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。
时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。
这种分析方法的特点是:
①表示语音信号比较直观、物理意义明确。
②实现起来比较简单、运算且少。
③可以得到语音的一些重要的参数。
④只使用示波器等通用设备,使用较为简单等。
语音信号的时域参数有短时能量、短时过零率、短时白相关函数和短时平均幅度差函数等,这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中都要应用[6]。
在计算这些参数时使用的一般是方窗或汉明窗。
2.2.1短时能量及短时平均幅度分析
设语音波形时域信号为x(l)、加密分帧处理后得到的第n帧语音信号为Xn(m),则Xn(m)满足下式:
(3-1)
(3-2)
其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。
设第n帧语音信号Xn(m)的短时能量用En表示,则其计算公式如下:
(3-3)
En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。
为此可采用另一个度量语音信号幅度值变化的函数.即短时平均幅度函数Mn,它定义为:
(3-4)
Mn也是一帕语音信号能量大小的表征,它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域呻会带来一些好处。
短时能量和短时平均幅度函数的主要用途有:
①可以区分浊音段与清音段,因为浊音时En值比清音时大的多。
②可以用来区分声母与韵母的分界,无声与有卢的分界,连字(指字之间无间隙)的分界等。
③作为一种超音段信息,用于语音识别中。
2.2.2短时过零率分析
短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。
过零分析是语音时域分析中最简单的一种。
对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。
过零率就是样本改变符号的次数。
定义语音信号Xn(m)的短时过零率Zn为:
(3-5)
式中,sgn[]是符号函数,即:
(3-6)
在实际中求过零率参数时,需要十分注意的一个问题是如果输入信号中包含有50Hz的工频干扰或者A/D变换器的工作点有偏移(这等效于输入信号有直流偏移),往往会使计算的过零率参数很不准确。
为了解决前一个问题,A/D变换器前的防混叠带通滤波器的低端截频应高于50Hz,以有效地抑制电源干扰。
对于后一个问题除了可以采用低直流漂移器件外,也可以在软件上加以解决,这就是算出每一帧的直流分量并予以滤除。
对语音信号进行分析,发现发浊音时,尽管声道有若干个共振峰,但由于声门波引起谱的高频跌落,所以其话音能量约集中在3kHz以下。
而发清音时,多数能量出现在较高频率上。
高频就意味着高的平均过零率,低频意味着低的平均过零率,所以可以认为浊音时具有较低的过零率,而清音时具有较高的过零率。
当然,这种高低仅是相对而言,并没方精确的数值关系。
利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。
在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单词的开始和终止位置,这在语音处理中是一个基本问题。
此时,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零率识别较为有效。
但是研究表明,在以某些音为开始或结尾时.如当弱摩擦音(如[f]、[h]等音素)、弱燃破音(如[p]、[t]、[k]等音素)为语音的开头或结尾;以鼻音(如[n]、[m]等音素)为语音的结尾时.只用其中一个参量来判别语音的起点和终点是有困难的,必须同时使用这两个参数。
图3-1是用Mtalab仿真一段语音信号时域波形的短时能量和短时平均过零率。
图3-1语音信号的短时能量和短时平均过零率
Figure3-1Short-termspeechsignalenergyandzero-crossingrateoftheaverageshort-term
2.3语音信号的语谱图
语音的时域分析和频域分析是语音分析的两种重要方法。
显然这两种单独分析的方法均有局限性:
时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系:
语音信号是时变信号,所以其频谱也是随时间变化的。
但是由于语音信号随时间变化是很缓慢的,因而在一段短时间(如10~30ms之间,即所谓的一帧之)可以认为其频谱是固定不变的,这种频谱又称为短时谱。
短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。
因此,人们致力于研究语音的时频分析特性。
把和时序相关的傅里叶分析的显示图形称为语谱图(Sonogram,或者Spectrogram)。
语诺图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓谈来表示。
用语谱图分析语音又称为语谱分析。
语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱;记录这种频谱的仪器就是语谱仪。
语谱仪实际上是一个带通滤波器组的输出随时间发生连续变化,连续重复进行语音信号频率分析的仪器。
带通滤波器有两种带宽可供选择:
窄带为45Hz,宽带为300Hz。
窄带语谱图有良好的频率分辨率,有利于显示基音频率及其各次谐波,但它的时间分辨率较差,不利于观察共振峰(卢道谐振)的变化;而宽带语谱图正相反,具有良好的时间分辨率及较差的频率分辨率。
宽带语谱图能给出语音的共振峰频率及清辅音的能量汇集区,在话谱图里共振峰呈现为黑色的条纹。
可以利用语谱仪测量语谱图的方法来确定语音参数,例如共振峰频率及基音频率。
语语图的实际应用是用于确定出讲话人的本性。
语谱图上因其不同的黑白程度,形成了个同的纹路,称之为“声纹”,它因人而异,即不同讲话者语谱图的声纹是不同的。
因而可以利用声纹鉴别不问的讲话人。
这与不向的人有不同的指纹,根据指纹可以区别不同的人是一个道理。
虽然对采用语谱图的讲活人识别技术的可靠性过存在相当人的怀疑,但目前这一技术已在司法法庭小得到某些认可及采用[11]。
图3-3是用Mtalab绘制的一个宽带语谱图,其中横抽坐标为时间,纵轴坐标为频率,语句容为“农业大学理学院”,它的发音在图下方以音标表示。
同时给出了相应的语音的时域波形。
语谱图中的花纹有横扛(Bar)、乱纹和竖直条等。
横杠是与时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸出点,也就是共振峰。
从横扛对应的频率和宽度可以确定相应的共振峰频率和带宽。
在一个语音段的语谱图中,有没有横扛出现是判断它是否是浊音的重要标志。
竖直条(又叫冲直条)是语谱图中出现与时间轴垂直的一条窄黑条。
每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。
条纹越密表示越音频率越高。
图2-3谱图
Figure3-3,anguagespectra
3语音信号的综合仿真分析
①录制一段自己的语音信号,并对录制的信号进行采样;画出采样后语音信号的时域波形和频谱图;
图31原始语音信号
Figure31theoriginalspeechsignal
由图可知这段语音信号频率主要集中在1000hz左右。
②对语音信号进行调制,为了减少在传输时的耗损,人们一般是先对传输信号进行特殊处理,然后再传递。
把原始的待传信号托附到高频振荡的过程称为调制。
我们知道音频信号的频率在我们的听觉围,音频信号在无线传输的过程中会受到各种声音的干扰而产生能量消耗!
因此限制了传输的距离!
所以在现实的传送过程中要现对语音信号进行调制再发送出去!
下面是对一段语音信号的调制仿真图,载波频率为fc=20000。
图3-2调制后的语音信号
Figure3-2afterthespeechsignalmodulation
由图可知,经过调制后的语音信号频谱都搬移到fc=20000的频段。
③用经过调制的信号与原信号叠加。
图3-3调制后的语音信号+原始语音信号
Figure3-3voicemodulatedsignal+theoriginalspeechsignal
由图可知低频部分是原始信号,高频部分是经过调制后的信号。
④设计数字滤波器和画出频率响应
根据语音信号的特点给出有关滤波器的性能指标:
低通滤波器性能指标,fp=1000Hz,fc=1200Hz,As=100dB,Ap=1dB;
用双线性变换法设计的低通滤波器的程序如下:
fp=1000;fc=1200;As=100;Ap=1;fs=22050;
wc=2*fc/fs;wp=2*fp/fs;
[n,wn]=ellipord(wp,wc,Ap,As);
[b,a]=ellip(n,Ap,As,wn);
freqz(b,a,512,fs);
滤波器的频率响应
图4-4滤波器的频率响应
Figure3-4Frequencyresponseofthefilter
⑤进行低通滤波,比较滤波前后语音信号的波形及频谱。
总结
通过这次课程设计,使我对语音信号有了全面的认识,对数字信号处理的知识又有了深刻的理解,在之前数字信号与处理的学习以及完成课后的作业的过程中,已经使用过MATLAB,对其有了一些基础的了解和认识。
通过这次练习是我进一步了解了信号的产生、采样及频谱分析的方法。
以及其中产生信号和绘制信号的基本命令和一些基础编程语言。
让我感受到只有在了解课本知识的前提下,才能更好的应用这个工具;并且熟练的应用MATLAB也可以很好的加深我对课程的理解,方便我的思维。
这次设计使我了解了MATLAB的使用方法,学会分析滤波器的优劣和性能,提高了分析和动手实践能力。
同时我相信,进一步加强对MATLAB的学习与研究对我今后的学习将会起到很大的帮助。
附录一:
%语音信号时域频域分析
[y,Fs,bits]=wavread('2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 时域 特征 分析