新语音信号处理实验指导秋讲解.docx
- 文档编号:27697862
- 上传时间:2023-07-04
- 格式:DOCX
- 页数:13
- 大小:124.90KB
新语音信号处理实验指导秋讲解.docx
《新语音信号处理实验指导秋讲解.docx》由会员分享,可在线阅读,更多相关《新语音信号处理实验指导秋讲解.docx(13页珍藏版)》请在冰豆网上搜索。
新语音信号处理实验指导秋讲解
《语音信号处理》
实验指导书
哈尔滨理工大学
自动化学院
电子信息科学与技术系
2014.10
语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。
通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。
同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。
语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。
虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。
20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。
随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:
进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。
近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。
为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验指导书。
实验一基于MATLAB的语音信号时域特征分析
一、实验目的:
语音信号是一种非平稳的时变信号,它携带着各种信息。
在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。
语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。
语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。
本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果,并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期及共振峰。
二、实验原理:
1.窗口的选择
通过对发声机理的认识,语音信号可以认为是短时平稳的。
在5~50ms的范围内,语音频谱特性和一些物理特性参数基本保持不变。
我们将每个短时的语音称为一个分析帧。
一般帧长取10~30ms。
我们采用一个长度有限的窗函数来截取语音信号形成分析帧。
通常会采用矩形窗和汉明窗。
矩形窗的定义:
一个N点的矩形窗函数定义为如下:
公式1:
hamming窗的定义:
一个N点的hamming窗函数定义为如下:
公式2:
2.短时能量
由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。
因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。
定义短时能量为:
公式3:
特殊地,当采用矩形窗时,可简化为:
公式4:
3.短时平均过零率
过零率可以反映信号的频谱特性。
当离散时间信号相邻两个样点的正负号相异时,我们称之为“过零”,即此时信号的时间波形穿过了零电平的横轴。
统计单位时间内样点值改变符号的次数具可以得到平均过零率。
定义短时平均过零率:
公式5:
在矩形窗的条件下,可以简化为:
公式6:
短时过零率可以粗略估计语音的频谱特性。
由语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但由于声门波引起了频谱的高频衰落,因此浊音能量集中于3KZ以下。
而清音由于声带不振动,声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高频率上。
高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。
4.短时自相关函数
自相关函数用于衡量信号自身时间波形的相似性。
清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。
浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。
因此,我们用短时自相关函数来测定语音的相似特性。
短时自相关函数定义为:
公式7:
令:
,并且
,可以得到:
三、实验内容:
(1)用Matlab绘出图1.1——这两种窗函数在帧长N=50时的时域波形。
(2)用Matlab绘出图1.2——这两种窗函数的频率响应幅度特性。
这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性。
(3)用MATLAB绘出图1.3和图1.4——给出了不同矩形窗和hamming窗长的短时能量函数,分析在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。
以及总结短时能量函数的应用。
(4)用MATLAB绘出图1.5——某一语音在矩形窗条件下求得的短时能量和短时平均过零率。
分析清音和浊音的短时能量,过零率。
总结短时平均过零率的应用。
(5)用MATLAB绘出图1.6——给出了清音的短时自相关函数波形,用MATLAB绘出图——1.7给出了不同矩形窗长条件下(窗长分别为N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。
由图1.6、图1.7短时自相关函数波形分析判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。
四、实验要求:
(1)撰写预习报告。
(2)用Matlab完成算法设计和程序设计并上机调试通过。
(3)撰写实验报告,简述实验目的及原理,给出理论计算结果和程序计算结果并分析。
实验二基于MATLAB分析语音信号频域特征
一、实验目的
信号的傅立叶表示在信号的分析与处理中起着重要的作用。
因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。
另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。
由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。
输出频谱是声道系统频率响应与激励源频谱的乘积。
声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。
由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。
本实验要求掌握傅里叶分析原理,会利用已学的知识,编写程序估计短时谱、倒谱,画出语谱图,并分析实验结果,在此基础上,借助频域分析方法所求得的参数分析语音信号的基音周期或共振峰。
二、实验原理
1.短时傅立叶变换
由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为:
其中w(n-m)是实窗口函数序列,n表示某一语音信号帧。
令n-m=m',则得到:
假定:
则可得到:
同样,不同的窗口函数,将得到不同的傅立叶变换式的结果。
由上式可见,短时傅立叶变换有两个变量:
n和ω,所以它既是时序n的离散函数,又是角频率ω的连续函数。
与离散傅立叶变换逼近傅立叶变换一样,如令
,则得离散的短时傅立叶吧如下:
2.语谱图
语谱图(Spectrogram)是一种时间依赖于傅里叶分析的显示图像。
它是一种三维频谱,可同时在时间和频率上显示语音频谱随时间的变化,其纵轴为频率,横轴为时间;任意给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓度来表示,通过语谱图可以确定共振峰频率及基音频率,确定讲话人的本性。
窄带语谱:
带通滤波器45Hz,有良好的频率分辨率,有利于显示基音频率及各次谐波,但时间分辨率较差,不利于观察共振峰的变化。
宽带语谱:
带通滤波器300Hz,有良好的频率分辨率及较差的频率分辨率给出语音的共振峰频率及清浊音的能量汇聚区,在语谱图中共振峰呈现为条纹。
水平方向是时间轴,垂直方向是频率轴,图上的灰度条纹代表各个时刻的语音短时谱。
语谱图反映了语音信号的动态频率特性,在语音分析中具有重要的实用价值。
被成为可视语言。
语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。
时间分辨率高,可以看出时间波形的每个周期及共振峰随时间的变化,但频率分辨率低,不足以分辨由于激励所形成的细微结构,称为宽带语谱图;而窄带语谱图正好与之相反。
宽带语谱图可以获得较高的时间分辨率,反映频谱的快速时变过程;窄带语谱图可以获得较高的频率分辨率,反映频谱的精细结构。
两者相结合,可以提供带两与语音特性相关的信息。
语谱图上因其不同的灰度,形成不同的纹路,称之为“声纹”。
声纹因人而异,因此可以在司法、安全等场合得到应用。
3.复倒谱和倒谱
复倒谱
x(n)是x(n)的Z变换取对数后的逆Z变换,其表达式如下:
倒谱c(n)定义为x(n)取Z变换后的幅度对数的逆Z变换,即
在时域上,语音产生模型实际上是一个激励信号与声道冲激响应的卷积。
对于浊音,激励信号可以由周期脉冲序列表示;对于清音,激励信号可以由随机噪声序列表示。
声道系统相当于参数缓慢变化的零极点线性滤波器。
由于倒谱对应于复倒谱的偶部,因此倒谱与复倒谱具有同样的特点,很容易知道语音信号的倒谱,浊音信号的倒谱中存在着峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。
利用这个特点我们可以进行清浊音的判断,并且可以估计浊音的基音周期。
三、实验内容:
(1)利用matlab读取一段语音,并绘制该语音的短时谱。
(2)绘制该语音的语谱图
(3)绘制该语音的加矩形窗和汉明窗的倒谱图和复倒谱图,图中横轴的单位是Hz,纵轴的单位是dB。
四、实验要求:
(1)撰写预习报告。
(2)用Matlab完成算法设计和程序设计并上机调试通过。
(3)撰写实验报告,简述实验目的及原理,给出理论计算结果和程序计算结果并分析。
实验三基于MATLAB的LPC分析
一、实验目的
线性预测分析是最有效的语音分析技术之一,在语音编码、语音合成、语音识别和说话人识别等语音处理领域中得到了广泛的应用。
语音线性预测的基本思想是:
一个语音信号的抽样值可以用过去若干个取样值的线性组合来逼近。
通过使实际语音抽样值与线性预测抽样值的均方误差达到最小,可以确定唯一的一组线性预测系数。
采用线性预测分析不仅能够得到语音信号的预测波形,而且能够提供一个非常好的声道模型。
如果将语音模型看作激励源通过一个线性时不变系统产生的输出,那么可以利用LPC分析对声道参数进行估值,以少量低信息率的时变参数精确地描述语音波形及其频谱的性质。
此外,LPC分析还能够对共振峰、功率谱等语音参数进行精确估计,LPC分析得到的参数可以作为语音识别的重要参数之一。
由于语音是一种短时平稳信号,因此只能利用一段语音来估计模型参数。
此时有两种方案:
一种是将长的语音序列加窗,然后对加窗语音进行LPC分析,只要限定窗的长度就可以保证分析的短时性,这种方案称为自相关法;另一种方案不对语音加窗,而是在计算均方预测误差时限制其取和区间,这样可以导出LPC分析的自协方差法。
本实验要求掌握LPC原理,会利用已学的知识,编写程序估计线性预测系数以及LPC的推演参数,并能利用所求的相关参数估计语音的端点、清浊音判断、基因周期、共振峰等。
二、实验原理
1.LPC分析基本原理
LPC分析为线性时不变因果稳定系统V(z)建立一个全极点模型,并利用均方误差准则,对已知的语音信号s(n)进行模型参数估计。
如果利用P个取样值来进行预测,则称为P阶线性预测。
假P个取样值的加权之和来预测信号当前取样值S(n),则预测信号Sn为:
线性预测系数:
线性预测误差e(n):
信号s(n)与其线性预测值之差。
e(n)表示式为:
线性预测的基本问题就是由语音信号直接求出一组线性预测系数
,使得在一短段语音波形中均方预测误差最小。
将
对各个系数求偏导,并令其结果为零,即
显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。
通过LPC分析,由若干帧语音可以得到若干组LPC参数,每组参数形成一个描绘该帧语音特征的矢量,即LPC特征矢量。
由LPC特征矢量可以进一步得到很多种派生特征矢量,例如线性预测倒谱系数、线谱对特征、部分相关系数、对数面积比等等。
不同的特征矢量具有不同的特点,它们在语音编码和识别领域有着不同的应用价值。
2.自相关法
在最佳线性预测中,若用下式定义的时间平均最小均方准则代替(3)式的集合平均最小均方准则,即令
值得注意的是,自相关法在计算预测误差时,数据段的两端都需要加P个零取样值,因而可造成谱估计失真。
特别是在短数据段的情况下,这一现实更为严重。
另外,当预测系数量化时,有可能造成实际系统的不稳定。
自相关解法主要有杜宾算法、格型算法和舒尔算法等几种高效递推算法。
三、实验内容:
(1)利用matlab读取一段语音文件,采样频率为11000Hz,取第30帧进行观察,线性预测阶数为12
(2)绘制图3.1所示的原始语音帧的波形,预测语音帧波形和它们之间预测误差的波形。
(3)绘制图3.2为原始语音帧和预测语音帧的短时谱和LPC谱的波形。
(4)改变线性误差的阶数来观察语音帧的短时谱和LP谱的变化情况,绘制图3.3并分析。
(5)绘制图3.4——原始语音和预测误差的倒谱波形,从中计算出原始语音的基音周期。
(6)绘制图3.5——原始语音的语谱图和预测语音的语谱图,通过比较发现,判断预测语音的预测效果。
四、实验要求:
(1)撰写预习报告。
(2)用Matlab完成算法设计和程序设计并上机调试通过。
(3)撰写实验报告,简述实验目的及原理,给出理论计算结果和程序计算结果并分
实验四语音信号处理综合实验
一、实验目的
通过利用matlab设计仿真实验,理解如下知识点:
(1)信号的采样及混迭
(2)信号的频谱分析
(3)信号的幅度调制解调的方法
(4)理想滤波器的时频域特性
(5)数字滤波器的设计
二、实验内容
1.录制一段个人自己的语音信号。
2.采用合适的频率,对录制的信号进行采样,画出采样后语音信号的时域波形和频谱图。
3.给原始语音信号加噪声,画出加噪声后的语音信号和频谱图。
4.设计一个频域的理想带通信道。
5.对这语音信号进行幅度调制,画出调制后的语音信号和频谱图。
6.利用理想带通信道对信号进行传输。
7.对接受到的信号进行解调,画出解调后的语音信号和频谱图。
8.设计性能良好的滤波器对信号进行滤波。
9.对语音进行回放,并与滤波后的语音信号进行对比。
三、实验过程
1.首先利用windows操作系统自带的录音机录取一段声音,保存为‘cjh.wav’;再利用wavread函数将这个语音文件读进matlab中,然后对这段语音进行采样,采样频率为fs=22050Hz,语音持续时间为2.5s,用sound函数听这段语音信号;
2.用plot函数画出这段语音信号的时域波形,用fftshift函数对信号进行快速傅里叶变换,并调整y轴的幅度,画出原始信号的频谱图;
3.为了给原始信号加噪声,用randn函数产生一段随机噪声,然后加到原始信号中,然后用sound函数听加了噪音以后的信号,和原始信号相对比,可听到有一些“沙沙”的噪声;用plot函数画出加了噪音以后的时域波形,然后再将其进行快速傅里叶变换,然后画出其频域波形。
4.直接用matlab的逻辑语句,设计一个理想的带通信号,其截至频率为fl=4000Hz,fh=8000Hz;
5.设定载波频率,用matlab的modulate函数对其进行幅度调制,画出调制以后的信号的时域波形,然后再将其通过傅里叶变换,然后画出其频谱图;
6.用matlab中的demod函数将已经调制以后的信号进行解调,在用和上述一致的方法画出解调以后的时域和频域波形;
7.由于人的声音频率一般比较低,而且由画出来的原始信号的频域波形可知,信号的能量都集中在低频的范围,我们可以考虑设计一个低通滤波器对其进行滤波,然后将滤波以后的信号就行回放,与原始信号进行对比。
四、实验结果分析
1.实验过程中,会听到三段声音,第一次是原始的语音信号,第二次是加了噪声以后的语音信号,第三次是通过低通滤波器滤波以后的语音信号,三段声音效果分析。
2.对比原始信号,加了噪音以后信号,幅度调制以后信号的时域波形和频域波形,并分析原因。
3.解调以后和进行低通滤波以后的时域和频域波形与前面的原始信号的时域波形和其频谱图进行对比,分析原因。
五、实验要求:
(1)撰写预习报告。
(2)用Matlab完成算法设计和程序设计并上机调试通过。
(3)撰写实验报告,简述实验目的及原理,给出理论计算结果和程序计算结果并分析。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 实验 指导 讲解