dsp语音信号处理正文.docx
- 文档编号:9844391
- 上传时间:2023-02-07
- 格式:DOCX
- 页数:22
- 大小:504.73KB
dsp语音信号处理正文.docx
《dsp语音信号处理正文.docx》由会员分享,可在线阅读,更多相关《dsp语音信号处理正文.docx(22页珍藏版)》请在冰豆网上搜索。
dsp语音信号处理正文
第一章绪论
声学是物理学的一个分支学科,而语音声学又是一个分支学科。
它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听、掩蔽、临界宽带、听力损失等),听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等),语音的清晰度和可懂度等。
当今通信和广播的发展非常迅速,而语音通信和语音广播仍然是最重要的部分、语音声学则是这些技术科学的基础。
语音声学的发展和电子学、计算机科学有着非常密切的关系。
在它发展的过程中,有过几次飞跃。
第一次飞跃是1907年电子管的发明和1920年无线电广播的出现。
因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量。
从而使电声学和语音声学的一些研究成果。
扩展到通信和广播部门。
第二次飞跃应该是在20世纪70年代初,由于电子计算机和数子信号处理的发展,人们发现:
声音信号,特别是语音信号,可以通过模数转换器(A/D)采样和量化,它们转换为数字信号后,能够送进计算机。
这样就可以用数字计算的方法,对语音信号进行处理和加工。
例如频谱分析可以用傅里叶变换或快速傅里叶变换实现,数字滤波器可以用处分方程实现。
在这个基础上,逐渐形成一门新学科——语音信号处理。
它的发展很快,在通信、自动控制等领域,解决了很多用传统方法难以解决的问题。
在信息科学中占有重要的地位。
1.1目的与意义
语音信号处理是一门比较实用的电子工程的专业课程,语音是人类获取信息的重要来源和利用信息的重要手段,通过语言相互传递信息是人类最重要的基本功能之一,语言是人类特有的功能,它是创造和记载几千年来人类文明史的根本手段,没有语言就没有今天的人类文明,语音是语言的声学表现,是相互传递信息的重要的手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。
语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域行业涉及面很广的交叉学科。
1.2设计要求
(1)学会MATLAB的使用,掌握MATLAB的程序设计方法;
(2)掌握在windows环境下语音信号采集的方法;
(3)掌握数字信号处理的基本概念,基本理论和基本方法;
(4)掌握MATLAB设计的方法;
(5)学会用MATLAB对信号进行分析和处理。
1.3研究内容及难点
语音在人类社会中起了非常重要的作用。
在现代信息社会中,小至人们的日常生活,他到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语音和文字。
近年来,普通电话、移动电话和互联网已经普及到家庭。
在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。
。
再进一步,可以预料到口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机,已经不是梦想而是提到日程上的研究工作了。
人们早就希望用语音指挥机器,机器的执行情况也能用语音回答。
这在某些另一已经部分的实现了。
目前计算机芯片的集成度和运算能力,每18个月就提高一倍,而成本又不断降低,因此,它已经广泛应用于社会生产和生活的各个方面。
然而计算机接收信号的外围设备和主机相比,要逊色得多。
能说能听的计算机还不能普遍使用。
也就说:
语音识别、语音理解和语音合成等课题,还有多理论问题和技术问题没有解决,需要继续深入研究。
本次课设任务所提出的语音信号处理实验箱系统,其基本原理是对语音的录音和放音进行数字化控制.其中,关键技术在于:
为了增加语音存储时间,提高存储器的利用率,采用了非失真压缩算法对语音信号进行压缩后再存储,而在回放是再进行解压缩;同时,对输入语音信号进行数字滤波以抑制杂音和干扰,从而确保了语音回放的可靠质量.
通过设计一个GUI实验箱,并添加相应的控制控件,添加一个声音文件,通过MATLAB编程,使其通过各种按钮实现语音信号处理的各种功能,最后做成一个完整的语音信号处理实验箱。
第二章语音信号处理理论基础
2.1部分函数语法格式
读wav文件:
x=wavread(‘filename’)
数组a及b中元素相乘:
a.*b
创建图形窗口命令:
figure
绘图函数:
plot(x)
坐标轴:
axis([xminxmaxyminymax])
坐标轴注解:
xlabel(‘…’)ylabel(‘…’)
图例注解:
legend(‘…’)
一阶高通滤波器:
y=filter([1-0.09375],1,x)
分帧函数:
f=enframe(x,len,inc)
x为输入语音信号,len指定了帧长,inc指定帧移,函数返回为n×len的一个矩阵,每一行都是一帧数据。
2.2系统基本原理
语音采集原理是,人耳能听到的声音是一种频率范围为20Hz20kHz,而一般语音频率最高为3.4kHz.语音的采集是指语音声波信号经麦克风和高频放大器转换成有一定幅度的模拟量电信号,然后再转换成数字量的全过程.
本次设计的基本原理是对语音的录音和放音进行数字化控制.其中,关键技术在于:
为了增加语音存储时间,提高存储器的利用率,采用了非失真压缩算法对语音信号进行压缩后再存储,而在回放是再进行解压缩;同时,对输入语音信号进行数字滤波以抑制杂音和干扰,从而确保了语音回放的可靠质量.
通过设计一个GUI实验箱,并添加相应的控制控件,添加一个声音文件,通过MATLAB编程,使其通过各种按钮实现语音信号处理的各种功能,最后做成一个完整的语音信号处理实验箱。
第三章系统方案论证
3.1设计理论依据
3.1.1采样定理:
在进行模拟/数字信号的转换过程中,当采样频率fs.max大于信号中,最高频率fmax的2倍时,则采样之后的数字信号完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的5-10倍;采样定理又称乃奎斯特定理。
3.1.2采样频率:
采样频率是指计算机每秒钟采集多少个声音样本,是描述声音文件的音质、音调、衡量声卡、声音文件的质量标准。
采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也就越精确,采样频率与声音频率之间有一定的关系,根据奈奎斯特理论,只有采样频率高于声音信号最高频率的2倍的时候,才能把数字信号表示的声音还原成为原来的声音,这就是说采样频率是衡量声卡采集、记录和还原声音文件的质量标准。
3.1.3采样位数与采样频率
采样位数即采样值或取样值,用来衡量声音波动变化的参数,是指声卡在采集和播放声音文件时候使用数字声音信号的二进制为数。
采样频率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。
采样位数和采样频率对于音频接口来说是最为重要的两个基本指标,也是选择音频接口的两个重要标准。
无论采样频率如何,理论上来说采样的位数决定了音频数据最大的力度范围。
每增加一个采样位数相当于力度范围增加了6dB。
采样位数越多则捕捉到的信号越精确。
对于采样率来说你可以想象它类似一个照相机。
显然采样率越高,计算机提取的图片越多,对于原始的还原也越加精确。
第四章GUI设计实现
4.1设计思路
通信系统的GUI设计,首先根据通信系统功能需求,将系统分为多个模块,再次,部署各个模块下的功能配置和GUI界面的组成;最后利用M文件编程实现各系统模块之间的调用和链接。
4.2图形用户界面概念
图形用户界面或图形用户接口是指采用图形方式显示的计算机操作环境用户接口。
与早期计算机使用的命令行界面相比,图形界面对于用户来说更为简便易用。
GUI是MATLAB提供的图形用户界面开发环境,提供了一系列用于创建图形用户界面的工具,从而简化界面布局和编程工作。
界面是用户与计算机或计算机程序的交互方式是二者进行信息交流的方式。
图形用户界面GUI包含图形对象如窗口、图标、菜单和文本的用户界面。
前面各功能模块的实现都是在Matlab命令行模式下完成,结构散乱,可读性差。
用户可根据系统中信号传输过程设计相关联的GUI,把所有输入输出都统一到界面上,有利于程序控制和管理。
4.3设计过程
4.3.1GUI设计窗口
在GUI设计模板中选中一个模板,然后单击OK按钮,就会现实GUI设计窗口,选择不同的GUI设计模式时,在GUI设计窗口中显示的结果是不一样的。
GUI设计窗口由菜单栏、工具栏、控件工具栏以及图形对象设计区等部分组成。
GUI设计窗口的菜单栏有File、Edit、View、Layout、Tools和Help六个菜单项,使用其中的命令可以完成图形用户界面的设计操作。
4.3.2GUI设计窗口的基本操作
(1)前面板的设计:
在GUI设计窗口创建图形对象后,通过双击该对象,就会显示该对象的属性编辑器。
如下图所示。
例如,创建一个PushButton对象,并设计该对象的属性值。
通过图4-1的按钮属性编辑器可以根据个人情况对按钮的名称、颜色、大小等方面的属性进行修改,使按钮在视觉上变的更加完美。
(2)按钮功能的实现:
在GUI设计窗口创建按钮后,通过右键单击按钮,选择viewcallbacks下的callback对相应的按钮进行编程,使按钮实现相应的功能,如图4-2所示对按钮的相应功能进行设置。
图4-1按钮属性编辑器
图4-2按钮功能编辑器
进入到按钮程序编辑窗口,通过编程即可实现按钮的相应功能,如下图4-3:
图4-3按钮的编程实现界面
通过对各个按钮控件的修改,和对m文件程序的添加就完成对GUI窗口的设计,最后得到的图形化操作界面如图4-4所示:
图4-4图形化操作界面
4.3.3语音的录入与打开
在MATLAB中,[y,fs,bits]=wavread(‘Blip’,[N1N2]);用于读取语音,采样值放在向y中,fs表示采样频率,bits表示采样位数。
[N1N2]表示读取从N1点到N2点的值。
Sound(x,fs,bits);用于对声音的回放,向量y则就代表了一个信号也就是说可以像处理一个信号表达式一样处理这个声音信号。
4.4实验内容
语音在人类社会中起了非常重要的作用。
在现代信息社会中,小至人们的日常生活,他到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语音和文字。
近年来,普通电话、移动电话和互联网已经普及到家庭。
在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。
。
再进一步,可以预料到口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机,已经不是梦想而是提到日程上的研究工作了。
人们早就希望用语音指挥机器,机器的执行情况也能用语音回答。
这在某些另一已经部分的实现了。
目前计算机芯片的集成度和运算能力,每18个月就提高一倍,而成本又不断降低,因此,它已经广泛应用于社会生产和生活的各个方面。
然而计算机接收信号的外围设备和主机相比,要逊色得多。
能说能听的计算机还不能普遍使用。
也就说:
语音识别、语音理解和语音合成等课题,还有多理论问题和技术问题没有解决,需要继续深入研究。
图4-5语音信号处理实验内容总汇
4.4.1语音信号的短时分析
一定时宽的语音信号,其能量的大小随时间有明显的变化。
其中清音段(以清音为主要成份的语音段),其能量比浊音段小得多。
短时过零数也可用于语音信号分析中,发浊音时,其语音能量约集中于3kHz以下,而发清音时,多数能量出现在较高频率上,可认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数,因而,对一短时语音段计算其短时平均能量及短时平均过零数,就可以较好地区分其中的清音段和浊音段,从而可判别句中清、浊音转变时刻,声母韵母的分界以及无声与有声的分界。
这在语音识别中有重要意义。
图4-6语音信号的短时分析
图像分析:
程序应具有加窗(分帧)、计算、以及绘制曲线等功能。
上机实验时先调试程序,通过后进行信号处理。
对录入的语音数据进行处理,并显示运行结果。
改变窗的宽度(帧长),重复上面的分析内容。
4.4.2分析语音信号的短时谱特性
周期性声门波可表示为:
u[n]=g[n]*p[n]
其中,g[n]是声门波的单周期的波形,p[n]是间隔为P的周期采样序列。
当u[n]通过线性非时变声道,且该声道的单位冲击响应为h[n]时,声道输出为:
x[n]=h[n]*(g[n]*p[n])
为了观察一段语音,需要将声道输出乘以一个以时刻τ为中心的窗函数w[n,τ],即得到
x[n,τ]=w[n,τ]{h[n]*(g[n]*p[n])}
这段语音信号的频域表达式为:
即语音信号的谱包络为
语谱图就是显示时变频谱幅度特征的图形表达式为:
语谱图分析语音又称语谱分析,与谱图中显示了大量的语音的语句特性有关的信息,它综合了频谱图和时域波形的优点,明显地显示出语音频谱随时间的变化情况。
预铺土实际上是一种三维频谱,即同时在实践和频率上显示出语音的特性,或者说是一种动态的频谱。
窄带语谱图可以得到较好的频域分辨率(即以较窄的频域间隔观察频域上的正弦波成分),窗长通常为至少两个基音周期的“长窗”;而宽带语谱图可以给出较好的时域分辨率(即以较窄的时域间隔观察时域波动),窗长为小于一个基音周期的“短窗”。
图4-7分析语音信号的短时谱特性
图像分析:
具有加窗(分帧)、计算、以及绘制曲线等功能。
录入语音数据并进行处理。
使用函数specgram_ex3p19.显示语谱图和语音波形。
对比调用参数窗长20ms(200点)、帧间隔1ms(10点)和参数窗长5ms(50点)、帧间隔1ms(10点);再对比窗长>20ms或小于5ms,以及帧间隔>1ms时的语谱图说明宽带语谱图、窄带语谱图与时频分辨率的关系及如何得到时频折中。
4.4.3语音信号倒谱与复倒谱的分析
同态信号处理的基本原理:
设输入信号
,将卷积性信号转化为加性信号。
包括三部分:
首先,
然后,
最后,
特征系统的逆变换。
首先对系统输出的加性信号
进行Z变换,
得:
然后进行指数运算,得到的是乘积性信号
最后进行逆Z变换,得到卷积性的语音恢复信号
图4-8语音信号倒谱与复倒谱的分析
图像分析:
有加窗(分帧)、计算、以及绘制曲线等功能。
上机实验时先调试程序,通过后进行信号处理。
对录入的语音数据进行处理,并显示运行结果。
4.4.4运用自相关方法估计语音信号的声道参数
由均方预测误差最小的得到正则方程
(4-1)
其中,
(4-2)
在最佳解时的误差为
(4-3)
在自相关法中式4-1,式4-3变为
(4-4)
(4-5)
由式4-4可列出方程组式4-6
(4-6)
解方程组式4-6求出线性预测系数,通过误差式4-5可求出增益G
(4-7)
图4-9运用自相关方法估计语音信号的声道参数(a)
图4-10运用自相关方法估计语音信号的声道参数(b)
XX文库-让每个人平等地提升自我图像分析:
实验数据为浊音语音信号speech1_10k(10000样点/秒)。
用25ms的汉明窗对语音信号speech1_10k进行加窗处理,并画出所得到的加窗信号的自相关函数。
用4个极点描述声道特性,利用在1处得到的部分结果建立自相关矩阵Rn。
通过矩阵求逆解出线性预测系数。
4.4.5基音周期检测实验
数据为浊音语音信号speech1_10k(10000样点/秒)用25ms的汉明窗对语音信号speech1_10k进行加窗处理,并画出所得到的加窗信号的自相关函数,再用根据中心消波法及三电平中心消波法原理改进程序,最后对比中方法基音检测的效果并分析结果。
实验原理及方法
(1)自相关检测原理:
对于离散的数字语音信号序列x(n),如果周期N,则自相关函数也是同周期的周期函数。
即:
x(n)=x(n+N).清音信号没有周期性,它的自相关函数也没有周期。
浊音信号具有准周期性。
自相关基因检测正是利用这一性质对语音信号进行基因检测的。
(2)中心消波法检测原理:
中心消波处理是使用如下图所示的中心消波函数进行处理的:
图4-11中心消波检测图
(3)三电平消波法原理:
为了减少自相关计算中的乘法运算,可以把上述中心消波以后的信号y(n)的自相关用两个信号的互相关代替,其中一个信号是y(n)另一个信号是对y(n)进行三电平量化产生的结果。
且这个信号有三种可能的取值,因而这里的互相关计算只需要做加减法,而这个互相关序列的周期性与y(n)的自相关序列是近似相同的。
图4-12基音周期检测实验
图像分析:
实验数据为浊音语音信号speech1_10k(10000样点/秒)。
用25ms的汉明窗对语音信号speech1_10k进行加窗处理,并画出所得到的加窗信号的自相关函数。
用根据中心消波法及三电平中心消波法原理改进程序。
4.4.6语音信号增强实验
噪声来源于实际的应用环境,因而其特性变化很大。
噪声可以是加性的,也可以是非加性的。
对于非加性噪声,有些可以通过变换转变为加性噪声。
例如,乘积性噪声或卷积性噪声可以通道同态变换而成为加性噪声。
(1)通过直接变换频谱可以消除噪声的周期性成分,这可以用数字信号处理的方法来实现。
信号要经过离散傅里叶变换(DFT),变换到频域,在领域进行处理,然后用反变换IDFT来重建语音信号。
频谱整形器可以是简单的一系列选通门。
它可将噪声成分变换到零值,则反变换后的信号周期性干扰将被滤除。
(2)同态滤波法的关键部分具有非线性处理性质,它应用于语音识别中,着眼于将语音信息(基音、频谱)中的乘性噪声或干扰分离,或者将已减少了噪声、干扰的信息重新合成得到降噪时域信号再进行识别。
图4-13语音信号增强实验
图像分析:
实验数据为浊音语音信号ah01.wav或者ah02.wav(10000样点/秒)。
用25ms的汉明窗对语音信号ah01.wav或者ah02.wav进行加窗处理。
设计产生噪声信号,并对噪声信号做出估计。
对原始语音信号和噪声信号处理,产生带噪语音信号。
使用滤波器法消除噪声信号,达到语音增强之目的。
4.4.7语音信号端点检测实验
在独立词(字)语音识别系统中需正确判定每一个输入语音的起点和终点,利用短时平均幅度和短时过零率可以做到这一点。
在背景噪声比较小的时候用平均能量来识别比较有效,在背景噪声比较大的时候用平均过零率来识别比较有效,但是通常情况是两个参数联合进行识别。
判别规则:
1、浊音的短时平均幅度最大,无声的短时平均幅度最小。
2、清音的短时过零率最大,无声居中,浊音的短时过零率最小。
图4-14语音信号端点检测
图像分析:
实验数据为nihao.wav(10000样点/秒)。
用25ms的直角窗对语音信号nihao.wav进行加窗处理。
计算过零率及信号强度。
综合考虑短时能量及过零率及短暂停顿标示语音起始点。
第五章心得体会
通过本次课程设计完成了对语音信号的读取与打开,从拿到课题到定稿,从理论到实践,在短短的几天时间里,和同学一起在图书馆翻阅资料,争论问题,不仅巩固了以前所学过的知识,而且学到了很多在书本上所没有学到过的知识。
与课题的要求十分相符;初略的完成了界面的设计,但也存在相当的不足,达到了打开语音文件,显示已定波形。
语音信号处理时语音学与数字信号处理技术相结合的交叉学科,将语音当做一种特殊的信号,即一种“复杂向量”来看待。
也就是说,体现了数字信号处理技术。
本次课程设计时希望将数字信号处理技术应用于某一实际领域,这里就是指对语音的处理。
作为存储于计算机中的语音信号,其本身就是离散化了的向量,我们只需要将这些离散的量提取出来,就可以对其进行处理了。
本次课设,用到了处理数字信号的强有力工具MATLAB,通过MATLAB里几个命令函数的调用,很轻易的在实际化语音与数字信号的理论之间搭了一座桥。
最后,还利用了MATLAB的另一强大功能—GUI界面设计。
设计出了一个简易的用户应用界面,可以让人实现界面操作。
通过本次课程设计让我更加了解了语音信号处理在现实中的强大的应用空间,同时查阅了很多相关的资料,应用MATLAB软件来完成,熟练掌握了MATLAB软件,本次课程设计要求用GUI设计模块,查阅了很多资料,更加深刻的了解了这方面知识。
本次课程设计,我明白了理论的学习需要在实践中才能得到巩固。
在课程设计中,只有动手慢慢研究,才能真正了解MATLAB的运用以及各个基本函数的调用方法,掌握GUI实验箱的设计方法及在MATLAB软件平台中可以直接设计数字滤波器的各个函数的调用,对设计GUI实验箱的所有函数的运用有了比较好的认识。
通过这个课程设计,我学到了很多MATLAB和语音信号的知识,提高了自己在语音信号设计方面的知识能力,动手能力和思维能力都得到了一定的提升,希望自己以后可以更多的继续学习这一门课程设计方面的知识。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- dsp 语音 信号 处理 正文