语音与图像信号处理大纲自学考试Word文档格式.docx
- 文档编号:22847821
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:40
- 大小:51.23KB
语音与图像信号处理大纲自学考试Word文档格式.docx
《语音与图像信号处理大纲自学考试Word文档格式.docx》由会员分享,可在线阅读,更多相关《语音与图像信号处理大纲自学考试Word文档格式.docx(40页珍藏版)》请在冰豆网上搜索。
一、考核知识点
(一)语音信号处理的基本概念
(二)语音信号处理的发展概况
二、考核要点
1.识记:
(1)语音信号对人类的重要性。
(2)数字语音的优点。
(3)语音学的基本概念。
(4)语音信号处理的应用领域。
1.识记:
(1)语音信号处理的发展历史。
(2)语音编码、语音合成、语音识别的基本概念。
语音编码技术是伴随着语音的数字化而产生的,目前主要应用在数字语音通信领域。
语音合成的目的是使计算机能象人一样说话说话,而语音识别使能够听懂人说的话。
第二章基础知识
(一)语音产生的过程
(二)语音信号的特性
(三)语音信号产生的数字模型
(四)人耳的听觉特性
二、考核要求
1.识记:
声音是一种波,能被人耳听到,振动频率在20Hz~20kHz之间。
自然界中包含各种各样的声音,而语音是声音的一种,它是由人的发音器官发出的,具有一定语法和意义的声音。
2.领会:
(1)语音产生的过程与人类发声的基本原理。
(2)清音、浊音、共振峰的基本概念。
语音由声带震动或不经声带震动产生,其中由声带震动产生的音统称为浊音,而不由声带震动而产生的音统称为清音。
声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率,称为共振峰,它是声道的重要声学特征。
(1)语音的物理性质,包括音质、音调、音强、音长等特性。
语音是人的发音器官发出的一种声波,具有声音的物理属性。
其中音质是一种声音区别于其它声音的基本特征。
音调就是声音的高低,取决于声波的频率:
频率高则音调高,频率低则音调低。
响度就是声音的强弱,又称音量。
它是由声波震动幅度决定的。
声音变的长短也称音长,它取决于发音持续时间的长短。
(2)音素、音节、单词、句子的基本概念以及它们之间的关系。
音素是语音的最小、最基本的组成单位,音素都有其独立的各不相同的发音方法和发音部位,它是使听者能区别一个单词和另一个单词的声音的基础。
音节是最小的语言片段,一个音节由一个或几个音素组成。
单词是由音节结合而成的更大单位,是有意义的语言的最小单位。
句子是单词的进一步组合。
(3)汉语的特点,汉语音节的组成。
语音的时间波形和频谱特性,声门激励和声道响应的频谱特性,特别是清音和浊音的频谱特性、共振峰特性,二者之间的区别。
(1)语音信号被看成是线性时不变系统(声道)在随机噪声或准调周期脉冲序列激励下的输出。
在满足这样的假设条件下,产生了语音信号的基本数字模型,是语音处理技术的基础。
(2)语音信号产生的数字模型框图。
(1)语音信号数字模型各部分的组成依据和频谱特点,包括激励模型,声道模型(声管模型和共振模型)和辐射模型。
(2)声道模型中的声管模型和共振峰模型的特点,共振峰模型的三种形式。
(四)语音感知与人耳的听觉特性
(1)声音的三要素:
响度、音调和音色的基本概念。
人的听觉系统具有复杂的特性,没有哪一种物理仪器具有人耳那样的特性。
听觉机构不但是一个非常灵敏的声音接收器,还具有选择性,此外还有判别声音的强弱、音调和音色的本领。
响度是人耳对声音的强弱程度的主管反映,响度取决于声音的幅度,主要是声压的函数,但和频率和波形也有关,人耳对300-4000Hz的声音感觉最灵敏。
音调也称音高,是一种主观心理量,是人耳对声音频率高低的感受。
音色也叫音质,反映了声音属性。
人根据音色在主观感觉上区别具有相同响度和音调的两个声音。
(2)听觉“掩蔽效应”的基本概念与应用。
第三章时域分析
(一)语音信号的数字化和预处理
(二)短时能量分析
(三)短时过零分析
(四)短时相关分析
(1)取样和量化的基本概念。
为了将原始的模拟语音信号变成数字信号,必须经过取样和量化两个步骤,从而得到在时间和幅度上均离散的数字语音信号。
取样是将时间上连续的语音信号离散化为一个样本序列。
根据取样定理,当取样频率大于两倍信号带宽时,取样过程不会丢失信息,且从取样信号中可以精确地重构原始信号的波形。
量化是指将取样后得到的样本序列的幅度再离散化,量化过程是将整个幅度值分割为有限个区间,将落入同一区间的样本赋予相同的幅度值。
(2)量化噪声的特性
(3)抗混迭滤波器的作用。
它是一个具有良好截止特性的模拟低通滤波器,主要是为了防止混迭失真和噪声干扰。
(4)短时分析技术的基本概念。
语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。
于是,我们把变化的语音信号分成一些相继的短时间段来处理。
而每一段时间段具有固定的特性,这种方法称为“短时”处理方法。
语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。
能量分析包括能量和幅度两个方面。
(1)直角窗与海明窗的频率特性。
,海明窗的带宽大约是同等宽度矩形窗带宽的两倍。
此外,汉明窗在通带外的衰减要比矩形窗小得多,而且通带与阻带的起伏比较小。
(2)窗口长度的选取原则。
选择太大,则短时能量
随时间变化就很小,不能充分反映语音信号的幅度变化;
而
选择得小,即选择
等于或小于一个基音周期时,
将按照信号波形的细微变化而起伏不定,以致短时能量
不够匀化和平滑。
因此,折衷考虑
的值,在通常情况下,当取样频率为10KHz时,
=100~200被认为是合适的。
(3)短时平均能量的主要用途。
根据短时能量函数可以大致区分浊音和清音,在高信噪比情况下,利用短时能量函数
也可区分有声和无声。
过零分析与平均过零率的基本概念。
对于离散时间信号的相邻两个取样值具有不同符号时,便出现“过零”现象。
单位时间过零的次数叫做“过零率”。
对于窄带信号,过零率可以比较准确地反映该信号的频率。
在宽带信号情况下,过零率只能粗略反映信号的频谱特性。
短时过零分析的用途。
如何区分清音与浊音
(1)短时自相关函数的物理意义,性质。
对于浊音语音来说,短时自相关函数具有明显的峰值且呈周期分布,而对于清音来说,则没有很强的自相关周期峰,其性质类似于噪声。
(2)短时平均幅度差函数的概念与用途。
(1)短时自相关函数的方框图表示。
(2)利用短时自相关函数区分清/浊音的方法。
第四章短时傅里叶分析
(一)傅里叶分析在信号分析与处理中的地位与作用
(二)短时傅里叶变换的定义与物理意义
(三)短时傅里叶变换的取样率
(四)语音信号的短时综合
傅里叶分析的重要性,短时傅里叶分析的基本概念。
在语音信号处理中,傅立叶表示在传统上一直起主要作用。
其原因一方面在于稳态语音的产生模型由线性系统组成,此系统被一随时间作周期变化或随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性。
另一方面,语音信号的频谱具有非常明显的语言声学意义,可以获得某些重要的语音特征。
同时,语音的感知过程与人类听觉系统具有频谱分析功能是密切相关的。
(1)短时傅里叶分析的重要性。
短时傅里叶分析是分析缓慢时变频谱的一种简便方法,是用稳态分析方法处理非稳态信号的一种方法,在语音处理中是一个非常重要的工具。
(2))短时傅里叶变换的定义。
(1)标准傅里叶变换的解释。
(2)窗口序列具有的特性。
(3)海明窗与直角窗对浊音语音的频谱分析对比。
(4)短时傅里叶变换的滤波器的解释,滤波器框图的组成。
(1)时域取样率的基本概念。
(2)频域取样率的基本概念。
(3)总取样率的基本概念。
(4)宽带和窄带语谱图的概念和特点
理解分析加窗与不加窗时总取样率的区别。
(四)、语音信号的短时综合
1.领会:
滤器组求和法的基本原理与实现框图,与快速傅里叶变换求和法的关系。
第五章同态滤波及倒谱分析
(一)卷积与解卷积的基本概念
(二)同态信号处理的基本原理
(三)复倒谱和倒谱的基本概念
(四)语音信号两个卷积分量复倒谱的性质
(五)避免相位卷绕的几种算法
(1)根据语音信号的产生模型,可以将其用一个线性非时变系统的输出表示,即看作是声门激励信号和声道冲激响应的卷积。
(2)为了分离加性组合信号,常采用线性滤波方法。
而为了分离非加性信号(如乘积性或卷积性组合)信号,常采用同态滤波技术。
同态信号处理的基本概念与作用。
同态信号处理的作用就是将非线性问题转化为线性问题来求解。
根据实现原理分为乘积同态处理和卷积同态处理。
(1)特征系统与逆特征系统的组成。
(2)同态信号处理的基本实现方法,实现框图。
(三)复倒谱和倒谱
复倒谱与倒谱的基本概念,定义。
(1)一个周期冲激的有限长度序列,其复倒谱也是一个周期冲激序列,而且长度Np不变,只是序列变为无限长度序列。
同时其振幅随着K值的增大而衰减。
(2)声道冲激响应序列复倒谱的性质。
(3)声门激励的特点。
声道冲激响度序列的全零点模型描述,各个零点对系统响应的影响。
1.领会:
(1)相位卷绕的基本概念。
(2)利用微分法消除相位卷绕的实现框图。
(3)利用最小相位法求信号复倒谱的实现框图。
第六章语音信号的线性预测分析
(一)线性预测分析的基本概念
(二)线性预测分析的基本原理
(三)利用自相关法求解线性预测方程组
(四)利用协方差法求解线性预测方程组
(五)利用格型法求解线性预测方程组
(六)LPC谱估计和LPC复倒谱
(七)线谱对分析原理与参数求解
(八)语音信号的极零点模型
线性预测分析所包含的基本概念是,一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。
通过使实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组预测系数。
(1)采用全极点模型分析语音信号的理论依据。
全极点模型最易于计算,对全极点模型作参数估计是对线性方程组的求解过程;
有时无法知道输入序列;
人的听觉对于那种只能用零点来表示的频谱陡峭谷点是迟钝的;
如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是一个全极点模型。
(2)线性预测(LPC)谱的特点
线性预测分析的物理意义与优越性。
(三)线性预测方程组的建立
最小均方误差准则。
(四)利用自相关法和协方差法求解线性预测方程组
(1)自相关矩阵的特点。
(2)协方差矩阵的特点
自相关法和协方差法二者的特点比较。
3.应用:
协方差法的线性预测方程组矩阵表示,图解表示。
(1)格型法的基本原理。
(2)反射系数的概念。
(3)格型滤波器的优点。
(1)线性预测分析的阶数P的选取原则,首先要保证有足够的极点来模拟声道响应的谐振结构,但P值达到12~14后,若进一步增加则误差改善很小。
(2)在线性预测分析中,分析帧长度N同样重要,N尽可能小有好处,在LPC线性方程组求解中,计算量都与N成正比。
但谱估计的精度随着N的增加而提高。
通常取N为2~3个基音周期长度。
(3)复倒谱分析的优点。
第七章矢量量化
(一)矢量量化概述。
(二)矢量量化的基本原理
(三)失真测度
(四)最佳矢量量化器和码本的设计
(一)矢量量化概述
(1)矢量量化的理论依据与优越性。
根据仙农信息论可以得出,矢量量化总是优于标量量化,且矢量维数越大性能越优越。
因为矢量量化有效利用了矢量中各分量间的各种相互关联的性质。
采用矢量量化技术对信号波形数据进行压缩,可以获得非常高的压缩比。
(2)矢量量化的基本概念。
矢量量化是将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化,即作为一个整体进行量化。
(1)矢量量化的过程。
将语音信号波形的K个样点的每一帧,或有K个参数的每一帧参数,构成K维空间中的一个矢量,然后对这个矢量进行量化。
(三)矢量测度
(1)失真测度必须具备的几个特性。
必须在主观评价上有意义;
必须是易于处理的;
平均失真存在且可计算;
易于硬件实现。
(2)欧式距离-均方误差的基本概念。
(四)最佳矢量量化器和码本设计
(1)矢量量化器最佳设计的两个条件。
最佳划分和最佳码书。
(2)初始码书的生成方法。
随机选取法、分裂法和乘积码法
(五)降低复杂度的矢量量化系统
1.识记:
(1)矢量量化系统的组成。
(2)矢量量化的3个关键问题
(3)降低复杂度的设计方法分类
(4)无记忆量化系统和有记忆量化系统的基本概念
第八章隐马尔可夫模型(不做要求)
第九章语音检测分析
一、考核知识点
(一)基音检测
(二)共振峰估值
二、考核要点
(1)基音检测的重要性与难点。
基音的提取和估计是语音信号处理中十分重要的一个问题,准确地检测语音信号的基音周期对于高质量的语音分析与合成、语音压缩编码、语音识别和说话人确认等具有重要意义。
在低速率语音编码中,准确的基音检测是非常关键的,它直接影响到整个系统的性能。
(2)基音检测的3个研究方面
(3)基音检测的三种方法:
波形估计法、相关处理法和变换法。
(3)清/浊音判断的辅助参量。
2.领会:
(1)中心削波法的基本原理,三电平削波函数的特性。
(2)利用倒谱法提取基音的基本原理与实现方法。
(3)利用简化逆滤波器法进行基音检测的基本原理与实现方法。
(1)共振峰估计中存在的问题。
(2)带通滤波器组法提取共振峰特性的基本原理。
(3)倒谱法难以解决的问题
(4)用LPC法进行共振峰估计的两种方案
(1)倒谱法对清音和浊音的检测效果对比
(2)清音和浊音的DFT谱特性比较
(3)LPC法的优缺点
第一十章语音编码
(一)—波形编码
(一)语音编码的目的与应用前景
(二)语音信号的压缩编码原理
(三)脉冲编码的调制(PCM)及其自适应
(四)预测编码及自适应预测编码原理
(五)自适应差分脉冲编码调制及自适应增量调制
(六)子带编码
(七)自适应变换编码
(1)语音编码的目的是在保持可以接受的失真的情况下采用尽可能少的比特数表示语音。
(2)语音信号数字传输的优点。
(3)语音压缩编码需要折衷考虑的3个方面
(4)语音编码的两类应用
(5)语音编码的分类
(1)语音压缩的必要性。
语音编码的目的是在保持可以接受的失真情况下,采用尽可能少的比特数表示语音。
如果对语音直接数字化,则传输或存储语音的数据量太大。
为了降低传输或存储的费用,必须对其压缩。
(2)语音压缩的两个基本依据。
(3)冗余度的基本概念
(4)语音通信质量的分类。
(5)波形编码与声码器的性能比较。
(三)脉冲编码调制及其自适应
(1)PCM的基本概念。
(2)均匀PCM中,信噪比与量化比特数的关系。
(3)非均匀PCM的基本思想。
(4)u律与A律的压扩特性。
自适应PCM的基本原理与实现框图。
(四)预测编码及其自适应APC
(1)预测编码的基本概念。
(2)短时预测与长时预测的基本概念。
(3)噪声整形的基本概念
(五)自适应差分脉冲编码调制(ADPCM)及自适应增量调制(ADM)
(1)DPCM和ADPCM的基本概念,ADPCM的国际标准。
(2)增量调制的基本概念。
(3)自适应增量调制的基本概念。
(1)掌握DM编码中斜率达载和颗粒噪声产生的原因及克服的办法。
(2)连续可变斜率增量调制的实现原理。
(1)频域编码的两个基本原则。
(2)子带编码的基本概念与实现方法。
(3)子带编码的优点
(3)正交镜象滤波器(QMF)的基本概念。
(1)子带编码中,子带的分割与重建语音质量的关系。
(2)正交镜象滤波器的幅频特性。
3.应用:
通过正交镜象滤波器恢复原始信号的原理与方法。
(1)自适应变换编码的基本概念。
变换编码是一种优秀的高质量的语音压缩编码方法,它将时域的语音信号变换到频域,变换后的数值表示信号中不同频率分量的强度,然后将这些变换系数按照比特分配的结果进行量化编码。
(1)正交变换采用DCT变换的原因
(2)自适应变换编码的基本原理与实现框图。
第十一章语音编码
(二)——声码器技术及混合编码
(一)语音参数编码的基本概念
(二)声码器的基本结构
(三)相位声码器和通道声码器
(四)同态声码器
(五)线性预测声码器
(六)混合声码器
(七)各种语音编码方法的比较
(八)语音编码的性能指标和质量评价
(1)语音参数编码通过对语音信号的参数进行提取及编码,力图使重建语音信号具有尽可能高的可懂度,即保持原语音的语意。
这类编码的优点是编码率低,可低至2.4kbit/s以下。
(2)参数编码的基础是语音产生的数学模型。
实现参数编码的器件称为声码器,主要用于窄带信道的语音通信。
(3)为了充分发挥声码器的性能而必须的三个重要因素,
(1)声码器的基本结构及实现过程。
(2)声码器的局限性。
(1)相位声码器的基本工作原理。
(2)通道声码器的基本工作原理。
(3)常用的三种声码器
(1)基于倒谱的分析与合成的基本原理。
(2)同态声码器的优缺点。
(1)线性预测声码器的基本实现框图。
(2)线性预测编码参数的变换和量化,包括反射系数,对数面积比和预测多项式的根。
(六)混合编码
(1)混合编码是波形编码和声码器两种优点的结合:
既利用了语音生成模型,通过对模型中的参数进行编码,减少了波形编码中被编码对象的动态范围或数目;
又使编码的过程产生接近原始语音波形的合成语音,以保留说话人的各种自然特征,提高了合成语音质量。
(2)多脉冲线性预测声码器的基本概念。
(3)CELP的基本概念。
波形编码和声码器的优缺点比较。
(1)语音编码的基本性能指标,包括编码速率和顽健性。
(2)编码器的质量评价方法,包括主观评价法和客观评价法。
(3)常用的几种语音主观评价标准。
第十二章语音合成
(一)语音合成概述
(二)语音合成原理
(三)共振峰合成
(四)线性预测合成
(1)语音合成技术的两个关键性能:
一是正确,一是自然。
(2)用语音合成来传递语言的优点。
(3)语音合成的基本概念
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 图像 信号 处理 大纲 自学考试