音频相关知识.docx
- 文档编号:9771889
- 上传时间:2023-02-06
- 格式:DOCX
- 页数:50
- 大小:59.79KB
音频相关知识.docx
《音频相关知识.docx》由会员分享,可在线阅读,更多相关《音频相关知识.docx(50页珍藏版)》请在冰豆网上搜索。
音频相关知识
多媒体计算机技术(第二章)音频信息的获取
2.1.0声音的特性与类型
(1)声音的特性
*Characteristicofsound
物理特性心理/生理特性
frequency(Hz)音调,音高(12音阶)
amplitude/power(W,mW)响度,音量(Phon,方)
shapeofwaveform音色
(2)声音的类型
*按频率划分:
*Infra-sound(次声)0-20Hz
*Audio(可听声)20-20kHz
*Ultrasound(超声)20kHZ-1GHz
其中,多媒体技术只研究可听声。
声音的类型
*可听声中,按声音是否“符号化”分为:
*语音(speech)300-3400Hz
*音乐(music)20-20kHz
*其它声音(effectsound,noise)20-20kHz
声音信息中,语音(话音)和音乐是多媒体技术重点处理的对象
2.1.1模拟音频和数字音频
*声音是机械振动。
振动越强,声音越大,话筒把机械振动转换成电信号,模拟音频技术中以模拟电压的幅度表示声音强弱。
* 模拟声音在时间上是连续的,而数字音频是一个数据序列,在时间上是断续的。
数字音频是通过采样和量化,把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。
计算机内的基本数制是二进制,为此我们也要把声音数据写成计算机的数据格式,这称之为编码音频数字化,计算机内的音频必须是数字形式的,因此必须把模拟音频信号转换成有限个数字表示的离散序列,即实现音频数字化。
在这一处理技术中,涉及到音频的抽样、量化和编码。
2.1.2数字音频的采样和量化
*采样:
音频实际上是连续信号,或称连续时间函数x(t)。
用计算机处理这些信号时,必须先对连续信号采样,即按一定的时间间隔(T)取值,得到x(nT)(n为整数)。
T称采样周期,1/T称为采样频率。
称x(nT)为离散信号。
2.1.2数字音频的采样和量化
*采样定理:
设连续信号x(t)的频谱为x(f),以采样间隔T采样得到离散信号x(nT),如果满足:
当|f|≥fc时,fc是截止频率
T≤1/2fc或fc≤1/2T
则可以由离散信号x(nT)完全确定连续信号x(t)。
当采样频率等于1/(2T)时,即 fN=1/2T,称fN为耐魁斯特频率。
常用的音频采样率有:
8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz
*量化:
为了把抽样序列x(nT)存入计算机,必须将样值量化成一个有限个幅度值的集合x(nT)。
通常,用二进制数字表示量化后的样值是方便的。
用B位二进制码字可以表示2B个不同的 量化电平。
存储数字音频信号的比特率为:
I=B·fs(比特/秒)
fs是抽样率(抽样/秒)
B是每个样值的比特数(比特/采样)
*量化采样的过程如下:
先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距 内的样值归为一类,并赋予相同的量化值。
如果量化值是均匀分布的,我们称之为均匀量化 。
设△为量化阶距,量化器的最大范围是Xmax,则:
?
=2Xmax/2
对于小于(i+1/2)△,而大于(i-1/2)△的样值,均规定为相同的量化值i△。
2.1.3数字音频的文件格式
*
数字音频的文件格式
文件扩展名 说明.
*PCM PCM数据序列
·VOCCreative公司的波形音频文件格式。
·WAVMicrosoft公司的波形音频文件格式。
·SNDNeXT计算机的波形音频文件格式。
·AIFApple计算机的波形音频文件格式。
·MIDMIDI文件格式。
·RMIMicrosoft公司的MIDI文件格式。
它可以包括图片、标记和文本。
2.1.4音频信号的特点
*
(1).音频信号是时间依赖的连续媒体。
*
(2).即理想的合成声音应是立体声。
(3).对语音信号的处理,要抽取语意等其它信息,如可能会涉及到语言学、社会学、声学等。
从人与计算机交互的角度来看音频信号相应的处理如下:
(1).人与计算机通信(计算机接收音频信号)。
包括音频获取;语音识别与理解。
(2).计算机与人通信(计算机输出音频)。
音频合成;声音定位:
音频/视频同步。
(3).人—计算机—人通信
人通过网络,与处于异地的人进行语音通信,需要的音频处理包括:
语音采集、音频编码/解码、音频传输等。
这里音频编/解码技术是信道利用率的关键。
2.2.1音频卡的功能和分类
*音频卡的主要功能是:
音频的录制与播放、编辑与合成、MIDI接口、文语转换、CD-ROM接口及游戏接口等。
录制与播放编辑与合成MIDI接口和音乐合成文语转换与语音识别
2.2.2音频卡的工作原理
*开发生产音频卡的公司很多,其中最有影响的公司是新加坡创新科技有限公司(CreativeLabs.Inc.)开发的系列产品SoundBlaster系列音频卡,它是集语音与音乐于一体的多煤体音频卡,它不但具有优良稳定的硬件特性,而且还有丰富的软件。
2.3.1音频编码基础
*从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。
根据统计分析结果, 语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。
另外由于语音主 要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩
2.数字声音
(1)声音信号的数字化
方法:
1.取样(sampling)
2.量化(quantization,ADconversion)
3.编码(encoding)
Sampling
*原理:
用一定速率的离散取样序列可以代替一个连续的频带有限的信号而不丢失任何信息.
*Nyquistsamplingtheorem“Forlosslessdigitization,thesamplingrateshouldbeatleasttwicethemaximumfrequencyresponse.”
Quantization
*what?
使用有限位数的整数来近似地表示实型量的样本值,也称为A/Dconversion。
*量化精度:
用多少个二进位来表示每一个样本,也称为量化位数。
声音信号的量化位数一般是4,6,8,12或16bits。
*量化位数的多少决定了动态范围和噪声大小.
数字化声音举例
质量采样频率(kHz)样本精度(bit)声道数数据率频率范围(Hz)
电话8818KB/s200~3,400
AM11.0258111.0KB/s50~7,000
FM22.05016288.2KB/s20~15,000
CD44.1162176.4KB/s20~20,000
DAT48162192.0KB/s20~20,000
声音数字化表示的优点
*存储时重放性能好,复制时没有失真;
*传输时抗干扰能力强,
*可编辑性好,易处理,
*能进行数据压缩,
*容易与其它媒体结合(集成),
*可能自动提取元数据(bitsaboutbits)
(3)ReconstructionofSound
1.Decoding
2.Dequantization(D/Aconversion)
3.Interpolation
重建声音的质量评价(客观法)
*声音质量的客观度量主要用信噪比SNR(signaltonoiseratio)来度量。
SNR=10log10(s2/n2)
(其中,s为原始声音信号,n为原始声音信号与重建声音信号的误差信号)
*计算并不复杂,但与人对声音的感知不完全一致。
重建声音的质量评价(主观法)
分数质量级别失真程度
5优(Excellent)无察觉
4良(Good)(刚)察觉但不讨厌
3中(Fair)(察觉)有点讨厌
2差(Poor)讨厌但不反感
1劣(Bad)极讨厌(令人反感)
2.2数字语音的编码与应用
内容
1.引言
2.数字语音的波形编码(基于音频数据的统计特性进行的编码)
3.数字语音的参数编码(基于音频的声学参数)
?
数字语音的混合编码
?
基于人的听觉特性进行的编码
6.数字语音技术的应用
1.引言
压缩编码的必要性
?
Wav文件的大小计算公式:
S=R(采样频率Hz)×D(录音时间)×r(量化位数(位))×声道数/8
s:
字节;R:
HZ;D:
录音时间S;r:
量化位数bit
或者:
WAV文件的字节数/每秒=采样频率(Hz)×量化位数(位)×声道数/8
例如:
S=44100×10×16/8×2B=1764KB
?
Bitrate=samplingrate×quant.bits×channelnum.
例:
telephonespeech=8k×8b×1=64kbps
=8kB/s=28MB/h
?
对数字语音进行数据压缩的目的:
–提高通信效率(降低传输带宽)
–降低存储成本
压缩编码的可能性
?
声音信号中包含有大量的冗余信息,
?
可以利用人的听觉感知特性,
?
可以利用语音信号的生成机理,
Requirementsforcompression
–码率(bitrate)
–质量(quality:
excellent,good,fair)
–延时(timedelay)
–成本(cost)
语音压缩编码方法分类
?
Perceptionmodel-basedcompression(波形编码)
–benefits:
generic
–drawbacks:
highestcompressionratesaredifficulttoachieve
–Examples:
PCM,ADPCM,Subband
?
Productionmodel-basedcompression(参数编码,源编码)
–benefits:
highestpossiblecompression
–drawbacks:
signalsource(s)mustbeknow
–Examples:
vocoder
?
Hybridcompression(混合编码)
–Examples:
CELP
语音编(译)码器的3种类型
?
波形编译码器(waveformcodecs)
?
音源编译码器(sourcecodecs)
?
混合编译码器(hybridcodecs)
2.数字语音的波形编码
波形编译码器(waveformcodecs)
?
算法比较简单
?
数据速率在16kbps以上
?
声音质量相当高
?
很成熟,有一系列国际标准:
CCITTG.711PCM64kb/s
CCITTG.721ADPCM32Kb/s
CCITTG.726ADPCM48,32,24,16Kb/s
?
已广泛应用
(1)话音频率脉冲编码调制(CCITTG.711)
PulseCodeModulation(PCM)ofVoiceFrequences)
?
处理过程:
?
分析:
方法简单,质量好,易实时处理。
数据量较大(64kbps)。
对数变换Y(n)=ln(X(n))
?
目的:
适应听觉的非线性特性;压缩数据。
2种压扩算法
?
Μ律压扩(companding)算法(北美和日本等地区)
?
A律压扩算法(欧洲和中国大陆等)
压扩算法的实现
线性码(12位)PCM码(7位)
0000000WXYZa000WXYZ
0000001WXYZa001WXYZ
000001WXYZab010WXYZ
00001WXYZabc011WXYZ
0001WXYZabcd100WXYZ
001WXYZabcde101WXYZ
01WXYZabcdef110WXYZ
1WXYZabcdefg111WXYZ
PCM的应用
?
应用于数字声音的表示与存储:
CD-DA(CD唱片),DAT
(44.1KHzx16bitx2)
?
应用于数字声音的编辑处理(多媒体计算机)
?
应用于声音的传输(通信):
长途电话(8KHzx8bitx1),
时分多路复用TDM(time-divisionmultiplexing)
数字语音传输的多路复用技术
(1)频分多路复用FDM(frequency-divisionmultiplexing).
–把传输信道的频带分成好几个窄带,每个窄带传送一路信号。
(2)时分多路复用TDM(time-divisionmultiplexing)
–把传输信道按时间来分割,为每个用户指定一个时间间隔(timeslot),每个时间间隔专门用于传输相应用户的声音信号。
(3)码分多路复用(CDM)
(4)波分多路复用(WDM)
二次时分多路复用
多次复用的数据传输率
线路速率等级T1T2T3T4
话路数目24966724032
传输率(Mb/s)1.5446.31244.736274.176
线路速率等级E1E2E3E4
话路数目301204801920
传输率(Mb/s)2.0488.44834.368139.264
(2)AdaptiveDifferentialPCM(ADPCM)
(CCITTG.721)
?
原理:
–声音信号具有很强的相关性,可从巳知信号耒预测未知信号,即使用过去的样本值预测下一个输入样本的值,使实际样本值和预测值之间的误差总是最小。
–利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值,
?
效果:
量化位数可以显著减少,从而降低了总的码率。
自适应脉冲编码调制(APCM)
?
根据输入信号幅度大小来改变量化阶大小。
?
可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。
差分脉冲编码调制DPCM
?
利用样本与样本之间存在的信息冗余进行编码
?
根据过去的样本去估算下一个样本的幅度大小,然后对实际信号值与预测值之差进行量化编码。
ADPCM小结
?
PCM话音质量4.5级
?
ADPCM话音质量4.34级,码率降低一倍(32kbps)。
?
ADPCM应用:
–数字语音通信
–多媒体应用中的语音(解说词)
(3)Sub-bandcoding(子带编码)
?
基本原理:
–利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带,子带)
–低频部分能量较集中,量化精度要高,取样频率可稍低。
–高频部分是摩擦音、噪音,量化精度可低些,但取样频率要稍高。
–不同子频带作不同的ADPCM编码处理,然后再复合在一起。
2.数字语音的参数编码
参数编码(源编码)
?
思想:
编码时从话音波形信号中提取生成话音的参数,解码时使用这些参数通过语音生成模型,重构出话音。
?
语音生成模型(声源--滤波器模型)
–发声器官的组成:
?
声源
–喉:
振动源
–肺:
能源
?
声道
–从喉到口腔,到唇(谐振源)
–鼻腔(谐振源)
?
发射机构
–包括唇、齿、舌、面颊
Vocalschematic
语音生成的数学模型
编码:
从已知信号中提取参数
?
语音过程是一个近似的短时(10~30ms)平稳随机过程,参数变化比较慢,因此,可以以20ms(其中有20x8=160个样本)作为一帧,每一帧内的所有信号近似地满足同一模型,因此每一帧语音可以用一组参数表示:
–浊音还是清音(1位)
–浊音的基频(即音调周期)(6位)
–音源的幅度(5位)
–线性滤波器的参数(10个参数,每个参数6位,共60位)
?
总码率为:
(1000/20)x72bits=3600bps=3.6kbps
?
参数既可在时域,也可以在频域确定,由编码器完成.
线性预测编码LPC
(linearpredictivecoding)
?
对声音波形的编码实际就转化为如何提取语音生成模型的参数,经典的方法是线性预测编码LPC。
?
每一个样本都可用过去p个样本的线性组合来预测:
xpre(n)=-[a1x(n-1)+a2x(n-2)+…+apx(n-p)]
线性预测编码LPC
?
预测误差为:
e(n)=x(n)-xpre(n)=x(n)+a1x(n-1)+a2x(n-2)+…+apx(n-p)
?
问题:
在给定的时间范围[n0,nk],怎样选择系数ai使得预测误差e(n)的平方和为最小?
即E=e(n0)2+,….,+e(nk)2最小
?
对a1,a2,…,ap分别求偏导数得到一组差分方程:
dE/da1=0,dE/da2=0,…..,dE/dap=0,
?
求解差分方程组,可得到系数ai的值。
参数编码器的解码
?
接收端使用LPC分析得到的参数之后,通过语音合成器重建语音。
?
合成器实际上就是一个语音生成系统。
波形编码与参数编码的比较
波形编码参数编码
1码率高码率低
2音质好音质差
3算法简单算法复杂
4可处理任何声音信号仅处理语音信号
?
参数编码的数据率在2.4kbps左右,产生的语音虽然可以听懂,但其质量远远低于波形编码。
尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上.
4.数字语音的混合编码
混合编码
?
思路:
使用合成-分析法AbS(Analysis-by-Synthesis)来改进参数编码,其中声道滤波器模型仍与LPC编码器中的相同,但不使用两个状态(有声/无声)的模型来寻找滤波器的输入激励信号,而是企图寻找这样一种激励信号,使得用这种信号激励产生的波形尽可能接近于原始话音的波形。
合成-分析法AbS
?
通过调节激励信号u(n)可使语音输入信号s(n)与重构的语音信号误差最小。
这就是说,编码器通过“合成”许多不同的近似值来“分析”输入话音信号,这也是“合成-分析编码器”名称的来由。
等间隔脉冲激励RPE
(regular-pulseexcited)
?
使用固定间隔的脉冲,编码器只需要确定第一个激励脉冲的位置和所有其他脉冲的幅度,例如每5ms可使用10个脉冲,数据率在10kbps左右。
?
GSM(GlobalSystemforMobilecommunications)移动电话使用的是一个带长期预测的简化的RPE编译码器,它把20ms一帧(160×16比特)的PCM波形数据压缩成264比特的GSM帧,压缩后的数据率为13.2kbps.
CELP编(译)码器
?
CELP算法,1985提出。
它使用的激励信号是由一个矢量量化大码簿的表项给出,还有一个增益项用来扩展它的功率。
典型的码簿索引有10位(1024个表项),增益用5位表示。
?
在CELP基础上制定的话音编码标准:
–美国的DoD的4.8kbpscodec
–CCITT的“low-delay16kbpscodec
?
近年来对运行在4.8kbps以下的编译码器作了大量的研究工作,其目标是开发运行在2.4kbps或者更低数据率下的编译码器。
CELP编(译)码器
小结:
语音压缩编码的标准与应用
5.数字语音技术的应用
数字语音技术的应用
?
Nontelephonyapplication
–multimediatitle
–speechsynthesizer
–speechinput
–DAB
?
Telephonyapplication(CTI)
–voicemessaging
–callprocessing
–interactivevoiceresponse(IVR)
–IPphone(VoIP)
什么是CTI?
?
CTI(ComputerTelecommunicationIntegration)=计算机+电信
?
目的:
提高效率,降低成本,扩大业务,增加收益。
?
思路:
–把计算机的信息处理和控制能力与通信相结合
–把计算机的信息存储和数据管理功能与语音通信相结合
–把计算机网络的数据通信功能(如电子邮件、文件传输等)与语音通信相结合
CTI技术的主要应用
>交互式语音应答(InteractiveVoiceResponse,IVR);
>呼叫中心(CallCenter);
>统一消息处理系统;
>IP电话、IP传真等;
>其它增值业务。
交互式语音应答
?
InteractiveVoiceResponse,简称IVR,又叫做“自动声讯服务”
?
服务模式:
交互式语音应答
?
效果:
方便、高效、低成本。
?
用途举例:
电信局查询话费,打开语音信箱,业务咨询,用户缴费,故障报修等,航空公司的航班查询,银行帐目查询等。
?
关键技术:
–电话与电脑的接口
–语音合成
–输入效率
呼叫中心(CallCenter)
?
呼叫中心又叫做“客户关照中心”,特点是支持多种接入方式、提供多方位的信息服务。
CallCenter的系统组成
CallCenter的工作过程
?
客户拨打呼叫中心的电话
?
ACD播送问候语,判断话务员有无空闲,如果没有空闲,则把呼叫进行排队,或请客户挂断等候回叫。
重要的用户可以优先处理。
?
VRU与客户进行交互,了解服务要求,需要时通过ACD转接到空闲的话务员,同时进行号码识别,调出数据库中该客户的信息,转送到话务员的屏幕上。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 相关 知识
![提示](https://static.bdocx.com/images/bang_tan.gif)