第3章音频解读.docx
- 文档编号:28886153
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:28
- 大小:580.37KB
第3章音频解读.docx
《第3章音频解读.docx》由会员分享,可在线阅读,更多相关《第3章音频解读.docx(28页珍藏版)》请在冰豆网上搜索。
第3章音频解读
第3章音频
音频(audio)指人能听到的声音,包括语音、音乐和其它声音(声响、环境声、音效声、自然声)。
本章将简单介绍声音的物理属性、数字音频的编码技术与存储格式、声卡和语音处理,主要讨论听觉系统的感知特性、音频信号的数字化、MIDI,重点研究话音音频的编码方法。
3.1声音
声音是一种纵向压力波,主要用振幅和频率来刻画,具有响度、音调和音色等特征。
人的听觉和发声都有一定的频率范围。
本节介绍声音的物理属性和感知特性,以及各种声音的频率范围。
3.1.1声波
声音是一种纵向压力波,其客观物理属性主要有振幅和频率,而其主观感知特性则有响度、音高和音色等,对于音乐还有风格、节奏、旋律等特征。
1.声音与声波
声音(sound)是一种由机械振动引起可在物理介质(气体、液体或固体)中传播的纵向压力波(纵波或疏密波),参见图3-1。
称振动发声的物体为声源。
声波(soundwave)指在物理介质中传播的声音。
声音在真空中不能传播,我们主要讨论声音在空气中的传播。
图3-1声音是一种连续的波(波形图)
1)声速
声音在空气中传播的速度几乎不受气压大小的影响,但是受气温的影响很大。
在气温为t℃时的声速:
c=331.5*(1+t/273)1/2≈331.5+0.6t(m/s)
例如在室温(15℃)下,声速c≈340m/s。
2)振幅和频率
声音的强弱体现在声波压力的大小(振动的幅度)上,音调的高低体现在声波的频率上。
因此,声波可用振幅和频率这两个基本物理量来描述:
●振幅:
声波的振幅(amplitude)A定义为振动过程中振动的物质偏离平衡位置的最大绝对值;
●频率:
声波的频率(frequency)f定义为单位时间内振动的次数,单位为赫兹Hz(每秒振动的次数),人耳能听到的声音的频率范围为20Hz~20kHz。
声音频率的高低,与声源物体的共振频率有关。
一般情况下,发声的物体(如乐器)越粗大松软,则所发声音的频率就越低;反之,物体越细小紧硬,则所发声音的频率就越高。
例如大编钟发出的声音比小编钟的频率低、大提琴的声音比小提琴的低;同是一把提琴,粗弦发出的声音比细弦的低;同是一根弦,放松时的声音比绷紧时的低。
振幅表示了声音的大小,也体现了声波能量的大小。
同一发声物体(如乐器),敲打、弹拨、拉擦它所使得劲越大,则所产生振动的能量就越大、发出声音的音量就越大、对应声波的振幅也就越大。
3)波长与频率
可以用波长代替频率来刻画声音的物理特性。
声音的波长(wavelength)λ定义为声音每振动一次所走过的距离,单位为米(m)。
声波的波长与频率的关系为:
λ=c/f(m)
其中c为声速。
表3-1是一些频率的声波所对应的波长。
表3-1声音的频率与波长(c=340m/s)
f
20Hz50Hz100Hz250Hz500Hz1kHz2kHz5kHz10kHz15kHz20kHz
λ
17m6.8m3.4m1.36m68cm34cm17cm6.8cm3.4cm2.3cm1.7cm
4)纯音与复音
具有单一频率的声音被称为纯音(puretone),具有多种频率成分的声音被称为复音(complextone)。
普通的声音(如人讲话和乐器演奏)一般都是复音。
5)基频与谐频
和谐的复音由基音(fundamentaltone)和谐音(harmonictone)所组成。
基音的频率是和谐复音中的最低频(通常具有最大振幅),称为基频(fundamentalfrequency);谐音(也叫泛音[overtone])的频率是基频的整数倍,称为谐频(harmonicfrequency)。
参见图3-2。
基音决定声音的高低(音调),谐音则决定声音的音品(音色)。
图3-2和谐复音的基频与谐频
f0为基频(红色),fi=i*f为谐频(蓝色)
2.声音三要素
除了上面所介绍的振幅和频率这两个物理属性外,声音还有若干感知特性,它们是人对声音的主观反应。
声音的感知特性主要有音调、响度和音色,称之为声音的三要素:
●音调——人耳对声音高低的感觉称为音调(tone)。
音调主要与声音的频率有关,但不是简单的线性关系,而是成对数关系。
除了频率外,影响音调的因素还有声音的声压级和声音的持续时间。
音调的单位为美(mel);
●响度——声音的响度(loudness)就是对声音强弱的主观感知。
声音的大小在客观上一般用声级(soundlevel)表示,其单位为dB分贝,无量纲,人能感知的声音大小的范围一般为0~120dB。
主观感觉的声音强弱则使用响度“宋(sone)”或响度级“方(phon)”来度量;
●音色——音色(timbre)是人们区别具有相同的响度和音调的两个不同声音的主观感觉,也称为音品。
例如,每个人讲话都有自己的音色;每种乐器都有各自的音色,即使它们演奏相同的曲调,人们还是能将其区分开来。
音色主要是由复音中不同的谐音组成所决定的,影响音色的因素还有声音的时间过程。
关于声音感知特性的详细讨论见3.1.4小节。
3.1.2频率范围
下面依次介绍人类听觉、人声、话音、声乐和器乐等的频率范围。
1.听觉
人耳能感受到(听觉hearing/auditorysensation)的频率范围约为20Hz~20kHz,称此频率范围内的声音为可听声(audiblesound)或音频(audio),频率<20Hz声音为次声(infrasound),频率>20kHz声音为超声(ultrasound)。
参见表3-2。
表3-2声音的频率范围
<20Hz
20Hz~20kHz
>20kHz
次声
可听声(音频)
超声
音频的带宽约20kHz,其范围内的频率相差达一千倍。
人耳相当于一种对数频谱分析仪,可以很好地感知不同频率的声音。
2.人声与话音
人的发音器官发出的声音(人声)的频率大约是80Hz~3400Hz。
人说话的声音(话音voice/语音speech)的频率通常为300Hz~3000Hz(带宽约3kHz)。
可见,与近2万赫兹的宽带(broadband)听觉相比,只有不到3千赫兹的语音是一种窄带(narrowband)的声音。
宽带和窄带的声音,在编码上有很大的不同。
3.器乐
传统乐器的发声范围为16Hz(C2)~7kHz(a5),如钢琴的为27.5Hz(A2)~4186Hz(c5)。
乐理的音高采用12平均律,将8度(倍频)音,按2的指数分为12份[21200],每份相当于一个半音(100音分)。
参见表3-3。
表3-312平均律
音名
C
D
E
F
G
A
B
C
简谱
1
2
3
4
5
6
7
i
唱名
do
re
mi
fa
sol
la
si
do
音程
全音
全音
半音
全音
全音
全音
半音
音分
200
200
100
200
200
200
100
可把音高分为若干组,低音用大写字母,高音用小写字母,更低/高的音在大/小写字母后用数字下/上标表示其级别,如标准音:
a1=440Hz,中央C:
c1=261.6255653Hz。
8度音的频率差一倍,如a2=2×a1=2×440Hz=880Hz,C1=2*C2=2×16.35Hz=32.70Hz。
参见表3-4。
表3-4音高的分组与频率
分组
大字2组
大字1组
大字组
小字组
小字1组
小字2组
小字3组
小字4组
小字5组
音名
C2~B2
C1~B1
C~B
c~b
c1~b1
c2~b2
c3~b3
c4~b4
c5~a5
频率Hz
16.35~30.6
32.70~61.73
65.4~123.5
130.8~246.9
261.6~493.9
523.3~987.8
1046.5~1975.5
2093~3951.1
4186~7040
例如,键盘乐器(如钢琴、风琴、电子琴等)的键盘由多组按键组成,每组有7白和5黑共12个按键组成(参见图3-3),对应于一个八度音的12平均律。
其中7个白键分别依次对应于音名:
C、D、E、F、G、A、B,5个黑键分别依次对应于音名:
#C(bD)、#D(bE)、#F(bG)、#G(bA)、#A(bB),其中字母左上角的符号#和b分别表示升/降半音。
图3-3琴键与12平均律
4.声乐
声乐指人唱歌,可以按照男、女、童和高、中、低等来进行分类(参见表3-5)。
声乐的频率范围为87Hz(男低音)~1318Hz(花腔女高音)。
一般歌手的音域都有两个8度左右的宽度,但是有少数通俗唱法歌手的音域只有8度宽。
表3-5声乐中不同声部的音高与频率范围
人
声部
音域
频率范围(Hz)
音宽(度)
女声
花腔女高音
c1~e3
261.6~1318.5
17
女高音
c1~c3
261.6~1046.5
15
女中音
a~a2
220~880
15
女低音
f~f2
174.6~698
15
男声
男高音
c~c2
130.8~523.2
15
男中音
A~a1
110~440
15
男低音
F~f3
87.3~349.2
15
童声
童高音
c1~g2
261.6~783.9
12
童低音
a~e2
220~659.2
12
3.1.3音量
音量([sound]volume)即声音的强弱,可以用声压(级)、声强(级)和声功率(级)来度量。
1.声压与声压级
声音是一种在空气中传播的纵向压力波(疏密波),声音的强弱体现在声波压力的大小上。
没有声波的空气中的压强为大气压,一个标准大气压等于1.03*105Pa。
在有声波传输时,空气的疏密发生变化,压强在原来大气压的上下波动,称这种由声波引起的压强变化为声压(soundpressure/acousticpressure),用符号P表示,即:
声压P=空气压强-大气压
压强的单位为Pa(帕)(Pascal[帕斯卡]的简称)或μbar(微巴),有时也用N/m2(牛顿/平方米):
1Pa=1N/m2,1μbar=0.1Pa
瞬时声压可正可负,声压的平均值一般为零。
通常所说的声压是指声压的有效值,即一段时间内的瞬时声压的均方根值
,总是正的。
对于正弦波,有效声压
。
人耳对1kHz频率声音之听阈的声压约为2*10-5Pa,痛阈的声压约为20Pa,正常说话时的声压约为0.02~0.03Pa,是标准大气压的千万分之二、三。
由于人耳对声压的感知范围大(相差约一百万倍),而且人的听觉与声压不是线性关系,而是近似于对数关系。
所以常按对数式分级(level)办法来表示声音的大小,这就是声压级(soundpressurelevel)Lp、声强级和声功率级等。
声压级LP定义为有效声压P与参考声压Pref的比值取常用对数后再乘以20:
其中,参考声压Pref取为1kHz的听阈声压(2*10-5Pa),声压级的值无量纲,单位为dB(decibel分贝)。
于是,1kHz频率声音的听阈之声压级=20*lg1=0dB,痛阈之声压级=20*lg106=120dB。
声压变化10倍,声压级才变化20dB。
2.声功率与声功率级
声波是能量传输的一种形式,因此也常用能量的大小来表示声音的强弱。
声源在单位时间内向外输出的声能量叫做声功率(acousticpower/soundpower),用符号W表示,单位为W(瓦)。
与声压一样,声功率的变化范围也很大(如1kHz的听阈声功率为10-12W、痛阈的声功率为1W、喷气飞机的声功率为100W),听觉也与其成对数关系。
所以,也可以定义声功率级(soundpowerlevel)
其中,参考声功率Wref取为1kHz的听阈声功率10-12Pa,声功率级的值也无量纲,单位也为dB。
注意,由于声功率与声压的平方成正比,所以声功率级是声压级的两倍,为了便于同级比较,这里将声压级公式中的20改为了现在声功率级公式中的10。
声功率变化10倍,声功率级变化10dB。
3.声强与声强级
声音的强弱也可以用声强来度量。
声场中某点的声强(acousticintensity/soundintensity),是指在单位时间内,声波通过垂直于声波传播方向单位面积的声能量(声功率W),用符号I表示,单位为W/m2(瓦/平方米):
其中,S为声能量通过的面积。
在无反射声波的自由声场中,点声源发出的球面波的声强为
。
可见球面波的声强I与点声源的声功率W成正比,与距离(半径)r的平方成反比,称之为平方反比定律。
由于在实际工作中,指定方向的声强难以测量,一般是先测出声压P,然后按公式
计算声强和声功率。
其中,ρ为媒质密度、c为声速、ρc为媒质的特性阻抗。
20℃时的标准大气压下的空气对声波的特性阻抗为ρc=415Ns/m2。
似声功率级,可以定义声强级([sound]intensitylevel)LI如下:
其中,参考声强Iref取为1kHz的听阈声强10-12W/m2,声强级的值也无量纲,单位也为dB。
声强变化10倍,声强级变化10dB。
根据该平方反比定律,在自由声场中,接收点与声源的距离增加一倍,则声压级下降6dB。
由此可以进行声场估算,由声功率级计算声压级。
4.比较
由于声压级、声强级和声功率级的值是一致的,所以它们可以统称为声级(soundlevel),参加表3-6。
表3-6声压、声强、声功率与声压级、声强级、声功率级
声压(Pa)
声强(W/m2)
声功率(W)
声级(dB)
环境
2*102
102
102
140
飞机发动机(3m)
2*101
1
1
120
痛阈
2*100
10-2
10-2
100
织布机房
2*10-1
10-4
10-4
80
汽车汽喇叭
2*10-2
10-6
10-6
60
交谈(1m)
2*10-3
10-8
10-8
40
安静室内
2*10-4
10-10
10-10
20
轻声耳语
2*10-5
10-12
10-12
0
听阈
人耳的听觉的动态范围很宽广,约为0~140dB。
一般正常年轻人在中频附近的听阈约为0dB,人耳能忍受的强噪声(noise)极限约为125dB。
声压变化10倍,声压级变化20dB。
声强和声功率变化10倍,声强级和声功率级变化10dB。
声压增加1倍,声压级增加6dB左右。
声强和声功率增加1倍,声强级和声功率级增加3dB左右。
对于50Hz~10kHz的纯音,在声压级超过听阈50dB时,人耳大约可以鉴别1dB的声压变化。
在声压级超过听阈40dB时,频率低于1kHz时,人耳大约可以察觉3Hz的频率变化。
5.噪声
称紊乱断续或统计上随机的声音为噪声,例如交通噪声和工业噪声。
噪声的大小也用它的声压级dB数来表示,例如重型卡车的噪声约为88dB、轿车的噪声约为60dB、火车车厢的噪声约为70dB、喷气飞机附近的噪声约为140dB,纺织工业的噪声约为80~110dB、钢铁工业的噪声约为80~130dB。
强噪声会使人听觉迟钝(听阈上移),严重时会造成耳聋。
我国于1993年公布了城市区域环境噪声标准GB3096-93(参见表3-7),要求夜间突发的噪声,其最大值不准超过标准值15dB。
表3-7城市区域环境噪声标准(等效声级LAeq:
dB)
类别
昼间
夜间
适用区域
说明
0
50dB
40dB
疗养区、高级别墅区、高级宾馆区等特别需要安静的区域
位于城郊和乡村的这一类区域分别按严于0类标准5dB执行
1
55dB
45dB
以居住、文教机关为主的区域
乡村居住环境可参照执行该类标准
2
60dB
50dB
居住、商业、工业混杂区
3
65dB
55dB
工业区
4
70dB
55dB
城市中的道路交能干线道路两侧区域,穿越城区的内河航道两侧区域
穿越城区的铁路主、次干线两侧区域的背景噪声(指不通过列车时的噪声水平)限值也行该类标准
3.1.4听觉系统的感知特性
科学工作者一直在研究听觉系统(auditorysystem)对声音的感知特性,部分特性已经被用于音频信号的数据压缩(如MP3所使用的音感子带编码)。
下面介绍人耳的构造与声音的感知,讨论三个主要的声音感知特性:
响度、音高和音色,以及掩蔽等人耳效应。
1.人耳的构造与声音的感知
人耳分为外耳、中耳和内耳三个部分(参见图3-4)。
外耳由耳廓和耳道构成;鼓膜处在外耳和中耳之间;中耳包含三根听骨及通向咽腔的耳咽管;内耳则包括耳蜗、前庭、三半规管和听神经等部分。
图3-4人耳的构造
外耳的形状如铜号。
其中,耳廓有复杂的蜗旋构造,用于区分前后和上下的声源位置;耳道长约2.3cm,形状不规则,是一个谐振腔。
外耳的谐振带为2k~5kHz。
鼓膜位于耳道的终端,处在外耳与中耳之间,面积约69mm2。
鼓膜在声音的作用下,可以自由振动,对声音的传导有重要的作用。
中耳是容积为1~2cm3的空腔,包含三根相互连接形成杠杆的听骨:
锤骨上连鼓膜,镫骨下连内耳开口处的卵圆窗,二者之间为跕骨。
中耳内还有通向咽腔的耳咽管。
中耳有如下三重作用:
平衡中耳与外耳的气压,保证鼓膜的正常振动;对强声起反射作用,减少传入内耳的声强,起保护作用;使声能有效地从外耳传到内耳,起阻抗匹配作用(因为声波在外耳是在空气中传播,而在内耳则是在淋巴液中传播。
两种不同介质对声音的阻抗是不同的,淋巴液的阻抗是空气的3750倍。
如果直接传播,则会只有1/1000的能量传入内耳)。
内耳包含耳蜗、前庭、三半规管和听神经等部分。
内耳中的前庭器和半规管内,主要含平衡觉感受器,与听觉无关。
耳蜗(cochlea)是一种充满液体的卷曲结构,大小如一颗豆子。
管长35mm,卷绕两圈半,成蜗壳状。
耳蜗内部被两个膜(前庭膜和基膜)分隔,中间形成的一个楔形剖面部分,称为蜗管(参见图3-5)。
图3-5耳蜗的剖面
蜗管内部的复杂结构称为柯蒂器(organofCorti)(参见图3-6),是外周听觉系统的核心部分。
在柯蒂器中呈三角形的柯蒂隧道两侧,成行地分布着听觉感受器——毛细胞(参见图3-7)。
毛细胞被分成内毛细胞和外面细胞两类,内毛细胞有3千5百个,它们组成一排,沿基膜排列;外毛细胞有1万2千个,它们组成3排,也沿基膜排列(参见图3-8)。
90%以上的听觉神经纤维与内毛细胞相连,一个内毛细胞可以兴奋20根神经纤维。
而多个外毛细胞才汇集到一根神经纤维上。
在毛细胞的上面有一层薄膜覆盖,称为盖膜。
外毛细胞的纤毛插入盖膜之中,而内毛细胞的纤毛则不与盖膜相连。
图3-6柯蒂器图3-7毛细胞的构造
图3-8毛细胞的排列
声音经过耳廓传入耳道(空气振动),引起鼓膜振动;再通过听骨传入内耳,引起耳蜗内的淋巴液体振动;从而带动基膜和盖膜的相互独立运动,引起纤毛的剪切运动;该运动使毛细胞发出神经脉冲,通过神经通路传入大脑,最后使人产生听觉。
一定频率的声音所产生的刺激引发沿基膜传播的行波,其振幅在耳蜗的某点上升到最大值,然后迅速下降。
高频刺激引发的行波最大幅度出现在卵形窗附近的蜗管底端,低频的则靠近蜗管顶端。
声音的波形在耳蜗的传播中,速度逐渐降低,能量迅速下降(从耳蜗的底端到顶端降低了100倍)。
基膜的物理特性,使输入信号的不同频率的成分被分布在膜的不同位置,作用在对应的毛细胞上后,就产生了对不同频率声音的感知。
2.对音强的感知
在物理上,声音的大小使用客观测量单位来度量,即声压用Pa(帕)或N/m2(牛顿/平方米)、声强用W/m2(瓦特/平方米)、声功率用W(瓦)、声级用dB(分贝)。
在心理上,主观感觉的声音强弱使用响度(loudness)或响度级(loudnesslevel)来度量。
这两种感知声音强弱的计量单位是完全不同的两种概念,但是它们之间又有一定的联系。
响度的单位为“宋(sone)”,为了对响度进行计算,定义声级为40dB的1kHz标准音的响度等于1宋;定义响度级的值为1kHz标准音的声级的dB值,单位为“方(phon)”。
响度S与响度级P之间有关系式:
,40方≤P≤105方
或
,1宋≤S≤91宋
可见,40方为1宋,2宋比1宋响1倍,3宋比1宋响2倍,其余可依次类推。
参见图3-9。
图3-9响度与响度级的关系
当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈(hearingthreshold/audibilitythreshold)”。
例如,1kHz纯音的声强达到10-12w/m2(定义成0dB声强级)时,人耳刚能听到,此时的主观响度级定为零方。
实验表明,听阈是随频率变化的。
测出的等响曲线如图3-10所示。
图3-10等响曲线
图中最靠下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中,能被人耳听到的纯音的最小值。
另一种极端的情况是声音强到使人耳感到疼痛。
实验表明,如果频率为1kHz的纯音的声强级达到120dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈(painthreshold)”。
对不同的频率进行测量,可以得到“痛阈—频率”曲线,如图中最靠上面所示的一根曲线。
这条曲线也就是120方等响度级曲线。
在“听阈—频率”曲线和“痛阈—频率”曲线之间的区域就是人耳的听觉范围。
这个范围内的等响度级曲线也是用同样的方法测量出来的。
由图3-10可以看出,1kHz的10dB的声音和200Hz的30dB的声音,在人耳听起来具有相同的响度。
该图说明人耳对不同频率的敏感程度差别很大,其中对1kHz~5kHz范围的信号最为敏感,幅度很低的信号都能被人耳听到。
而在低频区和高频区,能被人耳听到的信号幅度要高得多。
此外,人的听觉频响还随声压级的变化而变化。
参见图3-11。
图3-11听觉的频响特性
声音的响度级还与声音的持续时间有关,对振幅一定的连续声音,开始听到的响度并不是立即达到其响度级,而是较急速的增大,经过一段时间后才达到最大值,随后则逐渐减小。
对于持续时间在一秒以下的声音,人耳会感到响度下降。
频率越高的声音,下降得越多。
持续时间越短的声音,听起来的响度也下降得越多。
人耳对音强差别的感知与声压级有关,而与频率的关系不大。
当声压级在50dB以上时,人耳能辨别的最小声压级差大约为1dB左右;如果声压级小于40dB,则声压级需变化2dB左右才能被察觉出来。
所以分档调节的音量控制器的档位差应该小于1dB,以免人感觉音量突变。
3.对音高的感知
客观上用频率来表示声音的音高,其单位是Hz。
而主观感觉的音高(音调)单位则是“美[尔](Mel)”和“巴克(Bark)”,主观音高与客观音高的关系是
其中f的单位为Hz,这也是两个既不相同又有联系的单位。
参见图3-12
图3-12音高—频率曲线
人耳对响度的感觉有一个范围,即从听阈到痛阈。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第3章 音频解读 音频 解读