多媒体技术基础复习材料.docx
- 文档编号:29477730
- 上传时间:2023-07-23
- 格式:DOCX
- 页数:20
- 大小:143.43KB
多媒体技术基础复习材料.docx
《多媒体技术基础复习材料.docx》由会员分享,可在线阅读,更多相关《多媒体技术基础复习材料.docx(20页珍藏版)》请在冰豆网上搜索。
多媒体技术基础复习材料
“熵”(Entropy)表示一条信息中真正需要编码的信息量,即数据压缩的理论极限。
对于任何一种无损数据压缩,最终的数据量一定大于信息熵,数据量越接近于熵值,说明其压缩效果越好,假定一种无损数据压缩之后数据量小于信息熵,只能说明一个问题,说明其数据压缩肯定出错了
量度信息多少的测度就是信息量。
若某事件的基本空间可能出现的元素分别为x1、x2…xn;即:
P(X=xi)=pI=1,2,…,n则定义一个随机事件x所含的信息量(又称x的自信息量)度量公式:
I(x)=log(1/p(x))=-logp(x)
熵是系统无组织程度的度量,与信息量意义相反。
其计算过程描述如下:
若某实验可能出现的结果分别为M1、M2…Mn;其概率分别为:
P1、P2…Pn;则熵的度量公式:
H=-{P1logP1+P2logP2+…PnlogPn}
哈夫曼(Huffman)编码算法步骤:
1.初始化,根据符号出现的次数按由大到小顺序对符号进行排序。
2.把概率最小的两个符号组成一个节点,节点为两符号次数之和,去掉已取出的两个节点,加入这两节点之和,重新排序,直至只有一个数据且该数据的值所有符号出现的总次数相同为止,跳向4步骤。
3.重复步骤2,得到新节点,形成一棵“树”。
4.从根节点开始到相应于每个符号的“树叶”,从上到下标上“0”或“1”。
通常左支标为0,右支标为1。
5.从根节点开始顺着树枝到每个叶子分别写出每个符号的代码。
例题:
有一串由4个字母组成的长度为50的字符串,字母分别A、B、C、D、E和F,其中A出现3次,B出现5次,C出现15次,D出现11次,E出现12次,F出现4次,请使用哈夫曼对其进行编码。
Ø静态统计模型的算术编码与解码
例4-4:
假设信源符号为{a,b,c,d},这些符号的概率分别为{0.1,0.4,0.2,0.3},根据这些概率可把间隔[0,1]分成4个子间隔:
[0,0.1],[0.1,0.5],[0.5,0.7],[0.7,1],其中[x,y]表示半开放间隔,即包含x不包含y。
上面的信息表示在表6-10中统计了每个符号的概率和初始编码间隔。
如果二进制消息序列的输入为:
cadacdb。
编码时首先输入的符号是c,找到它的编码范围是[0.5,0.7]。
由于消息中第二个符号a的编码范围是[0,0.1],因此它的间隔就取[0.5,0.7]的第一个十分之一作为新间隔[0.5,0.52]。
依此类推,编码第3个符号d时取新间隔为[0.514,0.52],编码第4个符号a时,取新间隔为[0.514,0.5144],…。
消息的编码输出可以是最后一个间隔中的任意数。
整个编码过程如图所示。
静态统计模型的算术编码过程
还要把0.51439转化为二进制
静态统计模型的算术解码过程(要做任意给一个数都能算解码过程)如0.332
并写出它的过程
0.332在[0.1,0.5)所以解码为B,(0。
332-0。
1)/0.4=0.58在[0.5,0.7]]所以解码为C。
。
。
。
。
。
。
。
。
。
。
。
。
。
用lzw算法和lzss算法对下表中的字符进行编码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
…
a
b
a
b
c
b
a
b
a
b
a
a
a
a
a
a
a
…
Lzw算法:
lzss算法:
步骤
位置
词典
输出码字
步骤
位置
匹配串
输出码字
(1)
a
1
1
——
a
(2)
b
2
2
——
b
(3)
c
3
3
ab
(2,2)
1
1
(4)
ab
(1)
4
5
——
c
2
2
(5)
ba
(2)
5
6
bab
(4,3)
3
3
(6)
abc
(4)
6
9
aba
(8,3)
4
5
(7)
cb
(3)
7
12
——
a
5
6
(8)
bab
(5)
8
13
aa
(2,2)
6
11
(9)
baba
(8)
9
15
aaa
(3,3)
7
12
(10)
aa
(1)
…
…
…
…
8
14
(11)
aaa
(10)
9
17
(12)
aaa
(11)
…
…
…
…
…
P61—4.4、LZSS算法和LZ77算法的核心思想是什么?
它们之间有什么差别?
答:
LZSS算法的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”。
LZ77编码算法的核心是查找从前向缓冲存储器开始的最长的匹配串。
LZ77冗余信息表现在两个方面,一是空指针,二是编码器可能输出额外的字符,这种字符是指可能包含在下一个匹配串中的字符。
LZSS算法以比较有效的方法解决这个问题。
P62—4.4、LZW算法和LZ78算法的核心思想是什么?
它们之间有什么差别?
答:
(1)LZW算法和LZ78算法的核心思想都是不断地从字符流中提取新的缀-符串(String),通俗地理解为新“词条”,然后用“代号”也就是码字(Codeword)表示这个“词条”。
这样一来,对字符流的编码就变成了用码字(Codeword)去替换字符流(Charstream),生成码字流(Codestream),从而达到压缩数据的目的。
(4.4.4LZ78算法)
(2)在LZW算法中使用的术语与LZ78使用的相同,仅增加了一个术语—前缀根(Root),它是由单个字符串组成的缀-符串(String)。
在编码原理上,LZW与LZ78相比有如下差别:
①LZ
W只输出代表词典中的缀-符串(String)的码字(codeword)。
这就意味在开始时词典不能是
空的,它必须包含可能在字符流出现中的所有单个字符,即前缀根(Root)。
②由于所有可
能出现的单个字符都事先包含在词典中,每个编码步骤开始时都使用一字符前缀(one-cha
racterprefix),因此在词典中搜索的第1个缀-符串有两个字符。
(4.4.5LZW算法)
预测编码:
根据某一数据模型利用以往的样本值对新样本值进行预测,然后将样本实际值与预测值的差值进行编码。
如果模型足够好,且样本序列的时间相关性较强,那么误差信号的幅度将远小于原始信号,可以用较少的值对其差值量化,得到较好的压缩效果。
预测编码常用的是差分脉冲编码调制(DPCM)和自适应的差分脉冲编码调制(ADPCM)。
衡量一种数据压缩技术的好坏有四个重要的指标:
压缩比大:
即压缩前后所需要的信息存储量之比要大。
算法简单:
实现压缩的算法简单,压缩、解压速度快,尽可能地做到实时压缩解压。
恢复效果好:
恢复效果好,要尽可能地恢复原始数据。
压缩能否用硬件实现.
CD采样频率为什么是44.1Khz
答:
人耳朵(因人而异)能听到的声音信号频率范围是20~2000Hz,为了避免高于2000Hz的高频率信号干扰采样,在进行采样之前,需要对输入的声音信号进行滤波。
考虑到滤波器在20000Hz的地方大约有10%的衰减,所以可以用22000Hz的2倍(奈奎斯特理论:
采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,称为无损数字化。
)作为声音的采样频率。
但是,为了能够与电视信号同步,PAL电视的场扫描为50Hz,NTSC电视的场扫描为60Hz,所以取50和60的整数倍,选用了44100Hz作为采样频率。
电视机通常使用隔行扫描;计算机的显示器通常使用非隔行扫描。
PAL、NTSC扫描特性以及不用RGB彩色空间的原因。
人眼对彩色细节的分辨能力远比对亮度细节的分辨能力低,通常把RGB空间表示的彩色图像变换到YUV或者YIQ颜色空间。
每一种彩色空间都产生一种亮度分量信号和两种色度分量信号,而且亮度信号(Y)和色度信号(U、V)是相互独立的,每一种变换使用的参数都是为了适应某种类型的显示设备。
彩色电视信号中采用YIQ或者YUV空间一是为了兼容黑白电视,二是为了实现压缩。
PAL制电视的扫描特性
625行(扫描线)/帧,25帧/秒(40ms/帧)
宽高比(aspectratio):
4:
3
隔行扫描,2场/帧,312.5行/场
颜色模型:
YUV
NTSC制的扫描特性
525行/帧,30帧/秒(29.97fps,33.37ms/frame)
宽高比:
电视画面的长宽比(电视为4:
3;电影为3:
2;高清晰度电视为16:
9)
隔行扫描,一帧分成2场(field),262.5线/场
颜色模型:
YIQ
在每场的开始部分保留20扫描线作为控制信息,因此只有485条线的可视数据。
每行63.5微秒,水平回扫时间10微秒(包含5微秒的水平同步脉冲),所以显示时间是53.5微秒
SECAM的扫描特性
与PAL制类似,区别是SECAM中的色度信号是频率调制(FM)(NTSC,PAL都是QAM)
图像格式为4:
3,625线,50Hz
冗余的种类:
空间冗余,时间冗余,结构冗余,知识冗余,视觉冗余,图像区域的相同性冗余,纹理统计冗余。
声音信号数字化的过程:
采样、量化、编码
声音质量和数据率
质量
采样频率
(kHz)
样本精度
单道声/
立体声
数据率
(kb/s)
频率范围(kHz)
电话
8
8
单道声
64
200~3400
AM
11.025
8
单道声
88
50~7000
FM
22.050
16
立体声
705.6
20~15000
CD
44.1
16
立体声
1411.2
20~20000
DAT
48
16
立体声
1536
20~20000
声音数据的计算:
P21--2.7
选择采样频率为22.050kHz和样本精度为16位的录音参数。
在不采用压缩技术的情况
下,计算录制2分钟的立体声需要多少MB(兆字节)的存储空间(1MB=1024×1024B)
(22050×2×2×2×60)/(1024×1024)=10.09MB
电子音乐合成方法分为两大类:
数字合成法:
FM频率调制合成、音乐样本合成(波形表合成法)
数字式频率调制合成法,简称为FM合成法。
乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来,播放时再加以调整、修饰和放大,生成各种音阶的音符。
乐音样本通常放在ROM芯片上,播放时以查表的方式给出,所以这种合成器又叫做波表(wavetable)合成器。
电子乐器数字接口(musicalinstrumentdigitalinterface,MIDI)是用于在音乐合成器、电子乐器、音序器和计算机之间交换音乐信息的一种标准协议。
从80年代初问世至今,MIDI经历了长时间的发展,现已成为电脑音乐的代名词。
MIDI实质上是由MIDI控制器(或MIDI文件)产生的指示电子音乐合成器要做什么、怎么做(如演奏某个音符、加大音量、生成音响效果)的一套标准指令。
MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是动作指令。
话音编译码器的分类
波形编译码器(waveformcoder):
不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。
例如PCM、DPCM、ADPCM等。
音源编译码器(Sourcecoder):
也叫参数编译码器、声码器(vocoder)。
它从话音波形信号中提取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。
混合编译码器(Hybridcoder):
综合使用上述两种技术。
使用的激励信号波形尽可能接近于原始话音信号的波形。
例如CELP。
PCM编码
PCM编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。
PCM方法可以按量化方式的不同,分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种。
如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。
均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化。
均匀量化PCM就是直接对声音信号作A/D转换,在处理过程中没有利用声音信号的任何特性,也没有进行压缩。
该方法将输入的声音信号的振幅范围分成个等份(B为量化位数),所以落入同一等份数的采样值都编码成相同的B位二进制码。
只要采样频率足够大,量化位数也适当,便能获得较高的声音信号数字化效果。
为了满足听觉上的效果,均匀量化PCM必须使用较多的量化位数。
这样所记录和产生的音乐,可以达到最接近原声的效果。
当然提高采样率及分辨率后,将引起储存数据空间的增大。
改进PCM编码技术的一个方法是采用非均匀量化,即让量化级高度随信号振幅而变化。
信号振幅小则缩小量化级高度,信号振幅大时则增大量化级高度。
这样就可以在满足精度要求的情况下用较少的位数实现编码。
在声音数据还原时,采用相同的规则。
在非均匀量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为律(-Law)压(缩)扩(展)算法,另一种称为A律(A-Law)压(缩)扩(展)算法。
这两种算法主要用于数字电话通信中。
µ律(µ-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。
A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中
对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用µ律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64kb/s。
这个数据就是CCITT推荐的G.711标准。
G.721标准?
?
、
PCM与时分多路复用(time-divisionmultiplexing,TDM)
这种方法是把传输信道按时间来分割,为每个用户指定一个时间间隔,每个间隔里传输信号的一部分,这样就可以使许多用户同时使用一条传输线路。
这是数字通信的主要手段。
例如,话音信号的采样频率f=8000Hz,它的采样周期=125ms,这个时间称为1帧(frame)。
在这个时间里可容纳的话路数有两种规格:
24路制和30路制。
24路制的重要参数
1.每秒钟传送8000帧,每帧125us。
2.12帧组成1复帧(用于同步)。
3.每帧由24个时间片(信道)和1位同步位组成。
4.每个信道每次传送8位代码,1帧有24×8+1=193(位)。
5.数据传输率R=8000×193=1544kb/s。
6.每一个话路的数据传输率=8000×8=64kb/s。
30路制的重要参数
1.每秒钟传送8000帧,每帧125us。
2.16帧组成1复帧(用于同步)。
3.每帧由32个时间片(信道)组成。
4.每个信道每次传送8位代码。
5.数据传输率:
R=8000×32×8=2048kb/s。
6.每一个话路的数据传输率=8000×8=64kb/s。
自适应差分脉冲编码调制(ADPCM)
ADPCM(adaptivedifferentialpulsecodemodulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。
核心思想
1.利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值
2.使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
课后习题3.8自适应脉冲编码调制(APCM)的基本思想是什么?
(注:
此题老师刚开始说我们做过作业,后证明没有,但是安全第一,所以……)
根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。
这种自适应可以是瞬时自
适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较
长时间周期里发生变化。
课后习题3.9差分脉冲编码调制(DPCM)的基本思想是什么?
利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。
这种技术是根据
过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实
际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。
它与脉冲
编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与
预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或
存储的数据量。
此外,它还能适应大范围变化的输入信号。
课后习题3.10自适应差分脉冲编码调制(ADPCM)的两个基本思想是什么?
ADPCM综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。
它的核心想法是:
①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的
差值,使用大的量化阶去编码大的差值。
②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的
差值总是最小。
小波变换:
%装入图像
loadwbarb;%显示图像
subplot(2,2,1);
image(X);
colormap(map)%取用色盘矩阵
title('原始图像');
axissquare%使坐标轴长度相同
disp('压缩前图像X的大小:
');
whos('X')
%对图像用bior3.7小波进行2层小波分解
[c,s]=wavedec2(X,2,'bior3.7');
%提取小波分解结构中第一层低频系数和高频系数
ca1=appcoef2(c,s,'bior3.7',1);%提取小波分解结构中一层的低频系数和高频系数
ch1=detcoef2('h',c,s,1);%水平方向
cv1=detcoef2('v',c,s,1);%垂直方向
cd1=detcoef2('d',c,s,1);%斜线方向
%分别对各频率成分进行重构
a1=wrcoef2('a',c,s,'bior3.7',1);
h1=wrcoef2('h',c,s,'bior3.7',1);
v1=wrcoef2('v',c,s,'bior3.7',1);
d1=wrcoef2('d',c,s,'bior3.7',1);
c1=[a1,h1;v1,d1];
%显示分解后各频率成分的信息
subplot(222);image(c1);
axissquare
title('分解后低频和高频信息');
%下面进行图像压缩处理
%保留小波分解第一层低频信息,进行图像的压缩
%第一层的低频信息即为ca1,显示第一层的低频信息
%首先对第一层信息进行量化编码
ca1=appcoef2(c,s,'bior3.7',1);
ca1=wcodemat(ca1,440,'mat',0);
%改变图像的高度
ca1=0.5*ca1;
subplot(223);
image(ca1);
colormap(map);%取用色盘矩阵
axissquare%使坐标轴长度相同%使坐标轴长度相同
title('第一次压缩');
disp('第一次压缩图像的大小为:
');
whos('ca1')
%保留小波分解第二层低频信息,进行图像的压缩,此时压缩比更大
%第二层的低频信息即为ca2,显示第二层的低频信息
ca2=appcoef2(c,s,'bior3.7',2);
%首先对第二层信息进行量化编码
ca2=wcodemat(ca2,440,'mat',0);
%改变图像的高度
ca2=0.25*ca2;
还有几个函数
图像的基本属性:
分辨率(DPI),像素深度(bitsperpixel),真/伪彩色,表示法…
颜色感知的三要素:
色调,饱和度,亮度
真彩色:
指在组成一幅彩色图像的每个像素值中,有R,G,B三个基色分量,每个基色分量直接决定显示设备的基色强度。
全彩色(fullcolor)图像:
特指RGB8:
8:
8,即图像的颜色数为224。
伪彩色:
每个像素的颜色不是由每个基色分量的数值直接决定,而是把像素值当作彩色查找表CLUT(colorlook-uptable)的表项入口地址,去查找一个显示图像时使用的R,G,B强度值。
彩色查找表CLUT:
也称为colormap(颜色图),palette(调色板);是一个事先做好的表,表项入口地址也称为索引号,根据该索引号可查找出包含实际R、G、B的强度值。
标准的调色板是在256K色谱中按色调均匀地选取16种或256种颜色。
直接色:
每个像素值分成R,G,B分量,每个分量作为单独的索引值对它做变换。
也就是通过相应的彩色变换表找出基色强度,用变换后得到的R,G,B强度值产生的彩色称为直接色。
真彩色与直接色的比较:
相同之处是都采用R,G,B分量决定基色强度
不同之处是前者的基色强度直接用R,G,B决定,而后者的基色强度由R,G,B经变换后决定。
产生的颜色有差别。
试验结果表明,使用直接色在VGA显示器上显示的彩色图像看起来真实、很自然,虽然只有256色。
直接色与伪彩色的比较:
相同之处是都采用查找表
不同之处是前者对R,G,B分量分别进行变换,后者是把整个像素当作查找表的索引值进行彩色变换。
矢量图:
用一系列计算机指令来表示一幅图,如画点、画线、画曲线、画圆、画矩形等。
这种方法实际上是数学方法来描述一幅图,然后变成许多的数学表达式,再编程,用语言来表达。
在计算显示图时,也往往能看到画图的过程。
绘制和显示这种图的软件通常称为绘图程序(drawprograms)。
矢量图特点:
矢量图的优点是
(1)缩放、旋转、移动时图像不会失真
(2)存储和传输时数据量较小
矢量图的缺点是
(1)图像显示时花费时间比较长
(2)真实世界的彩色图像难以转化为矢量图。
点位图:
把一幅彩色图分成许多像素,每个像素用若干二进制位来指定该像素的颜色、亮度和属性。
一幅图由许多描述每个像素的数据组成,这些数据通常称为图像数据,存储到图像文件。
点位图特点:
点位图的优点是:
(1)显示速度快。
(2)真实世界的图像可以通过扫描仪、数码相机、摄像机等设备方便的转化为点位图。
点位图的缺点是:
(1)存储和传输时数据量比较大
(2)缩放、旋转时算法复杂且容易失真
影响点位图文件大小的因素
图像分辨率:
分辨率越高,组成一幅图的像素越多,则图像文件越大。
像素深度:
像素深度越深,表达单个像素颜色和亮度的位数越多,图像文件就越大。
而矢量图文件的大小则主要取决图的复杂程度。
矢量图侧重于绘制、创造;点位图偏重于获取、复制
灰度图(gray-scaleimage):
按照灰度等级的数目来划分。
如果每个像素的像素值用一个字节表示,灰度值级数就等于256级,每个像素可以是0~255之间的任何一个值
单色图(monochromeimage):
只有黑白两种颜色的图像。
每个像素值用1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 基础 复习 材料