数字图像处理课件(冈萨雷斯第三版).ppt
- 文档编号:30792812
- 上传时间:2023-10-07
- 格式:PPT
- 页数:133
- 大小:3MB
数字图像处理课件(冈萨雷斯第三版).ppt
《数字图像处理课件(冈萨雷斯第三版).ppt》由会员分享,可在线阅读,更多相关《数字图像处理课件(冈萨雷斯第三版).ppt(133页珍藏版)》请在冰豆网上搜索。
数字图像处理DigitalImageProcessing,内容提要,第1、2章绪论、图象处理的基本概念。
第3、4章空域和频域变换第5、8章图象增强和图象复原。
第6章图象编码第7、9章图象分割和形态学。
第10章其他,第1章绪论,1.1从图象到图像工程图象和数字图象图象技术和图象工程相关学科和领域1.2图象处理和分析图象处理和分析系统图象采集、显示、存储、通讯、处理和分析模块,图象处理,图象分析,图象理解,抽象程度,数据量,图象基础,1.1.1图象和数字图象什么是图象?
图象(image)是泛指照片、动画等等形成视觉景象的事物。
图象与计算机图形学中的图形的区别是:
计算机图形学是从建立数学模型到生成图形,而图象通常是指从外界产生的图形。
客观世界是三维空间,但一般图象是二维的。
二维图象在反映三维世界的过程中必然丢失了部分信息。
即使是记录下来的信息也可能有失真,甚至于难以识别物体。
因此,需要从图象中恢复和重建信息,分析和提取图象的数学模型,以至于形成人们对于图象记录下的事物有正确和深刻的认识。
这个过程就成为图象处理过程。
1.1从图象到图像工程,为什么需要数字图象(digitalimage)?
普通图象包含的信息量巨大,需要使用计算机对图象进行处理。
因此,需要把普通图象转变成计算机能处理的数字图象。
现在的数码相机可以直接地把视觉图象变成数字图象。
数字图象类似于光栅图形,由有限行和有限列组成。
每个基本单元叫做一个象素(pixel)。
三维图象的象素又叫做体素(voxel)。
通常的二维数字图像是一个矩型,可以用一个二维数组I(x,y)来表示,其中x,y是二维空间中的某坐标系的坐标,I(x,y)表示图像在该点处的灰度值等性质。
彩色可以是红绿蓝三个单色的一定灰度值的合成。
一般来说,这些坐标和灰度值是实数,不仅依赖于坐标系的选取,而且依赖于灰度值的度量单位。
但是,数字计算机只可能表示有限字长的有限个数字。
所以必须把灰度值离散化。
简单地说,数字图象等同于一个整数值的有限矩阵。
数字图像是数字图像处理和分析的对象。
左边的图象是图象处理技术中常用来检验计算机算法的实际效果的标准图象。
这幅图象的名称是lenna。
它是由一组数字组成的。
原图象的宽和高都是256个象素,每象素有八位。
它在BMP格式下有约66K字节的大小。
数字图象处理的简史数字图象的产生远在计算机出现之前。
最早有电报传输的数字图象。
六、七十年代,随着计算机硬件的发展和快速傅立叶变换算法的发现使得用计算机能够处理图象。
八十年代开始处理三维图象,九十年代以来,随着计算机性能的大幅提高和广泛使用,图象处理技术已经涉及社会的各个角落。
图象逐渐在传播媒体中占据了主导地位,产生的许多的新行业新商机。
未来图象处理的发展是不可限量的。
数字图象处理属于计算机科学,但是它的90%依赖于数学。
从这个特点来看,对于本专业的学生来说,数字图象处理技术是一个十分理想的发展方向。
1.1.2图象技术和图象工程,哪些属于图象技术?
图象技术是与图象有关部门的技术的总称。
它是一类综合技术工程。
它包括图象的采集、获取、编码、存储和传输、图象的生成、显示和输出、图象的变换、增强、恢复和重建、图象的分割、目标的检测、表达和描述、特征的提取、图象的分类、识别、图象模型的建立和匹配、图象和场景的理解。
狭义的数字图象处理是指图象的增强、恢复和重建,操作的对象是图象的象素,输出的是图象。
什么是图像工程?
(广义的数字图像处理)它是由图像处理、图像分析和图像理解三个系统所组成。
图像处理包括图像采集和从图像到图像的变换,以改善主观的视觉效果和为图像分析和图像理解作初步的处理。
图像分析是从图像中取出感兴趣的数据,以描述图像中目标的特点。
图像理解是在图像分析的基础上研究各目标的性质和相互关系,以得出图像内容的理解和对原场景的解释。
图像处理、图像分析和图像理解是处在从低到高的三个不同的抽象程度上的过程。
本课程着重于图像处理和分析系统。
图像处理,图像理解,图像分析,抽象程度,数据量,图像,数据,符号,1.1.3相关学科和领域,图象工程是一门系统地研究各种图象理论、技术和应用的交叉学科。
从它的研究方法看,它与数学、物理学、生物学、心理学、电子学、计算机科学可以互相借鉴,从它的研究范围看,它与模式识别、计算机视觉、计算机图形学等学科交叉。
1.2图象处理和分析,1.2.1图象处理和分析系统图像处理和分析系统包括如下模块:
图像采集模块、图像显示模块、图像存储模块、图像通讯模块和图像处理和分析模块。
1.2.2模块图象采集模块CCD图象显示模块CRT,LCD图象存储模块内存、帧缓存、硬盘图象通讯模块LAN、WAN图象处理和分析模块,图象文件的数据结构,一个完整的图象处理程序的基本功能有:
打开图象文件、显示图象、对图象文件进行指定的处理、存储图象文件。
由于图象文件比较大,通常需要在储存前进行压缩。
所以打开和存储图象文件涉及到文件的格式。
图象文件的格式图像文件指包含图像数据的文件。
文件内除图像数据本身以外,一般还有图像的描述信息,以便图像的读取和显示。
表示图像常用矢量形式或光栅形式。
矢量形式中图像用一系列线段或线段的组合体来表示,线段的灰度可以不同,组合体的各部分可用不同的灰度来填充。
矢量形式文件中有一系列的命令和数据,执行的结果是画出图像来。
图像数据文件主要是用光栅形式,即图像是一些图像点的集合,比较适合变化复杂的图像。
它的主要缺点是缺少对象和像素点之间的联系,且在伸缩图像的过程中图像会改变。
例如,常见的图象文件类型有bmp,jpg等等。
图象处理的程序必须考虑图象文件的格式,否则无法正确地打开和保存图象文件。
pgm格式美国的许多大学用pgm格式,避免使用压缩文件格式,对初学者来说是很方便的。
下面是一幅该格式的图象。
这是一幅pgm格式的彩色照片,这是pgm格式彩色照片16进位制部分代码。
原代码是不分行的字符串。
这里写成分行的形式(注意:
LF=换行;SP=空格;#=注解行):
0x500x350x0A表示P5(LF);0x230x200x200x490x0A表示#(SP)(SP)I(LF);0x360x340x300x200x340x380x300x0A表示640(SP)480(LF);0x320x350x350x0A表示255(LF)0x270x27表示23,23,(像素灰度值),这幅图象文件的解码:
P5#ImportedfromSUNimage:
LEGGO_HOUSE_1.0.intensity6404802550x270x270x270x270x270x270x270x270x270x270x270x270x270x260x270x270x270x280x270x270x270x270x270x270x270x270x270x270x270x270x270x270x270x270x270x260x270x260x270x280x270x270x260x270x270x270x280x270x270x270x270x270x270x280x280x270x280x290x280x270x280x280x280x270x270x270x270x270x270x270x280x270x280x280x280x280x280x280x280x280x280x290x290x290x280x280x280x28.,pgm格式的数字图像文件是美国计算机科学专业图像处理教学和研究的常用格式,虽然文件体积比较大,但是像素直接与数字相联系,易于检查和修改。
它由两部分组成:
1、第一部分是文件头,它由若干行组成:
第一行说明文件的类型,例如,P2(表示黑白图像)或P5(表示彩色图像);接着是以#开头的注解行,在软件打开图像时不执行注解行,可以没有注解行,或有多个以#开头的注解行;注解行后的第一行指定数字图像的大小,例如,640480(宽640个像素,高480个像素,中间有一个空格);接下来的一行指定图像的灰度等级,例如,255。
各行的结尾没有标点符号。
2、第二部分是不再分段的位图列阵,例如,在256灰度的场合,P2类型是一个像素一个字节(8位),P5类型是一个像素三个字节(R、G、B各8位)。
bmp(Bitmap)格式,BMP(Bitmap-File)图形文件是Windows采用的图形文件格式,在Windows环境下运行的所有图象处理软件都支持BMP图象文件格式。
Windows系统内部各图像绘制操作都是以BMP为基础的。
Windows3.0以前的BMP图文件格式与显示设备有关,因此把这种BMP图象文件格式称为设备相关位图DDB(device-dependentbitmap)文件格式。
Windows3.0以后的BMP图象文件与显示设备无关,因此把这种BMP图象文件格式称为设备无关位图DIB(device-independentbitmap)格式(注:
Windows3.0以后,在系统中仍然存在DDB位图,象BitBlt()这种函数就是基于DDB位图的。
bmp(Bitmap)格式bmp格式又称位图文件。
由三部分组成:
位图文件头、位图信息和位图列阵。
位图文件头有54个字节长,它给出文件的类型、大小和位图的起始位置等。
位图信息给出图像的长、宽和每个像素的位数(1,4,8,24)、压缩方法、目标设备的水平和垂直分辨率。
位图列阵给出原始像素的值。
另外,有一些常用的压缩文件格式,如:
GIF(8位)、TIFF、JPEG等等。
下面是一个Matlab程序,%打开蝴蝶图象,进行Fourier变换h=imread(butterfly.jpg);%openanimagefigure;imshow(h);%因为图像的格式uint8不能做加减法,%所以需要把格式uint8变成格式doubleh=double(h);m,n,p=size(h);hf=fftshift(fft2(h);%2DFourier变换,得到2D复数值图像hfa=log(abs(hf);%模的图像,用log来调整灰度的对比度%求出模的灰度最大值,从而把其灰度的值域变为0,255m=max(max(max(hfa);hfa=hfa*255/m;figure;imshow(uint8(hfa);Imwrite(uint8(hfa),butterfly_fft.jpg,jpg);,补充:
图象和视觉基础,2.1概论和综述2.2人眼与亮度视觉2.3颜色视觉2.4光度学和成象模型2.5成象变换2.6采样和量化2.7象素间联系2.8算术和逻辑运算2.9坐标变换,第2章图象和视觉基础,2.1概论和综述该基础包括视觉基础、成像基础和图像基础三部分:
视觉基础(人眼与亮度视觉,颜色视觉)成像基础(模型、几何和采样量化)图像基础(像素间联系、图像运算和图像坐标变换)注意:
视觉:
指光对感官的刺激和视觉系统的感觉。
视知觉:
指如何通过视觉形成关于外部世界的表象。
2.2人眼与亮度视觉,2.2.1人眼成象人的眼球是一个复杂的视觉器官。
眼球的前部有晶状体,相当于照相机的镜头。
眼球内侧的后部有视网膜。
视网膜表面分布着两种感光细胞:
锥细胞和柱细胞。
眼内有六、七百万的锥细胞,它们对明亮的光和颜色很敏感。
人眼借助于锥细胞来区分细节,因为每个锥细胞都连到神经末梢。
锥细胞的视觉称为适亮视觉。
眼内有75万到150万柱细胞。
它们分布面大,且几个柱细胞连到一个神经末稍。
分辨率低,主要提供整体视觉印象。
虽然它们对颜色不敏感,但是对弱光较敏感。
柱细胞的视觉称为适暗视觉。
视网膜的中心是中央凹,面积约1.51.5mm2,锥细胞的密度达到150000个/mm2,是眼内最敏感的区域。
人眼的构造,人眼成像,锥细胞和柱细胞的密度和分布,2.2.2亮度适应和区分,主观亮度和主观适应性由于数字图象以客观亮度显示图象,人眼以主观亮度感受取得视觉,所以人眼的亮度适应性影响了图象处理的结果。
人眼的视觉系统能适应的光的亮度等级从可以看见的昏暗到眩目相差能达到1010等级。
但是人眼并不能同时在这么大的范围内看清物体,而只能在同一时间内适应一个小的亮度变化范围(106等级)。
在一定条件下,一个视觉系统当前的敏感度叫做亮度适应级。
这个敏感度是用实验来验证的。
在实验中,逐渐增加光照射的强度I,改变量为I,达到多个观察者能感知的程度,当有一半的人感知增加时的I/I成为Weberratio,作为视觉系统当前的敏感度。
在很强的光下,需要改变较强的光照射才能使多个观察者感知;相反,在某强度光照下,些微的光强度变换就会使人感知。
人眼的主观亮度是非线性的,例如Mach带,人眼的光学错觉,2.3颜色视觉,根据人眼的结构,所有的颜色是三种基本颜色的不同组合,所有的颜色可以看作是三种基本颜色的迭加,也可以看作三种补色(从白色中除去某种颜色)的迭加,颜色的三种基本特征:
灰度、色调和饱和度,后两者又称色度。
灰度与物体的反射率成正比;色调与光照中主要光譜有关;饱和度与色调的纯度有关。
组成颜色C的三个刺激量X,Y,Z所占的百分比数为x,y,zx=X/(X+Y+Z),y=Y/(X+Y+Z),z=1xy.,2.5成像变换,设W(X,Y,Z)是3D空间中的任意点的坐标,Z.根据相似三角形的性质,x/=X/(-Z),y/=Y/(-Z),x=X/(-Z),y=Y/(-Z)利用点wh齐次坐标(kX,kY,kZ,k),令1000P=0100001000-1/1ch=Pwh=P(kX,kY,kZ,k)=(kX,kY,kZ,-(k/)Z+k)=(x,y,z,1)x=kX/(-k/Z+k)=X/(-Z),同理求得y和z,x,Z,(X,Y,Z),0,wh=P-1ch1000P-1=01000010001/1wh=P-1(x,y,0,1)=(x,y,0,1).其中没有坐标分量z,所以无法表示3D的点如果能知道额外的深度信息z,那么就能表示3D的点,(X,Y,Z,1)=wh=P-1(x,y,z,1)=(x,y,z,z/+1).其中,X=x/(+z),Y=y/(+z),Z=z/(+z),2.6采样和量化,一幅图像需要经过离散化成为数字图像后才能被计算机处理。
图像的空间坐标的离散化叫做空间采样,灰度的离散化叫做灰度量化。
采样分为均匀采样和量化和非均匀采样和量化。
假设图像是一个长方形。
在平面上取MN个大小相同的网格,并把灰度分成G个等级。
取各网格中的某点处的灰度值最接近的整数作为该网格的灰度。
通常,取M=2m,N=2n和G=2k。
则存储一幅图像的需要的位数等于b=MNk。
例如,一幅128128、64个灰度等级的图像需要220位,512512、256个灰度等级的图像需要226位。
采样的个数和灰度等级的选取与分辨率和储存的能力两者有关,需要综合考虑。
例如:
图像空间分辨率变化产生的效果。
图像灰度分辨率变化产生的效果。
图像空间和灰度分辨率同时变化产生的效果。
图像空间分辨率变化产生的效果,图像灰度分辨率变化产生的效果,图像灰度分辨率变化产生的效果
(2),非均匀采样和量化,对给定的空间分辨率,图像的质量可以根据图像特性利用自适应的采样过程来改进。
例如,在灰度变化显著的有很多细节的区域应当采用较密的采样。
又例如,可以计算所有灰度值出现的频率。
若某范围内的灰度值出现频繁,而在其他范围内灰度值出现较稀,则在该范围内量化灰度就要较密,在其他范围内较稀。
2.7像素间联系,像素有四邻域N4和八邻域N8。
像素的连通有4-连接、8-连接和混合连接(m-连接)。
称点r和p是混合连接,如果r和p是4-连接的,或者r与p是8-连通的但不是4-连通的。
混合连接避免了8-连通所产生的歧义。
等价关系和传递闭包,定义:
在集合A上的二元关系R,记为aRb,a,bA,称为等价关系,如果R具有如下性质:
自反性对每个a,成立aRa;对称性aRb当且仅当bRa;传递性aRb和bRc蕴涵着aRc。
可以记aRb为(a,b).例如用R表示4-连接。
则自反性蕴涵对角元都是一。
例如R=(a,a),(a,b),(b,d),(d,b),(c,e)可以得到二值矩阵的表示。
由传递性,(a,b)和(b,d)蕴涵(a,d)。
包涵这些隐含关系的集合称为传递闭包记为R+,abcde11000a00010bR=00001c01000d00000e,abcde11010a01010bR+=00001c01010d00000e,例如R=(a,a),(a,b),(b,d),(d,b),(c,e)时,R+=R(a,d),(b,b),(d,d)一般地说,R+=R+RR+R(RR)+Rn,距离量度设有三个像素p,q,r,坐标分别为(x,y),(s,t),(u,v)。
D是距离,满足:
(1)D(p,q)0,D(p,q)=0当且仅当p=q。
(2)D(p,q)=D(q,p)(3)D(p,r)D(o,q)+D(q,r)欧氏空间距离E(p,q)=(x-s)2+(y-t)2)1/24-连通空间距离D4(p,q)=|x-s|+|y-t|8-连通空间距离D4(p,q)=max|x-s|,|y-t|m-连通空间距离Dm(p,q)与路径有关。
2.8算术和逻辑运算图像的四则运算中是逐个像点进行的。
加法常用来去除噪音,减法常用在医学成像,乘除法常用来矫正图像中的灰度阴影。
常用的逻辑运算有
(1)与(AND)
(2)或(OR)(3)补(NOT)以上运算既可用于整幅图像的运算,也可以用于邻域运算。
例如,一点及其-邻域的算术平均作为该点的新值。
现在常用算术和逻辑运算的单元ALU来加速运算。
2.9坐标变换请复习已学过的教材,第3章象素空间关系,图象是由象素组成。
图象以象素为单位建立坐标系。
通常是x轴向左,y轴向下。
图象的坐标变换就是象素的坐标变换。
所谓空间变换就是把象素从一个空间变换到另一个空间的坐标变换。
坐标变换的一个应用是对图象的几何失真进行校正。
一个象素的邻域是指该象素周围的象素集合。
一个象素p的周围有八个象素,它们共同组成了该象素的8-邻域N8(p)。
一个象素与上下左右的四个象素组成了4-邻域N4(p)。
一个象素与四个角上的象素组成了对角邻域ND(p)。
同类灰度的象素间的邻接,连接和连通问题:
两个象素彼此落在对方的4-邻域内,称为4-连接两个象素彼此落在对方的8-邻域内,称为8-连接如果两个象素或者是4-连接,或者不是4-连接但落在对方的对角邻域ND(p)内,那么称为混合连接(m-连接)。
3.1象素间联系,混合连接可以避免8-连接造成的多路问题。
两个象素集合的连通是指它们在指定的邻域内有一条通路。
例如图中的左上角和右下角按4-连接是不连通的;按m-连接是连通的;按8-连接是连通的,但是道路不是唯一的。
两个象素p和q之间的距离即满足下列三个条件的一个函数D:
D(p,q)0,当且仅当p=q时D(p,q)=0.D(p,q)=D(q,p),D(p,q)+D(q,r)D(p,r).,DE(p,q)表示p=(x_p,y_p)和q=(x_q,y_q)之间的欧氏距离DE(p,q)=(x_px_q)2+(y_py_q)21/2D4(p,q)表示1-范数下的距离D4(p,q)=|x_px_q|+|y_py_q|.D8(p,q)表示-范数下的距离D4(p,q)=max|x_px_q|,|y_py_q|.,1,0,1,1,1.4,1,1.4,1.4,1.4,0,1,1,1,1,2,2,2,2,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,最右边的图中象素到边界的距离是多少?
各象素到中心的距离D:
3.2基本坐标变换,在计算机图形学中已经讲过。
基本的坐标变换是平移、伸缩、旋转。
复杂坐标变换是它们的级连。
错切是三种基本变换的乘积吗?
3.3形态变换,3.3.1变换体系1、形态变换及其分类形态变换是将平面区域映射到平面区域的变换。
形态变换,表、规则,解析式,非连续,连续,不光滑,光滑,线性,非线性,仿射变换,欧氏变换,刚体变换,相似变换,平移变换,旋转变换,放缩变换,点p到q的投影变换,可以写成,其中A是22矩阵。
投影变换可以写成非奇异三阶齐次矩阵的形式。
注意:
一般地说,投影是二阶的非线性变换,但是都可以写成三阶矩阵的齐次形式。
仿射变换是一个非奇异的线性变换接上一个平移变换:
或写成,仿射变换的性质,仿射变换把原点映射为(t1,t2,1),一般不再是原点。
所以一般的仿射变换不是线性变换。
如果做一个平移变换,使上面公式中的t=0,那么仿射变换就是任何的非奇异矩阵A。
另一方面,仿射变换的形式也说明它不包含投视投影。
因此,它是三种基本变换的连乘,而具有如下的性质。
(1)仿射变换将有限点映射成有限点。
(2)仿射变换将直线变成直线。
(3)仿射变换将平行直线映射成平行直线。
(4)当区域P和Q是没有退化的三角形时,有唯一的仿射变换A将P变成Q。
特殊的仿射变换:
相似变换当上述仿射变换中A=sR时称为相似变换,其中,s是实数,R是旋转变换。
当s=1和R为正交矩阵时上述仿射变换称为刚体变换,属于等距变换。
当s=1和R为正交矩阵时上述仿射变换称为欧氏变换。
仿射变换的另一种说法:
一个经过平移的非奇异线性变换。
3.4几何失真校正,采样的过程中图象中象素之间的空间位置可能发生变化,产生几何失真。
我们需要校正几何失真。
设原图象在(x,y)处的灰度为f(x,y),失真后变成在(x,y)处的灰度g(x,y)。
因此,校正几何失真包括两部分:
(1)空间变换把点(x,y)恢复到位置(x,y)
(2)灰度插值把灰度g(x,y)恢复到f(x,y)。
空间变换,设点(x,y)与(x,y)的关系是,最简单的情况是线性:
较复杂的情况是二次的:
如果知道s(x,y)和t(x,y)的解析表达式,就可以通过求反函数来得到x和y。
对于一个四边形的空间变换,可以首先确定四个对应顶点,然后用双线性插值的方法:
问题:
怎样用两次线性插值来作呢?
如果几何失真的面积比较大,那么如果用分块来提高校正的效果呢?
灰度插值,尽管(x,y)坐标分量是整数值,但是计算出来的新坐标(x,y)未必有整数分量,而且确定新坐标处的灰度值。
有两种方案:
前向映射和后向映射前向映射:
把从实际采集的失真图象的象素灰度值赋给原始不失真图象的象素。
如果失真图象的象素P映射到Q,Q落在四个原始不失真图象的象素之间,就取这四点处的灰度值作双线性插值,作为象素Q的灰度值。
后向映射:
把灰度值从原始不失真图象的象素P映射到实际采集的失真图象的象素P上。
如果实际采集的象素Q落在四个象素P(非整数点)之间,就取这四点P的灰度值作双线性插值,作为象素Q的灰度值。
插值灰度的计算:
-零阶插值:
取最近的点的灰度-双线性插值:
-三次线性插值:
双线性插值:
设(xi,yi),i=1,2,3,4,是按反时针方向包围Q的矩形的四个象素。
先作,然后,,第4章空域增强技术,图象增强技术是使图象的某种指定效果更好。
例如,使X透视照片更清晰。
分成两大类:
空域增强技术和频域增强技术。
其中,空域指象素组成的空间。
空域增强技术直接作用于象素。
可以表示为g(x,y)=EH(f(x,y)其中f和g分别是增强前后的图象.这个变换不改变象素的位置,仅改变象素的灰度f(x,y)。
4.1空间技术分类,如果变换EH仅用一个点,称EH为点运算(点处理)。
如果变换EH还用到点(x,y)邻域内的点,那么记变换EH为g(x,y)=EH(f(x,y),n),称为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字图像 处理 课件 冈萨雷斯 第三