视觉注意机制理论分析.docx
- 文档编号:12623587
- 上传时间:2023-04-20
- 格式:DOCX
- 页数:12
- 大小:286.83KB
视觉注意机制理论分析.docx
《视觉注意机制理论分析.docx》由会员分享,可在线阅读,更多相关《视觉注意机制理论分析.docx(12页珍藏版)》请在冰豆网上搜索。
视觉注意机制理论分析
Preparedon22November2020
视觉注意机制理论分析
第2章视觉注意机制理论分析
引言
随着信息技术的快速发展,数字图像、视频成为信息的重要载体。
如何高效地处理和分析图像数据,理解图像内容已经成为当前的研究热点。
众所周知,人类可以从复杂的场景中快速地找到我们感兴趣的区域,容易地完成对场景的理解。
这是因为人类视觉系统(HumanVisualSystem/HVS)的信息选择策略,利用视觉注意机制引导人眼在海量数据中注视到显着的区域,并分配资源对重要区域优先进行处理[10]。
多数情况下,当我们的眼睛接收到来自外界的大量的视觉信息,大脑并不能对所有的视觉信息进行同时,而是删除大部分无用信息,筛选出少许感兴趣的重要信息,优先对这些视觉信息进行处理。
计算机作为目前处理信息最快的工具之一,在计算机图像处理中引入视觉注意机制,不仅可以提高数据筛选能力和计算机的运算速度,还在物体识别、目标跟踪、图像分析与理解等领域具有重要的应用价值,这就为汽车车牌的快速处理提供了一个很好的解决方法。
但是目前的计算机视觉与人类的视觉在能力上存在着巨大的差异。
视觉注意机制是涉及生物视觉处理等学科交叉领域,生物视觉与计算机视觉进行的学科交流为理论创新带来了新的思路:
一个可行的方法是从研究人类的视觉系统(大脑)如何感知和识别外界视觉刺激出发,模拟人的视觉注意机制,建立一种有效的视觉注意计算模型,使计算机拥有人类所具备的观察和理解世界的能力,并将其应用于静态场景、动态场景的感兴趣区域检测及场景分类中。
人类视觉感知系统
关于人类的视觉感知系统,尤其是人类自身的视觉神经系统,心理学等相关领域专家已经进行了长期的探索和研究。
通过深入研究探索,人们发现人类视觉神经系统中的视觉感官信息在人脑中是按照某一固定路径来进行传递的,其输入的是视觉刺激,输出的是视觉感知,主要是由视觉感官、视觉通路、视感觉中枢组织和视知觉中枢组织组成的,其分别负责视觉信息的生成、传送和分析。
其中视觉信息分析过程可分为视感觉分析和视知觉分析,如图所示。
图人类视觉感知系统信息感知流程
视觉系统生理结构
人类视觉系统的感觉器宫是眼睛,一般人眼睛直径大约24毫米,近似球形,由眼球壁和眼球两部分组成。
角膜和巩膜位于眼球壁的外层,其中角膜具有屈光作用,能够将光线折射到眼睛内,巩膜保护眼球。
眼球壁的中间层由控制瞳孔大小的虹膜和吸收外来散光的脉络膜组成,内层有视网膜由视锥细胞和视杆细胞组成,有感光作用。
视觉信息的传递过程如下:
视觉刺激从光感受细胞出发,作用在视网膜引起视感觉,再经由视神经、视束以及皮层下中枢,最终到达视皮层,引起视知觉[11]。
所谓的视感觉,指光的明暗,视知觉指颜色、形状等特性。
图人眼结构示意图
眼睛的角膜是透明的、高度弯曲的折射窗口,光线通过它进入人眼内,随后有部分被带色的不透明的虹膜表面所阻挡。
瞳孔随光照强度而改变,光线暗时扩张,在正常的光照条件下它处于收缩状态,以限制眼内因球面像差引起的图像模糊。
一只人眼视网膜中不均匀分布了大约有上亿个视杆细胞及500万个圆锥细胞。
视网膜中心区域是黄斑,圆锥细胞密集程度密度特别高。
视网膜上还有一个盲点,神经中枢细胞轴突从视网膜盲点中离开,组成视神经[12]。
视网膜具有感光层、双极细胞层和节细胞层的三层生理结构,感光层中的感光细胞将视觉信号(光信号)转变为电信号,接着双极细胞分析处理这些转换的电信号,并进行分类成形状、深浅和色彩等信号。
接着节细胞把传入视网膜分类过后不同的信号传输到大脑形成图像。
除了上述细胞外,视网膜还有其它细胞:
水平细胞和无长突细胞。
人眼是包含有限球壁、眼内容物和神经系统等,是一个前后直径大约24毫
米,垂直直径大约23毫米的近似球状体。
眼睛的主要感光系统是眼球壁内层的
视网膜,它由视锥细胞和视杆细胞组成的,视锥细胞主要用于分辨颜色。
我们会
有对外界事物的色觉,其原因在于视网膜上有三种视锥细胞分别感受了蓝色、红
色和绿色。
另外,视杆细胞也是主要用于感受运动物体和弱光[13]。
晶状体富有弹性,中央厚边缘薄,像一块双面凸起的球镜,它的作用是聚焦光线和调节屈光,并且玻璃体充满晶状体和视网膜之间,占据眼内腔的4/5,内含99%的水分,是眼球壁的主要支撑物[14]。
视觉感知系统加工特点
人类视觉感知系统在视觉信息处理过程中,并不是原封不动的传送,而是结合输入信息进行相应的处理,再输出给其他神经元。
人眼的视觉系统只能选择少数显着性信息进行处理,摒弃大部分无用信息。
在视网膜上,每个神经元有不同形式的感受野,并呈现同心圆拮抗的形式[11]。
这种形式根据刺激对细胞的影响分为“on中心-off环绕”和“off中心-on环绕”两种类型。
“on中心-off环绕”类型,当光照充满中央区域时,激活反应最强;当光照充满了周边的区域时,则产生最大的抑制作用。
“off中心-on环绕”由中央抑制区和周边兴奋区组成,与“on中心一off环绕”相反。
大脑皮层上的感受野分简单细胞的感受野和复杂细胞的感受野。
其中简单细胞的感受野也分为兴奋区与抑制区,对刺激的方向和位置有很强的敏感性;复杂细胞的感受野对刺激敏感性取决于刺激的形式,和刺激的位置无关。
一般来说,不同的视觉信息要经过腹侧通路和背侧通路的加工处理操作。
腹侧通路由V1,V2,V3,V4和颞下回组成,主要对刺激信息负责接收。
视觉意识的产生须要腹侧一背侧这二条通路的共同参与。
这两条通路之间相辅相成、互相依赖与作用:
人眼调整视觉注意焦点可以通过目标识别来完成,而视觉焦点可以有效地对目标识别进行指导,两者相辅相成帮助人类理解场景中的事物[15]。
作为一种生理机制,视觉注意与个人主观因素有关,也与眼球感知到的物象、环境条件和心理感受等外部刺激有关,视觉注意流程如图2-3所示。
图人类神经视觉注意识别框图
在视觉处理中,视皮层中腹侧通路和背侧通路对视觉刺激信号的输入和视觉信息的进一步的处理起着重要作用。
腹侧通路中接收的信息由初级视皮层V1区经过V2区和V3区从腹侧延伸到V4和IT区直至颞叶,腹侧通路输入的信息来
源主要是来源于视网膜的P型神经节细胞,该通路主要负责的是物体的识别功能,这也是另外叫“what通路”的缘由[15]。
背侧通路则由初级视皮层V2和V3区从背侧延伸向MT和MST区一直到顶叶后部,它的信息输入源主要由视网膜的M型神经节细胞,也称为“Where”通路,主要负责空间位置的信息。
根据神经生理学的相关研究结果,通过串行和并行的加工机制,可以将形状、颜色、深度和运动的相关视觉信息分离出来,并且在V2区以上层级的视皮层的分离趋向更为明显点[16]。
为比较快速完成不同的视觉任务处理,视通路各个层次上存在着基本互相独立的并行通道。
在人类视觉处理机制中,视网膜读入的信息是存在着反馈的双向传输,大脑中更高层区域都有许多反馈通路到达初级视皮层V1区和V2区,这些不同的反馈通路在一定程度与人类的意识行为有关联。
视觉注意机制模型
视觉注意实质上是一种生物机制,这种机制能够从外界复杂的环境中选出重要的和所需要关注的信息,逐步排除相对不重要的信息,通过这种方式能够将十分复杂的外界视觉场景进行简化和分解,进而在接下来对重要的信息进行进一步处理。
这种机制的优势在于它能够使得我们在十分复杂的外界视觉场景环境中,可以十分迅速的注意所需要关注的重要的信息和物体。
在图像理解和分析中,人类视觉系统的视觉注意使得人们可以在复杂的场景中选择少数的感兴趣区域作为注意焦点(FocusOfAttention,FOA),并对其进行优先处理,从而极大地提高视觉系统处理的效率。
在日常生活中,我们会常常的感受到视觉注意机制的存在。
比如说一幅图像,我们会轻易的发现,墙壁上的小坑和黑点,白色打印纸上的纸张缺陷,蓝色车牌上的车牌号码等等。
图列举了几个关于视觉注意的示例图,当人们观察以下几张图片时,观察者会迅速将自己的注意力集中在左边图中的空心圆、中间图中的实心圆以及右边图中间部分的斜线,这种人眼的选择过程就是视觉注意,而被选中的对象或者区域就被称为注意焦点
图视觉注意机制示例图
【17】。
关于视觉注意机制,研究者们最初从生物神经科学、心理科学等方面进行了大量的探索。
心理学家将视觉注意划分为两种:
一种是以自底向上(数据驱动)的方式驱使的,另一种是以自顶向下(任务驱动)的信息来控制的。
自底向上的视觉注意机制是基于刺激的、与任务无关的,比如在绿油油的草地上有一只白色的羊,大部人会第一时间注意到与周围环境不一样的羊。
自顶向下的视觉注意机制是基于任务的,受意识支配。
比如在机场接人时,我们会立刻看到我们要接的人,而对其他的人则视而不见。
数据驱动的视觉注意机制模型
数据驱动的视觉注意机制的初级计算模型的研究从80年代后就开始成为很热的研究点,Koach等人在1985年提出了这种计算模型的理论框架[18],其中的神经网络理论的焦点抑制机制为众多模型所参考和借鉴。
Milaness等学者也提出了特征显着图的理念并利用中央—周边差分算法进行特征的提取[19],数据驱动的注意模型原理是从输入图像提取多方面的特征,如图片颜色、图像朝向、光照亮度等,并形成各个特征维上的显着图,再对所得显着图进行分析和融合得到兴趣图。
兴趣图中一般可能含有多个待注意的候选目标,通过竞争机制选出唯一的注意目标,并随后在注意焦点之间进行转移。
图数据驱动注意模型的原理流程图
数据驱动的视觉注意机制模型,观察者从场景中的信息开始,外部场景信息源对人的眼睛对进行刺激,人眼对不同的场景信息进行重新组合加工进行信息并行处理。
这种因此注意模型没有先验信息的指导,也没有特定的任务,操作比较简单,处理速度比较快。
数据驱动注意模型也称为自底向上视觉注意模型,对该模型的研究主要是基于Koch和Itti等人提出的特征整合的理论,它具有两大特点[20][21]:
1)数据驱动:
数据驱动注意模型的注意机制与高层知识的观察无关,与底层数据驱动有关,不需要运用人的意识来控制其处理过程。
对输入的图像首先提取一些低级的诸如颜色、亮度、方向等视觉特征,并分别对每一类的特征构造生成相关的显着图。
再采用特征融合的方式把不同的显着图进行特征图合并,在这幅整合的显着图中出现的目标就是引起人类注意的目标[22]。
2)自主加工:
数据驱动的视觉注意模型是一种自动加工过程,不需要先验信息和预期期望,未加入主观意识,对视觉信息的处理速度相对较快,以空间并行方式在多个通道中同时处理视觉信息。
图数据驱动的视觉注意流程
数据驱动注意机制模型通过图像采样、特征提取、注意焦点搜索与描述三个模块的协同操作从输入图像中找到注意目标,形成了可操作性较强且计算速度较快的数据驱动的注意焦点检测方法。
通常我们是将图片信息的亮度、颜色和朝向等不同的特征进行简单的叠加,但是这种简单的叠加方式比较粗糙,和生物视觉处理机制不大相同;而且,为寻找那些仅在整幅图像中占据很小一块面积的期望目标而进行的匹配操作仍然需要进行全局处理,匹配过程比较复杂度,容易造成减少计算浪费。
由于生物视觉系统中各种特征之间的关系更为复杂,目前基于注意机制的感知模型还没有较好的适应算法,特别是对注意机制的任务驱动的研究也不多,导致这种注意机制在目标检测和复杂场景下的跟踪等运用中受到限制。
任务驱动的视觉注意机制模型
任务驱动的视觉注意模型是根据来自具体任务的先验信息,预先建立视觉期望,将期望目标从图像中分离出来,完成图像或是视频场景的感兴趣区域选取,进而对该区域进行后续的处理。
通常情况,优先级较高的场景区域一般包含期望目标值内,这也符合人类视觉注意规律,自顶向下注意模型通常受人的主观意识、主观选择等因素影响,也是目标驱动的主动意识下的主动选择[23]。
这种模型主要在物体特征、场景先验信息和任务需求这三个方面来实现不同目标的注意[24]。
物体特征是指在注意机制模型中不加入颜色、亮度和方向等初级特征,而是加入所要识别的物体中有别于其它场景的特征,例如在一个复杂街道场景中寻找汽车,众所周知汽车有四个轮子,因此在模型中加入轮子的特征后,就可以使模型在搜索汽车时提高效率,较快速的排除其它干扰项。
任务驱动视觉注意机制的场景先验信息是通过统计学得到或是预先给定场景中光流信息或是场景的背景特征;任务需求是指按人类要求加入特定信息等对注意产生影响。
在这种机制下,人眼对注意焦点的选择是由观察任务控制、受意识支配的,视觉信息从观察任务出发,沿着自上向下的方向被处理,这也正式任务驱动(自上而下)注意机制命名的依据[25]。
不同与数据驱动注意机制,任务驱动注意机制的特点表现在[25]:
1)任务驱动:
被作为高层知识的观察任务驱动,我们根据任务需求有意识的控制其内部信息处理过程,从而获得符合视觉期望的注意目标。
2)控制加工:
任务驱动的注意机制是一种控制加工过程,相对于数据驱动,它对视觉信息的处理速度较慢,它是以空间并行方式在单一通道中处理视觉信息的。
图任务驱动的视觉注意流程
任务驱动的视觉注意模型通过给定某个观察任务,能够迅速建立视觉期望,并在该期望的指导下按照一定的优先级顺序有选择地对各个场景区域进行局部验证,进而对其中经过验证确实包含期望目标的场景区域进行局部处理。
通常情况下,那些包含期望目标的场景区域都会由于其符合视觉期望的视觉刺激分布模式而具有较高的优先级,这样可以大大减少匹配操作的计算量,计算效率更高效。
但任务驱动的视觉模型视觉信息处理过程增加了高层知识驱动,包含任务、知识库和视觉期望的控制结构。
知识库作为一种知识经验存储在长时记忆中,是对过去曾经处理过的外部视觉模式及其认知结果的记录和积累,它在任务驱动的注意机制中充当着信息服务中心的角色,不但处理视觉对象之间的联系,而且处理信息描述之间的转换,是连接语意层的当前知识和特征层的视觉期望的桥梁[25]。
视觉期望作为一种知识经验存储在短时记忆中,是对视觉信息处理预期结果的描述,它通过知识库的联系和映射功能获得,具体可能涉及观察尺度、观察范围、对象特征和对象尺寸等众多因素,对任务驱动的注意目标检测提供了直接的和明确的引导信息[25]。
这个过程中知识库中对观察任务的描述与处理是一个难点问题且不可回避,此外在图像信息处理领域并没有出现完善的自动处理方法,往往由于处理任务不明确而无所适从。
总体来说,数据驱动的优点是适用面广,缺点是针对性弱,当处理任务十分明确时,对数据处理仍然墨守陈规。
任务驱动的注意机制针对性较强,但适用面较窄,当处理任务不明确时,对数据处理会无所适从。
下文中将介绍这两种模型的应用,并展示取得的成果,由于任务驱动注意机制的知识描述部分目前还是一个争论很大的难点,本文的关于视觉注意机制模型的应用将围绕数据驱动的视觉注意模型展开。
基于视觉注意机制模型的应用
视觉注意机制模型的应用十分广泛,也是目前研究的热门技术之一,例如视觉注意机制模型在图像检索方面的应用,在图像分类方面的应用,在平纹织物疵点检测方面的应用、带钢缺陷动态检测中的应用等等,本文将带钢缺陷动态检测中的应用作为一个典型的模型应用范例加以介绍。
在带钢缺陷检测上的应用
视觉注意机制模型在带钢检测上的应用以人类视觉注意机制为基础,提出基于视觉注意机制的带钢缺陷检测算法。
首先,提取输入图像的颜色特征:
其次,对缺陷颜色特征进行预判,对显性缺陷图像采用阂值分割方法得到缺陷注意区域,对隐性缺陷图像提取的亮度和方向特征进行高斯滤波形成特征子图;然后,对滤波后的特征子图进行中央周边差操作构建特征差分子图,通过对特征差分子图归一化处理形成特征显着图;最后,利用阂值分割和区域生长分割出缺陷目标[26]。
实验结果表明,这种方法利用颜色特征的预判能够快速地检测带钢图像的缺陷,可以满足实时在线检测要求,提高检测效率,也问下文我们对汽车车牌的快速检测提供了一个方法借鉴。
本章小结
本章首先简单介绍了视觉注意机制的作为一种新技术在图像处理方面的优势,通过描述视觉注意机制模型与生物视觉的关系,介绍了生物视觉系统识别的基本原理,模拟人的视觉注意机制。
随后本文又介绍了两种常见的注意机制的模型,分别是数据驱动和任务驱动视觉注意机制模型,并对两种模型的优缺点进行分析,选择基于数据驱动(自底向上)的视觉注意模型作为主要研究对象,例举了数据驱动视觉注意模型在工业带钢检测的应用,结果表明此种模型能达到预期检测效果,可操作性较强且计算速度较快。
为此,本文对基于数据驱动的视觉注意机制模型作了改进,建立一种有效的视觉注意计算模型,使计算机拥有人类所具备的观察和理解世界的能力,并将其应用汽车车牌的快速检测中。
10、,[J].、任璐.基于视觉注意机制的数字水印技术研究[D].西安电子科技大学硕士论文,2011
12、着,林学,王宏等译fJl.计算机视觉:
一种现代方法,2004.
13、李文甲.基于视觉注意模型的运动目标检测技术研究[D].大连理工大学,2010.
14、陈媛媛.图像显着区域提取及其在图像检索中的应用[D].,2006.
15、LaycockRCrossAJ,LourencoT,
withtransientonsetbutnotwithrampedonset[J].BehavioralandBrainFunctions,2011,7
(1)34.
16、李崇飞.基于视觉注意的显着区域检测算法研究[D].国防科学技术大学,2011
17、赵健.基于视觉注意机制的车辆检测算法的研究[D].吉林大学硕士学位论文,2013
18、KochC,:
towardstheunderlyingneuralcircuitry[M]19、:
frombiologicalevidencetocomputerimplementation[D].UniversityofGeneva,1993.
20、[D].CaliforniaInstituteofTechnology,2000.
21、GoodaleMA,[J].Trendsinneurosciences,1992,15
(1):
20-25.
22、李福.基于生物视觉注意机制的视频图像中感兴趣目标提取方法研究[D].中国石油大学.2011.
23、BaluchP,[J].Trendsinneurosciences2011,34(4):
210-224.
24、陈文雍.一种基于特征融合的视觉注意计算模型[D].南京大学.2013.
25、单列.视觉注意机制的若干关键技术及应用研究[D]中国科学杖术大学博士学位论文.2008
26、徐帅华等.视觉显着性模型在带钢缺陷动态检测中的应用[D]西安工程大学学报.2014年12月.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 视觉 注意 机制 理论 分析