规范化切割和图像分割.docx
- 文档编号:1620792
- 上传时间:2022-10-23
- 格式:DOCX
- 页数:20
- 大小:867.51KB
规范化切割和图像分割.docx
《规范化切割和图像分割.docx》由会员分享,可在线阅读,更多相关《规范化切割和图像分割.docx(20页珍藏版)》请在冰豆网上搜索。
规范化切割和图像分割
规范化切割和图像分割
摘要:
我们提出了一种新的方法来解决视觉中的感知分类问题。
这种方法的目的在于提取图像的总体印象,而不关注局部特征或它们在图像数据中的一致性。
我们将图像分割视为图的分割问题,并为分割图形提出了一个新的总体准则——规范化切割。
规范化切割准则既权衡了不同分组之间所有的相异点,也权衡了分组之内的所有相似点。
我们说明了一个基于广义本征值问题的高效方法可以用来最优化这个准则。
我们已经将这个方法运用于静态图形和运动序列的分割之中,结果令人鼓舞。
索引词:
分类,图像分割,图分割
1简介
将近75年以前,魏尔泰墨指出了视觉中感知分类和组织的重要性,并给出了几种关键因素,如相似点、邻近性和良好连续性,这些都通往视觉分类。
然而,时至今日,很多感知分类中的计算问题仍然没有得到解决。
在本文中,我们具体针对图像分割问题提出一种解决方法的总体框架。
图像域I可以有多种分割方法,而我们又该如何选取正确的方法呢?
我们需要考虑两个方面。
第一,正确答案不一定是唯一的。
贝叶斯观点是适用的——在以往世界知识的背景下,存在着多种解释。
难点当然在于如何具体说明以往世界知识。
其中一些是低级的,比如亮度、颜色、纹理或运动的相干性,而另一些同样重要的是关于物体或物体模型的中级或高级的对称性。
第二,分割是内在分级的。
因此,有必要考虑一个与分级分割相一致的树形结构,而不是简单的“平面”分割。
这就说明基于低级线索的图像分割不能也不应该用于寻求完全的最终的“正确”的分割。
运用低级的亮度、颜色、纹理或者运动属性的相干性的目的在于寻求分级分割。
中级或高级知识可以用来确认这些分类或者为深入考虑选取一些分类。
这些考虑应该能够得到更深层地再分配或分类。
关键是在于图像的分割是从上而下完成的,就好像一个画家在绘画时首先描绘主体部分再深入细节一样。
以往的相关文献中,聚类、分类和图像分割问题是巨大的。
聚类群落给我们提供了聚集的可分的算法;在图像分割中,我们有基于范围的合并和分离算法。
我们倡导的分级分割方法构造了一个树——系统树图。
这些思想来自于二十世纪70年代(或更早),80年代开始运用马尔可夫随机场(MRF)和变分公式。
MRF和变分公式也暴露了两个基本问题:
1.将要最优化的准则是什么。
2.有没有高效的算法来实现最优化。
很多准则都因为无法运用高效的算法找到它的最小值而被放弃——贪心法或梯度下降法不能使这些高维度非线性问题实现整体最优化。
我们的方法大部分与图论中的分类相关。
任意特征空间中的点由一个加权无向图G=(V,E)表示,其中的节点是特征空间中的点,每对节点之间都有边。
每边上的权重w(i,j)是节点i和j之间相似性的函数。
在分类时,我们将顶点分为不相交的集合V1,V2,…,Vm,使得在Vi内各顶点之间的相似性最大,而不同的集合Vi和Vj之间相似性最低。
为了分割图,我们提出了两个问题:
1.好的分割精确准则是什么。
2.如何高效地计算得到这个分割。
在图像分割和数据分类群落中,很多先前的研究中运用了最小生成树和有线邻近集合的方法。
虽然运用了高效的计算方法,但分割准则大都基于图的局部特征。
由于感知分类目的在于从图像中提取总体印象,就像我们以前看到的,这个分割准则往往不能达到这一主要目的。
在本文中,我们提出了一个新的图论的准则,从而衡量一个图像分割的好坏——规范化切割。
我们在第2部分中介绍和证明这个准则。
这个准则可以最小化为广义特征值问题。
可以运用特征向量为图像构造好的分割,而且这个过程可以根据需要递归运用(2.1)。
第3部分给出了该算法各个步骤的详细解释。
在第4部分中给出了实验结果。
规范化切割准则的公式化和最小化大量借鉴了频谱图论(第5部分)。
其与计算机视觉研究的关系将在第6部分讨论。
与基于特征向量分割方法的比较将在6.1中给出。
我们在第7部分中得出总结。
2类图分割
一个图G(V,E)可以简单地去掉两部分之间的边,从而被分为两个不相交的集合A,B。
A∪B=V,A∩B=Φ。
这两个部分之间的分离程度可由被去掉的边的权重来计算。
运用图论的语言,这称为cut:
(1)
最优的切割方法是使cut的值达到最小。
虽然切割的方法数量时指数级的,但寻找最小cut是一个已经得到充分研究的问题,并且有高效的算法来解决这一问题。
吴和莱希基于最小cut准则提出了一种聚类的方法。
具体来说,他们将图分成k个子图,使得各子图之间的最大cut达到最小。
这个问题可以通过递归的找到已知部分的最小cut来解决。
如同吴和莱希的研究,可以运用这个整体最优准则来为一些图像构造好的分割。
然而,吴和莱希也意识到,最小切割准则偏向在图中切割单独的节点。
这一点并不奇怪,因为
(1)中对cut的定义使得cut随着被分割的两部分之间边的数量的增加而增大。
图1显示了一个实例。
假设边的权重与两点的距离成反比,我们可以看到分离出n1或n2的cut的值很小。
实际上,任何一个将处于右半部分的单独节点分割出去的cut的值都比将左右两部分分割开来的cut的值小。
图1
为了避免这个问题,我们提出了一个新方法来分解两个部分。
我们的方法将cut作为图中所有与节点相关联的边的一部分来计算,而不是考虑连接两部分之间边的权值。
我们称这种分解方法为规范化切割(Ncut):
(2)
其中是A中节点到图中所有节点的边地权值之和,类似的可以定义assoc(B,V)。
有这个定义可知,那些只分离出单独一个节点的方法得不到小Ncut值,这是因为这个cut包含了大部分的边的权值。
对于图1中的情况,对于n1的cut1包含了所有的权值。
同理,对于已知的分割,我们可以在分类内定义一个描述规范化关联的值:
(3)
其中assoc(A,A)和assoc(A,B)分别是A和B中节点间的边地权值的总和。
我们可以看到,这是对分类内各个节点之间关联性的表征。
这种分割的关联性和分离性的定义方法有另一个重要的性质,它们之间有着自然的联系:
如此一来,这两种分割准则,使分类间的分离性最小并使分类内的关联性最大,实际上是一致的,并可以同时得到满足。
在我们的算法中,我们将利用这种规范化切割作为分割准则。
然而,最小化规范化切割即使对于特殊的网格图来说也是NP完全的。
证明可以在附录A中看到。
但是,当我们在实际值域中运用规范化切割时,可以找到一个高效的近似离散的解决方法。
2.1计算最优分割
已知一个图V的点被分为两个集合A和B,令x为N=|V|维的指示向量,如果点i属于A就令xi=1,其他情况令xi=-1。
令d(i)=Σjw(i,j)为点i到其他点的关联值。
我们可以将Ncut(A,B)写成:
令D为NΧN对角矩阵,对角线上为d,令W为NΧN对称矩阵,其中W(i,j)=wij,
令I为NX1的全1向量。
由于和分别是xi>0和xi<0的指示向量,故我们可以将4[Ncut(x)]写成:
令
我们可以将以上等式扩展为:
省略最后一个常数项,因为在这里它等于0,从而
令b=,由于=0,上式化为
令y=(1+x)-b(1-x),易得
(4)
由于而且
综上所述可得,
(5)
其中y(i)∈{1,-b},yTDI=0。
注意到以上表达是瑞利商。
如果y是实际数值,我们可以通过求解广义特征向量系统使(5)最小化,
(D-W)y=λDy(6)
然而,对于y有两个限制,这两个限制来自于相应的指示向量x。
第一,考虑yTDI=0。
这一限制在解得广义特征系统时自动得到满足。
首先将(6)变形为标准特征系统,同时相应的条件得到满足。
将(6)改写为
D-1/2(D-W)D-1/2z=λz(7)
其中z=D1/2y。
易知z0=D1/2I是(7)的特征值为0的特征向量。
另外,D-1/2(D-W)D-1/2对称半正定的,这是因为(D-W)是拉普拉斯矩阵。
因此,实际上z0是(7)的最小特征向量,而且(7)的所有特征向量之间都是正交的。
特别的,第二小的特征向量z1与z0正交。
将其代入广义特征系统,我们可以得到1)y0=1是特征值为0的最小的特征向量,2)0=z1Tz0=y1TDI,其中y1是(6)的第二小的特征向量。
现在说明瑞利商的一个特点:
令A为实对称矩阵。
限定x与前j-1小的特征向量x1,…,xj-1,商由下一个最小的特征向量xj实现最小化,且其最小值是相应的特征值λj。
我们得到的结果是:
(8)
由此可得
(9)
因此,广义特征系统(6)第二小的特征向量是规范化切割问题的实值解。
这不一定就是我们所需要的解的原因是第二个限定条件不能自动得到满足。
实际上,为了使优化过程得以实现,放宽这个限定是有必要的。
在第3部分我们将讨论如何将这个实值解化为离散形式。
类似的方法可以证明第三小的特征值的特征向量是对前两部分的分割达到最佳的实值解。
实际上,这证明了如何分割已经存在的图,每次用下一个最小的特征值。
然而,实际情况中,随着特征向量的选取和必须满足正交的条件,从实值解到离散解得近似误差不断积累,因此基于较大特征向量的解并不可靠。
最好在子图中分别计算求解。
可以注意到,虽然(6)的第二小的特征向量y只是规范化切割解的近似,但它使以下问题实现了最小化:
(10)
实数域d(i)=D(i,i)。
总体来说,这要求指示向量y为点i和点j取相近的紧耦合值(大wij)。
总结来说,我们建议对图形分割运用规范化切割准则,同时我们说明了如何通过解广义特征值问题来高效的计算这一准则。
3.分类算法
该分类算法包含以下步骤:
1.已知一个图像或图像序列,构建有权重的图G=(V,E)并使边上的权重表示其所连接两点的相似度。
2.求解(D-W)x=λDx的最小特征值的特征向量。
3.用第二小的特征值所对应的特征向量分割图。
4.决定这个已分割的图是否需要进一步分割,如果有必要就递归的运用该方法进行分割。
该分类算法及其计算复杂度可以由以下例子阐述。
3.1实例:
亮度图像
图2所示的我们希望分割的图像。
步骤为:
1.构造加权图G=(V,E),每个像素为一点,并用边两两连接。
边上的权值应该反映这两个像素点属于同一对象的可能性。
利用像素点的亮度和空间位置,我们可以确定两个像素点i和j之间的边的权值:
(11)
2.解最小特征值所对应的特征向量
(12)
如上所示,(12)中的广义特征空间可以变形为标准特征值问题
(13)
解一个标准特征值问题的所有特征向量的运算复杂度为O(n3),其中n是图中点的个数。
对于一幅图像中的像素点的个数来说,这样的运算是不可行的。
图2
然而,我们的图像分割方法有如下特性:
1)图像中的点通常是局部相关的,因此所得到的特征系统是稀疏矩阵,2)对于图像分割,只需要解得前几个特征向量,3)对特征向量的精度要求比较低,通常只需要确定正负号。
如此,我们的问题可以利用Lanczos方法来求解。
Lanczos算法的运行时间为O(mn)+O(mM(n)),其中m是矩阵向量计算复杂度的最大值,M(n)是Ax的计算开销,其中A=D-1/2(D-W)D-1/2。
注意到A的稀疏结构与权值均值W相同。
由于W是稀疏矩阵,所以A也是,同时矩阵向量的计算量为O(n)。
为了解释这一性质,我们考虑A的一行和向量x的内积。
令yi=Ai·x=ΣjAijxj。
对于像素点i,Aij只有在点j与i在空间上邻近才不为0。
因此,对于每个Ai·x只需要做一点数量的运算,对于Ax来说总的计算量为O(n)。
常数因子是由一点的邻近空间的大小决定的。
大体上说,对于一个加权图,我们可以通过随机的选取边来减小一个点的关联性。
经验来说,当邻近点基本不影响系统的特征向量的解时,每个点可以去除90%的与其相关联的边。
综上所述,每个矩阵向量的计算量为O(n),同时n很小。
m依赖于很多因素。
在图像切割中,m通常小于O(n1/2)。
图3显示了广义特
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 规范化 切割 图像 分割