高维数据流形的低维嵌入及嵌入维数研究Word格式.docx
- 文档编号:22254042
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:15
- 大小:82.82KB
高维数据流形的低维嵌入及嵌入维数研究Word格式.docx
《高维数据流形的低维嵌入及嵌入维数研究Word格式.docx》由会员分享,可在线阅读,更多相关《高维数据流形的低维嵌入及嵌入维数研究Word格式.docx(15页珍藏版)》请在冰豆网上搜索。
Keywords:
Isomap;
toroidalmanifold;
isometricmapping;
embeddingdimensionality
摘要:
发现高维数据空间流形中有意义的低维嵌入是一个经典难题.Isomap是提出的一种有效的基于流形理论的非线性降维方法,它不仅能够揭示高维观察数据的内在结构,还能够发现潜在的低维参数空间.Isomap的理论基础是假设在高维数据空间和低维参数空间存在等距映射,但并没有进行证明.首先给出了高维数据的连续流形和低维∗SupportedbytheNationalNaturalScienceFoundationofChinaunderGrantNo.60373029(国家自然科学基金)
作者简介:
赵连伟(1976-),男,河南驻马店人,博士生,讲师,主要研究领域为人工神经网络,流形学习;
罗四维(1943-)男,博士,教授,博士生导师,主要研究领域为人工神经网络,模式识别,并行计算;
赵艳敞(1977-)男,博士,主要研究领域为模式识别,数据挖掘;
刘蕴辉(1976-)女,博士生,主要研究领域为人工神经网络,信息几何.
1424JournalofSoftware软件学报2005,16(8)参数空间之间的等距映射存在性证明,然后区分了嵌入空间维数、高维数据空间的固有维数和流形维数,并证明存在环状流形高维数据空间的参数空间维数小于嵌入空间维数.最后提出一种环状流形的发现算法,判断高维数据空间是否存在环状流形,进而估计其固有维数及潜在空间维数.在多姿态三维对象的实验中证明了算法的有效性,并得到正确的低维参数空间.
关键词:
环状流形;
等距映射;
嵌入维数
中图法分类号:
TP391文献标识码:
A
在不同距离、不同方向,或在不同姿态和光照强度下,同一个对象能够形成多种不同的图像.一个对象所有图像的集合可以看作是以位置、尺度、姿态、光照等为参数的一个高维空间流形.人类能够感知由同一个对象产生的变化着的信号,并能够正确地识别.为了更精确地刻画图像和其他感知刺激的变化,采取数学方法是非常必要的.如果每一个像素都对应于空间中的一维,那么一幅图像就可以看作高维图像抽象空间中的一个点,一个对象在不同方向上所有图像的集合就是图像空间中的一个连续流形.文献[1]认为,流形是感知的基础,经过自然界长期进化的人脑能够用流形的方法表示对外界对象的感知.大量神经元对信息的编码方法成为我们对人脑表示方法研究的基础,如果一个神经元的触发率对应于一维,那么图像信息就能够由与像素个数相等的神经元来表示.神经生理学家已经发现,群体中神经元的点火率都能够表示为几个变量的连续函数,比如人眼转动的角度和头旋转的方向,这说明群体活动被限定在低维空间光滑流形上,所以在理解人脑如何从神经动力学中产生感知时,流形的低维嵌入起到非常重要的作用.
很多科学家都在寻求发现嵌入在高维数据中有意义低维结构的方法,对流形学习算法的研究引起了广泛的兴趣.对于由一个对象在不同参数(如不同光照和姿态)下的数字图像组成的流形M,其参数的个数未知,相应的参数值也未知.但是对于图像理解和图像编码这样的问题,学习图像流形的结构和发现潜在的参数又是非常有用的,比如人脸识别中不同表情的人脸和目标检测中目标的姿态等.利用分散样本进行流形学习一直是一个令人关注的难题,现在也已经有了一些高维数据低维表示方法,比如主成分分析(PCA)、独立分量分析(ICA)、Fisher判别分析(FDA)、多维尺度分析(MDS)等.这些大都是线性的方法,所以对于那些非线性结构的数据就无能为力,而非线性降维技术则能产生较好的结果.LLE[2]和Isomap[3]是两种有代表性的非线性降维方法.Roweis和Saul提出的LLE算法能够实现高维输入数据点映射到一个全局低维坐标系,同时保留了邻接点之间的关系,这样,固有的几何结构就能够得到保留.此算法不仅能够有效地发现数据的非线性结构,同时还具有平移、旋转等不变特性.Tenenbaum等人提出的Isomap算法首先使用最近邻图中的最短路径得到近似的测地线距离,代替不能表示内在流形结构的Euclidean距离,然后输入到多维尺度分析(MDS)中处理,进而发现嵌入在高维空间的低维坐标.在人脸和手势的实验中,Isomap发现了存在于高维空间中的潜在低维参数空间.Donoho等人[4]用人工合成(实验者可以事先知道其潜在的参数,比如平移、旋转等)的数据用Isomap算法进行测试实验,实验结果表明,Isomap能够准确地发现图像流形潜在的参数空间,并在自然图像(人脸图像)中不同姿态和亮度等潜在的未知参数下也可得到较好的结果.Donoho等人还拓展了LLE算法,提出HLLE算法[5],能够发现流形上局部的潜在等距映射参数.张长水等人[6]在LLE的基础上提出一种从低维嵌入空间向高维空间映射的方法,并在多姿态人脸图像的重构实验中得到有效的验证,进一步完善了非线性降维方法.虽然这些算法都要求知道嵌入空间的维数,但很少有文献对它进行分析和估计.文献[6]使用的是文献[3]中的方法,而在文献[3]中只是通过剩余方差与维数的关系来估计d值的范围.MarziaPolito和PietroPerona[7]提出了应该首先知道嵌入空间维数,但没有给出一个有效的方法.
赵连伟等:
高维数据流形的低维嵌入及嵌入维数研究间.最后总结全文.
1425
1Isomap——非线性降维算法
1.1Isomap的主要思想及算法步骤
Tenenbaum等人提出的Isomap算法[3]的主要思想就是首先计算流形上的测地线距离,然后应用MDS算法,发现嵌入在高维空间的低维坐标,这样Isomap就通过数据间的测地线距离,保留了数据固有的几何分布结构.下面给出标准Isomap算法,共3步:
Step1.构建输入空间X中流形M上所有数据点xi,i=1,2,…,N,Xi∈RD的邻接图,距离定义为Euclidean距离dx(i,j),邻接关系定义为ε球或K最近邻.
Step2.通过计算图G上两点间的最短路径dG(i,j)估计流形M上测地线距离dM(i,j),得到的矩阵DG={dG(i,j)}为图G上任意两点间的最短路径距离.
Step3.应用MDS算法,构建d维Euclidean空间Y上的嵌入.详见文献[3].Isomap的有效性在人工合成数据和自然图像的实验中已经得到验证.1.2使用Isomap降维实验
在文献[3]中,使用Swissroll数据集说明Isomap近似计算测地线距离以及降维的过程,并得到较好的结果.这里使用Cylinder数据集进行实验,如图1所示,随机选择1000个数据点,使用Isomap算法降维,其中每一数据点的最近邻连接数k=7,投影到二维空间.图2为得到的维数和剩余方差的关系,可以看出,在维数大于2时,随着维数的增加,剩余方差并没有减少.
Fig.1TheCylindermanifoldsFig.2Therelationshipbetweendimensionalityand
residualvarianceapplyingIsomap
图1Cylinder流形图2对Cylinder数据集应用Isomap得到维数和剩余方差的关系
图3给出Isomap对二维投影结果,可以看出Cylinder的投影图上只保留了圆面上的距离,高度上的距离丢失,而不同于Swissroll的投影图很好地保留了邻接图中的最短路径距离,这表明Isomap很难对Cylinder进行降维.这就产生一个问题:
是Isomap降维不适用于所有的光滑流形,如像Cylinder之类的流形,还是另有其他原因?
302010−−10
20
30
−−30−20−100
Fig.3Two-DimensionalprojectionsfromthecylinderbyIsomap
图3应用Isomap得到Cylinder数据集的二维映射图
1426JournalofSoftware软件学报2005,16(8)2光滑流形与低维参数空间等距映射存在性
Isomap算法基础就是假设光滑流形M和参数空间(Rd的子集)之间存在等距映射,使我们能够找到内在的映射参数.如果有满足一定条件的等距映射存在,Isomap就适用.文献[4]给出了存在等距映射的条件(定理1),并证明了一些特定条件下等距映射存在,但是对于一般光滑流形与低维参数空间之间等距映射的存在性没有给予证明.
定理1.假设参数图像族f(θ):
R2→R,f(θ)属于L2,且在L2上可微,其中θ∈Θ,Θ为参数空间.如果总存在一个c>
0,使得f(θ0)和f(θ1)间的测地线距离可以由下式表示:
G(θ0,θ1)=c1−θ0L2,
则(Θ,G)和(Θ,||⋅||)之间存在等距映射,且Isomap成立,并能发现潜在的参数空间.
这里,f(θ)可以看作是光滑流形M上的点,所以此定理对于一般光滑流形情况同样适用.这样,只要能够证明一般光滑流形与其低维参数空间存在等距映射,就可以得到Isomap对一般光滑流形适用的结论.
光滑流形M上两点y0,y1之间的测地线距离为连接两点最短的曲线长度,表示为
d(y0,y1;
M)=inf{l(γ):
γ(0)=y0,γ
(1)=y1}
(1)
命题.对于任意光滑流形M⊆Rd,Θ⊆Rm为其低维参数空间,则(Θ,G)和(Θ,||⋅||)之间存在等距映射.
在证明之前,我们首先给出共形映射以及等距映射的定义.
定义1.ϕ:
Θ→M称为共形映射,如果ϕ是双可微映射,如果对于任意的θ∈Θ,具有保角性和伸缩不变性,即对于Θ上任意的切向量v和w,都有
(dϕθv)T(dϕθw)=ϕ′(θ)vTw,
其中,′(θ))>
0称为伸缩率.如果对所有的θ∈Θ,都有′(θ)=1,则ϕ称为等距映射.
证明:
对高维流形M⊆Rd,令Θ⊆Rm为其参数空间,则存在映射ϕ:
Θ→M,即M=ϕ(Θ).
流形M上测地线距离可以表示为
l(γ)=∫′(t)01L2dt,
其中,γ:
[0,1]→M.令Γ:
[0,1]→Θ是Rm上光滑曲线,则任意光滑曲线γ:
[0,1]→M能够表示为γ(t)=ϕ(Γ(t)),那么,曲线的长度
l(γ)=∫′(Γ(t))dt=∫Jϕ(Γ(t))Γ′(t)dt
(2)0011
考虑非线性共形映射ϕ,由共形映射的定义可知,在曲面上的切线向量之间的夹角和参数空间中相应的向量之间的夹角相等,所以无论空间Θ经映射ϕ在M上如何变形,M上的测地线距离和Θ上的Euclidean距离都保持一定的关系.
又因为ϕ:
Θ→M为两个流形上的共形映射,Γ为Θ上的曲线,则对任意的点x∈Θ,切向量为v,切映射为dϕx,那么在M上点ϕ(x)的切向量为dϕxv.如果v是Θ上Γ的方向,dϕxv就是M上曲线ϕ(x)的方向.因为ϕ:
Θ→M为共形映射,所以有
Jϕ(θ)TJϕ(θ)=ϕ′(θ)Im,
这里,Im是一个m阶单位矩阵.代入式
(2),曲线长度可以表示为
l(γ)=∫1
0′(Γ(t))Γ′(t)dt(3)
因为在Rm中任意两点之间的最短路径等于连接它们的直线长度,若Θ为开的凸集,则在光滑曲线上有Γ(t)=θ0+t(θ1−θ0),其中θ0为起点,θ1为终点,t∈[0,1].代入式(3)有
0′(Γ(t))1−θ0dt=∫1
0′(Γ(t))dt1−θ0(4)
如果对于任意的θ∈Θ,都有ϕ′(Γ(t))=c为常数,那么点y0,y1∈M之间的测地线距离为
M)=1−θ0.
由定理1可知,(Θ,G)和(Θ,||⋅||)之间存在等距映射.所以对于任意光滑流形M可以通过计算M上点之间的
测地线距离,计算Θ上点之间的Euclidean距离.1427□
从上面的讨论可以看出,测地线距离对于研究高维空间中的流形是非常重要的.(Θ,G)和(Θ,||⋅||)之间如果存在一个等距映射,那么就可以从M中获得其潜在的参数空间Θ和参数值θ,并重新描述参数空间.然而,计算测地线要经由ϕ及其Jacobian矩阵,但一般情况下ϕ很难求出,这里我们只是证明了其存在性.
在证明中,需要假设Θ是一个开的凸集,原因在于,如果流形上有一个洞,测地线曲线需要绕这个洞,即使有
Jϕ(θ)TJϕ(θ)=c(θ)Im,
M)=c1−θ0
也不一定成立.虽然在非凸的情况下,等距依然成立,但是成比例的性质不再成立.当c为任意函数时,就可以进行任意的拓扑映射.只是恒等于1时,ϕ为等距映射,要求更为严格.这也说明了为什么虽然Cylinder数据集在拓扑上和二维是同胚的,但二者不存在等距映射,所以不能利用等距映射投影到二维空间.
测地线距离是流形的全局性质,而等距映射则是每个点附近的局部性质.测地线距离和参数空间中的Euclidean距离成比例是等距的结果,所以Isomap使用等距映射,得到高维流形的低维嵌入空间,一个前提条件就是要能够覆盖其全局性质,即要知道低维嵌入空间的维数.
在很多算法中都要求预设低维嵌入空间维数作为参数,对其参数分析和估计却很少涉及.能够决定嵌入空间维数的一个基本概念是高维数据集的固有维数,反映的是流形的固有性质,对固有维数的研究也有很多算法
由此可见,Isomap能够发现光滑流形上的潜在参数空间,但在Cylinder数据集的实验中,失败的原因在于混淆了流形维数和嵌入空间维数,使用了未能覆盖其全局性质的流形维数.如何利用拓扑方法研究固有维数,然后确定嵌入空间维数呢?
3一种环状流形发现算法
拓扑方法是估计数据流形维数的常用的重要方法之一.一般情况下,Rm中的正则曲线γ:
(a,b)→Rm是一维嵌入子流形,同样,Rm中的正则曲面是Rm的二维嵌入子流形.而Whitney定理同时表明,任意高维Euclidean空间的嵌入子流形囊括了所有可能的m维光滑流形,所以嵌入子流形的状态是十分复杂的.
定义2.n维球面Sn={x:
x∈Rn+1,|x|=1}为n维光滑流形,一维单位球面S1就称为一维光滑流形,r维环面Tr定义为r个S1的积流形Tr=S1×
...×
S1.
拓扑学已经证明了Sm不可能与Rm同胚,比如圆不可能与直线同胚,球面也不可能与平面区域同胚,存在环面的低维流形其固有维数大于拓扑流形维数的.RobertPless和IanSimon[12]对环状流形进行了研究,并针对球形、柱形、环形等流形,利用测地线距离,分别给出了拓展的MDS算法,嵌入到低维空间中,但其要求首先要知道流形的形状,但是否存在环状流形以及如何判断流形形状却没有提及.本节在流形定向理论的基础上提出一种环状流形发现算法,根据此算法能够判断高维数据空间中是否存在潜在的环状流形,并且可以根据流形上存在的环状,通过拓扑维数进一步估计其固有维数.
定义3.设M是m维的光滑流形,如果存在M的一个允许的坐标卡集A0={(Uα,ϕα)},使得{Uα}构成M
−1的开覆盖,并且当Uα∩Uβ≠∅(不为空)时,坐标变换ϕβoϕα:
ϕ(UαIUβ)→ϕβ(UαIUβ)的Jacobi行列式
−1i⎛∂(ϕβoϕα)det⎜⎜∂xαj⎝⎞⎟>
0
(2)⎟⎠
则称M是可定向的m维光滑流形.
若M是一个可定向的连通光滑流形,在任意一点p∈M的切空间TpM上指定一个定向,则通过该定向沿着从点p出发的任意一条路径的传播在每一点q∈M的切空间TqM上唯一地确定了一个定向.对于M中任意一条闭路径γ:
[0,1]→M,即γ(0)=γ
(1),使得在Tγ(0)M中的一个定向λ沿着γ的传播在Tγ
(1)M=Tγ(0)M上都能够获
1428JournalofSoftware软件学报2005,16(8)得相同的方向,这样就能够发现流形上的环状.对于空间曲线(面),取得标架场{p;
e},使得e为曲线(面)的切向量.很明显,这个标架场给出了切空间的定向沿着曲线EF的连续延拓.如果点p沿着该曲线从E到F,再回到E时,e和原来的方向是一致的,则存在环状流形.
下面给出一种环状流形发现算法的步骤:
设输入空间X中流形M上所有数据点为xi,i=1,2,...,N,Xi∈RD,
Step1.构建邻接图.方法同Isomap算法Step1.对于所有数据点构成的图G,找到每个点的邻接点.
Step2.选择p=Xi为起始点.
Step3.选取Xik个近邻中的一个Xj,计算空间标架场{p;
e},计算为流形方向e=Xj−Xi,并令q=Xj.
Step4.发现Xj的k个近邻中与切空间方向相同的方向Xk,并令q=Xk;
如果不存在,则执行Step3,选择下一个近邻.
Step5.如果q能够沿着一定的路径回到起始的样本点Xi,则存在从Xi开始的环状流形.
Step6.选择下一个p=Xl为起始点,重复Step2~Step5,直到选遍所有n个数据点为止.
用n表示样本点的个数,k表示每个节点的近邻数.以其中一点为起始点进行一趟循环在最坏情况下的O(kn)时间来完成,所以算法选遍n个样本点最坏情况下的时间复杂度为O(kn2).另外,本文提出的环状流形发现算法能够发现高维数据空间中的低维环状流形,其理论基础是取得定向流形上某处的标架场{p;
e},而标架场的取得并不受维数的限制.但是对于高维流形上的复杂数据来说,无论是从数值算法还是从实际应用来讲都有一定的困难,一是因为算法使用图的最短路径逼近测地线距离,需要大样本;
二是因为随着维数的增加,对样本量的需求也呈指数增加.本文提出的算法主要适用于高维观察数据嵌入的低维子流形情况.
4仿真实验
……………
Fig.4Exampleofmulti-poseobjectimages
图4多姿态对象图像示例
实验2.选定一个对象从0°
~360°
全部的72幅图像样本,首先使用环状流形发现算法,结果发现存在一条环状路径,所以不能投影到一维空间.这时考虑投影到更高维的空间——二维.使用Isomap算法,投影结果如图6
所示.图中发现旋转一周的图像流形投影在二维空间形成一个近似于圆的流形.
1429
−−1−2
Fig.5Outputdatapointsinone-dimensional(left)andtwo-dimensional(right)embeddedspaceand
thecorrespondingimagesrespectively
图5投影到一维(左)和二维(右)空间数据点和相应的对象图像
Two-DimensionalIsomapembedding
1
−−−2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 流形 嵌入 研究