稀疏判别分析Word格式.docx
- 文档编号:19161338
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:5
- 大小:21.28KB
稀疏判别分析Word格式.docx
《稀疏判别分析Word格式.docx》由会员分享,可在线阅读,更多相关《稀疏判别分析Word格式.docx(5页珍藏版)》请在冰豆网上搜索。
discriminantanalysis;
sparserepresentation;
neighborhoodgraph;
sparsegraph0引言在信息检索、文本分类、图像处理和生物计算等应用中,所面临的数据都是高维的。
由于维数灾难,直接处理这些数据变得非常困难[1]。
最常用的方法就是通过使用降维(dimensionalityreduction,dr)技术来降低这些高维数据的维数。
降维的目的就是在低维空间中尽量真实地刻画输入数据,减少它们的复杂性,提高计算效率。
基于降维后所期望得到的信息,现有的降维可以分为三类:
判别方法[1-8]、几何方法[9-11]和基于判别和几何方法[12-14]。
基于可获得的先验信息,降维方法又可分为[15]:
监督方法[8,12,16-17]和无监督方法[1,2,4,6,9,11]。
上述多数方法都可以被统一到图嵌入框架中[8,11],因此,图的构建成为这些方法的核心问题。
事实上,对这些方法来说,构建一个高质量的图仍是个开放问题[17]。
目前,流形嵌入方法(manifoldembedding)使用k近邻技术和ε球近邻技术来构建近邻图(neighborhoodgraph)[9,18]。
一旦这种近邻图被构建,边的权值由gaussian函数或者局部重构关系来决定。
这种近邻图构建方法通常存在以下几个问题[19]:
首先,大多数算法中的近邻图是预先构建,因此,它未必有益于后续的降维工作;
其次,近邻图通常是在高维空间中构建,这样构建的图在后续的工作中表现差强人意;
最后,近邻图需要的两个参数,即近邻的大小(k)和热核参数(σ),通常不容易赋给合适的值。
因此,在降维方法中研究图的构建显得尤为重要。
另外,多数无监督降维方法在寻找投影方向过程中忽略了部分先验信息的作用,以至于它们往往不能得到最优的投影[3,14]。
监督降维方法需要大量有标记样本作训练样本,限制了它的应用[14]。
最近,半监督降维方法得到越来越多研究人员的关注[3,5,7,10,13-15]。
这类方法是利用少量有标记样本和大量无标记样本寻找最优的投影方向。
与监督方法相比,它更适合实际应用,与无监督方法相比,有较高的效率。
然而,现有的一些半监督降维方法通常面临和流形嵌入方法相同的问题,即近邻图构建。
如:
半监督判别分析算法(semi.superviseddiscriminantanalysis,sda)[10]和半监督局部fisher判别分析算法(semi.supervisedlocalfisherdiscriminantanalysis,self)[14]。
为了解决这些问题,本文提出一个新颖的稀疏判别分析(sparsediscriminantanalysis,seda)算法,seda通过使用稀疏重建技术解决流形嵌入方法中近邻图构建问题。
同时,新方法在降维过程中又能同时利用有标记和无标记样本寻找投影,提高了算法效率。
具体地说,seda有以下4个特点。
1)seda拥有同其他半监督降维方法(如sda、self)相同的特征。
如,它是线性的方法,也容易地拓展到非线性空间。
因此,可以解决外样本问题。
另外,seda使用稀疏重构技术来保存样本的几何结构,这有利于降低算法的计算复杂度。
2)seda不需要调节模型参数,如热核宽度和近邻参数。
通常,这些参数需要使用交叉验证技术给它们分配数值,但交叉验证方法既需要训练样本,还非常耗时。
相比之下,seda不需要处理这些参数。
因此,它简单实用。
3)与fisher判别分析(fisherdiscriminantanalysis,fda)[16]相同,seda是一个全局算法。
但不同的是,seda使用稀疏表示来重构样本,以至于它包含了局部几何信息。
4)由于seda在求解投影向量过程中使用了有标记和无标记样本,因此,它与流形嵌入方法相比有好的效率。
同时,seda可以容易地拓展到监督降维中。
1相关工作根据先验信息的不同类型,半监督降维方法一般可分为两类:
一类是使用有类标号的样本来引导降维过程[10,14,20,22-23];
另一类是使用成对约束(must.link和cannot.link)来指导降维[3,5,7,10,15,20-21]。
事实上,使用有类标号的样本可以得到成对约束,但不能由成对约束得到样本的类标号。
因此,这两类方法之间存在着一定的相关性。
下面简单回顾三个有代表性的半监督降维算法。
1.1半监督判别分析半监督判别分析算法(sda)[10]是一个较为流行的基于样本标号的半监督降维方法。
它使用基于fda判别准则寻找投影,其实质是fda的半监督化。
sda首先需要刻画高维空间中近邻样本之间的关系。
详细地说,给定一个样本集x,构建一个k近邻的近邻图g来建模近邻样本之间的关系。
如果图中两个顶点xi和xj互为近邻,那么它们之间就存在一条边,相应的权值矩阵为p,其定义如下:
根据上述理论分析,得到如下结论。
1)从算法1不难发现,seda简单且易执行。
自从liu等[26]改进lasso算法以后,优化l1范式的计算复杂度已经减少到线性时间。
因此,第一步较容易地计算稀疏权值矩阵s。
第三步借助于谱回归[10]计算出投影向量,并使用nystrom[27]方法解决大规模数据降维问题。
2)对于每一个样本xi,利用稀疏约束,其重构都是使用样本集的所有样本。
因此,通过使用稀疏权值矩阵s,seda能自然地保持判别信息。
3)不同于现有半监督算法使用局部保持技术来求解投影,seda使用稀疏保持投影作为正则化项寻找投影方向。
所以,它不需要调节模型参数,如热核宽度和近邻参数。
3实验下面使用8个真实数据来验证文中所提出稀疏判别分析算法(seda)。
为了综合评价新算法的性能,使用5个最新提出的典型算法与seda进行对比。
算法分别如下。
1)局部保持投影(lpp)[9]。
是一个无监督降维算法,它使用近邻图来指导降维。
2)稀疏保持投影(sparsitypreservingprojection,spp)[4]。
是无监督降维算法,它使用稀疏表示寻找投影。
3)半监督判别分析(sda)[10]。
基于fisher标准的半监督降维算法,构建近邻图作为正则化项。
4)半监督局部fisher判别分析(self)[14]。
联合fda和lpp进行降维的一个半监督算法。
5)基于流形学习的半监督降维算法(semi.superviseddimensionalityreductionframework,sdrf)[23]。
一个最新提出的半监督降维框架。
为了公平比较,在使用上述降维方法投影数据到低维空间后,使用最近邻分类方法来计算各个算法的性能。
6个算法在每个数据集运行40次,取平均值作为最终的分类性能。
3.1在一组高维数据集上的实验首先使用4个高维数据集进行实验,它们分别是:
reuters是一个文本数据集,它包含135类21578个文本。
在本实验中,选择常用的18类6750个样本;
webace包括20个不同标题2340个文本;
webkb包含7类(student,faculty,staff,course,project,department和other)8280个文本;
webkb4是webkb的一个子集。
4个数据集的属性如表1所示。
实验中,有标号样本数分别选择为每个数据集样本数的5%,10%,15%和20%。
具体实验结果如图1~4所示。
3.2在人脸数据集上的实验下面进一步通过4个人脸数据集(orl,ar,cmupie和yalefaceb)来验证seda算法的性能。
首先,orl数据集由400幅不同表情和光照的人脸图像组成,其中每个人有10幅图像。
在实验中,orl数据集人脸图像被设置成大小32×
32像素的256级灰度图像。
其次,ar数据集由126类4000幅人脸图像组成。
在本实验中,选择100个人(50个男人和50个女人)2600幅人脸图像,图像设置成66×
48大小的灰度图像;
再次,cmupie人脸数据集包括68个人41368幅图像。
选择5组接近正面姿态的图像(c05,c07,c09,c27和c29)。
对于每一类,选择170幅32×
32灰度图像进行实验。
最后,yalefaceb数据集包括38个人16128幅人脸图像。
从每个人脸库里选择120幅32×
32灰度图像。
在实验中,分别从每个人脸数据集里选择10%,20%和30%的样本作为有标号样本,实验环境和3.1节设置相同。
实验结果如表2~4所示。
3.3实验讨论通过上面的理论分析以及6个算法在8个高维数据集上的实验,可以得出以下结论。
1)seda在文中所用的大多数数据集上,包括3个高维数据集和4个人脸数据集,无论是在少量标号样本还是大量标号样本环境下,都能取得比其他5个算法好的性能。
其中,在4个人脸数据集上,seda的优势更加明显。
因此,可以得到初步的结论:
文中所提出的seda是一个相对有效的半监督降维算法。
2)尽管在webace数据集上,sdrf能够得到较好的结果,但在其他数据集上,它没有seda执行得好,而且与其他数据集相比也没有明显优势。
事实上,尽管sdrf试图用hadamard动力算子(hadamardpoweroperator)技术提高无标号样本的功效,但其实质还是构建近邻图来指导降维。
因此,sdrf的效果并不令人满意。
3)sda和self需要构建近邻图来降维,所以分配合适的参数,对构建近邻图至关重要。
另一方面,近邻图的构建是在原空间进行的,当维数特别高时,构建的近邻图往往无益于降维。
因此,在有标记样本较少时,sda和self的性能还没有spp好。
但当标记样本数量逐渐增多时,sda和self的性能要好于spp。
4)spp的性能比lpp好,原因是前者使用稀疏表示进行投影时,既保存了数据的全局信息,也兼顾了数据的几何结构。
这也自然地解释了seda为什么性能更好的原因。
4结语本文提出一种简单而有效的半监督稀疏判别分析算法(seda)。
具体地说,基于稀疏表示,seda搭建的稀疏图得到稀疏重构权值;
其次,seda把稀疏保持作为正则化项使用fisher判别准则来寻找最优的投影。
实验结果表明,seda的性能不仅优于最新提出的几个流形的半监督降维方法sda,self和sdrf,更优于无监督降维方法。
参考文献:
[1]yej,zhaoz,wum.discriminativek.meansforclustering[eb/ol].[2011-05-01].bbb:
//aaakyb.mpg.de/publications/attachments/nips2007-ye_4710[0].pdf.[2]chenht,changhw,liutl.localdiscriminantembeddinganditsvariants[c]//cvpr05:
proceedingsofthe2005ieeecomputersocietyconferenceoncomputervisionandpatternrecognition.washington,dc:
ieeecomputersociety,2005:
846-853.[3]尹学松,胡恩良,陈松灿.基于成对约束的半监督判别分析[j].软件学报,2008,19(11):
2791-2802.[4]qiaol,chens,tanx.sparsitypreservingprojectionswithapplicationstofacerecognition[j].patternrecognition,2010,43
(1):
331-341.[5]yinx,hue.distancemetriclearningguidedadaptivesubspacesemi.supervisedclustering[j].frontiersofcomputerscienceinchina,2011,5
(1):
100-108.[6]hoisch,liuw,lyumr,etal.learningdistancemetricswithcontextualconstraintsforimageretrieval[c]//cvpr06:
proceedingsofthe2006ieeecomputersocietyconferenceoncomputervisionandpatternrecognition.washington,dc:
ieeecomputersociety,2006:
2072-2078.[7]陈小冬,尹学松,林焕祥.基于判别分析的半监督聚类方法[j].计算机工程与应用,2010,46(6):
139-143.[8]yans,xud,zhangb,etal.graphembeddingandextensions:
ageneralframeworkfordimensionalityreduction[eb/ol].[2011-08-01].bbb:
//aaantu.edu.sg/home/dongxu/tpami.ge.pdf.[9]hexiao.fei,niyogip.localitypreservingprojections[eb/ol].[2011-08-01].bbb:
//people.cs.uchicago.edu/~xiaofei/conference.24.pdf.[10]caid,hex,hanj.semi.superviseddiscriminantanalysis[eb/ol].[2011-08-01].bbb:
//aaacs.uiuc.edu/~hanj/pdf/iccv07_dengcai_sda.pdf.[11]caideng,hexiao.fei,hanjia.wei.sparseprojectionsovergraph[eb/ol].[2011-09-01].bbb:
//aaaaaai.org/papers/aaai/2008/aaai08.097.pdf.[12]sugiyamam.dimensionalityreductionofmultimodallabeleddatabylocalfisherdiscriminantanalysis[j].thejournalofmachinelearningresearch,2007,8(5):
1027-1061.[13]尹学松,胡恩良.半监督局部维数约减[j].中国图象图形学报,2011,16(9):
2121-2131.[14]sugiyamam,nakajimat,sesej.semi.supervisedlocalfisherdiscriminantanalysisfordimensionalityreduction[j].machinelearning,2010:
78(1/2):
35-61.[15]尹学松,胡恩良.半监督正则化学习[j].小型微型计算机系统,2010,31(12):
2389-2393.[16]belhumeurp,hsspanhaj,kriegmand.eigenfacesvs.fisherfaces:
recognitionusingclassspecificlinearprojection[j].ieeetransactionsonpatternanalysisandmachineintelligence,1997,19(7):
711-720.[17]liuw,changs.f.robustmulti.classtransductivelearningwithgraphs[c]//proceedingsofieeeconferenceoncomputervisionandpatternrecognition.[s.l.]:
ieee,2009:
8.[18]belkinm,niyogip.laplacianeigenmapsfordimensionalityreductionanddatarepresentation[j].neuralcomputation,2003,15(6):
1373-1396.[19]zhangl,qiaol,chens.graph.optimizedlocalitypreservingprojections[j].patternrecognition,2010,43(6):
1993-2002.[20]tangw,xiongh,zhongs,etal.enhancingsemi.supervisedclustering:
afeatureprojectionperspective[c]//kdd07:
proceedingsofthe13thacmsigkddinternationalconferenceonknowledgediscoveryanddatamining.newyork:
acm,2007:
707-716.[21]xiangs,nief,zhangc.learningamahalanobisdistancemetricfordataclusteringandclassification[j].patternrecognition,2008,41(12):
3600-3612.[22]songy,nief,zhangc,etal.aunifiedframeworkforsemi.superviseddimensionalityreduction[j].patternrecognit
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 稀疏 判别分析