深度学习综述.docx
- 文档编号:28282308
- 上传时间:2023-07-10
- 格式:DOCX
- 页数:17
- 大小:29.11KB
深度学习综述.docx
《深度学习综述.docx》由会员分享,可在线阅读,更多相关《深度学习综述.docx(17页珍藏版)》请在冰豆网上搜索。
深度学习综述
1、定义和背景:
1.1深度学习(DL)有各种相近的定义或者高层次描述
定义1:
Deeplearning issetof algorithms in machinelearning thatattempttolearnlayered models ofinputs,commonly neuralnetworks.Thelayersinsuchmodelscorrespondtodistinctlevelsofconcepts,wherehigher-levelconceptsaredefinedfromlower-levelones,andthesamelower-levelconceptscanhelptodefinemanyhigher-levelconcepts.(Bengio,2009)
定义2:
DeepLearningisanewareaofMachineLearningresearch,whichhasbeenintroducedwiththeobjectiveofmovingMachineLearningclosertooneofitsoriginalgoals:
ArtificialIntelligence.DeepLearningisaboutlearningmultiplelevelsofrepresentationandabstractionthathelptomakesenseofdatasuchasimages,sound,andtext.(参见
自2006年以来,深度学习(deeplearning)(也通常叫做深层结构学习或分层学习)已经成为机器学习领域的一个新兴领域(Hintonetal.,2006;Bengio,2009).在过去几年中,深度学习技术的发展已经对信号和信息过程领域产生广泛的影响,并将继续影响到机器学习和人工智能的其它关键领域;参见综述文章(Bengioetal.,2013;Hintonetal.,2012;YuandDeng,2011;Deng,2011;Areletal.,2010).最近,已有一系列的致力于关于深度学习以及应用的研讨会和特别会议。
包括:
the2013ICASSP’sspecialsessiononNewTypesofDeepNeuralNetworkLearningforSpeechRecognitionandRelatedApplications,
the2010,2011,and2012NIPSWorkshopsonDeepLearningandUnsupervisedFeatureLearning,
the2013ICMLWorkshoponDeepLearningforAudio,Speech,andLanguageProcessing;
the2012ICMLWorkshoponRepresentationLearning,
the2011ICMLWorkshoponLearningArchitectures,Representations,andOptimizationforSpeechandVisualInformationProcessing,
the2009ICMLWorkshoponLearningFeatureHierarchies,
the2009NIPSWorkshoponDeepLearningforSpeechRecognitionandRelatedApplications,the2008NIPSDeepLearningWorkshop,
the2012ICASSPtutorialonDeepLearningforSignalandInformationProcessing,thespecialsectiononDeepLearningforSpeechandLanguageProcessinginIEEETransactionsonAudio,Speech,andLanguageProcessing(January2012),andthespecialissueonLearningDeepArchitecturesinIEEETransactionsonPatternAnalysisandMachineIntelligence(PAMI,2013).
一些DL领域活跃的实验室和研究团队包括:
UniversityofToronto- MachineLearningGroup (GeoffHinton,RichZemel,RuslanSalakhutdinov,BrendanFrey,RadfordNeal)
UniversitédeMontréal- LisaLab (YoshuaBengio,PascalVincent,AaronCourville,RolandMemisevic)
NewYorkUniversity–YannLecun‘sandRobFergus‘group
StanfordUniversity–AndrewNg‘sgroup
UBC–NandodeFreitas‘sgroup
GoogleResearch–JeffDean,SamyBengio,JasonWeston,Marc’AurelioRanzato,DumitruErhan,QuocLeetal
MicrosoftResearch–LiDengetal
SUPSI–IDSIA(Schmidhuber’sgroup)
UCBerkeley–BrunoOlshausen‘sgroup
UniversityofWashington–PedroDomingos‘group
IDIAPResearchInstitute- RonanCollobert‘sgroup
UniversityofCaliforniaMerced–MiguelA.Carreira-Perpinan‘sgroup
UniversityofHelsinki- AapoHyvärinen‘sNeuroinformaticsgroup
UniversitédeSherbrooke–HugoLarochelle‘sgroup
UniversityofGuelph–GrahamTaylor‘sgroup
UniversityofMichigan–HonglakLee‘sgroup
TechnicalUniversityofBerlin–Klaus-RobertMuller‘sgroup
Baidu–KaiYu‘sgroup
AaltoUniversity–JuhaKarhunen‘sgroup
U.Amsterdam–MaxWelling‘sgroup
U.CaliforniaIrvine–PierreBaldi‘sgroup
GhentUniversity–BenjaminShrauwen‘sgroup
UniversityofTennessee–ItamarArel‘sgroup
IBMResearch–BrianKingsburyetal
UniversityofBonn–SvenBehnke’sgroup
GatsbyUnit@UniversityCollegeLondon–ManeeshSahani,Yee-WhyeTeh,PeterDayan
(详见).
这些研究团队在DL的各种不同应用中取得经验性的成功,如计算机视觉、语音识别、语音搜索、语音识别、语音会话和图像特征编码、语义分类、手写识别话语、音频处理、信息检索、机器人学、甚至在分析可能导致新药的分子方面等等。
许多优秀的经常更新教程、参考资料:
:
http:
//ufldl.stanford.edu/wiki/index.php/UFLDL_Recommended_Readings
http:
//www.cs.toronto.edu/~hinton/
http:
//ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial
2.深度学习的发展历史:
传统机器学习和信号处理技术探索仅含单层非线性变换的浅层学习结构。
浅层模型的一个共性是仅含单个将原始输入信号转换到特定问题空间特征的简单结构。
典型的浅层学习结构包括传统隐马尔可夫模型(HMM)、条件随机场(CRFs)、最大熵模型(MaxEnt)、支持向量机(SVM)、核回归及仅含单隐层的多层感知器(MLP)等。
例如,SVM用包含一层(使用核技巧)或者零个特征转换层的浅层模式分离模型。
(最近已有将核方法与DL结合的新方法。
如,ChoandSaul,2009;Dengetal.,2012;Vinyalsetal.,2012)。
浅层结构的局限性在于有限的样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约。
神经科学研究表明,人的视觉系统的信息处理是分级的。
人类感知系统这种明确的层次结构极大地降低了视觉系统处理的数据量,并保留了物体有用的结构信息。
有理由相信,对于要提取具有潜在复杂结构规则的自然图像、视频、语音和音乐等结构丰富数据,深度学习能够获取其本质特征。
受大脑结构分层次启发,神经网络研究人员一直致力于多层神经网络的研究。
历史上,深层学习的概念起源于神经网络的研究。
带有多隐层的前馈神经网络或者多层感知器通常被成为深层神经网络(DNNs),DNNs就是深层构架的一个很好的例子。
BP算法作为传统训练多层网络的典型算法,实际上对于仅含几层网络,该训练方法就已很不理想(参见(Bengio,2009;GlorotandBengio,2010).在学习中,一个主要的困难源于深度网络的非凸目标函数的局部极小点普遍存在。
反向传播是基于局部梯度下降,通常随机选取初始点。
使用批处理BP算法通常会陷入局部极小点,而且随着网络深度的增加,这种现象更加严重。
此原因在一定程度上阻碍了深度学习的发展,并将大多数机器学习和信号处理研究从神经网络转移到相对较容易训练的浅层学习结构。
经验上,有3种技术可以处理深层模型的优化问题:
1.大量的隐藏的单元,2.更好的学习算法,3.以及更好的参数初始化技术。
使用带有大量神经元的DNN可以大大提高建模能力。
由于使用带有大量神经元的DNN得到较差局部最优值的可能性要小于使用少量神经元的网络,即使参数学习陷入局部最优,DNN仍然可以很好的执行。
但是,在训练过程中使用深而广的神经网络,对计算能力的需求要求很大。
更好的算法也有助于了DNNs的训练。
例如,现在随机BP算法已经代替了批处理BP算法用来训练DNNs。
部分原因是由于,当训练是单学习器和大训练集上进行时,随机梯度下降(SGD)算法是最有效的算法(BottouandLeCun,2004)。
但更重要的是SGD算法可以经常跳出局部最优。
其它算法,如Hessianfree(Martens2010)或Krylov子空间方法(VinyalsandPovey2011)有类似的能力。
很明显,对于高度非凸的DNN学习的优化问题,更好的参数初始化技术将导致更好的模型.然而,如何高效的初始化DNN的参数却不是很显然的事情。
最近,学者们给出很好的结果(Hintonetal.2006;HintonandSalakhutdinov,2006;Bengio,2009;Vincentetal.,2010;Dengetal.,2010;Dahletal.,2010,2012;Seideetal.2011).
最著名的DNN参数初始化技术就是无监督预训练(pre-training)技术的提出(Hintonetal.2006;HintonandSalakhutdinov,2006).在上述文章中,引入了一个被称作深层信念网(DBN)的深层贝叶斯概率生成模型。
为了学习DBN中的参数,提出非监督贪心逐层训练算法,算法把DBN中的每两层作为一个限制玻耳兹曼机(RBM)。
这使得优化DBN参数的计算复杂度随着网络的深度成线性增长。
DBN参数可以直接用作MLP或DNN参数,在训练集较小的时候,可以得到比随机初始化的有监督BP训练要好的MLP或DNN。
带有无监督DBN预训练,随后通过反向微调(fine-tuning)的DNNs有时候也被称作DBNs(e.g.,Dahletal.,2011;Mohamedetal.,2010,2012).最近,研究人员已经更小心区分DNNs和DBNs(Dahletal.,2012;Hintonetal.,2012),当DBN用于初始化一个DNN的参数,由此产生的网络叫做DBN-DNN(Hintonetal.,2012).
DBN预训练过程不是唯一有效的DNNs初始化方法。
另一种效果同样好的无监督方法是通过把每两层作为一个去噪自动编码器来逐层预训练DNNs(Bengio,2009;Vincentetal.,2010).另一种方法是用收缩自动编码器,它对于输入变化的敏感度较低(Rifaietal.,2011).而且,Ranzatoetal.(2007)提出了稀疏编码对称机(SESM),它与RBMs非常类似,都作为一个DBN的构造模块。
原则上,SESM也可以用来有效的初始化DNN训练。
除了半监督预训练外,监督预训练(有时也叫作区别预训练)也被证明是有效的(Seideetal.,2011;Yuetal.,2011)
。
在有标签样本数据充足的时候表现要优于无监督预训练技术。
区别预训练的主要思想是从一个隐层MLP开始,用BP算法训练。
然后,每次我们想要增加一个新的隐藏层,我们通过随机初始化一个新的隐藏和输出层来代替原来输出层,再用BP算法训练这个新的MLP(或DNN)。
与无监督预训练技术不同,区分与监督需要标签。
(注:
常用的概念
深层信念网络(Deepbeliefnetwork—DBN):
包含多层随机隐藏变量的概率生成模型。
最上面两层无向对称连接。
低层之间自上而下有向连接。
波尔兹曼机(Boltzmannmachine—BM):
类神经元单元对称连接成的网络,通过类神经元打开或者关闭来做出随机决策。
深层神经网络(DNN):
一个带有多隐藏层的多层感知器,它的权被完全连接,应用一个半监督或一个监督预训练初始化。
深层自动编码器(Deepauto-encoder):
一个输出就是输入本身的深层神经网络。
)
3.典型的深度学习结构
深度学习涉及相当广泛的机器学习技术和结构,根据这些结构和技术应用的方式,可以将其分成如下三类:
a)生成性深度结构。
该结构描述数据的高阶相关特性,或观测数据和相应类别的联合概率分布。
b)区分性深度结构。
目的是提供对模式分类的区分性能力,通常描述数据的后验分布。
c)混合型结构。
它的目标是区分性的,但通常利用了生成型结构的输出会更易优化
1.生成性深度结构
在生成性深层结构的不同子类中,最常见的是基于能量的深层模型(e.g.,Ngiametal.,2011;Bengio,2009;LeCunetal.,2007).深层自动编码器的原始形式(HintonandSalakhutdinov,2006;Dengetal.,2010)就属于一个典型的生成模型。
其他大部分的深层自动编码器自然也是生成模型,但是它们有着不同的性质和实现。
例如,转换自动编码器(Hintonetal.,2010),预测性稀疏编码和它们间的堆叠,去噪自动编码器和它们的叠加版本(Vincentetal.,2010).具体说,在去噪自动编码器中,输入首先被破坏,例如,随机选择输入和将其归零的百分比。
然后,用原始输入和重构输入的均方重构误差和KL距离来调整隐藏结点的参数去重构原始的,未破坏的数据。
未破坏数据的编码表示转换形式将作为下一层堆叠的去噪自动编码器的输入。
另一个著名的生成模型是深层玻尔兹曼机(DBM)(Salakhutdinov
andHinton,2009,2012;SrivastavaandSalakhudinov,2012).一个DBM包涵多个隐藏变量层,同一层之间变量没有连接。
它是一般的玻尔兹曼机的特殊情形。
虽然有简单的算法,但是一般BMs学习复杂而且计算缓慢。
在一个DBM中,每一层捕获下层隐藏特征的复杂的,高阶的相关性。
DBM有学习内部表示问题的潜力,而内部表示问题对目标和语音识别问题的解决至关重要。
此外,大量的无标记数据和非常有限的有标记数据可以构建高层表示,这样,高层表示可以用来微调模型。
当DBM的隐藏层的数目减少到1,我们就得到受限玻尔兹曼机(RBM)。
和DBM相似没有层之间的连接。
RBM的主要优点是通过组合多个RBMs,将一个RBM的特征激活作为下一层的训练数据,从而有效的学习多个隐藏层。
这样组成了深信度网(DBN)。
标准的DBN已经被扩展,使其在底层是一个分解的高阶玻尔兹曼机,在电话识别中获得了很强的结果(Dahlet.al.,2010)。
这个模型被称作mean-covarianceRBM或mcRBM,标准RBM在表示数据的协方差结构是有局限的。
然而,训练mcRBM,把它用在深层构架的高层都是很困难的。
另一个深生成架构的是和-积网络或SPN(PoonandDomingo,2011;GensandDomingo,2012).一个SPN是一个深层构架中的有向无环图,数据作为叶子,和运算和积运算作为内部节点。
“和”节点给出混合模型和“积”节点建立特征层次结构。
SPN的学习是结合反向传播使用EM算法。
学习过程始于一个密集的SPN,然后通过学习它的权值来寻找一个SPN结构,权值为零表示移除这些连接。
SPN学习的主要的困难是,当传播到深层,学习信号(也就是梯度)会迅速的稀释。
已经提出了经验的解决办法来克服这种困难(PoonandDomingo,2011).然而,有学者指出,尽管SPN中有许多可取的生成性质,但是很难用区分的信息来微调参数,从而限制了其在分类任务上的有效性。
随后,(GensandDomingo,2012),在这篇文章提出一个有效的反向传播式区分训练算法克服了这个困难。
递归神经网络Recurrentneuralnetworks(RNNs)是另一类重要的深层生成构架,RNN的深度与输入数据序列的长度相当。
RNNs对于序列数据建模非常有效(例如,语音和文本)。
但是RNNs还没有被广发的应用,部分原因是由于“gradientexplosion”问题,导致它极难被训练。
Hessian-free优化的最新进展(Martens,2010)它使用近似二阶信息或随机曲率估计,部分的克服了这个难题。
通过Hessian-free优化训练得到的RNNs,在特征水平语言模型任务中,被用作一个生成式的深层构建。
这样的生成式RNN模型被证明具有很好的生成文本字符序列的能力。
最近,Bengioetal.(2013)andSutskever(2013)研究了在训练生成式RNNs过程中,各种随机梯度下降优化算法。
这些算法要优于Hessian-free优化方法。
Mikolovetal.(2010)将RNNs用于语言模型,取得了非常好的结果。
2.区分性深度结构
在信号和信息过程中许多区分性技术都是浅层结构,例如隐马尔科夫过程(HMMs),条件随机域(CRFs).最近,通过堆叠每个低层CRF的输出和原始输入到更高层,得到深层结构CRFs(Yuetal.,2010a)。
各种深层结构的CFRs成功的应用于电话识别(YuandDeng,2010),自然语言处理(Yuetal.,2010)和口语识别(Yuetal.,2010a)。
但是至少在电话识别任务上,深层CRFs还不能超过含有DBN的混合性结构。
Morgan(2012)给出一个好的综述,关于现存的应用于语音识别的区分性模型,主要基于传统的神经网络或MLP结构,使用带有随机初始化的后向传播方法。
他认为增加神经网络每一层的宽度(width)和深度(depth)是重要的。
最近(Denget.al,2011;Dengetal.,2012a;Turetal.,2012;Lenaetal.,
2012;Vinyalsetal.,2012)发展了一个新的学习构架,有时称深度堆叠网络(DeepStackingNetwork或DSN),以及DSN的张量变体(Hutchinsonetal,2012,2013)和核版本(Dengetal.,2012)。
前面说过,递归神经网络(RNNs)已经被成功用作生成性模型。
它们也可以用作一个输出是一个关于输入序列的标签序列的区分性模型。
另一个区分性深度构架是卷积神经网络(convolutionalneuralnetwork或CNN),每一个模块包含一个卷积层和一个池层(poolinglayer)。
通常,这些模块一个堆叠在另一个之上,或者用一个DNN堆叠在它之上来形成一个深度模型。
卷积层共享许多权值,池层对卷积层的输出进行次采样。
在卷积层共享权值,结合适当的池选择,这样就使得CNN具有某种不变的性质(如,转换不变性)。
这样限定不变性或等方差,对于复杂的模式识别任务是不合适的,需要可以处理广泛的不变性的原则性方法(Hintonetal.,2011).然而,CNN已经发现非常有效且常被用于计算机视觉和图像识别(BengioandLeCun,1995;LeCunetal.,1998;Ciresanetal.,2012;Leetal.,2012;Deanetal.,2012;Krizhevskyetal.,2012).最近,考虑到语音特性,适当的变化为图像分析设计的CNN,表明CNN在语音辨别方面也是有效的。
(Abdel-Hamidetal.,2012;Sainathetal.,2013;
Dengetal.,2013)
需要指出的是,用于早期语音识别延时神经网络是CNN的一类特殊情形和原型,当权值共享被限
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 综述