现代机器学习 基于深度学习的图像特征提取.docx
- 文档编号:24363648
- 上传时间:2023-05-26
- 格式:DOCX
- 页数:11
- 大小:27.51KB
现代机器学习 基于深度学习的图像特征提取.docx
《现代机器学习 基于深度学习的图像特征提取.docx》由会员分享,可在线阅读,更多相关《现代机器学习 基于深度学习的图像特征提取.docx(11页珍藏版)》请在冰豆网上搜索。
现代机器学习基于深度学习的图像特征提取
现代机器学习基于深度学习的图像特征提取
现代机器学习理论大作业 基于深度学习的图像特征提取 摘要:
大数据时代的来临,为深度学习理论的发展创造了良好的条件。
介 绍了深度学习的发展背景,主要讨论了深度学习中的自编码的方法,对自编码方法实现仿真应用,期望在以后能应用到SAR图像上进行自动特征提取,最后阐述该理论的目前遇到的困难。
关键词:
深度学习autoencoderconvolutionpooling一引言 机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。
简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。
从1980年代末期以来,机器学习的发展大致经历了两次浪潮:
浅层学习和深度学习。
第一次浪潮:
浅层学习 1980年代末期,用于人工神经网络的反向传播算法的发明,给机器学习带来了希望,掀起了基于统计模型的机器学习热潮。
这个热潮一直持续到今天。
人们发现,利用BP算法可以让一个人工神经网络模型从大量训练样本中学习出统计规律,从而对未知事件做预测。
这种基于统计的机器学习方法比起过去基于人工规则的系统,在很多方面显示出优越性。
这个时候的人工神经网络,虽然也被称作多层感知机,但实际上是一种只含有一层隐层节点的浅层模型。
90年代,各种各样的浅层机器学习模型相继被提出,比如支撑向量机、Boosting、最大熵方法等。
这些模型的结构基本上可以看成带有一层隐层节点,或没有隐层节点。
这些模型在无论是理论分析还是应用都获得了巨大的成功。
相比较之下,于理论分析的难度,加上训练方法需要很多经验和技巧,所以这个时期浅层人工神经网络反而相对较为沉寂。
2000年以来互联网的高速发展,对大数据的智能化分析和预测提出了巨大需求,浅层学习模型在互联网应用上获得了巨大成功。
最成功的应用包括搜索广告 系统的广告点击率CTR预估、网页搜索排序、垃圾邮件过滤系统、基于内容的推荐系统等。
2006年,加拿大多伦多大学教授、机器学习领域泰斗——GeoffreyHinton和他的学生RuslanSalakhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。
这篇文章有两个主要的信息:
1.很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2.深度神经网络在训练上的难度,可以通过“逐层初始化来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。
第二次浪潮:
深度学习 自2006年以来,深度学习在学术界持续升温。
斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。
2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。
支持深度学习的一个重要依据,就是脑神经系统的确具有丰富的层次结构。
一个最著名的例子就是Hubel-Wiesel模型,于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。
除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已显现出巨大能量。
2011年以来,微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域十多年来最大的突破性进展。
2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。
在这一年,DNN还被应用于制药公司的DrugeActivity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。
今天Google、微软、XX等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是因为它们都看到了在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。
在工业界一直有个很流行的观点:
在大数据条件下,简单的机器学习模型会比复杂模型更加有效。
例如,在很多的大数据应用中,最简单的线性模型得到大 量使用。
而最近深度学习的惊人进展,促使我们也许到了要重新思考这个观点的时候。
简而言之,在大数据情况下,也许只有比较复杂的模型,或者说表达能力强的模型,才能充分发掘海量数据中蕴藏的丰富信息。
运用更强大的深度模型,也许我们能从大数据中发掘出更多有价值的信息和知识。
为了理解为什么大数据需要深度模型,先举一个例子。
语音识别已经是一个大数据的机器学习问题,在其声学建模部分,通常面临的是十亿到千亿级别的训练样本。
在Google的一个语音识别实验中,发现训练后的DNN对训练样本和测试样本的预测误差基本相当。
这是非常违反常识的,因为通常模型在训练样本上的预测误差会显著小于测试样本。
因此,只有一个解释,就是于大数据里含有丰富的信息维度,即便是DNN这样的高容量复杂模型也是处于欠拟合的状态,更不必说传统的GMM声学模型了。
所以从这个例子中我们看出,大数据需要深度学习。
浅层模型有一个重要特点,就是假设靠人工经验来抽取样本的特征,而强调模型主要是负责分类或预测。
在模型的运用不出差错的前提下,特征的好坏就成为整个系统性能的瓶颈。
因此,通常一个开发团队中更多的人力是投入到发掘更好的特征上去的。
要发现一个好的特征,就要求开发人员对待解决的问题要有很深入的理解。
而达到这个程度,往往需要反复地摸索,甚至是数年磨一剑。
因此,人工设计样本特征,不是一个可扩展的途径。
深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。
所以“深度模型”是手段,“特征学习”是目的。
区别于传统的浅层学习,深度学习的不同在于:
1.强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;2.明确突出了特征学习的重要性,也就是说,同过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,使分类或预测更加容易。
与人工规则构造特征的方法相比,利用大数据来学习特征,更能刻画数据丰富的内在信息。
所以,在未来的几年里,我们将看到越来越多的例子:
深度模型应用于大数据,而不是浅层的线性模型。
图像是深度学习最早尝试的应用领域。
早在1989年,YannLeCun(现纽约大学教授)和他的同事们就发表了卷积神经网络的工作。
CNN是一种带有卷积结构的深度神经网络,通常至少有两个非线性可训练的卷积层,两个非线性的固定卷积层和一个全连接层,一共至少5个隐含层。
CNN的结构受到著名的Hubel-Wiesel生物视觉模型的启发,尤其是模拟视觉皮层V1和V2层中SimpleCell和ComplexCell的行为。
在很长时间里,CNN虽然在小规模的问题上,如手写数字,取得过当时世界最好结果,但一直没有取得巨大成功。
这主要原因是,CNN在大规模图像上效果不好,比如像素很多的自然图片内容理解,所以没有得到计算机视觉领域的足够重视。
这个情况一直持续到2012年10月,GeoffreyHinton和他的两个学生在著名的ImageNet问题上用更深的CNN取得世界最好结果,使得图像识别大踏步前进。
在Hinton的模型里,输入就是图像的像素,没有用到任何的人工特征。
这个惊人的结果为什么在之前没有发生?
原因当然包括算法的提升,比如dropout等防止过拟合技术,但最重要的是,GPU带来的计算能力提升和更多的训练数据。
XX在2012年底将深度学习技术成功应用于自然图像OCR识别和人脸识别等问题,并推出相应的桌面和移动搜索产品,2013年,深度学习模型被成功应用于一般图片的识别和理解。
从XX的经验来看,深度学习应用于图像识别不但大大提升了准确性,而且避免了人工特征抽取的时间消耗,从而大大提高了在线计算效率。
可以很有把握地说,从现在开始,深度学习将取代“人工特征+机器学习”的方法而逐渐成为主流图像识别方法。
二深度学习中的sparseautoencoder sparseautoencoder Deeplearning领域比较出名的一类算法——sparseautoencoder,即稀疏模式的自动编码。
sparseautoencoder是一种自动提取样本特征的方法。
把输入层激活度用隐层激活度表征,再把隐层信息在输出层还原。
这样隐层上的信息就是输入层的一个压缩过的表征,且其信息熵会减小。
并且这些表征很适合做分类器。
我们知道,deeplearning也叫做无监督学习,所以这里的sparseautoencoder也应是无监督的。
如果是有监督的学习的话,在神经网络中,我们只需要确定神经网络的结构就可以求出损失函数的表达式了(当然,该表达式需对
网络的参数进行”惩罚”,以便使每个参数不要太大),同时也能够求出损失函数偏导函数的表达式,然后利用优化算法求出网络最优的参数。
应该清楚的是,损失函数的表达式中,需要用到有标注值的样本。
那么这里的sparseautoencoder为什么能够无监督学习呢?
难道它的损失函数的表达式中不需要标注的样本值么?
其实在稀疏编码中”标注值”也是需要的,只不过它的输出理论值是本身输入的特征值x,其实这里的标注值y=x。
这样做的好处是,网络的隐含层能够很好的代替输入的特征,因为它能够比较准确的还原出那些输入特征值。
Sparseautoencoder的一个网络结构图如下所示:
损失函数 无稀疏约束时网络的损失函数表达式如下:
稀疏编码是对网络的隐含层的输出有了约束,即隐含层节点输出的平均值应尽量为0,这样的话,大部分的隐含层节点都处于非激活状态。
因此,此时的sparseautoencoder损失函数表达式为:
后面那项为KL距离,其表达式如下:
隐含层节点输出平均值求法如下:
其中的参数一般取很小,比如说,也就是小概率发生事件的概率。
这说明要求隐含层的每一个节点的输出均值接近,这样就达到稀疏的目的了。
KL距离在这里表示的是两个向量之间的差异值。
从约束函数表达式中可以看出,差异越大则”惩罚越大”,因此最终的隐含层节点的输出会接近。
假设我们有一个固定样本集 ,它包含 个样例。
我们可以用批量梯度下降法来求解神经网络。
具体来讲,对于单个样例 ,其代价函数为:
这是一个方差代价函数。
给定一个包含我们可以定义整体代价函数为:
个样例的数据集, 以上公式中的第一项 是一个均方差项。
第二项是一个规则化项 ,其目的是减小权重的幅度,防止过度拟合。
权重衰减参数用于控制公式中两项的相对重要性。
在此重申一下这两个复杂函数的含义:
是针对单个样例计算得到的方差代价函数; 是整体样本代价函数,它包含权重衰减项。
以上的代价函数经常被用于分类和回归问题。
在分类问题中,我们用或,来代表两种类型的标签,这是因为sigmoid激活函数的值域为 ;如 果我们使用双曲正切型激活函数,那么应该选用-1和+1作为标签。
对于回归问题,我们首先要变换输出值域,以保证其范围为们使用双曲正切型激活函数,要使输出值域为 我们的目标是针对参数 和来求其函数 和 )。
的最小值。
为了求 初始化为一个很小的、接近生成的随机值,其中设 ,之后对目标函数使用诸如批量梯度下降法的最优化算法。
因为是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实 际应用中,梯度下降法通常能得到令人满意的结果。
最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为。
如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数。
随机初始化的目的是使对称失效。
都会有:
反向传播算法 梯度下降法中每一次迭代都按照如下公式对参数 和进行更新:
其中 是学习速率。
其中关键步骤是计算偏导数。
我们现在来讲一下反向 传播算法,它是计算偏导数的一种有效方法。
我们首先来讲一下如何使用反向传播算法来计算 ,这两项是单个样例 的代价函数 和的偏的偏导数:
导数。
一旦我们求出该偏导数,就可以推导出整体代价函数 以上两行公式稍有不同,第一行比第二行多出一项,是因为权重衰减是作用于 而不是。
反向传播算法的思路如下:
给定一个样例 ,我们首先的输出值。
,该残差表明了该 进行“前向传导”运算,计算出网络中所有的激活值,包括之后,针对第层的每一个节点,我们计算出其“残差” 节点对最终输出值的残差产生了多少影响。
对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为 。
对于隐藏单元我们如何处理呢?
我们将基于节点残差的加权平均值计算 ,这些节点以 作为输入。
下 面将给出反向传导算法的细节:
进行前馈传导计算,利用前向传导公式,得到的激活值。
对于第 直到输出层 层的每个输出单元,我们根据以下公式计算残差:
对 的残差计算方法如下:
的各个层,第层的第个节点 将上式中的 与 的关系替换为与 的关系,就可以得到:
以上逐次从后向前求导的过程即为“反向传导”的本意所在。
计算我们需要的偏导数,计算方法如下:
最后,我们用矩阵-向量表示法重写以上算法。
我们使用“”表示向量乘积运算符。
若则 。
, 那么,反向传播算法可表示为以下几个步骤:
1进行前馈传导计算,利用前向传导公式,得到的激活值。
2对输出层,计算:
3对于 4计算最终需要的偏导数值:
的各层,计算:
直到输出层 实现中应注意:
在以上的第2步和第3步中,我们需要为每一个值计算其 。
假设 是sigmoid函数,并且我们已经在前向传导运算中得到了 表达式,就可以计算得到 。
那么,使用我们早先推导出的 。
最后,我们将对梯度下降算法做个全面总结。
在下面的伪代码中,一个与矩阵 维度相同的矩阵, 是一个与 是 维度相同的向量。
注 意这里“”是一个矩阵,而不是“与相乘”。
下面,我们实现批量 梯度下降法中的一次迭代:
对于所有,令1对于 到。
2计算3计算 更新权重参数:
。
。
, 和 ,使用反向传播算法计算 现在,我们可以重复梯度下降法的迭代步骤来减小代价函数值,进而求解我们的神经网络。
的 三实验仿真 利用autoencoder提取特征 从给定的很多张自然图片中截取出大小为8*8的小patches图片共10000张,现在需要用sparseautoencoder的方法训练出一个隐含层网络所学习到的特征。
该网络共有3层,输入层是64个节点,隐含层是25个节点,输出层当然也是64个节点了。
其实实现该功能的主要步骤还是需要计算出网络的损失函数以及其偏导数。
下面用简单的语言大概介绍下这个步骤,方便理清算法的流程。
1.计算出网络每个节点的输入值和输出值。
2.利用z值和a值计算出网络每个节点的误差值。
3.这样可以利用上面计算出的每个节点的a,z,delta来表达出系统的损失函数以及损失函数的偏导数了,当然这些都是一些数学推导。
其实步骤1是前向进行的,也就是说按照输入层——隐含层——输出层的方向进行计算。
而步骤2是方向进行的,即每个节点的误差值是按照输出层——隐含层——输入层方向进行的。
下面看一下实验流程:
首先运行主程序中的步骤1,即随机采样出10000个小的patch,并且显示出其中的204个patch图像,图像显示如下所示:
然后运行中的步骤2和步骤3,进行损失函数和梯度函数的计算并验证。
进行gradientchecking的时间可能会太长,我这里大概用了1个半小时以上,当用gradientchecking时,发现误差只有,远小于1e-9,所以说明前面的损失函数和偏导函数程序是对的。
后面就可以接着用优化算法来求参数了,本程序给的是优化算法是L-BFGS。
经过几分钟的优化,就出结果了。
最后的W1的权值如下所示:
Self-taughtlearning Self-taughtlearning是用的无监督学习来学习到特征提取的参数,然后用有监督学习来训练分类器。
这里分别是用的sparseautoencoder和softmaxregression,实验的数据依旧是手写数字数据库MNISTDataset。
采用数字5~9的样本来进行无监督训练,采用的方法是sparseautoencoder,可以提取出这些数据的权值,权值转换成图片显示如下:
但是本次实验主要是进行0~4这5个数字的分类,虽然进行无监督训练用的是数字5~9的训练样本,这依然不会影响后面的结果。
只是后面的分类器设计是用的softmaxregression,所以是有监督的。
最后的结果精度是98%,而直接用原始的像素点进行分类器的设计不仅效果要差,而且训练的速度也会变慢不少。
convolution与pooling 在全局连接网络中,如果我们的图像很大,比如说为96*96,隐含层有要学习100个特征,则这时候把输入层的所有点都与隐含层节点连接,则需要学习10个参数,这样的话在使用BP算法时速度就明显慢了很多。
所以后面就发展到了局部连接网络,也就是说每个隐含层的节点只与一部分连续的输入点连接。
这样的好处是模拟了人大脑皮层中视觉皮层不同位置只对局部区域有响应。
局部连接网络在神经网络中的实现使用convolution的方法。
它在神经网络中的理论基础是对于自然图像来说,因为它们具有稳定性,即图像中某个部分的统计特征和其它部位的相似,因此我们学习到的某个部位的特征也同样适用于其它部位。
下面具体看一个例子是怎样实现convolution的,假如对一张大图片的数据集,r*c大小,则首先需要对这个数据集随机采样大小为a*b的小图片,然后用这
些小图片patch进行学习,此时的隐含节点为k个。
因此最终学习到的特征数为:
虽然按照convolution的方法可以减小不少需要训练的网络参数,比如说96*96,,100个隐含层的,采用8*8patch,也100个隐含层,则其需要训练的参数个数减小到了10,大大的减小特征提取过程的困难。
但是此时同样出现了一个问题,即它的输出向量的维数变得很大,本来完全连接的网络输出只有100维的,现在的网络输出为89*89*100=792100维,大大的变大了,这对后面的分类器的设计同样带来了困难,所以pooling方法就出现了。
为什么pooling的方法可以工作呢?
首先在前面的使用convolution时是利用了图像的平稳性特征,即不同部位的图像的统计特征是相同的,那么在使用convolution对图片中的某个局部部位计算时,得到的一个向量应该是对这个图像局部的一个特征,既然图像有平稳性特征,那么对这个得到的特征向量进行统计计算的话,所有的图像局部块应该也都能得到相似的结果。
对convolution得到的结果进行统计计算过程就叫做pooling,此可见pooling也是有效的。
常见的pooling方法有maxpooling和averagepooling等。
并且学习到的特征具有旋转不变性。
从上面的介绍可以简单的知道,convolution是为了解决前面无监督特征提取学习计算复杂度的问题,而pooling方法是为了后面有监督特征分类器学习的,也是为了减小需要训练的系统参数。
本次实验是练习convolution和pooling的使用,更深一层的理解怎样对大的图片采用convolution得到每个特征的输出结果,然后采用pooling方法对这些结果进行计算,使之具有平移不变等特性。
首先来看看整个训练和测试过程的大概流程:
在训练阶段,是对小的patches进行whitening的。
于输入的数据是大的图片,所以每次进行convolution时都需要进行whitening和网络的权值计算,这样每一个学习到的隐含层节点的特征对每一张图片都可以得到一张稍小的特征图片,接着对这张特征图片进行均值pooling。
有了这些特征值以及标注值,就可以用softmax来训练多分类器了。
在测试阶段是对大图片采取convolution的,每次convolution的图像块也同样需要用训练时的whitening参数进行预处理,分别经过convolution和pooling提取特征,这和前面的训练过程一样。
然后用训练好的softmax分类器就可进行预测了。
训练特征提取的网络参数用的时间比较多,而训练比如说softmax分类器则用的时间比较短。
在matlab中当有n维数组时,一般是从右向左进行剥皮计算,因为matlab输出都是按照这种方法进行的。
当然了,如果要理解的话,从左向右和从右向左都是可以的,只要是方便理解就行。
程序中进行convolution测试的理是:
先用cnnConvolve函数计算出所给样本的convolution值,然后随机选取多个patch,用直接代数运算的方法得出网络的输出值,如果对于所有(比如说这里选的1000个)的patch,这两者之间的差都非常小的话,说明convution计算是正确的。
程序中进行pooling测试的理是:
采用函数cnnPool来计算,而该函数的参数为polling的维数以及需要pooling的数据。
因此程序中先随便给一组数据,然后用手动的方法计算出均值pooling的结果,最后用cnnPool函数也计算出一个结果,如果两者的结果相同,则说明pooling函数是正确的。
程序中颜色特征的学习体现在:
每次只对RGB中的一个通道进行convolution,分别计算3次,然后把三个通道得到的convolution结果矩阵对应元素相加即可。
这样的话,后面的Pooling操作只需在一个图像上进行即可。
于只需训练4个类别的softmax分类器,所以其速度非常快,1分钟都不到。
训练出来的特征图像为:
最终的预测准确度为:
Accuracy:
%构建deepnetwork网络 练习2个隐含层的网络的训练方法,每个网络层都是用的sparseautoencoder思想,利用两个隐含层的网络来提取出输入数据的特征。
本次实验验要完成的任务是对MINST进行手写数字识别,当提取出手写数字图片的特征后,就用softmax进行对其进行分类。
进行deepnetwork的训练方法大致如下:
1.用原始输入数据作为输入,训练出第一个隐含层结构的网络参数,并将用训练好的参数算出第1个隐含层的输出。
2.把步骤1的输出作为第2个网络的输入,用同样的方法训练第2个隐含层网络的参数。
3.用步骤2的输出作为多分类器softmax的输入,然后利用原始数据的标签来训练出softmax分类器的网络参数。
4.计算2个隐含层加softmax分类器整个网络一起的损失函数,以及整个网络对每个参数的偏导函数值。
5.用步骤1,2和3的网络参数作为整个深度网络参数初始化的值,然后用lbfs算法迭代求出上面损失函数最小值附近处的参数值,并作为整个网络最后的最优参数值。
上面的训练过程是针对使用softmax分类器进行的,而softmax分类器的损失函数等是有公式进行计算的。
所以在进行参数校正时,可以对把所有网络看做是一个整体,然后计算整个网络的损失函数和其偏导,这样的话当我们有了标注好了的数据后,就可以用前面训练好了的参数作为初始参数,然后用优化算法求得整个网
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代机器学习 基于深度学习的图像特征提取 现代 机器 学习 基于 深度 图像 特征 提取