deep learning from image to sequenceWord文件下载.docx
- 文档编号:16719744
- 上传时间:2022-11-25
- 格式:DOCX
- 页数:10
- 大小:1.84MB
deep learning from image to sequenceWord文件下载.docx
《deep learning from image to sequenceWord文件下载.docx》由会员分享,可在线阅读,更多相关《deep learning from image to sequenceWord文件下载.docx(10页珍藏版)》请在冰豆网上搜索。
2.2准备知识
2.2.1HiddenMarkovModel(HMM)
2.2.2
GMM-HMMforSpeechRecognition
2.2.3
RestrictedBoltzmannMachine(RBM)
3.
DBN和RNN在语音上的应用
3.1DBN
3.1.1DBN架构
3.1.2DBN-DNNforSpeechRecognition
3.2RNN
3.2.1RNN种类
3.2.2RNN-RBMforSequentialsignalPrediction
---------------------------------------------------------------------------------------------
1.回顾deeplearning处理图像等非时序信号<
----------------------------------------------
1.1AutoEncoder(unsupervised)
扩展:
StackAutoEncoder(可以变成supervised),见AndrewNg的UFLDL教程,我就不贴图了
1.2MLP
MLP(ANN)是最naive的神网分类器。
一个hidden层,连两端nonlinearfunction,output输出为f(x),softmax做分类。
1.3ConvolutionalNeuralNetwork
特点:
1.非全连接,2、共享权重
做法:
1.卷积2.降采样(pooling)
具体见上一篇CNN
2.deeplearning处理语音等时序信号
2.1对什么时序信号解决什么问题:
handwritingrecognition
speechrecognition
musiccomposition
proteinanalysis
stockmarketprediction
...
2.2准备知识:
2.2.1HiddenMarkovModel(HMM)-带unobserved(这就是所谓hidden)states的随机过程,表示输入语音信号和hiddenstate(因素)的模型:
<
figurefromwiki>
训练HMM模型:
给定一个时序y1...yT,用MLE(typicallyEMimplemented,具体见这篇第三部分training)估计参数;
2.2.2
GMM-HMMforSpeechRecognition
(较大,单独放在一篇blog里了)
2.2.3
RestrictedBoltzmannMachine
讲RBM之前要先讲一下生成模型……<
Howtobuildasinglelayeroffeaturedetector>
大体分为两类——directedmodel&
undirectedmodel:
1.directedmodel
(e.g.GMM从离散分布求latent状态)
根据先验分布选择latentvariable的状态
给定latentstates,根据条件分布求observablevariables的状态
2.undirectedmodel
只用参数W,通过能量函数定义v(visible)和h(hiddenlatentvariables)的联合概率
根据”explainingaway”,如果latent和visible变量有着非线性关系,directedmodel很难推断出latentvariable的状态;
但在undirectedmodel中,只要latent变量间没有变项链就可以轻松推断。
PS:
explainingaway是什么?
state的先验相互独立,后验也相互独立,
下面再讲RBM。
RBM是马尔科夫随机场(MRF)的一种。
不同之处:
1.RBM是一个双向连接图(bipartiteconnectivitygraph)
2.RBM在不同unit之间不共享权重
3.有一部分变量是unobserved
RBM对能量函数E(v,h)的定义:
RBM的参数构成:
W(weight),bias_h,bias_v
已知联合分布P(v,h),
可通过Gibbs采样边缘分布分别得到h,v,根据GradientofNLL进行梯度下降学习到参数。
RBM的训练目标是:
最大化p(v=visible)。
(visible=真实的visible数据)
RBM实际训练过程中,对每个training_batch:
contrastivedivergence采样k次(gibbsCD-k)
根据costfunction进行update:
即
cost=T.mean(self.free_energy(self.input))-T.mean(self.free_energy(chain_end))
上面讲的RBM都是v,h=0/1的,那怎么处理real-value的呢?
ANS:
用Gaussian-BernoulliRBM(GRBM)。
对上面经典RBM改动不大,只需要改energyfunction&
conditionalprob:
3.1DBN
流程:
1.pre-train
从左到右来看,由于输入为real-value,所以第一层为GRBM,训练W1
GRBM训练出来的hidden给下一个RBM做input,训练W2
这个RBM训练出来的hidden再传给下一个RBM做input,训练W3
……(重复)
2.可以直接把这几层pre-train好的W叠起来,双向weight箭头全改成top-down的,成了一个DBN生成模型
3.加分类器
可以最后在这个pre-trained网络头部加一个softmax分类器,其中每个节点表示HMM中一个状态,去做有监督的fine-tuning.。
如果你仔细看过上一篇GMM-HMMforSpeechRecognition就会发现,这个模型和GMM-HMM只差在GMM
即,DNN-HMM用DNN(undirectedmodel)代替了GMM(directedmodel),这样的好处是可以解决h,v之间非线性关系映射。
Fig1.GMM-HMM
Fig2.DNN-HMM
常见的:
1.FullyRecurrentNetwork
2.HopfieldNetwork
3.ElmanNetwork(SimpleRecurrentnetworks)
4.Longshorttermmemorynetwork
fig.LSTM
见一个RNN例子,RNNRBM(RNN-RBMformusiccomposition网络架构及程序解读)
Reference:
为了大家看的方便,我推荐从简了。
。
抄了太多图,不贴出处了大牛们见谅。
不然一堆推荐无从下手滴样纸
DeepLearning在语音上的应用DNN经典文章:
1.Hinton,LiDeng,DongYu大作:
DeepNeuralNetworksforAcousticModelinginSpeechRecognition
2.AndrewNg,NIPS09,Unsupervisedfeaturelearningforaudioclassificationusingconvolutionaldeepbeliefnetworks
DeepLearning在语音上的应用RNN经典文章:
1.
BengioICML2012.RNN+RBM
paper有实现(下一篇细讲)
SchmidhuberJMLR2002
paper讲LSTM经典
3.
TheUseofRecurrentNeuralNetworksinContinuousSpeechRecognition,
老文章讲RNN比较基础,但是确实经典
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- deep learning from image to sequence