ELM极限学习机相关.docx
- 文档编号:4993459
- 上传时间:2022-12-12
- 格式:DOCX
- 页数:10
- 大小:20.84KB
ELM极限学习机相关.docx
《ELM极限学习机相关.docx》由会员分享,可在线阅读,更多相关《ELM极限学习机相关.docx(10页珍藏版)》请在冰豆网上搜索。
ELM极限学习机相关
一、极限学习机的概念
极限学习机(ExtremeLearningMachine)ELM,是由黄广斌提出来的求解单隐层神经网络的算法。
ELM最大的特点是对于传统的神经网络,尤其是单隐层前馈神经网络(SLFNs),在保证学习精度的前提下比传统的学习算法速度更快。
二、极限学习机的原理
ELM是一种新型的快速学习算法,对于单隐层神经网络,ELM可以随机初始化输入权重和偏置并得到相应的输出权重。
(选自黄广斌老师的PPT)
对于一个单隐层神经网络(见Figure1),假设有个任意的样本,其中,。
对于一个有个隐层节点的单隐层神经网络可以表示为
其中,为激活函数,为输入权重,为输出权重,是第个隐层单元的偏置。
表示和的内积。
单隐层神经网络学习的目标是使得输出的误差最小,可以表示为
即存在,和,使得
可以矩阵表示为
其中,是隐层节点的输出,为输出权重,为期望输出。
,
为了能够训练单隐层神经网络,我们希望得到,和,使得
其中,,这等价于最小化损失函数
传统的一些基于梯度下降法的算法,可以用来求解这样的问题,但是基本的基于梯度的学习算法需要在迭代的过程中调整所有参数。
而在ELM算法中,一旦输入权重和隐层的偏置被随机确定,隐层的输出矩阵就被唯一确定。
训练单隐层神经网络可以转化为求解一个线性系统。
并且输出权重可以被确定
其中,是矩阵的Moore-Penrose广义逆。
且可证明求得的解的范数是最小的并且唯一。
三、实验
我们使用《简单易学的机器学习算法——Logistic回归》中的实验数据。
原始数据集
我们采用统计错误率的方式来评价实验的效果,其中错误率公式为:
对于这样一个简单的问题,。
MATLAB代码
主程序
[plain] viewplain copy
1.%% 主函数,二分类问题
2.
3.%导入数据集
4.A = load('');
5.
6.data = A(:
1:
2);%特征
7.label = A(:
3);%标签
8.
9.[N,n] = size(data);
10.
11.L = 100;%隐层节点个数
12.m = 2;%要分的类别数
13.
14.%--初始化权重和偏置矩阵
15.W = rand(n,L)*2-1;
16.b_1 = rand(1,L);
17.ind = ones(N,1);
18.b = b_1(ind,:
);%扩充成N*L的矩阵
19.
20.tempH = data*W+b;
21.H = g(tempH);%得到H
22.
23.%对输出做处理
24.temp_T=zeros(N,m);
25.for i = 1:
N
26. if label(i,:
) == 0
27. temp_T(i,1) = 1;
28. else
29. temp_T(i,2) = 1;
30. end
31.end
32.T = temp_T*2-1;
33.
34.outputWeight = pinv(H)*T;
35.
36.%--画出图形
37.x_1 = data(:
1);
38.x_2 = data(:
2);
39.hold on
40.for i = 1 :
N
41. if label(i,:
) == 0
42. plot(x_1(i,:
),x_2(i,:
),'.g');
43. else
44. plot(x_1(i,:
),x_2(i,:
),'.r');
45. end
46.end
47.
48.output = H * outputWeight;
49.%---计算错误率
50.tempCorrect=0;
51.for i = 1:
N
52. [maxNum,index] = max(output(i,:
));
53. index = index-1;
54. if index == label(i,:
);
55. tempCorrect = tempCorrect+1;
56. end
57.end
58.
59.errorRate = 1-tempCorrect./N;
激活函数
[plain] viewplain copy
1.function [ H ] = g( X )
2. H = 1 ./ (1 + exp(-X));
3.end
ELM(ExtremeLearningMachine)是一种新型神经网络算法,最早由Huang于2004年提出【Extremelearning
machine:
anewlearningschemeoffeedforwardneuralnetworks】。
与SVM,传统神经网络相比,ELM的训练速度非常快,需要人工干扰较少,对于异质的数据集其泛化能力很强。
Huang在【Extremelearningmachines:
asurvey,2011】这篇论文中对ELM进行了总结,包括最初的ELM算法和后来被发展延伸的ELM算法(比如在线序列ELM算法、增量ELM算法和集成ELM算法等),里面的很多知识点值得学习。
ELM的原理
从神经网络的结构上来看,ELM是一个简单的SLFN,SLFN示意图如下:
该SLFN包括三层:
输入层、隐含层和输出层(忽略输入层则为两层)。
其中隐含层包括L个隐含神经元,一般情况下L远小于N,输出层的输出为m维的向量,对于二分类问题,显然该向量是一维的。
对于一个训练数据样本,忽略输入层和隐含层而只考虑隐含层神经元的输出和输出层,则神经网络的输出函数表达式为:
ai和bi是隐含层节点的参数,表示第i个隐含层神经元和输出神经元之间的连接权值,即它是一个m维的权值向量。
公式里面的G是隐含层神经元的输出。
针对加法型隐含层节点,G为:
其中,小g为激励函数,激励函数可以是线性函数,也可以是sigmoid函数;针对RBF型隐含层节点,G为:
ai和bi分别表示了第i个径向基函数节点的中心和影响因子。
神经网络输出函数可以写成:
,其中:
如果神经网络能够无误差的预测训练样本,那么隐含层和输出层的权值是有解的,特别的,当L=N时,肯定有解。
但是实际问题中,L往往是远小于N的,那么求解权值向量的问题是无解的,即网络输出和实际值之间有误差,可以定义代价函数为:
接下来如何求解最优的权值向量,使得损失函数J最小呢?
针对这个问题ELM分两种情况解决:
a.如果H是列满秩的,那么可以通过最小二乘找到最佳的权值,其解为:
,其中:
b.如果H是非列满秩的,则使用奇异值分解求解H的广义逆来计算最佳权值。
和BP使用梯度下降迭代更新所有层之间权值不同,ELM不调整SLFN的输入层和隐含层的权值,这些权值是随即设定的,因此ELM的训练速度非常快。
ELM注重于隐含层到输出层的权值的选取,其采用的方法是最小二乘。
ELM算法一般可以描述如下:
在Huang的survey中描述了一种思想,该思想把SVM也看成了神经网络,该思想把神经网络的输入层到最后一层隐含层的部分或者SVM核函数映射的部分都看成了从输入空间到一个新的空间的转换,然后,BP会将误差反向传播更新权值使得误差最小化,而SVM则力求找到最大分界间隔的分界面,将新空间映射到输出空间,从这个角度来看,SVM确实可以看成是一种神经网络。
ELM最初算法就如上所述,从2004年至今,后来的学者对其进行了很多改进,主要包括对输入层和隐含层权值随即确定权值的优化、求解隐含层和输出层权值的优化(使得ELM更适应于噪声数据集)、核函数ELM以及加入了正则化项的损失函数(求解结构风险而不再是经验风险)、ELM和其他方法相结合等。
ELM为神经网络的结构设计提供了一个新的思路,使我们更好地理解神经网络,但是还有很多问题需要解决,比如隐含层节点个数的确定,正则化项的选择等等。
作为一个性能很好的机器,我们也可以将其应用到诸多交叉学科的应用中。
极限学习机(ELM)算法的matlab与C++实现
极限学习机的原理
极限学习机(Extremelearningmachine,ELM)是单隐层神经网络的算法,其最大特点就是能在保证学习精度的前提下比传统的学习算法快。
其结构如下图所示:
对于一个单隐层神经网络,假设有N个任意的样本(Xi,ti),其中,
Xi=[xi1,xi2,⋯xin]T∈Rnti=[ti1,ti2,⋯tim]T∈Rm
一个有L个隐层节点的单隐层神经网络可以表示为:
∑i=1Lβih(Wi⋅Xj+bi)=ojj=1,⋯,N
其中,h(x)为激活函数, Wi=[wi1,wi2,⋯,win]T
为输入权重,βi为输出权重,bi是第个隐层单元的偏置。
Wi·Wj表示Wi和Wj的内积。
单隐层神经网络学习的目标是使得输出的误差最小,可以表示为:
∑j=1N∥∥oj−tj∥∥=0
即存在βi,Wi和bi使得
∑i=1Lβih(Wi⋅Xj+bi)=tjj=1,⋯,N
可以矩阵表示为:
Hβ=T
其中,是H隐层节点的输出,β为输出权重,为T期望输出。
H(W1,⋯,WL,b1,⋯,bL,X1,⋯,XL)=⎡⎣⎢⎢h(W1⋅X1+b1)⋮h(W1⋅XN+b1)⋯⋯⋯h(WL⋅X1+bL)⋮h(WL⋅XN+bL)⎤⎦⎥⎥
β=⎡⎣⎢⎢βT1⋮βTL⎤⎦⎥⎥
T=⎡⎣⎢⎢TT1⋮TTN⎤⎦⎥⎥N×m
传统的一些基于梯度下降法的算法,可以用来求解这样的问题,但是基本的基于梯度的学习算法需要在迭代的过程中调整所有参数。
而在ELM算法中,一旦输入权重Wi和隐层的偏置bi被随机确定,隐层的输出矩阵就被唯一确定。
训练单隐层神经网络可以转化为求解一个线性系统Hβ=T。
并且输出权重β可以被确定。
β∧=H+T
其中,H+是矩阵H的Moore-Penrose广义逆。
且可证明求得的解的范数是最小的并且唯一。
以一个简单的二分类为例,分别用matlab和c++实现。
matlab代码如下:
traindata=load('');
feature=traindata(:
1:
2);%特征
label=traindata(:
3);%标签
X=feature;
[N,n]=size(X);
L=100;
m=2;%二分类
W=rand(n,L)*2-1;%权重-1到1
b_1=rand(1,L);
b=ones(N,1)*b_1;
H=1./(1+exp(-X*W+b));
temp_T=zeros(N,m);
fori=1:
N
if(label(i)==1)
temp_T(i,1)=1;
temp_T(i,2)=0;
else
temp_T(i,1)=0;
temp_T(i,2)=1;
end
end
T=temp_T*2-1;
beta=pinv(H)*T;
x_1=X(:
1);
x_2=X(:
2);
holdon
fori=1:
N
if(label(i)==1)
plot(x_1(i),x_2(i),'.g');
else
plot(x_1(i),x_2(i),'.r');
end
c++代码如下,这里的矩阵运算采用Eigen工具包,最难的地方就是广义逆矩阵怎么求,参照网上的资源,代码如下:
#include
#include
#include
#include
#include
#include
usingnamespacestd;
usingnamespaceEigen;
template
boolpseudoInverse(const_Matrix_Type_&a,_Matrix_Type_&result,doubleepsilon=std:
:
numeric_limits : Scalar>: : epsilon()) { Eigen: : JacobiSVD<_Matrix_Type_>svd=(Eigen: : ComputeThinU|Eigen: : ComputeThinV); if()<()) { typename_Matrix_Type_: : Scalartolerance=epsilon*std: : max(),())*().array().abs()(0); result=()*().array().abs()>tolerance).select().array().inverse(),0).matrix().asDiagonal()*().adjoint(); } rray().abs().maxCoeff(); rray().abs().maxCoeff(); result=()*(().array().abs()>tolerance).select().array().inverse(),0)).matrix().asDiagonal()*().adjoint(); } returntrue; } intmain() { ifstreamtrainfile; (""); vector vector doubletemp[3]; while(! ()) { for(inti=0;i<3;i++) { trainfile>>temp[i]; (temp[i]); } (rowdata); (),()); } (); MatrixXdfeature(),2); VectorXdlabel()); for(inti=0;i<();i++) { for(intj=0;j<3;j++) { if(j<2) feature(i,j)=traindata[i][j]; else label(i)=traindata[i][j]; } } intL=50;xp()+1; H=().inverse(); MatrixXdtemp_T,T; temp_T=MatrixXd: : Zero(N,m); for(inti=0;i { if(label(i)==1) { temp_T(i,0)=1; temp_T(i,1)=0; } else { temp_T(i,0)=0; temp_T(i,1)=1; } } T=temp_T*2-MatrixXd: : Ones(N,m); MatrixXdresult(L,N); pseudoInverse(H,result); MatrixXdbeta=result*T; MatrixXdoutput=H*beta; for(inti=0;i cout< cout< for(inti=0;i cout<
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ELM 极限 学习机 相关