矩阵低秩近似在支持向量机中的研究应用数学专业毕业论文Word文档下载推荐.docx
- 文档编号:16910952
- 上传时间:2022-11-27
- 格式:DOCX
- 页数:73
- 大小:884.31KB
矩阵低秩近似在支持向量机中的研究应用数学专业毕业论文Word文档下载推荐.docx
《矩阵低秩近似在支持向量机中的研究应用数学专业毕业论文Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《矩阵低秩近似在支持向量机中的研究应用数学专业毕业论文Word文档下载推荐.docx(73页珍藏版)》请在冰豆网上搜索。
2.5.2约简支持向量机算法的鲁棒性分析............................................16
第三章改进的约简支持向量机算法.................................................................19
3.4数值实验...................................................................................................22
第四章约简集选取的新方法.............................................................................31
4.1选取关键点的分类效果...........................................................................31
4.2约简核和全核的谱分析...........................................................................32
结束语.....................................................................................................................35
致谢.........................................................................................................................37
参考文献.................................................................................................................39
硕士期间科研成果.................................................................................................43
第一章绪论
1.1研究背景
支持向量机[1](SupportVectorMachine,SVMs),作为数据挖掘[2]中的十大经典算法之一,由CorinnaCortes和Vapnik等于1995年首先提出,是一种建立在统计学习理论的VC维理论和结构风险最小原理[1]基础上的模式识别方法。
它根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以求获得最好的推广能力。
90年代,由于统计学习理论的实现,以及神经网络等较新兴的机器学习方法的研究遇到一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等,使得SVM迅速发展和完善。
它在解决小样本、非线性及高维模式识别等问题中表现出许多它独特的优势,已成功应用于生产预测[3]、语音识别[4]、文本分类[5]、故障诊断[6]和遥感图象分析[7]等诸多领域中。
支持向量机的思想是将低维空间中线性不可分的数据(通常用向量表示)映射到一个更高维的空间里,在这个空间里建立一个最大间隔超平面,能够对数据线性可分。
在分开数据的超平面的两边建有两个互相平行的超平面。
建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。
其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。
但是如果直接采用这种技术在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数等问题,而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。
而采用核函数技术则可以有效地解决这样的问题。
它是一种有效的映射工具,且映射函数的形式、参数以及特征空间维数等都是预先确定的。
核函数种类繁多,对于某一具体问题,选择恰当的核函数会对问题的求解带来很大的便利。
另外,多核学习也是近年来核学习研究的热门。
1.2支持向量机
1.2.1传统支持向量机(SVM)模型介绍
支持向量分类机[1]是基于两类分类问题提出的,假设样本为
iiii
(x,y),i=1,,l,其中x∈Rn,y∈{1,−1},通过训练学习构造一个决策函数
f(x)=sgn(g(x))
(1-1)
尽可能把两类样本分开。
当g(x)为线性函数时,称为线性分类机,这时要找到一个超平面尽可能把两
类样本分开。
记该超平面H为
w⋅x+b=0
对于样本有下面分类
w⋅x1+b≥0,当
w⋅x2+b≤0,当
yi=1时
yi=-1时
w为超平面法向量,现在把寻求分划超平面(w⋅x+b=0)的问题转化为对w,b的优化问题,将超平面H沿法线方向移动直到碰到两类训练点,便得到两个超平面
H1:
w⋅x+b=k1H2:
w⋅x+b=k2
它们称为支持超平面,通过适当调整w,b,k,这两个超平面可以等价地表示为
w⋅x+b=1
H2:
w⋅x+b=−1
(1-2)
与此相应的分划超平面为
H:
w⋅x+b=0
(1-3)
不妨设x,x分别是H,H上的点,代入(1.2)则有
1212
w⋅x2+b=1
w⋅x2+b=−1
(1-4)
(1.4)两式相减并两边同时除以w
w(x
−x)=2
(1-5)
w12w
易知两个超平面间隔Margin=
w
(x1−x2),因此超平面间隔为
Margin=2
H1HH2
图1.1支持向量机分类示意图
Margin
如果找到的超平面H既能把两类样本正确无误分开,又能保证两个超平面
H1,H2的间隔最大,就称超平面H为最优超平面。
而求解最优超平面的过程,就得到了下面的优化问题
min
w,b
1wTw
2
(1-6)
ii
subjecttoy(wTx
+b)≥1,i=1,2l.
其中,目标函数1wTw最小时就能保证
2最大,并且约束条件能保证两类
样本分开。
然而,在许多问题中,超平面并不能保证所有两类样本都能正确可分,
即不能保证所有样本都满足y(wTx
+b)≥1。
这时可以“软化”对间隔的约束,也就
是可以引入松弛变量ξi,i=1,2l,而软化的约束条件即为
y(wTx
+b)≥1−ξ,i=1,2l.
iii
另外,在目标函数里加入惩罚参数C,通常当惩罚参数C取偏大的值时可以
保证两类样本的错分率较低,从而目标函数就由原来的1wTw变为
1wTw+C(
l
∑
i=1
ξi)。
此时得到如下优化问题
w,b,ξ
i
ξ2)
(1-7)
利用Lagrange乘子法,求其对偶问题如下:
lll
1∑∑
yiyjαiαj(xixj)−∑αj
α2i=1
j=1
subjectto
∑yiαi=0,
0≤αi≤C,i=1,,l,
(1-8)
设α∗=(α∗,α∗,,α∗)是对偶问题的任意一个解,选取α的一个正分量α,可
12lj
得
ll
w=∑αiyixi,b=yj−∑yiαi(xi⋅xj).
(1-9)
∗∗∗
由此得到最终判别函数:
f(x)=sgn(∑yiαi(x⋅xj)+b)
(1-10)
上面探讨的是线性分类的情形,然而,通常很多分类问题是线性不可分的,
不宜用线性支持分类机。
这时可引入适当的变换φ,就能够把线性支持向量机推广到非线性支持向量机。
这里引进从空间Rn到Hilbert空间Η的变换
Rn→Η
φ:
x→=φ(x)
则原来的训练集T={(x,y),i=1,2,,l}∈(Rn⋅Y)l经过变换φ后变为
φ
T={(x,y),i=1,2,,l}∈(Η⋅Y)l
需要求出此空间的分划超平面为w⋅+b=0,从而导出原空间的分划超平面
w⋅φ(x)+b=0和决策函数f(x)=sgn(w⋅φ(x)+b),而对应的优化问题就是
ξi),
subjecttoy(wTφ(x)+b)≥1−ξ,i=1,2l,
ξi≥0,i=1,2l.
(1-11)
用Lagrange乘子法容易求出(1-11)对偶问题为
yiyjαiαjφ(xi)φ(xj)−∑αj
(1-12)
分划函数为
f(x)=sgn(∑yiαiφ(x)φ(xj)+b)
(1-13)
可以发现映射φ(x)始终共同出现在φ(x)φ(xj)。
对于K(x,xj),如果有φ(x)φ(xj)
形式,就称为核函数。
对于解(1-12)(1-13)不需要选择具体的φ(x),只要找到合适的核函数[1]即可。
这里列举几个常用的核函数:
(1)线性核:
K(x,xT)=x
·
xT;
(2)多项式核:
K(x,xT)=(x⋅xT+c)d
(3)高斯核:
K(x,xT)=exp(−γ
x−xT)
继续上面的讨论,(1-12)和(1-13)重新表达为
ijij
j
yyααK(x,xT)−∑α
(1-14)
f(x)=sgn(
T
yiαiK(x,x)+b)
(1-15)
从而得到了支持向量机问题的一般形式,且当核函数为线性核时,即为线性支持向量机的情形。
1.2.2传统支持向量机(SVM)的问题
这里考虑含有二次惩罚函数的支持向量机[8],假设训练集
n
T={(xi,yi),i=1,2,,l},其中xi∈R
题:
yi∈{1,−1},利用支持向量机解决下面优化问
(1-16)
subjecttoy(wTφ(x)+b)≥1−ξ.
由于φ(x)把x映射到更高(可能无穷)维数空间,实际上相当于解它的对偶变量数为l的二次规划:
1αT(Q+
I)α−eTα
α22C
subjecttoyTα=0,
0≤αi,i=1,,l,
(1-17)
其中Q是一个l⋅l半正定矩阵,Q
≡yyK(x,x),且K(x,x)≡φ(x)Tφ(x)是核
ijijijijij
函数。
通常,对于大规模问题,由于(Q+
I)是稠密矩阵,难以保存到内存中,并
2C
且其维数大对问题的求解也造成了一定的困难。
故如牛顿法[9]等传统优化算法不能被直接使用。
尽管现在可以通过解一系列小型问题的分解法避免内存存储问题,但对于有很多支持向量的大型问题,分解法仍然收敛缓慢。
另外,假如所使用的
核为线性核,那么Q是一个矩形阵和它的转置的直接乘积,这将很容易找到高效的算法计算它,而本文主要讨论在支持向量机中使用非线性核这种更困难的情况。
1.3低秩近似方法在支持向量机中的研究
上一节提到传统支持向量机在大规模核的情况下存在着核难以存储且不便于计算的问题,那么就有必要减小核的规模来解决这这个困难,达到简化形式并降低计算复杂度的效果。
为此,可采用低秩近似的方法处理这个问题。
低秩近似这种思想最主要的特点是使矩阵Q从l⋅l减少到l⋅m,其中m是原始数据集简化后的子集的大小,即在误差(通常用矩阵的某种范数衡量)控制在一定精度范围内的情况下,用某种方法对原来的大型稠密矩阵做一定的处理,得到的稀疏矩阵能够很好的近似原来的矩阵。
关于矩阵低秩近似方法有很多,如CUR分解法[10]、GLRAM算法[11]、特征值分解法[12]、稀疏贪婪矩阵近似[13]和Nystrom近似[14][15]等。
做核运算后得到更小的矩阵可以储存在内存中,这时就有更多的优化算法解决这个优化问题(1-12),例如牛顿法。
这种经低秩近似方法处理后的支持向量机称为约简支持向量机[16][17],其训练集称为约简集。
目前,在约简支持向量机的实现上,学者们提出了多种方法,且方法的有效性在大量实验上和实际应用中得到了验证,例如约简支持向量机的光滑实现方法[18],最小二乘法[19],拉格朗日法[20],分解法[21][22]等。
在理论上,也有学者尝试从统计学习理论的角度去解释。
但是约简支持向量机不管在算法实现上还是在理论上都还需要进一步发展,比如约简支持向量机约简到什么程度比较合适,现在还没有通用的方法;
能不能提出更好的理论解释约简支持向量机约简后依然能保持较好的训练效果;
是否可以找到更好的约简集选取算法来替代随机选取。
一些在它基础上研究的算法都有着良好的效果,例如,解最小二乘问题逐步增加子集数量的IRSVM[23]可通过增加训练时间来选取少于RSVM的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 矩阵 近似 支持 向量 中的 研究 应用 数学 专业 毕业论文