机器学习中用到的数值分析Word文档下载推荐.docx
- 文档编号:16889040
- 上传时间:2022-11-26
- 格式:DOCX
- 页数:12
- 大小:263.63KB
机器学习中用到的数值分析Word文档下载推荐.docx
《机器学习中用到的数值分析Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《机器学习中用到的数值分析Word文档下载推荐.docx(12页珍藏版)》请在冰豆网上搜索。
gr^d/—Vr
didtdt
二-—1+—j+—
Dxdyds
在向量微积分中,标量场的梯度是一个向量场。
标量场中某一点上的梯度指向标量场增长
最快的方向,梯度的长度是这个最大的变化率。
更严格的说,从欧氏空间Rn到R的函数的
梯度是在Rn某一点最佳的线性近似。
在这个意义上,梯度是雅戈比矩阵的一个特殊情况。
在单变量的实值函数的情况,梯度只是导数,或者,对于一个线性函数,也就是线的斜率。
梯度一词有时用于斜度,也就是一个曲面沿着给定方向的倾斜程度。
可以通过取向量梯度和
所研究的方向的点积来得到斜度。
梯度的数值有时也被称为梯度。
在二元函数的情形,设函数z=f(x,y)在平面区域D内具有一阶连续偏导数,则对于每一点
P(x,y)€D,都可以定出一个向量
(Sf/x)*i+(Sf/y)*j
这向量称为函数z=f(x,y)在点P(x,y)的梯度,记作gradf(x,y)
类似的对三元函数也可以定义一个:
(Sf/x)*i+(Sf/y)*j+(Sf/z)*k记为
grad[f(x,y,z)]
梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,
即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
定义
方向导数的精确定义(以三元函数为例):
设三元函数f在点P0(xO,yO,z0)的某邻域内
有定义,I为从点P0出发的射线,P(x,y,z)为I上且含于邻域内的任一点,以p(rou)表示P和P0两点间的距离。
若极限
lim((f(P)-f(PO))/
p)=lim(△lf/p)(当pf0时)存在,则称此极限为函数f在点P0沿方向I的方向导数。
雅可比矩阵
Jacobian矩阵和Hessian矩阵
1.Jacobian
在向动析中.雅可比矩阵是f備导数以注方式排列咸的矩阵拘预式称为靈可比行列式还有在」徳几何中「弋数莊经前雅可比星素示张可t淒:
理随區曲绪的一^琢i.茸线可L丄嚴尢具电它也全部部以閨?
学泉卡尔雅可ttXCanJacob16^10月斗曰T3E年2月让日「命名;
英文淮可比>
'
Jdcubiai'
可以发冒为加剧右[克0'
kJb汕]一
禮可比矩時
軽可比矩阵的重要性在于它体现了一?
<
可«
5!
方程与给出点胞議忧娃性逼近因此,雅可比矩阵碧Q于霉元画数的导数
局2F氐t尺讥是一个从畝式n維空I可转换到欧式rr維空「可的囱就这个番敌庄m个真因惣包朿y1(U」叭…,艸図:
…,xn)邃些酗的侶数(如杲荐在)可以组成一个佶洌的矩旌垃就是所^的淮可比矩阵:
o(w丹)
这个矩I卉的第i行是主样滾函数的转置yi(i-1….m炭示的
如果p杲中的一点.F在p点可微分.那么在这一点的导数田Jf(p)给岀(这是求该点导数爵简便的方法).在此售况下,由F(p)超的线性算子即接近点p的F的最优线性逼近,x逼近亍p:
F(x)彩F(p)+Jf(p)•(x-p)
雅可比行歹疏
妬杲m二n,那么F是从n姓空间到谯空间的函数旦它的雅可比矩隆是一个方块距阵于是我们可以取它的行列式称为雅可吃亍列式•
SM4给走点的难可比行刃式辰供了在接近该点时的表现的重妾信鱼砌匚如昱连绩可微函数F在p点的雅可比^列式不是零,百吆它在该点附近具有反函敛这称为反遇数左理更进一步,如JRp点的雅可比行列式是正数见P在P点的取向K变-如吴是负数.则F的取向相反丽从雅可比行列式的绝対值,就可以知道函数F在p点的缩放因子;
这孰是九什么它出规在换元积分法中.
对于取向问題可以这么理聲•例如Y4SI体在平li上匀速运动如果施加一个正方向的力F.即取向相尽川F連运动,类比于速度的融加連反为正;
如果iS加Y反方向的力F,即取向相反丿yj«
速运动,类比于速辰的号数加速匿为负
2.S^Hessian矩阵
在数学中,海森矩阵(Hessianmatrix或Hessian)是一个自变星为向呈的头值函数的一阶債导数组成
块矩阵,此函数如下:
f(金1,化2…
-■»
^n)
如果子的所有二阶导数都存在.那么/的海森矩阵即:
(尤)
冥中®
=(叼,叼…,%),即H(f)为:
「丹
dx^
9xi0x2
9xiBin
d2f
92f
•i•■■
9x2。
显1
dlQdx„
•
••
・•
_9x\
dx„dx9.
8应.
(也有人把海森走义为以上矩阵的行列式)海蒜矩阵沁用于牛顿法解决的灿模优化问题
海森柜阵在牛顿法中的应用
虫来说.牛頓法主要应用在函个方面,1,求方程的根;
2最优化一
1)求鮮万程
幷不是所勻的方程都有朮恨公式.或吉求恨公式很复杂导致求解区难一利用牛頓法可以迭代求解.
原理野」用泰型公式,在矶处展开巨展开到阶即人可=/(jc)+(rx())f(^O)
求解方程f(ar)=0.BP/(«
o)+(总-龙0)尸(a?
o)—0.求葬rr=巧=xQ-f(xQ)/f(XQ),因为这是利用泰勒公式的一阶展开、f(z)=f仗。
)十(e-eo)f(叼)处幷不是完全相等、帀是近似招寺这里求得的珀开不能让/(引=0只能说J(巧)的値比人班)更援近f@)=0.于是乎.迭代求解的想法就很白然了,可[泌而拄出引十1-(如),通过迭代•适个弍孑必然在子(“)一0的时佞收
致整个过程如下图:
牛顿法求实根图示
2).最优化
在虽优化的问題中,线性最优化至少可以便硝纯形法(或称不动点窟去球程但对于非纯性优化问甑牛頓法提供了一御求解的办法.假设任务是优化f目咏函数犬求函数f的极大极4妈题,可以转化为求聲霑数f的导馭尸=0的•可麺这样求可以把优化问题看舷方程灭解问麺(f=0)舸下的问麺就^策T分提^的牛顿法歩解很相似了
这次为了关解尸二0的根.把/(h)的泰勒层开•長开到2阶形式:
f(x+△’)=/(«
)+£
(’)△’+—f9(a?
)Ao?
2
这个式子是成立的当旦仅当无艰坦近于0时f(z+△对=j(x),约去迄两项,开对亲项式f{a]^x++厂仗)4以=0対Aa:
求导(汪f仗),厂9)均为常数项此时上式等价与:
f@)十严(h)Ah=0
求解:
畑)fnM
得岀迭代公式:
一般认为半顿法可以利用到齐线本身芥信貝比样厘下降法审容易牧敗(迭代申少次数).如下医是一个農小化一个口标方隍的刮子,红色曲纽罡利用牛顿法迭代求解缘色超块圣口用梯度下降法求解
在上百冷T诒的足醛宵另.盲雅悽况的牛顿这代公式足:
=xn\Hf(xn『可{坯M巴0
捉中卜逞he河or短阵走文见上
高维菁况依然可以用牛顿迭代求解但是冋题星血阴旧谑薜别入的复杂性:
使得牛顿迭代求解的难度大大笔加,回®
已经育了I?
决遠个问題的办SSWSQuasiWewtonrn酗o<
不再直接计郭i關論n矩阵,河昱P步的时候便申境吏巨呈更黔rhms=I罚矩辉旳近似.
二阶导数的集合意义:
(1)斜线斜率变化的速度
(2)函数的凹凸性.
二阶导数是比较理论的、比较抽象的一个量,它不像一阶导数那样有明显的几何意义,因为它
表示的是一阶导数的变化率•在图形上,它主要表现函数的凹凸性,直观的说,函数是向上突起的,还是向下突起的•
应用:
如果一个函数f(x)在某个区间I上有f'
(x)(即二阶导数)>
0恒成立,那么对于区间I上
的任意x,y,总有:
f(x)+f(y)>
2f[(x+y)/2],如果总有f'
(x)0恒成立,那么在区间I上f(x)的图象上的任意
两点连出的一条线段,这两点之间的函数图象都在该线段的下方,反之在该线段的上方
梯度下降法
0了=
1.
2.
牛顿法
+加)=f(^)+
f(龙)+严(©
)△©
=oj
Xn+1=X7l-[J//(xn)]_1V/(xn),n>
0]
W)=
e:
=e
最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少
牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。
如果更通俗地说的话,比如
你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。
所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。
根据wiki上的解释,从几何上说,牛顿法就是用一个二次曲面去拟合你当前所处位置的局
部曲面,而梯度下降法是用一个平面去拟合当前的局部曲面,通常情况下,二次曲面的拟合会比平面更好,所以牛顿法选择的下降路径会更符合真实的最优下降路径。
wiki上给的图很形象,我就直接转过来了:
红色的牛顿法的迭代路径,绿色的是梯度下降法的迭代路径。
利普希茨连续
f:
DUIRtIR
f:
UtN
尙(f⑷』(”})兰©
加砒)V^SeLJ
扣的h)<
dN(f(a)ff(b})<
KdM(^b)Va.be1/
和KKT条件
深入理解拉格朗日乘子法(LagrangeMultiplier)
而KKT条件是满足强对偶条件的优化问题的必要条件,可以这样
理解:
我们要求minf(x),L(a,b,x)=f(x)+a*g(x)+b*h(x),a>
=0,我们可以把f(x)写为:
max_{a,b}L(a,b,x),为什么呢因为h(x)=0,g(x)<
=0,现在是取L(a,b,x)的最大值,a*g(x)
是<=0,所以L(a,b,x)只有在a*g(x)=0的情况下才能取得最
大值,否则,就不满足约束条件,因此max_{a,b}L(a,b,x)在
满足约束条件的情况下就是f(x),因此我们的目标函数可以写
为min_xmax_{a,b}L(a,b,x)。
如果用对偶表达式:
max_{a,b}min_xL(a,b,x),由于我们的优化是满足强对偶的(强对偶就是说对偶式子的最优值是等于原问题的最优值的),所以在取得最优值x0的条件下,它满足f(x0)
=max_{a,b}min_xL(a,b,x)=min_xmax_{a,b}L(a,b,x)=f(x0),我们来看看中间两个式子发生了什么事情:
f(x0)=max_{a,b}min_xL(a,b,x)
=max_{a,b}min_xf(x)+a*g(x)+b*h(x)=max_{a,b}f(xO)+a*g(xO)+b*h(xO)=f(x0)
可以看到上述加黑的地方本质上是说min_xf(x)+a*g(x)+
b*h(x)在x0取得了最小值,用fermat定理,即是说对于函数f(x)+a*g(x)+b*h(x),求取导数要等于零,即
f(x)的梯度+a*g(x)的梯度+b*h(x)的梯度=0
这就是kkt条件中第一个条件:
L(a,b,x)对x求导为零。
而之前说明过,a*g(x)=0,这时kkt条件的第3个条件,当然已知的条件h(x)=0必须被满足,所有上述说明,满足强对偶条
件的优化问题的最优值都必须满足KKT条件,即上述说明的三个
条件。
可以把KKT条件视为是拉格朗日乘子法的泛化。
u剧附£
鼻忧①三蝴曰耕竽規迪列一般曲也为i忙M:
堆巴tt融;
欖岂),
™/C4
-J1"
国=0.2口•一"
t
r((x)tOlr=bj+1
其屮jf-材圧…斗匸"
"
.fbTjf和心:
*"
f毗-14.胡融畑躍前匸豐炮LJ林吃.僦®
雙塁内时琲隔凶BT
f曲剜礙婀心裁垠眈(Uf+L-j柯;
需朋麻井记零和朿田新标里两
=■"
}.^={*tV勢剧星鄭glrnnclirWM懒妇tH“u如诃廻3fti»
)fiass気
氛■盘
划年毛KEk谒足蟲忙化衣槌團o散产青可牛斗掘卿和可聞FeaztlePcmt.所有巨盲丰庄全怖柠淘叵尸做矗罚除R蚀汕\冃,和F.在一牛可行無£
瞎陳不暮如亚血~9・刪硒疏对=•・■可広1>0性鼻z苇虑不尊坤JKH荻的勇戢超t附丽(■£
»
cans^raJiit卜桝可齐撫H隹于坊三可国上心的删如果有來Q"
,Bj称不等式%盍°
在存M是蚀礁或不绘柞用约團EcttireCCflSirajnt>对干一Th行月孔如緜有—r科舒朿罡号障环戟稲疋是用齐窣田內吊不卸庐的可讦>HI淀却讦埔阳JE卑魚砂絶边界粧少有〜不等式約繭羽兌的漏雪匪蕃删鞭加任何可行福棉要新足吊式的竊因比不可胞足等武的岳的闪嗝・
有效约束、无效约束与内点、边界点
有效(起作用)约束:
对于可行点戈如果以龙)二0
就称不等式釣束G(艾)n°
在朮壬是有效约束耶
并称可行蛊壬曜于鈞朿勺(w)XO的边界。
无效约束二对于可行点无若q(亍)>0就称不等式约束q(x)上0在点无是无效约束称^是约束c(x)>0的内点.
E:
等式约束指标集I:
不等式约束指标集
Vxe^n/(x)={/|c.(x)=O,zeZ}
X点处的有效约束集(有效集)A(x)=EU7(x)
q(x),iGA(x)是在曲处的有效鈞束c.(x)?
i纟A(x)是在戈点处的非有效约束假设已知有效约束恕?
)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 中用 数值 分析