动态规划与离散系统最优控制.pptx
- 文档编号:163302
- 上传时间:2022-10-04
- 格式:PPTX
- 页数:74
- 大小:2.31MB
动态规划与离散系统最优控制.pptx
《动态规划与离散系统最优控制.pptx》由会员分享,可在线阅读,更多相关《动态规划与离散系统最优控制.pptx(74页珍藏版)》请在冰豆网上搜索。
Ch.7最优控制原理,目录(1/1),目录,最优控制概述变分法变分法在最优控制中的应用极大值原理线性二次型最优控制动态规划与离散系统最优控制本章小结,动态规划与离散系统最优控制(1/3),7.6动态规划与离散系统最优控制,前面讨论了连续系统最优控制问题的基于经典变分法和庞特里亚金的极大值原理的两种求解方法。
所谓连续系统,即系统方程是用线性或非线性微分方程描述的动态系统。
该类系统的控制问题是与传统的控制系统和控制元件的模拟式实现相适应的,如模拟式电子运算放大器件、模拟式自动化运算仪表、模拟式液压放大元件等。
随着计算机技术的发展及计算机控制技术的日益深入,离散系统的最优控制问题也必然成为最优控制中需深入探讨的控制问题,而且成为现代控制技术更为关注的问题。
动态规划与离散系统最优控制(2/3),离散系统的控制问题为人们所重视的原因有二。
有些连续系统的控制问题在应用计算机控制技术、数字控制技术时,通过采样后成为离散化系统,如许多现代工业控制领域的实际计算机控制问题。
有些实际控制问题本身即为离散系统,如某些经济计划系统、人口系统的时间坐标只能以小时、天或月等标记;再如机床加工中心的时间坐标是以一个事件(如零件加工活动)的发生或结束为标志的。
动态规划与离散系统最优控制(3/3),本节将介绍解决离散系统最优控制的强有力工具-贝尔曼动态规划,以及线性离散系统的二次最优控制问题。
内容为最优性原理与离散系统的动态规划法线性离散系统的二次型最优控制,最优性原理与离散系统的动态规划法(1/3),7.6.1最优性原理与离散系统的动态规划法,基于对多阶段决策过程的研究,贝尔曼在20世纪50年代首先提出了求解离散多阶段决策优化问题的动态规划法。
如今,这种决策优化方法在许多领域得到应用和发展,如在生产计划、资源配置、信息处理、模式识别等方面都有成功的应用。
下面要介绍的是,贝尔曼本人将动态规划优化方法成功地应用于动态系统的最优控制问题,即构成最优控制的两种主要求解方法之一的最优控制动态规划法。
最优性原理与离散系统的动态规划法(2/3),动态规划的核心是贝尔曼最优性原理。
这个原理归结为一个基本的递推公式,求解多阶段决策问题时,要从末端开始,逆向递推,直至始端。
动态规划的离散基本形式受到问题的维数的限制,应用有一定的局限性。
但是,它用于解决线性离散系统的二次型性能指标的最优控制问题特别有效。
至于连续系统的最优控制问题的动态规划法,不仅是一种可供选择的有充分性的最优控制求解法,它还揭示了动态规划与变分法、极大值原理之间的关系,具有重要的理论价值。
最优性原理与离散系统的动态规划法(3/3),下面分别介绍,多阶段决策问题最优性原理一般问题的问题描述离散系统的动态规划法,多阶段决策问题(1/12),1.多阶段决策问题,在讨论动态规划法之前,先考察一个简单的最短时间行车问题,简称行车问题。
例如图7-10所示,某交通工具从S站出发,终点为F站,全程可分为4段。
中间可以经过的各站及它们之间的行车时间均已标记在图上。
试求最短行车时间的行车路线。
图7-10某行车路线图,多阶段决策问题(2/12),由S站出发至终点F站可有多种不同的行车路线,沿各种行车路线所耗费的时间不同。
为使总的行车时间最短,司机在路程的前3段要作出3次决策。
也就是说,一开始司机要在经过x1
(1)站还是x2
(1)站两种情况中作出决策。
到x1
(1)站或x2
(1)后,又面临下一站是经过x1
(2)站还是x2
(2)站的第2次决策。
同样,在后续的每个阶段都要作出类似的决策。
多阶段决策问题(3/12),在该行车问题中,阶段数n=4,需作n-1=3次决策。
由于每次决策只有两种可能的选择,3次选择共有2n-1=23=8种不同的行车路线。
因此,计算8种不同的行车路线所耗费的总行车时间,取最小者即可求出最短时间行车路线。
若行车问题需作决策的阶段数n较大,每次决策中可供选择的方案较多时,用上述穷举法来解决最短行车时间问题计算量非常大。
一般说来,用穷举法计算时间与作决策的阶段数n和每次决策中可供选择的方案数成指数关系,即通常所称的指数爆炸、维数灾难。
多阶段决策问题(4/12),通过分析发现,另一种求最短时间行车路线方法的是:
从最后一段开始,先分别算出x1(3)站和x2(3)站到终点F的最短时间,并分别记为Jx1(3)和Jx2(3)。
实际上,最后一段没有选择的余地。
因此,由图7-10可求得Jx1(3)=4,Jx2(3)=3,多阶段决策问题(5/12),为便于今后求解过程的应用,可将从x1(3)站和x2(3)站到终点的最短时间Jx1(3)和Jx2(3)的数值标记于代表该站的小圆圈内,如图7-11所示。
其他站的情况依此类推。
图7-11最优行车路线图,多阶段决策问题(6/12),由此向后倒推,继续考察倒数第2段,计算x1
(2)站和x2
(2)站到终点F的最短时间,并分别记为Jx1
(2)和Jx2
(2)。
由图7-10可知,从x1
(2)站到达终点F的路线中下一站只能是x1(3)站和x2(3)站中之一。
由于从x1(3)站和x2(3)站分别前往终点的最短时间已经计算出,因此,从x1
(2)站和x2
(2)到终点的最短时间分别为Jx1
(2)=min1+Jx1(3),1+Jx2(3)=4Jx2
(2)=min2+Jx1(3),2+Jx2(3)=5其相应的最短时间行车路线为x1
(2),x2(3),F和x2
(2),x2(3),F。
多阶段决策问题(7/12),类似于前面过程,其他各站到终点的最短时间和相应的行车路线如图图7-11所示.从图7-11可以很方便地得到各站到终点站F的最短时间行车路线和所耗费的行车时间,当然,也可以得到从起点站S到终点站F的最短时间行车路线和所耗费的行车时间。
多阶段决策问题(8/12),上述最短行车时间路线问题及其求解方法可以推广到许多多阶段决策优化问题,如建筑安装工期计划、经济发展计划、资源合理配置等,其相应的最优性指标可以为所耗费的时间最短,也可以为所耗费的能源最小、所得到的效益最好等。
因此,前面介绍逆向递推求解最优化问题的方法是一种具有普遍性意义的多阶段决策优化方法,称为动态规划法。
从上述解题的叙述过程可以看出,动态规划法具有如下特点。
多阶段决策问题(9/12),1)与穷举法相比,动态规划法可使计算量大为减少。
事实上,用动态规划法解多阶段决策问题,只需作一些简单的、非常有限的加法运算和求极大运算。
如对一个有n个阶段,除最后一段外每一个状态下一步有m种可能决策方案的多阶段决策问题,共需作(n-2)m2+m=(mn-2m+1)m次加法运算,以及(mn-2m+1)(m-1)次从二取一的极大运算而对穷举法,则需作mmn-2(n-1)=mn-1(n-1)次加法运算和mn-1-1次的从二取一的极大运算。
如对前面的n=4,m=2的最短时间行车问题,用动态规划法求解共需作10次加法运算和5次从二取一的极大运算。
而用穷举法求解,则分别为24次和8次。
多阶段决策问题(10/12),因此,动态规划法在减少计算量上的效果是显著的。
阶段数n越大,决策方案m越多,则动态规划法的优点更为突出。
如对n=10,m=4的多阶段决策问题,用动态规划法求解共需作132次加法运算和33次从二取一的极大运算,而用穷举法求解分别为2359296次和262143次。
因此,动态规划法的效果是非常显著的。
多阶段决策问题(11/12),2)用动态规划法求解多阶段决策问题的思路是:
为最后求出由起点S至终点F的最优路线,先逆向递推求出各状态至终点F的最优路线。
在取得当前状态到终点的极值时,只需要知道当前状态值和上一次的最优(集合)值,就可以得到当前的最优值,并作为下一次优化的初始数据。
贝尔曼的最优性原理就是运用这个原理给出递推方法的。
多阶段决策问题(12/12),3)由图7-11可知,与从起点S至终点F的最优路线S,x2
(1),x1
(2),x2(3),F相对应的,该最优路线的从x2
(1)站至终点F的部分路线x2
(1),x1
(2),x2(3),F是从x2
(1)站至终点F的最优路线。
类似地,从x1
(2)站至终点F的最优路线x1
(2),x2(3),F是从起点S至终点F的最优路线S,x2
(1),x1
(2),x2(3),F的一部分,也是从x2
(1)至终点F的最优路线x2
(1),x1
(2),x2(3),F的一部分。
对于多阶段决策问题,最优路线和最优决策具有这种性质不是偶然的,而反映了该问题的一种规律性,即所谓的贝尔曼的最优性原理。
它是动态规划法的核心。
最优性原理一般问题的问题描述(1/22),2.最优性原理一般问题的问题描述,现在正式阐述动态规划的基本原理。
在引进一些专门的名词之后,先叙述所要求解的多阶段决策问题,接着给出和证明动态规划法的核心问题最优性原理,并应用这一基本原理求解多阶段决策过程,并将该求解方法推广至在离散系统最优控制问题。
下面将在函数空间中描述N阶段的决策过程,为此先引进下述概念与定义。
1)状态向量x(k),表示过程在k时刻的状态。
对控制问题,相当于状态变量向量。
最优性原理一般问题的问题描述(2/22),决策向量u(k),表示过程在k时刻的从某一状态转变为另一状态的动因。
对控制问题,则相当于控制输入向量。
策略u(0),u
(1),u(N-1),是个阶段的决策所组成的决策集合。
代价J,由于状态发生转移所耗费的代价。
对控制问题,相当于性能指标。
最优性原理一般问题的问题描述(3/22),设在决策u(k)的作用下,发生了状态从x(k)到x(k+1)的转移。
显然新的状态x(k+1)完全取决于原来的状态x(k)和所采取的决策u(k)。
也可以把这种转移看成是在决策u(k)作用下的状态从x(k)到x(k+1)的一种变换,且这种变换关系是唯一的,并用x(k+1)=f(x(k),u(k),k)表示。
在每一阶段,通常有若干个决策可供选择,我们用(k)代表第k个阶段可供选择的决策的集合。
一般说来,阶段不同,其决策集合(k)也不同。
下面,我们还用代表全部可供选择的决策的集合,即=(0)
(1)(N-1),最优性原理一般问题的问题描述(4/22),对多阶段的决策问题,可以详细描述如下。
设系统由决策u(k),经变换式(7-182)把状态从x(k)转移到x(k+1),其相应耗费的代价为F(x(k),u(k),k),k=0,1,N-1。
现需通过一变换序列f(x(0),u(0),0),f(x
(1),u
(1),1),f(x(N-1),u(N-1),N-1)将初始状态x(0)经x
(1),x(N-1)转移到终态x(N),与这N次转移相对应的所耗费的总代价为,试求出一个决策序列u(0),u
(1),u(N-1),使N阶段决策问题的总代价最小。
x(k+1)=f(x(k),u(k),k)(7-182),最优性原理一般问题的问题描述(5/22),对多阶段的决策问题,可以详细描述如下。
设系统由决策u(k),经变换式(7-182)把状态从x(k)转移到x(k+1),其相应耗费的代价为F(x(k),u(k),k),k=0,1,N-1。
现需通过一变换序列f(x(0),u(0),0),f(x
(1),u
(1),1),f(x(N-1),u(N-1),N-1)将初始状态x(0)经x
(1),x(N-1)转移到终态x(N),与这N次转移相对应的所耗费的总代价为,试求出一个决策序列u(0),u
(1),u(N-1),使N阶段决策问题的总代价最小。
x(k+1)=f(x(k),u(k),k)(7-182),最优性原理一般问题的问题描述(6/22),问题(7-183)的描述形式和最短路径问题又有所不同。
如果把(7-182)看作约束条件,则最短路径问题是一个无约束的动态规划问题,而问题(7-183)是一个具有约束的动态规划问题,在每一级优化(决策)的时候,都要考虑状态与控制之间的变换关系。
动态规划法是求解多阶段决策问题的一种最优化方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 动态 规划 离散系统 最优 控制
![提示](https://static.bdocx.com/images/bang_tan.gif)