建模:-动态规划.pptx
- 文档编号:229274
- 上传时间:2022-10-07
- 格式:PPTX
- 页数:111
- 大小:2.40MB
建模:-动态规划.pptx
《建模:-动态规划.pptx》由会员分享,可在线阅读,更多相关《建模:-动态规划.pptx(111页珍藏版)》请在冰豆网上搜索。
院,学,通,交,大,科,中,华,主要内容:
6.1多阶段决策过程的最优化,6.2动态规划的基本概念和基本原理6.3动态规划方法的基本步骤6.4动态规划应用举例,第六章动态规划,院,学,通,交,大,科,中,华,6.1多阶段决策过程的最优化,动态规划是解决多阶段最优决策的方法,由美国数学家贝尔曼(R.Bellman)于1951年首先提出;1957年贝尔曼发表动态规划方面的第一部专著“动态规划”,标志着运筹学的一个新分支的创立。
中科大交通学,华,例6.1求解最短路问题,院,学,院,通,交,大,科,中,华,动态规划将复杂的多阶段决策问题分解为一系列简单的、离散的单阶段决策问题,采用顺序求解方法,通过解一系列小问题达到求解整个问题目的;动态规划的各个决策阶段不但要考虑本阶段的决策目标,还要兼顾整个决策过程的整体目标,从而实现整体最优决策.,通,学,院,交,大,科,中,华,动态规划的分类:
离散确定型离散随机型连续确定型连续随机型,学,院,通,交,大,科,中,华,动态规划的特点:
动态规划没有准确的数学表达式和定义精确的算法,它强调具体问题具体分析,依赖分析者的经验和技巧。
与运筹学其他方法有很好的互补关系,尤其在处理非线性、离散性问题时有其独到的特点。
学,通,交,科,中,华,通常多阶段决策过程的发展是通过状态的一系列变换来实现的。
一般情况下,系统在某个阶段的状态转移除与本阶段的状态和决策有关外,还可能与系统过去经历的状态和决,策有关。
因此,问题的求解就比较困难复杂。
大,而适合于用动态规划方法求解的只是一类特殊的多阶段决策问题,即具有“无后效性”的多阶段决策过程。
所谓无后效性,又称马,尔柯夫性,是指系统从某个阶段往后的发展,院,学院,通,中,仅由本阶段所处的状态及其往后的决策所决华,定,与系统以前经历的状态和决策(历史)无关。
具有无后效性的多阶段决策过程的特点是系科统过去的历史,只能通过现阶段的状态去影大响系统的未来,当前的状态就是后过程发展交,的初始条件。
学,院,通,交,大,科,中,华,动态规划的应用,动态规划在工程技术,企业管理,军事部门有广泛的应用;可解决资源分配,生产调度,库存管理,路径优化,设备更新,投资规划,排序问题和生产过程的最优控制等问题;,学,院,通,交,大,科,中,华,拾火柴游戏:
桌子上放30根火柴,每人一次可拾起13根,谁拾起最后一根火柴谁输,如果你先选择,如何保证你能赢得游戏?
2925211713951,动态规划与倒推求解:
院,学,通,交,大,科,中,
(1)阶段
(2)状态(3)决策与策略(4)状态转移(5)指标函数,6.2动态规划的基本概念和基本思想华,一、基本概念使用动态规划方法求解决策问题首先要将问题改造成符合动态规划求解要求的形式,要涉及以下概念:
学院,通,交,大,科,中,华,
(1)划分阶段,把一个复杂决策问题按时间或空间特征分解为若干(n)个相互联系的阶段(stage),以便按顺序求解;,阶段变量描述当前所处的阶段位置,一般用下标k表示;,院,学,通,交,大,科,华,每阶段有若干状态(state),表示某一阶段决策面临的条件或所处位置及运动特征中的量,称为状态。
反映状态变化的量叫作状态变量。
k阶段的状态特征可用状态变量sk或xk描述;状态有起始、中间、最终状态之分,每一阶段的全部状态构成该阶段的状态集合Sk,并有skSk或xkSk。
每个阶段的状态,可分为初始状态和终止状态,或称输入状,k,态和输出状态,阶段的初始状态记作s,终止状态记为s,
(2)确定状态,院,学,交,大,科,中,华,(3)决策、决策变量,所谓决策就是确定系统过程发展的方案,,决策的实质是关于状态的选择,是决策者从给定阶段状态出发对下一阶段状态作出的选择。
用以描述决策变化的量称之决策变量,,和状态变量一样,决策变量可以用一个数,通一组数或一向量来描述也可以是状态变量,的函数,记以,表示于k阶段状态sk时的决策变量,交通学,院,大,科,决策变量的取值往往也有一定的容许范围,华,称之允许决策集合决策变量uk(sk)的允许决中,策集用UK(SK)表示,uk(sk)DK(SK),允许决策集合实际是决策的约束条件。
交,院,中,华,(4)策略和允许策略集合,策略(Policy)也叫决策序列策略有全过程,策略和k部子策略之分,全过程策略是指,具有n个阶段的全部过程,由依次进行的n科个阶段决策构成的决策序列,简称策略,表大,示为。
从k阶段到第n阶,段,依次进行的阶段决策构成的决策序列称通,为k部子策略,表示为,,显学,然当k=1时的k部子策略就是全过程策略。
学,院,通,交,大,科,华,(5)状态转移方程,状态转移确定从一个状态到另一个状态的中,转移过程,由状态转移方程描述:
sk+1=T(sk,uk);状态转移方程在大多数情况下可以由数学公式表达,如:
sk+1=uk(sk);,中,时间、效用,等等。
学,院,华,(6)指标函数,用来衡量策略或子策略或决策的效果的,某种数量指标,就称为指标函数。
它是定义科在全过程或各子过程或各阶段上的确定数量大函数。
对不同问题,指标函数可以是诸如费交用、成本、产值、利润、产量、耗量、距离、通,院,学,交,大,科,中,华,用RK(sk,uk)表示第k子过程的指标函数。
通,表示处于第k段sk状态且所作决策为uk,k,时,从s点到终点的距离。
由此可见,,RK(sk,uk)不仅跟当前状态sk有关,还跟,1)阶段指标函数(也称阶段效应)用gk(sk,uk)表示第k段处于状态sk且所作决策为uk时的指标,则它就是第k段指标函数,简记为gk。
2)过程指标函数(也称目标函数),院,大,科,中,华,还跟该子过程策略pk(sk)有关,严格说来,应表示为Rk(sk,pk(sk)。
它是由各阶段的阶段指标函数gk(sk,uk)累积形成的,对于k部子过程的指标函数可以表示为:
交通式中,表示某种运算,可以是加、减、学,乘、除、开方等,通学,交,大,科,中,华,多阶段决策问题中,常见的目标函数形式之一是取各阶段效应之和的形式,即:
有些问题,如系统可靠性问题,其目标函数是取各阶段效应的连乘积形式,,院,学,通,科,中,华,(7)最优解,用fk(sk)表示第k子过程指标函数Rk(sk,pk(sk)在状态sk下的最优值,即:
大称fk(sk)为第k子过程上的最优指标函数;交,院,*,与它相应的子策略pk(sk)称为状态sk下的最优子策略,记为pk(sk),中科大交通,华,例6.2用动态规划求解最短路问题,学,院,学,通,交,大,科,中,华,最短路的求解:
阶段:
可分为5个阶段,k=1,.,5。
状态:
可用城市编号,S1=1,S2=2,3,4,S3=5,6,7,S4=8,9,S5=10决策:
决策变量也可用城市编号;状态转移方程:
sk+1=uk;损益递推函数:
院,院,学,通,交,大,科,中,华,k=4,4,f(8)=10,4,f(9)=14,k=3,f3(5)=min6+f4(8)=16*,8+f4(9)=22=16f3(6)=min5+f4(8)=15*,9+f4(9)=23=15f3(7)=min8+f4(8)=18,3+f4(9)=17*=17k=2f
(2)=min6+f(5),8+f(6),11+,院,学,通,交,大,科,中,华,f2(3)=min6+f3(5),8+f3(6),7+,f3(7)=min22*,23,24=22f2(4)=min5+f3(5),7+f3(6),8+f3(7)=min21*,22,25=21k=1f1
(1)=min5+f2
(2),9+f2(3),7+f2(4)=min27*,31,28=27最短路是:
125810,学,院,通,交,大,科,中,华,计算效率分析:
对有7个阶段,每个阶段有5种状态的最短路径问题,用穷举法计算要进行56=15625次加法和3124次比较,而动态规划只需105次加法和84次比较,计算效率分别提高近150和40倍.,学,院,通,交,大,科,中,华,动态规划的无后效性原则,对任何阶段k,有sk+1=T(sk,uk),sk+1仅,kk,取决于当前状态s和当前决策u,与k,阶段前的状态和决策无关,也即,k阶段以后的发展不受该阶段以前状态的影响,过去的历史只能通过当前状态来影响今后的发展。
通,学,院,交,大,华,整个过程的最优策略应具有这样的性质:
中无论过去的状态和决策如何,对前面的决科策所形成的状态而言,后续的诸决策必须构成最优策略;,二、动态规划的最优性原理,院,学,通,中科大交,华,在例6.1中,用标号法求解最短路线的计算公式可以概括写成:
其中,g在这里表示从状态s到由决策u,kkk,所决定的状态sk+1之间的距离。
f5(s5)=0是边界条件,表示全过程到第四阶段终点结束。
交通,大,华,一般地,对于n个阶段的决策过程,第k,阶段和第k+1阶段间的递推公式可表示如下:
中科,当过程指标函数为下列“和”的形式时,学,院,中科大交通,华,相应的函数基本方程为:
学,院,中科大交通,华,当过程指标函数为下列“积”的形式时,学,院,中科大交通,华,相应的函数基本方程为:
学,院,院,通,交,大,科,华,6.3动态规划方法的基本步骤,1.将问题按时间或空间划分为满足递推关系中,的若干阶段,对非时序问题可人为地引入“时段”概念;,2.正确选择状态变量s,满足:
k可知性:
正确描述动态过程演变,可直接或间接确定状态变量的值;,无后效性:
后面的决策与前面的决策学,无关;,院,学,通,交,大,中,华,3.确定决策变量uk(或xk)以及允许决策集合Dk;,4.写出状态转移方程sk+1=T(sk,科,dk);,决策变量的取值范围写出损益函数的递推关系,应满足:
是定义在所有阶段上的数量函数;具有可分离性,并满足递,学院,通,交,大,例6.3有某种机床,可以在高低两种不同的负荷下进,行生产,在高负荷下生产时,产品的年产量为g,与华年初投入生产的机床数量u1的关系为g=g(u1)=8u1,这中时,年终机床完好台数将为,au(a为机床完好率,科,0a,设a)。
在低负荷下生产时,产品的年产量为h,和投入生产的机床数量的关系为h=h(u2)=5u2,相应的机床完好率为bU2(0b2,设b=0.9),一般情况下(ab)。
院,交,大,科,中,华,假设某厂开始有x1=1000台完好的机床,现要制定一个五年生产计划,问每年开始时如何重新分配完好的机床在两种不同的负荷下生产的数量,以使在5年内产品的总产量为最高。
解:
首先构造这个问题的动态规划模型。
通1分阶段:
设阶段变量k表示年度,因此,学,阶段总数n=5。
学,院,通,交,大,科,中,华,2.状态变量:
用sk表示第k年度初拥有的完好机床台数,同时也是第k-1年度末时的完好机床数量。
3.决策变量:
用uk表示第k年度中分配于高负荷下生产的机床台数。
于是sk-uk便为该年度中分配于低负荷下生产的机床台数。
通,中科大交,华,4状态转移方程为:
决策变量的取值:
在第k段为,学,院,交通,大,中,华,6条件最优目标函数递推方程,令fk(sk)表示由第k年的状态sk出发,采取,最优分配方案到第5年度结束这段时间的产品科,产量,根据最优化原理有以下递推关系:
学,院,院,学,大交通,科,中,下面采用逆序递推计算法,从第5年度开始递华,推计算,K=5时有,*,显然,当u5=s5时,f5(s5)有最大值,相应,的有f5(s5)=8s5。
中科大交通,华,K=4时有:
学,院,通,交,科大,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 建模 动态 规划