第八章学习控制系统.docx
- 文档编号:30686845
- 上传时间:2023-08-19
- 格式:DOCX
- 页数:15
- 大小:81.99KB
第八章学习控制系统.docx
《第八章学习控制系统.docx》由会员分享,可在线阅读,更多相关《第八章学习控制系统.docx(15页珍藏版)》请在冰豆网上搜索。
第八章学习控制系统
第八章 学习控制系统
教学内容 本小节主要介绍目前对人工智能的几种定义,以及人工智能的各种认知观。
教学重点 1. 学习和学习控制的定义
2. 研究学习控制的目的
3. 介绍学习控制的发展历史
4. 介绍几种主要的学习控制方案
5. 分析学习控制的某些问题
教学难点 1. 学习和学习控制系统的定义
2. 几种常见学习控制方案的基本原理
3. 学习控制系统的建模以及收敛性和稳定性分析
教学方法 课堂教学为主,结合人类自身的学习能力,由浅入深地理解学习、学习控制、学习控制系统的基本原理以及分析存在的问题。
教学要求 掌握学习和学习控制系统的定义,理解几种常见学习控制方案的基本结构,了解反复学习控制和重复学习控制的异同点,能够简单地分析学习控制的稳定性和收敛性
8.1 学习控制概述
教学内容 学习的各种定义,学习控制的机理,研究学习控制的目的和学习控制的发展简史。
教学重点 学习的定义、学习控制系统的基本原理及其发展历史。
教学难点 怎样理解学习的各种不同定义并归纳学习控制的机理。
教学方法 课堂讲授为主,通过提问的方式来引导学生理解学习的各种定义。
教学要求 要求重点掌握学习的普遍定义,学习控制能解决哪些问题,能简要地回顾学习控制的发展历史。
8.1.1 什么是学习控制
1.学习(learning)的定义
定义8.1 一个具有生存能力的动物在它的一生中能够被其经受的环境所改造。
一个能够繁殖后代的动物至少能够生产出与自身相似的动物(后代),即使这种相似可能随着时间变化。
如果这种变化是自我可遗传的,那么,就存在一种能受自然选择影响的物质。
如果该变化是以行为形式出现,并假定这种行为是无害的,那么这种变化就会世代相传下去。
这种从一代至其下一代的变化形式称为种族学习(raciallearning)或系统发育学习(systemgrowthlearning),而发生在特定个体上的这种行为变化或行为学习,则称为个体发育学习(individualgrowthlearning)(Wiener,1965)。
定义8.2 假设
(1) 一个有机体或一部机器处在某类环境中,或者同该环境有联系;
(2) 对该环境存在一种“成功的”度量或“自适应”度量;
(3) 这种度量在时间上是比较局部的,也就是说,人们能够用一个比有机体生命期短的时间来测试这种成功的度量。
对于所考虑的环境,如果这种全局的成功度量,能够随时间而改善,那么我们就说,对于所选择的成功度量,该有机体或机器正为适应这类环境而学习(C.Shannon,1953)。
定义8.3 在同类特征的重复环境中,有机体依靠自己的适应性使自身行为及在竞争反应中的选择不断地改变和增强。
这类由个体经验形成的选择变异即谓学习(Osgood,1953)。
定义8.4 学习是一种过程,通过对系统重复输入各种信号,并从外部校正该系统,从而系统对特定的输入作用具有特定的响应。
自学习就是不具外来校正的学习,即不具奖罚的学习,它不给出系统响应正确与否的任何附加信息(Tsypkin)。
定义8.5 学习表示系统中的自适应变化,该变化能使系统比上一次更有效地完成同一群体所执行的同样任务(Simon)。
定义8.6 学习在于使我们的智力工作发生有益的变化(Minsky)。
定义8.7 学习系统(learningsystem)是一个能够学习有关过程的未知信息,并用所学信息作为进一步决策或控制的经验,从而逐步改善系统的性能。
定义8.8 如果一个系统能够学习某一过程或环境的未知特征固有信息,并用所得经验进行估计、分类、决策或控制,使系统的品质得到改善,那么称该系统为学习系统。
定义8.9 学习控制(learningcontrol)能够在系统进行过程中估计未知信息,并据之进行最优控制,以便逐步改进系统性能。
定义8.10 学习控制是一种控制方法,其中的实际经验起到控制参数和算法类似的作用。
定义8.11 如果一个学习系统利用所学得的信息来控制某个具有未知特征的过程,则称该系统为学习控制系统。
提问 你认为哪种学习和学习的定义最好?
2.学习控制的定义的数学描述
定义8.12 在有限时间域[0,T]内,给出受控对象的期望的响应,寻求某个给定输入,使得的响应,在某种意义上获得改善;其中,k为搜索次数,t∈[0,T]。
称该搜索过程为学习控制过程。
当k→∞时,该学习控制过程是收敛的。
根据上述定义,可把学习控制的机理概括如下:
(1) 寻找并求得动态控制系统输入与输出间的比较简单的关系。
(2) 执行每个由前一步控制过程的学习结果更新了的控制过程。
(3) 改善每个控制过程,使其性能优于前一个过程。
希望通过重复执行这种学习过程和记录全过程的结果,能够稳步改善受控系统的性能。
8.1.2 为什么要研究学习控制
1.自适应控制的应用范围比较有限。
当受控对象的运动具有可重复性时,即受控制系统每次进行同样的工作时,就可把学习控制用于该对象。
2.在学习控制过程中,只需要检测实际输出信号和期望信号,而受控对象复杂的动态描述计算和参数估计可被简化或被省略。
所以,对于工业机器人、数控机床和飞机飞行等受控对象的重复运动,学习控制具有广泛的应用前景。
3.学习与掌握学习控制的基本原理和技术能够明显增强控制工程师处理实际控制问题的能力,并提供对含有不确定性现实世界的敏锐理解。
4.对大范围运行的学习控制的研究课题,已引起特别关注,学习控制在智能控制和智能自动化方面有日益显著的地位。
提问 研究学习控制系统能解决哪些问题?
8.1.3 学习控制的发展
50年代:
研究学习机。
60年代:
研究自适应和自学习等方法,研究双重控制和人工神经网络的学习控制理论。
1962年:
KS.Narendra等提出了一种基于性能反馈的校正方法。
1964年:
FW.Smith提出一种应用模式识别自适应技术的开关式(Bang-Bang)控制方法。
F.B.Smith研究了可训练飞行控制系统;
Butz开发了一个开关式学习调节器;
Mendel把可训练阈值逻辑方法作为一种人工智能技术用于控制系统。
1965年:
Waltz和Fu提出把启发式方法用于再励学习(或强化学习)控制系统。
1965年:
Fu利用Bayes学习估计方法研究基于模式识别的学习控制。
1969年:
Wee和Fu提出模糊学习控制系统。
1977-1982年:
Saridis等发展了递阶语义学习方法。
80年代:
研究反复学习控制和重复学习控制。
1978年:
内山首先提出重复学习控制(repetitivelearningcontrol)方法,井上和中野等从频域角度发展了重复学习控制。
1984年:
本、川村和宫崎等提出了时域学习控制方法,即反复学习控制(iterativelearningcontrol)。
1986年:
古田等基于Hilbert空间和逆时间角度,提出一种多变量的最优反复学习控制,。
1987年:
Gu和Loh提出一种多步反复学习控制方法。
80年代初期:
连接主义(connectionist)学习方法为学习控制输入新的动力。
Rwmelhart等提出了能够实现多层神经网络的误差反向传播模型。
Hopfield提出一种具有联想记忆功能的反馈互连网络,后被称为Hopfield网络。
提问 你认为学习控制的关键阶段是什么,试阐述理由
8.2 学习控制方案
教学内容 学习控制系统的原理框。
教学重点 学习控制系统的原理及其控制方案。
教学难点 怎样比较分析四种学习控制方案的适用场合和异同点。
教学方法 结合实例来讲解不同学习控制方案的基本原理和应用场合。
教学要求 掌握学习控制系统原理框架图,理解各种学习控制方案的优缺点。
学习控制的主要方案:
·基于模式识别的学习控制
·反复学习控制
·重复学习控制
·连接主义学习控制
·基于规则的学习控制
·拟人自学习控制
·状态学习控制
学习控制具有四个主要功能:
搜索、识别、记忆和推理。
学习控制系统也分两类,即在线学习控制系统和离线学习控制系统,分别如图8.1(a)和8.1(b)所示。
图中,R代表参考输入,Y—输出响应,u—控制作用,s—转换开关。
当开关接通时,该系统处于离线学习状态。
(a) 在线学习控制系统
(b) 离线学习控制系统
图8.1 学习控制系统原理框图
讨论 离线学习和在线学习控制系统的联系和区别在哪里?
简要说明各自的应用场合。
8.2.1 基于模式识别的学习控制
1.基于模式识别的学习控制器
从图8.2可见,该控制器中含有一个模式(特征)识别单元和一个学习(学习与适应)单元。
模式识别单元实现对输入信息的提取与处理,提供控制决策和学习适应的依据;学习与适应单元的作用是根据在线信息来增加与修改知识库的内容,改善系统的性能。
图8.2 基于模式识别学习控制系统的一种结构
2.多级学习控制系统
从图8.3可知,该控制系统由三级组成,即组织级、自校正级和执行控制级。
组织级由自学习器SL(self-learner)内的控制规则来实现组织作用;自校正级由自校正器ST(self-turner)来调节受控参数;执行控制级则由主控制器MC(maincontroller)和协调器K构成。
MC、ST和SL内的在线特征辨识器CI1—CI3,规则库RB1—RB3以及推理机IE1—IE3是逐级分别设置的。
总数据库CDB为三级所共用,以便进行密切联系与快速通讯。
图8.3 一个多级学习控制系统
提问 多级学习控制系统的主要缺点表现在什么地方?
你认为控制系统最好由几层构成?
8.2.2 反复学习控制
1.反复学习控制的定义
定义8.13 反复学习控制是一种学习控制策略,它反复应用先前试验得到的信息(而不是系统参数模型),以获得能够产生期望输出轨迹的控制输入,改善控制质量。
2.反复学习控制的任务
给出系统的当前输入和当前输出,确定下一个期望输入使得系统的实际输出收敛于期望值。
因此,在可能存在参数不确性定的情况下,可通过实际运行的输入输出数据获得取好的控制信号。
反复控制与最优控制间的区别在于:
最优控制根据系统模型计算最优输入,而反复控制则通过先前试验获得最好输入。
反复控制与自适应控制的区别为:
反复控制的算法是在每次试验后离线实现的,而自适应控制的算法是在线算法,而且需要大量计算。
3.反复学习控制系统的框图
如图8.4所示,
代表有界连续期望输出;
代表第k次迭代参考输入;
代表第(k+1)次迭代参考输入;
代表闭环控制系统的第k次实际迭代输出;k=1,2,…,n。
图8.4 反复学习控制原理框图
图8.5 具有反馈控制器和输入饱和器的反复学习控制(据Jang等1995)
思考 反复学习控制是怎样产生的,它的主要功能是什么?
8.2.3 重复学习控制
1.重复学习控制的产生
根据内模原理,对于一个具有单一振荡频率ω的正弦输入(函数),只要把传递函数为
的机构设置在闭环系统内作为内模即可。
如果所设计的机构产生具有固定周期L的周期信号,并且被设置在闭环内作为内模,那么,周期为L的任意周期函数可通过下列步骤产生:
给出一个对应于一个周期的任意初始函数,把该函数存储起来,每隔一个周期L就重复取出此周期函数。
因此,可把周期为L的周期函数发生器想象为如图8.6所示的时间常数为L的时滞环节。
实际上,令时滞环节
的初始函数为
那么
每隔一个周期L就重复一次,而且其目标传递函数r(t)可表示为:
(8.1)
图8.6 周期函数发生器
可以得出推论,只要把此发生器作为内模设置闭环内,就能够构成对周期为L的任意目标信号均无稳态误差的伺服系统。
称该函数发生器为重复补偿器,而称设置了重复补偿的控制系统为重复控制系统(repetitivecontrolsystem)。
图8.7给出重复控制系统的基本结构。
图8.7 重复控制系统基本结构
2.重复控制和反复控制的区别
(1) 重复控制构成一个完全闭环系统,进行连续运行。
反之,反复控制每次都是独自进行的;每试行一次,系统的初始状态也被复原一次,因而系统的稳定性条件要比重复控制的松驰。
(2) 两种控制的收敛条件是不同的,而且用不同的方法确定。
(3) 对于反复控制,偏差的导数被引入更新了的控制输入表达式。
(4) 反复控制能够处理控制输入为线性地加入的非线性系统。
从上述讨论可知,反复控制具有重复控制所没有的一些优点。
不过,反复控制在应用方面也有其局限性〕。
重复控制已用于直流电动机的伺服控制、电压变换器控制以及机器人操作机的轨迹控制等。
提问 举例说明反复学习控制和重复学习控制的异同点?
8.2.4 基于神经网络的学习控制
神控制系统的核心是神经控制器(NNC),而神经控制的关键技术是学习(训练)算法。
从学习的观点看,神经控制系统自然地是学习控制系统的一部分。
有些人称这种神经控制为连接主义学习控制,另一些人称它为基于神经网络的学习控制。
读者可以把第五章(神经控制系统)当做本章的一节来复习
8.3 学习控制的某些问题
教学内容 本节首先讨论PID型学习控制系统的学习建模问题,然后分析基于CMAC的在线与离线学习控制系统的稳定性与收敛性。
教学重点 在机器人学习控制律的基础上介绍机器人系统的实现与仿真,以及在线和离线学习控制系统的稳定性和收敛性分析。
教学难点 在线和离线两种控制系统的稳定性和收敛性分析。
教学方法 本节涉及到很多数学公式,可先给学生简单地回顾一下用到的基本数学知识,重点推导一个简单的公式,引导学生举一反三,逐步消化理解本节内容。
教学要求 能够就某种简单学习控制系统进行建模及其稳定性和收敛性分析。
8.3.1 学习控制系统的建模
1.机器人系统的学习控制律
设
和
分别为动态系统第k次控制过程的输入函数和输出函数,
为第(k+1)次控制过程的输入函数,
为期望轨迹的输出矢量,那么可写出PID型学习控制律如下:
(8.2)
式中,
而Ψ、Φ和Γ为n×r常系数矩阵.
为第k次过程的输出偏差,即:
(8.3)
当
(8.4)
对于任何类型的学习控制方案,收敛的充分条件是由(机器人)系统的一般状态方程决定的。
2.机器人控制系统的实现与仿真
在机器人系统中,广义动量p无法直接测量。
学习控制律可被简化为:
(8.5)
p的时间导数,需要按下列符号公式进行多步计算:
(8.6)
这需要计算几乎整个动态公式,而且非常费时。
为保证学习控制过程迅速收敛保持p的计算不变(这是合理的),而力图减轻对式(8.6)的计算工作量。
3.仿真PUMA560得到的结论
已对PUMA560机器人操作机完成了新学习控制方案的仿真研究,而且此仿真过程已经确定。
从这个仿真可得出下列结论:
(1) 第一个(次)过程具有大的输出偏差,因为试探输入
是随意选择的。
不过,第二次试探之后,输出明显地收敛而接近于期望输出。
(2) 对于每个过程,初始输出必须与期望输出一样,即对于
如果不这样做,那么该过程将收敛于与期望轨迹平行且保持恒定距离的轨迹。
8.3.2 学习控制的稳定性和收敛性分析
1.离线学习控制系统的稳定性和收敛性分析
图8.8给出一个CMAC离线学习控制系统的结构。
该装置的控制输入u由两个分量组成:
(8.7)
图8.8 CMAC离线学习控制系统
定理8.1 存在一个反馈控制:
(8.8)
使得系统的状态误差边界为:
(8.9)
式中,
。
定理8.2 设
和
为有界函数:
(8.10)
且定理8.1中的反馈增益满足下列不等式:
(8.11)
规定:
(8.12)
式中,
使该系统收敛:
(8.13)
(8.14)
2.在线学习控制系统的稳定性与收敛性分析
自适应过程的定义
定义8.14 控制系统在每个采样期内实时地训练神经网络的过程,称为自适应过程。
学习过程的定义
定义8.15 控制系统在积累了一系列样本之后离线地训练神经网络的过程,称为学习过程。
图8.9表示一个基于CMAC的在线学习控制系统的框图,该系统具有从系统输出的反馈作用。
图8.9 基于CMAC的在线学习控制系统
CMAC中神经网络的收敛性
定理8.3 基于CMAC神经网络的在线学习控制用于一类仿射非线性系统
(8.15)
(8.16)
如果系统满足下列条件:
(1)
可逆;
(2) 理想状态
和
是严格混合和平稳随机过程;
(3) PD控制保证系统全局渐进稳定;
(4)
正定。
那么,CMAC神经网络算法收敛,即:
(8.17)
8.4 小 结
根据学习和学习控制的定义,把学习控制机理归纳为:
(1) 寻求并发现动态控制系统输入输出间比较简单的关系;
(2) 执行由上一次控制过程的学习结果更新过的每一控制过;
(3) 改善每个过程的性能,使其优于前个过程。
重复这一学习过程,并记录全过程积累的控制结果必将稳步地改善学习控制系统的性能。
存在许多种学习控制方案,诸如基于模式识别的学习控制、反复学习控制、重复学习控制以及连接主义学习控制等。
本章介绍了上述四种学习控制系统的原理与结构。
第三节的讨论重点放在学习控制的一些重要研究问题上,例如,学习控制系统的建模,以及离线和在线系统学习控制的稳定性和收敛性分析等
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八章 学习控制系统 第八 学习 控制系统