doe实验设计文档格式.docx
- 文档编号:20526651
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:21
- 大小:37.73KB
doe实验设计文档格式.docx
《doe实验设计文档格式.docx》由会员分享,可在线阅读,更多相关《doe实验设计文档格式.docx(21页珍藏版)》请在冰豆网上搜索。
当优化某一因子时,将它设为常量,下一个因子变化,直到找到那个因子的最优点。
然而,该方案并不一直找到最优设置,如图3中的双因子优化例子所示。
该图显示的是以火花角扭矩和凸轮轴位移为例。
容易看出,当响应达到最大值时有个优化设置点。
采用单因子优化来寻找优化设置点,须对诸多点进行测量,对某一因子以固定步长进行变化(如,图3左边的蓝线上描述的10个点)。
这个因子的最优点以红点表示。
该方法在第二个参数中重复使用(图3右边)。
通过努力,显示了该优化结果离全局优化结果较远,他们之间的关系如图所示。
图3传统优化
一个经典的单因子优化替代方法是设计区的全因子网格测试(全因子实验)。
由于该测试方法在固定网格之间测试输入变量的所有联系,因此能找到全局最优量。
当优化参数量增多时,该方法的核心问题立刻显示出来。
在图3中,第一个实验设计要求2×
10=20的测量。
为在相同网格中进行全因子实验,需要执行10×
10=100测试。
需要的测试以输入变量数量的指数形式增长。
由于重复增加新设置变量(多大10个变量),现代发动机中变量大大增加了,因此,全因子设计不经济,或甚至不可行。
全因子实验的一个替代方案是基于模型的DOE优化方法。
该方法采用优化设计实验方法测量几个预先决定的点。
图4(左边)显示了图3例子中的测量点。
测量点的数量大大少于全因子设计中的点数量。
基于准时测量,拟合数据模型的简单多项式函数(图4右边)。
最后,采用插值多项式系数方法调整曲线形状,使预测曲线和测量曲线尽可能靠近。
除了多项式,许多其他的模型也能应用,比如,神经网络,径向基函数将在下文中介绍。
图4基于模型优化
底部:
圆型和模型的3D视图
虽然模型不能生成精确的实物功能的复制品,图4左右图的对比,提供了采用数学关系汽车优化方法可能的优势。
数学提供了很多算法来找全局优化点。
在图4中,优化点以小箭头标出。
多项式模型
多项式属于最常用的模式。
以泰勒级数为基础,多项式允许诸多相关近似值有一定误差。
通常,几个输入变量(x1到xk),存在一个响应或观侧量y,响应随输入变量变化而变化。
建立数学模式的目标是建立输入量和响应之间的函数关系。
一般地,多项式的形式如下:
多项式表达式
以矩阵形式表示为:
矩阵形式
多项式方程可简写如下:
y=x×
a
(1)
y:
预测向量(n维)
x:
设计矩阵,包含格式化的输入量(n×
p维)
a:
预测系数向量(p维)
在此,a代表系数向量。
在最简单的情况中,仅存在一个独立的输入变量x,通常的情况是存在几个独立的输入变量。
设计矩阵x是输入量的组合,从指数1到m。
也即,该项包括输入值以任意顺序的排列,指数从1到m,包括输入量之间的所有关系。
矩阵中的每一行对应一个输出y。
要估计系数矩阵a,采用回归分析的方法。
为达到这个目标,预测值和观测值之间的差,称为偏差,在所有偏差的平方和最小化后计算。
公式
(2)
观测向量(n维)
r:
偏差向量(n维)
简单计算后,得到最小平方差方程:
公式(3)
向量a’代表系数向量a的预测值,预测值常常偏离真实值。
即使观测数n超过估计系数p,该方程仍有效。
评估该估计方法的质量,需要附加观测,且要求[1],[2]。
模型的核查分两步执行。
首先,在评估阶段,使用原先建立模型时的数据。
第二步,使用在建立模型时未使用的有效数据来测试已建立的模型。
确实地,该方法能确保对建立的模型提供足够的预测质量。
然而,采用多项式模型,没有其他模型的过拟合度高。
然而,存在不同的性质,可以用来探测过拟合。
过拟合
如果模型包含过多的系数,该选定的模型存在过拟合的危险。
也即,模型只预测用来估计的数据。
有效数据点预测起来更不准确,因为模型同时描述了所有的测量误差。
由于这些误差是随机的,不可能生成他们精确的复制品。
图5显示了一个测量例子(钻石)。
第一个模型(红)预测了测量点,第二模型(蓝)在采用回归方法估计了所有测量误差后,预测了可能的特性。
图5过拟合
以几个估计标准为基础,决定哪些系数要从模型中移除。
在大部分情况下,要反复进行估计过程。
另外,要检查设计区点的分布,看看是否与选定的模型方法兼容。
为达到这个目标,要使用信息矩阵,这将在“优化设计方案”章节中介绍(见p25f)。
对该矩阵方差和协方差的估计,能提供更多信息给需要从模型中移除的系数。
另外,可采用所谓的设计矩阵的条件数来核查分布质量。
所谓条件数,通俗地讲,就是矩阵的最小和最大特征值的商。
当条件数小的情况下,设计点的分布质量好。
回归预测误差
模型方案的初次评估,采用偏差的平方和方法,该值在回归过程中最小化。
计算根后,得到根均方误差(RMSE)。
公式(4)
如下解释:
n:
观测数
p:
评估系数数
yi:
第i个观测
yi’:
第i个估计
值小表明模型方法的质量好。
预测误差包括由于测量不确定性而造成的随机误差,和描述真实值与定义的多项式模型偏离的模型误差。
如果使用的多项式能准确描述模型的物理联系,则模型误差为零。
为了描述随机误差,观测数n必须超过估计系数p。
如果观测数值和系数数值相等,根据定义,该误差也为零。
例如,图6表明了误差的频率分布,在理想情况下,是正态分布曲线。
为进一步核查过拟合现象,采用PRESSRMSE值(PRESS:
预测误差平方和)。
该值允许预测误差更精确的估计值。
在n维观测情况下,只有采用n-1观测,多项式才拟合。
因此,当测量和预测模型比较时,剩余的第n个观测用来验证模型质量。
模型预测值和剩余的观测值的偏差称为根均方预测误差。
图6偏差直方图和高斯分布
决定量R2的系数
回归R2的系数表明了回归模型描述观测量特性的能力。
该质量标准用来评估估计值的变化和观测值的变化之间的比率。
公式(5)
观测值的平均值
R2在0到1之间。
值接近1,表明模型拟合性好。
然而,该标准不能检测出过拟合。
模型与观测特性拟合得越好,上述方程右端的分子表示的偏差平方和越小。
相应地,R2趋向于1。
为避免不能检测过拟合这种现象,须修改公式的系数,生成另外两种质量标准,以提供回归模型和过拟合模型的估计标准。
首先,得到决定量的调整系数,缩减了可变性和模型的项数。
其次,应用PRESSR2值,代替了偏差平方和(见以前的章节“回归的预测误差”,p.13.)[3],[4]。
变形
通过对响应的变形,能获得更好的拟合模型。
为达到这个目的,计算响应y的根值、倒数值、对数值。
对范围内的所有输入量,该变形能生成响应的更好分布。
这种方法,称为Box-cox变形法,将变形应用到所有响应值,并选择偏差平方和最小的变形。
除数据估计外,物理联系和实际因素的考虑也要放到变形中去。
例如,当输入量和响应之间成对数关系时,推荐采用对数变形。
如果小响应对模型的应用有重大关系,平分根和对数变形是明智的。
例如,排放量的预测是相当小的值。
另外,对特定燃料消费值,采用倒数变形是合适的,变化成效率。
因此,考虑有重大关系的输入量效率更高。
因此,在这个范畴下,回归误差比预测误差更小。
人工神经网络
人工神经网络能进一步提供了模型的物理联系。
人工神经网络能拟合任意连续功能。
神经网络的数学定义复制出自然结构和神经细胞(也称神经元)功能,以及他们之间传递的信息。
通俗地讲,神经元包括细胞体,树突,长的神经纤维,也称轴突。
在树突和轴突的末端,微小的间隙称为突触,用来传递神经细胞间的信息(图7)。
在化学物质的帮助下,电信号通过突触传递到接受神经细胞。
在细胞使用轴突将信号向前传递给下一个神经前,树突将信号传给神经元。
人工神经网络通过几条输入通道(树突)接收信息。
质量乘以神经输入代表突触强度。
将该信息传递到下一个神经元,要应用输出(轴突)(图8)。
图7神经元的自然结构
和多项式模型相似,特定的输入和测量响应之间的物理联系做为一个黑箱,由一个方程和一些未知系数描述。
这些未知的系数用来描述实际问题。
图8人造神经元
在发动机优化建模过程中,最常使用的是前馈神经网络。
这种模型的名字反映了向前传导网络的基本原理,信号仅从输入向输出传递。
因此,不会发生向前一层神经元输送信号的情况。
这种类型网络的另外一个名称为多层感知器(MLP)。
感知器[6]被认为是最简单的前馈网络。
它只包括1个神经元(见图8)。
该神经元计算输入值的总质量和。
如果该和超过一定的极限,神经元向前传递信号,也即,被认为是激活的。
也会说,该神经元“兴奋”。
用数学公式总结,感知器可描述成下面的方程:
公式(6)
y:
神经元响应
wi:
第i个输入值质量
xi:
第i个输入
b:
神经元阈值
f:
传递函数和激活函数
如果多个感知器平行相连到相同的输入,他们形成神经层。
类似地,如果细胞层一层一层相连,代表多层感知器。
一层神经层的输出是下一层神经层的输入(图9)。
一般地,前馈神经网络包含一个输入层,几层隐藏的有不同数量神经元的中间层,一个输出层。
输出层一般包含一个带线性传递函数的神经元。
图9多层感知器网络(MLP)
专业的前馈网络用来适应特定问题,如,他们质量和阈值(系数未知)定下来了。
为达到这个目标,要求一套专业数据,包括对某些输入参数的响应。
预测输出和预决定输出之间的差别在于,采用最陡梯度搜索方式能最小化网络误差。
该方法称为“向后传播算法”。
一些特定的专业算法是基于这个基本方法,但设法避免网络的过拟合。
由于陡梯度搜索的成功性依赖于选定的初值,因而,有必要多次训练网络。
确保该程序不在本地找到最小值。
为了能够采用人工神经网络解决物理问题,需要成功拟合模型。
为达到这个目的,有必要选择恰当的算法。
另外,需要调查什么样的网络结构最合适,需要几层网络。
另外,需要确定每层的神经元数量。
在发动机建模领域中,采用仅有一个响应被证实能得到更高的正确度。
因此,使用的模型在输出层包含带线性传递函数的响应。
神经网络结构的选择取决于外部条件,比如,硬件单元可能会限制计算时间。
在通常情况下,网络的训练是非常耗时的。
为验证神经网络的质量,在验证数据的设置的帮助下,计算平均误差RSME。
另外,须核查模型响应和神经网络输入之间的关系,以确保无非理想形状(如强振荡)。
径向基函数网络(RBF网络)
相比于多层感知器网络(MLP),发动机建模中的RBF网络仅包含一层隐藏层和一层输出层。
和MLP网络类似,输出层仅包括一个带线性传递函数的神经元。
在隐藏层中,输入向量x与第j个神经元中心之间的距离计算如下。
公式(7)
该距离值是径向对称中心或激活函数(径向基函数)的输入。
在这里,采用高斯函数作为例子(图10):
公式(8)
图10高斯函数宽度为σ=0.3
所有的径向基函数有一个系数,来决定函数宽度。
考虑上面描述的函数,这个系数称为σ。
这个函数宽度决定相邻细胞输出的重叠度(图11)。
隐藏层的输出向前传递到输出层,输出层仅包含一个神经元。
输出神经元的输入要进行质量测量,而后,网络的响应根据下面方程计算:
公式(9)
Cj:
第j个神经元的中心
X:
输入向量
Wj:
第j个神经元的质量
h:
中心函数
网络响应
基函数的基本原理是神经元的输入向量接近神经元中心的强反应。
反过来,如果输入量向量远离中心点,神经元反应弱。
径向基函数的重叠使RBF网络在训练值之间进行插值,相比MLP之下,这是一个优势。
多层感知器网络在网格之间有时会有振荡,因此,在输入域下,产生极端响应。
图11隐藏层中的径向基函数重叠
因此,RBF网络需要决定的参数是中心点(隐藏层的神经元)的数量和位置,径向基函数宽度,和输出神经元的宽度。
这些质量由方程9明确确定。
为避免RBF网络的过拟合,训练数据的点数须超过隐藏层中神经元数量。
激活函数的宽度值和中心点的数量和位置可由优化算法找到,那些算法的描述超出本书的描述范围。
设计方案
输入变量只能在预先设定的范围内变化。
然后,所有变量的范围跨越一个多维向量空间,称设计空间。
在一次测量中,发动机参数设置采用定义的输入变量组合,然后测量响应。
参数组合称为设计点。
由于所有的测量包含一个测量公差,因此设计区域内设计点的位置须好好规划。
确实,设计点的数量和位置取决于选定的模型类型。
例如,拟合线性方程,选用2个点,设计点的选择对模型方程的正确性有重大影响。
如图12左边所示,两点可以选得靠近。
对两种测量,标出了设计点和范围,真实值在范围内能找到。
蓝线代表可能的方程,最大和最小倾斜由测量和公差决定。
在图12右边,设计点有更好的考虑。
在这里,方程的倾斜能更准确地决定。
图12选定的设计点
网格测量
如果变量数比较小,能采用网格测量。
对每个输入参数,定义步长,来确定该变量的增量。
然后,测量一点的每个可能的所有输入变量的增量组合。
例如,如果调查3个输入变量,每个变量可在4个级别变化,则须执行43或64个测量。
表1显示了测量点的数量作为例子。
输入量数量
每输入量可变级别
测量数量
3
4
64
5
625
6
15625
表1测量数量
尽管仅仅调查了少量输入参数的影响,但是由于要求的测量数量,测量和时间消耗比较高。
然而,应用了DOE方法,网格测量就不是必要的了。
优化设计方案
由于模型是物理联系的简单描述,同时每次测量都包含误差,因此不可能找到一个系数多项式模型,能预测设计区间内的内一个点。
可能性理论表明,在什么步长下,能找到真实的多项式系数。
这些步长的特点是运用方差和协方差。
为生成多项式模型的设计方案,可用几种不同的优化标准来分布设计区间内的设计点。
设计矩阵x(见“多项式模型”章节,p.9f.)在设计方案中确定,在设计阶段,已经能对计算系数质量进行描述。
信息矩阵M=xT×
x,对多项式模型的方差和协反差有重要影响。
为最小化信息矩阵逆阵行列式,设计方案称为D-优化。
反过来,最小化预测方差称为v-优化设计方案。
图13显示了一个有2个输入参数的二阶多项式的两种情况。
优化设计尤其适合于物理现象明确的系统。
由于模型类型必须先于设计方案定义,可有效使用物理信息来决定多项式的项。
简而言之,D-优化设计将点放在设计区间的边界上,v-优化设计将点放在设计区间的边界内。
图13优化测试设计
区间-填充设计方案
如果模型系统的物理信息不明确,测量数量会增加。
为避免成本密集的网格测量,应用区间-填充设计方案。
该方案使用几种算法,来分布设计区间内的设计点。
例如,拉丁抽样将点随机分布在整个设计区间。
这样,在最合适的方案选定以前,先确定几个设计方案。
例如,最合适的设计方案必须在设计空间点之间有最大位移。
图14显示了2个输入变量的例子。
图14区间-填充设计
验证测量
一般地,模型须能将设计区间的系统响应现象复制出来。
为达到那个目标,一个模型须要拟合,以使预测模型和观测模型之间的有个较小偏差。
然而,在整个设计区内验证模型,须考虑模型预测数据点的能力。
这种情况下,预测误差和模型拟合过程中观测误差需要在相同范围内。
为测试一个模型的能力,也称概括,须规划验证测量措施。
这些测量随后能用来检测模型的过拟合现象和在模型方案中移除一些项。
基于模型的校准过程
DOE方法能应用到发动机发展领域的很多阶段,包括,基本发动机发展,发动机管理,校准过程,和发动机优化过程。
达到生产系列产品所需要的工作步骤分类如下:
●硬件更换(元件变动)
●软件更换(更新ECU程序)
●校准数据更换(更新ECU数据)
例如,DOE方法尤其适合于对比不同元件的可变性及它们对发动机性能的影响,因此,测量费用大大降低。
另外,基于DOE的模型日益集成到发动机控制单元(ECUs)中,取代了特性曲线图(数据表格)。
因此,模型能直接计算发动机设置,获得时间效益,也比传统曲线图的精确度更高。
最后,校准过程是将发动机专门调整到预先设定的任务。
校准过程的一个实例是,将不同组合的车身、传输系统、排放优化系统、发动机电源,分别调整。
优化过程的根本是发动机模型。
尽管其他的标准,如运动性、舒适的车身设计、乡村条件等,也是校准过程的部分。
除了测试方案的自动测量之外,整个自动化过程包括的数据生成、模型拟合、优化(DOE过程在线),日益成为提高效率的焦点。
在这方面,一旦完成设计方案和自动测量过程,目标是创造一个使建模过程、图表优化、验证在测试台上实现的系统。
在实践中,在线DOE过程和离线DOE过程有所区别。
在线DOE过程自动生成完整的测试方案,将发动机的所有操作和设计极限考虑在内,然后在测试台上进行自动测量。
这种程序适合于中等参数数量和较少的设计区间限制的作业。
对离线DOE过程,测试方案是根据预先假设进行计算,比如,发动机行为和操作极限,不会对测试台上的发动机进行反馈。
因此,测试方案的质量仅仅取决于专家的知识面和被测试的发动机的操作极限。
尽管如此,这种方法允许处理复杂和耗时的问题。
[7]
测试设计
一方面,生成测试方案要求知道所有输入参数的信息,以成功复制给定问题中物理因素对响应的影响。
另一方面,需要知道所有参数,以便分别决定设计区间的维数和实验的数量。
图15上:
由于系数太多,造成过拟合
中:
渐进函数的不稳定现象
下:
太多系数造成的振荡
该过程的目标是,采用数学函数,如多项式函数或径向基函数,在尽可能少的测量下,充分模拟系统响应。
通常地,在多项式方案中,多项式的阶数越高,响应越好,数据误差越小。
然而,阶数越高,产生过拟合和振荡响应的风险越高。
另外,必须考虑,采用多项式方式不能建模指数函数(图15)。
为改变这种固有行为,可采用适当地变形(见“变形”章节,p.15f和章节“建模”,p.45.f.)。
输入数
常数
X1
X2
X3
X4
和
1
2
15
10
35
20
70
126
21
56
210
表2系数的数量取决于多项式的阶数
表2显示了多项式方式所必需的最小数量的测试。
如果用神经网络或径向基函数建模,则估计所需的测量数量比较困难。
在实践中,RBF建模所需的系数和采用多项式方式的系数大致相同。
然而,采用神经网络建模,设计方案须增加约30%左右的测量点。
建模区域
带3个输入参数的理想测试方案是立方。
在这种情况下,输入变量不受任何限制。
作为质量标准,理想、线性设计方案的设计矩阵的条件数能够计算出来。
在实践中,条件是要尽可能小。
然而,对很多输入变量而言,设计、机械的、或其他发动机操作极限大大限制了实践中输入量的值。
从而,设计方案不再是最优化的(图16)。
结果,条件数的值变大,建模误差可能增长到难以接受的值。
因此,推荐将设计区间划分成几个不同区域建造不同的模型。
这里所谓的一个个区域加起来,随后形成整个模型,也称多区模型。
为达到连接模块边界间的平滑过渡,须采用几种插值算法。
在实践中,被证实很好用且能减小模型误差的方法是多阶段建模方法。
通常地,这些模型包含一个全局部分描述主要因素,如发动机速度、负载,和一个局部部分代表其他所有输入变量。
图16理想的设计区间和受限的设计区间
两种方法,多区建模和多阶段建模都要求考虑测试设计。
多区建模包含较小的建模误差和可接受的测量点数量。
这种建模类型的缺点是,由于子模型边界上的插值,模型误差增大。
多阶段方式数据估计比单阶段方式饿虎据估计建模的误差小,但测量点增加了。
然而,多阶段建模的主要缺点是,整个操作范围内的全局变量的重复测量能力差。
柴油发动机试验样本
下面是一个离线DOE过程测试设计,用来显示增压柴油发动机的曲线图,增压柴油发动机装备了废气再循环(EGR)和随时间推移是常量的预喷射系统。
图17显示了计划图,注射开启、压力、EGR率、预喷射率是二阶输入。
因此,设计空间有六个输入参数(维数)。
图17多区间建模的定义域
在这个例子中,主要操作范围在最初调查中,允许将设计区间分成3个区域(图17)。
因此,给随后的评估生成了多区模型。
对最优化测试方案,须决定所有输入量的最大操作,这些极限定义了整个设计区间内模块之间的点。
一旦操作极限找到,设计区间也定义下来了。
图18显示了对1个选定的输入变量优化设计区间,图19显示了考虑某些输入参数的操作极限的真实设计区间。
图18选定输入参数的优化设计区间
图19选定输入参数的受限设计区间
测试方案的基本是3阶多项式,带6个输入因子,达到较小测量点和减小测量开支的目标。
因此,须测量最小数量为84个点。
当有6个输入因子时,所有系数三阶的总和等于测量点数(见表2,p.31)。
为提高模型质量,须考虑局外点,验证时,要考虑其他16个预定的点。
在实践中,边界上的测量点在设计方案阶段考虑。
采用这种流程,测量开支能减少20%-30%。
在表格3中,显示了设计方案的一部分。
表3上:
设计方案的一部分
测量及其自动化
鉴于测试台上发动机管理系统的调整,最初的目标是提高自动化程度。
一个先决条件是,将详细的设计方案过程和精密的测试台管理结合起来。
另外,要求对测试元件和要求的仪器进行实时检测。
测试台自动化的首要因素是考虑经济因素,如,提高处理设计方案的速度、提高测试台的利用。
第二个因素是,在功能集成中,提高验证和数据质量。
相应地,高数据质量是高质量DOE模型的基本条件。
原则上,自动化应用中的离线DOE过程和在线DOE过程的参数设计策略没什么不同。
在下文中,测试台上的设计空间自动化测量是焦点,而非整个过程的自动化。
图20发动机测试台
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- doe 实验设计