5析的化学计量学方法研究与应用进展Word下载.docx
- 文档编号:15944103
- 上传时间:2022-11-17
- 格式:DOCX
- 页数:12
- 大小:31.21KB
5析的化学计量学方法研究与应用进展Word下载.docx
《5析的化学计量学方法研究与应用进展Word下载.docx》由会员分享,可在线阅读,更多相关《5析的化学计量学方法研究与应用进展Word下载.docx(12页珍藏版)》请在冰豆网上搜索。
。
随着研究和应用的深入开展,一些新兴技术也越来越多地应用于这项分析技术中,如用于仪器硬件设计和加工的微机电系统(MEMS技术、新化学计量学方法和模型建立策略等,使该项技术的应用更为方便、快速和准确。
化学计量学方法是近红外光谱分析技术必不可少的组成部分,用于光谱信号的处理和定性定量分析模型的建立。
定量校正模型的建立是近红外光谱分析的核心技术之一,常用的方法有多元线性回归(MLR、偏最小二乘(PLS和人工神经网络(ANN等。
为建立预测准确性好和稳健性强的近红外分析模型,近年来出现了一些新算法和模型建立策略,如基于核函数的非线性校正方法、集成(或共识的建模策略、、基于局部样本的建模策略以及二维相关光谱等。
本文对这些新方法的原理和应用进行了评述和展望,为便于参考还给出了一些方法的具体算法。
2 基于核函数的校正方法
支持向量机(SVM是一种基于统计学习理论的机器学习算法[4],最初产生于模式识别问题,可解
决非线性分类问题。
其关键技术就是采用了Mercer核函数(kernelfunction,通过引入核函数把基于内积运算的线性算法非线性化,即将输入样本空间非线性映射到新的高维特征空间,在高维空间中进行相应的线性操作。
SVM在机器学习领域取得了成功,引发人们将传统的各种可用内积表达的线性方法“核化”,从而成为非线性方法。
核函数的思想逐渐发展成核方法,为处理许多问题提供了一个统一的框架,如核主成分分析(KPCA、核主成分回归(KPCR、核偏最小二乘法(KPLS、核Fisher判别分析(KFD和核独立主元分析(KICA等,这些方法在模式识别和回归分析等不同领域的应用中都表现了很好的性能[5,6]。
2.1 核函数方法原理
根据模式识别理论,低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分。
但是如果直接在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数(维数很高,甚至是无穷维等问题,而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。
采用核函数技术可以有效地解决这一问题。
设xi和xj是数据空间中的样本点,数据空间到特征空间的映射函数为<
核函数K(・定义为第36卷2008年5月 分析化学(FENXIHUAXUE 评述与进展ChineseJournalofAnalyticalChemistry
第5期702~709
K(xi,xj=<
<
(xi,<
(xj>
其中<
表示<
(xi与<
(xj的内积(或点积。
这就是通
常的核函数技术,即核函数将高维空间的内积运算,转化为低维输入空间的核函数K(・计算,巧妙地解决了在高维特征空间中计算的“维数灾难”等问题,为在高维特征空间解决复杂的分类或回归问题奠定了理论基础。
目前常用的核函数有径向基核函数、多项式核函数和S形核函数等。
此外,还有指数型径向核函数、傅立叶级数及样条核函数等,而且还可将这些核函数混合起来使用。
核函数的形式和参数的变化,会改变特征空间的性质,进而改变各种核函数方法的性能。
核函数方法可以和不同的校正算法结合,衍生出多种不同的基于核函数的方法,其中核函数和算法的设计可以单独进行,并可根据不同的用途选择不同的核函数和算法。
2.2 KPLS算法
Rosipal[7]
通过引入核函数将线性PLS方法推广为KPLS非线性方法。
对于训练集X和Y,首先给定核函数类型和最大主因子数f:
(1由核函数计算X矩阵(M×
N,M为训练集的样本数,N为变量数的核矩阵K(M×
M。
(2由下式对核矩阵K进行中心化处理:
K=I-
1MllTKI-1MllT式中,I为单位矩阵,l为M维全1列向量。
(3初始化变量u,u为Y的得分向量。
(4t=Ku,t=t/‖t‖,t为X的得分向量。
(5c=YTt,c为Y的载荷向量。
(6u=Yc,u=u/‖u‖。
(7重复(3~(6,直
到收敛。
(8K=(I-ttTK(I-ttT,Y=Y-ttTY,返回(4直到得到所有f个u和t向量。
(9训练集
样本的预测值^Y=KU(TTKU-1TTY,其中T=[t1,t2,…,tf],U=[u1,u2,…,uf]。
验证集为Xtest(Q×
N,Q为训练集的样本数,N为变量数,由核函数计算其核矩阵Ktest,下式对核矩阵Ktest进行中心化处理:
Ktest=Ktest-
1MllTKI-1MllT验证集样本的预测值 ^Y=KtestU(TTKU-1
TTY。
Kim等[8]将正交信号校正算法(OSC与KPLS结合提出了OSC2PLS方法,Shinzawa等[9]将集成建模策略与KPLS结合,用于近红外光谱定量分析模型的建立,Nicola等[10]则将小波变换和KPLS用于测
定苹果的糖含量,其预测性能都要明显优于传统的PLS方法。
与其它非线性校正方法(如ANN和SVM相比,KPLS方法的参数选择少,容易实现,有望成为一种常用的光谱建模方法。
3 集成(或共识的建模策略
传统的多元校正技术(如PLS和ANN一般采用单一模型,即采用已定的训练集建立一个最优模型用于预测分析。
但是,当训练集样本数目有限或者校正方法不稳定时,模型的预测精度与稳定性往往不能令人满意。
集成(或共识策略(ensembleorconsensusstrategy的基本思想是采用随机或组合的方式,利用同一训练集中的不同子集建立多个模型(成员模型同时进行预测,将多个预测结果通过简单平均或加权平均作为最终的预测结果。
其特点是通过多次使用训练集中不同子集样本的信息,降低了预测结果对某一(或某些样本的依赖性,从而提高模型的预测稳定性。
集成策略最早应用于模式识别分类问题,尤其是一些相对不稳定的算法,如ANN等。
近年来,集成策略逐渐受到光谱工作者的重视,与多种算法(如PLS、SVM和ANN结合,用来建立光谱的定量校正模型。
集成建模中成员模型样本的选择是至关重要的,Bagging(bootstrapaggregating与Boosting是两种主要的方法[11,12]。
3.1 Bagging方法
在经典的Bagging方法中,样本的选取采用自举(bootstrap方法,随机抽取的成员训练集样本量与原训练集的样本量相同,只是在抽样方式上采取有放回地抽样。
这样,原始训练集中某些样本可能在成307第5期褚小立等:
用于近红外光谱分析的化学计量学方法研究与应用进展
员训练集中出现多次,而另外一些样本则可能一次也不出现。
Bagging方法通过重新选取训练集增加了模型集成的差异度,以期提高泛化能力。
稳定性是Bagging能否发挥作用的关键因素,Bagging能提高不稳定校正算法的预测精度,而对稳定的校正算法效果不明显,有时甚至使预测精度降低。
校正算法的稳定性是指如果训练集有较小的变化,校正结果不会发生较大变化。
对于最终的预测结果,经典的Bag2ging方法采用简单平均的方式[11]。
Galvao等[13]对经典的Bagging方法进行了改进,如样本选取采用无放回方式(subbagging,对成员模型进行评价选取、以及带权重的预测方式等,并对近红外光谱测定土壤、烟草和玉米中的组成或性质进行了建模和验证分析,均得到了满意的结果[13~16]。
3.2 Boosting方法
Boosting方法由Schapire于1990年提出,1995年Freund和Schapire改进了Boosting算法,提出了自适应Boosting(adaptiveboosting,AdaBoost算法。
由于该算法可以非常容易地应用到实际问题中,目前已成为最流行的Boosting算法[17]。
Boosting与Bagging的区别在于Bagging的成员训练集的选择是随机的,各成员训练集之间相互独立,而Boosting的成员训练集的选择不是独立的,各成员训练集的选择与前面各轮的学习结果有关,所以Bagging的各个预测函数可以并行生成,而Boosting的各个预测函数只能顺序生成且有权重。
AdaBoost算法应用于分类的基本思想是逐步构造出一组分类器,每构造一个新的分类器都着重弥补前一个分类器的缺陷,最后集成所有分类器的分类结果,以获得更为理想的分类效果。
Zhang[18]和Drucker[19]等分别对Boosting算法进行了修改,用来解决回归问题。
Drucker提出的Boosting回归算法是通过迭代产生一组基本成员模型。
给定训练集和学习算法,首先给各训练样本赋予相等的权重,归一化后得到训练集的第1个采样概率分布P
1
采样生成成员训练
集1,用学习算法对成员训练集1建立成员回归模型h
1。
然后,根据成员回归模型h
在各个样本上产生
的误差来修正样本的权重,对误差大的样本增加权重,从而增大其采样概率。
归一化后得到训练集的采样概率分布P
2
采样生成成员训练集2,用学习算法对成员训练集2训练得到成员回归模型h2。
之后,
根据误差再进一步调整样本权重,如此重复执行,依次得到一组逐渐修正的成员回归模型h
h2,h3,h4,…。
Boosting回归算法的实现步骤如下。
对于原始训练集{(x
i
yi,i=1,…,M}(M为原始训练集的样本数,首先给定基本学习算法(如PLS或ANN等,Boosting最大迭代次数T,以及初始化样本权重:
ω(1
=1/M,i=1,2,…,M
取迭代次数t=1,…,T,重复以下步骤(1~(7:
(1计算原始训练集每个样本的采样概率P(t
=ω(ti/6Mj=1ω(tj,根据采样概率通过轮盘赌等方法从原始训练集中取出第t轮的M个成员训练集样本(允许重复抽样。
(2由第t轮的M个成员训练集样
本,采用基本学习算法建立成员回归模型h
t。
(3用成员回归模型h
t
对原始训练集每个样本进行预测
分析,得到每个样本的预测值^y(t
i=1,2,…,M。
(4计算原始训练集每个样本的误差:
L(ti=|^y(ti-yi|/max|^y(t-yi|,i=1,2,…,M。
(5计算第t轮的加权误差和:
Lt=6Mi=1LiP(ti。
(6计算
共同性指标:
β
t=Lt/(1-Lt。
(7计算样本的新权重:
ω(t+1
=ω(tiβ1-L(ti
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 化学 计量学 方法 研究 应用 进展