判别分析及MATLAB应用.docx
- 文档编号:20393389
- 上传时间:2023-04-25
- 格式:DOCX
- 页数:12
- 大小:146.61KB
判别分析及MATLAB应用.docx
《判别分析及MATLAB应用.docx》由会员分享,可在线阅读,更多相关《判别分析及MATLAB应用.docx(12页珍藏版)》请在冰豆网上搜索。
判别分析及MATLAB应用
判别分析
类型:
判断样品属于已知类型中哪一类。
判别分析模型:
设有k个总体G1,G2,…,Gk,它们都是p元总体,其数量指标是
设总体Gi的分布函数是Fi(x)=Fi(x1,x2,…,xp),i=1,2,…,k,通常是连续型总体,即Gi具有概率密度fi(x)=fi(x1,x2,…,xp)。
对于任一新样品数据x=(x1,x2,…,xp)T,要判断它来自哪一个总体Gi。
通常各个总体Gi的分布是未知的,它需要由各总体Gi取得的样本数据资料来估计。
一般,先要估计各个总体的均值向量与协方差矩阵。
从每个总体Gi取得的样本叫训练样本。
判别分析从各训练样本中的提取各总体的信息,构造一定的判别准则,判断新样品属于哪个总体。
从统计学的角度,要求判别准则在某种准则下是最优的,例如错判的概率最小或错判的损失最小等。
由于判别准则的不同,有各种不同的判别分析方法:
距离判别、Bayes判别和Fisher判别等。
一、距离判别
1.两个总体的距离判别
1.1距离定义
马氏平方距离:
设x,y是从均值向量为
、协方差矩阵为
的总体G中抽取的两个样品,马氏距离定义为:
(1)
1.2双总体的判别规则
设G1,G2为两个不同的p元已知总体,Gi的均值向量是
Gi的协方差矩阵是
。
设
是一个待判样品,距离判别准则为
(2)
即当x到G1的马氏距离不超过到G2的马氏距离时,判x来自G1;反之,判x来自G2。
1.3两个矩阵协方差矩阵相等的情况
1.3.1已知
(3)
记
其中
,则
(4)
距离判别简化为
(5)
1.3.1未知
数据资料来自两个总体的训练样本,每个样品皆是p元向量。
总体G1的训练样本:
,容量:
n1;
总体G2的训练样本:
,容量:
n2;
要以训练样本估计
,其估计量分别为
(6)
其中S1,S2为两个训练样本的协方差矩阵。
距离判别规则为:
(7)
其中
,
1.4两个总体协方差矩阵不相等的情况
1.4.1已知
令
(8)
距离判别规则如下:
(9)
1.4.2未知
数据资料来自两个总体的训练样本,每个样品皆是p元向量。
要以训练样本估计
,然后用估计值进行判断。
1.5判别准则的评价
当一个判别准则提出以后,还要研究其优良性。
考察一个判别准则的优良性,要考察误判概率,即考察x属于G1而误判为属于G2,或x属于G2而误判为属于G1的概率。
下面介绍一训练样本为基础的用回代方法估计误判率的方法。
1.5.1误差率回代估计法
将全体训练样本作为新样品,逐个回代已建立的判别准则中判别归属,这个过程称为回判,回判结果如下:
回判情况
实际归类
G1
G2
G1
n11
n12
G2
n21
n22
误判率的回代估计为:
(10)
它常常比真实误判率小,但可以作为真实误判率的一种估计。
1.5.2误判率的交叉确认估计
误判率的交叉确认估计是每次剔出训练样本中的一个样品,利用其余容量为n1+n2-1的训练样本建立判别准则,再用建立的判别准则对删除的那个样品作判别。
对训练样本中的每个样品作上述分析,以其误判的比例作为误判率的估计。
具体步骤如下:
1)从总体G1的容量为n1的训练样本开始,剔除其中的一个样品,用剩余的容量为n1-1的训练样本和总体G2的训练样本建立判别函数;
2)用建立的判别函数对删除的那个样品做判别;
3)重复步骤1)、2),直到G1的训练样本中的n1个样品一次被删除,又进行判别。
其误判样品个数记为n12;
4)对总体G2的训练样本重复步骤1)、2)、3),并记其误判样品个数为n21。
误判率的交叉确认估计为:
(11)
1.6多总体的距离判别
设有k个总体G1,G2,…,Gk,均值向量分别为
协方差矩阵分别为
,类似两总体的距离判别方法,计算新样品x到各总体的马氏距离,比较这k个距离,判定x属于其马氏距离最短的总体。
若最短距离在不只一个总体达到,则可将x判归具有最短距离总体的任一个。
当总体的均值向量和协方差矩阵未知时,使用训练样本作估计。
也可以与两总体相同的方式作误判率的回代估计与交叉确认估计。
二、Bayes判别
2.1Bayes判别的基本思想
Bayes统计是现代统计学的重要分支,其基本思想是:
假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验分布来描述这种认识,然后给予抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断均基于后验分布进行。
将Bayes统计的思想用于判别分析,就得到Bayes判别。
设G1,G2,…,Gk为k个p元总体,分别具有概率密度
在进行判别分析以前,我们已对各总体有一定的了解。
一般说来,一个待判样品应该首先考虑判入有较大可能出现的总体之中。
在Bayes判别中,开应该考虑误判引起的损失。
2.2两个总体的Bayes判别
2.2.1一般讨论
考虑两个p元总体G1和G2,它们分别具有概率密度f1(x),f2(x),G1和G2出现的先验概率为p1和p2,且p1+p2=1。
对于p元指标x=(x1,x2,…,xp)T来自Rp。
一个判别法则实质上是对Rp的一个划分,记为R1和R2,并满足下列条件:
(12)
一个划分R=(R1,R2)相当于一个判别准则R。
在判别准则R下将来自G1的样品误判为G2的概率是
(13)
而将来自G2的样品误判为G1的概率为
(14)
设将G1误判为G2造成的损失是c(2|1),而将G2误判为G1在造成的损失是c(1|2)。
Bayes判别即寻求R=(R1,R2),使平均误判损失达到最小。
下面总假定c(1|1)=c(2|2)=0。
情况1:
c(1|2)=c(2|1)
当得到新样品x后,由Bayes公式得总体G1,G2的后验概率是
(15)
两总体Bayes判别的一个最优划分是
(16)
此时的Bayes判别法则:
(17)
最优划分R使得平均误判概率
(18)
达到最小。
情况2:
c(1|2)≠c(2|1)
关于先验分布p1、p2,误判所造成的平均损失为:
(19)
Bayes判别(即使L达到最小)的最优划分为:
(20)
此时的Bayes判别法则:
(21)
2.2.2两个正态总体的Bayes判别
需分c(1|2)和c(2|1)相等与否,两个总体的协方差矩阵相等与否分别讨论。
(详细参见:
范金城,梅长林编著.数据分析:
P174-177.北京:
科学出版社,2002.)
2.2.3误判率的计算
(参见:
范金城,梅长林编著.数据分析:
P177-182.北京:
科学出版社,2002.)
2.3多个总体的Bayes判别
(参见:
范金城,梅长林编著.数据分析:
P182-187.北京:
科学出版社,2002.)
判别分析课堂例题
例题1:
某气象站预报某地区有无春旱的观测资料中,x1与x2是与气象有关的综合预报因子。
数据包括发生春旱的6个年份的x1,x2观测值和无春旱的8个年份的相应观测值(见下表)。
表某地区有无春旱的观测数据
G1:
有春旱
G2:
无春旱
序号
X1
X2
序号
X1
X2
1
24.6
-2.0
1
22.1
-0.7
2
24.7
-2.4
2
21.6
-1.4
3
26.6
-3.0
3
22.0
-0.8
4
23.5
-1.9
4
22.8
-1.6
5
25.5
-2.1
5
22.7
-1.5
6
27.4
-3.1
6
21.5
-1.0
7
22.1
-1.2
8
21.4
-1.3
在假定
条件下,建立距离判别函数并估计误判率;
解:
经过计算
判别函数为:
利用回代法将总体G1(春旱)的第4号样品误判来自总体G2(无春旱)的样品,误判率为
利用交叉确认法,同样将总体G1(春旱)的第4号样品误判来自总体G2(无春旱)的样品,误判率为
例题2:
我国山区某大型化工厂,在厂区及邻近地区挑选有代表性的15个大气取样点,每日4次同时抽取大气样品,测定其中含有的6种气体的浓度,前后共4天,每个取样点没种气体实测16次。
计算每个取样点没种气体的平均浓度,数据见下表所示。
气体数据对应得污染地区分类如表中最后一列所示。
现有两个取自该地区的4个气体样本,气体指标如表中后4行所示,试判别这4个样品的污染分类。
表大气样品数据表
气体
氯
硫化氢
二氧化硫
碳4
环氧氯丙烷
环己烷
污染分类
1
0.056
0.084
0.031
0.038
0.0081
0.022
1
2
0.040
0.055
0.100
0.110
0.0220
0.0073
1
3
0.050
0.074
0.041
0.048
0.0071
0.020
1
4
0.045
0.050
0.110
0.100
0.0250
0.0063
1
5
0.038
0.130
0.079
0.170
0.0580
0.043
2
6
0.030
0.110
0.070
0.160
0.0500
0.046
2
7
0.034
0.095
0.058
0.160
0.200
0.029
1
8
0.030
0.090
0.068
0.180
0.220
0.039
1
9
0.084
0.066
0.029
0.320
0.012
0.041
2
10
0.085
0.076
0.019
0.300
0.010
0.040
2
11
0.064
0.072
0.020
0.250
0.028
0.038
2
12
0.054
0.065
0.022
0.280
0.021
0.040
2
13
0.048
0.089
0.062
0.260
0.038
0.036
2
14
0.045
0.092
0.072
0.200
0.035
0.032
2
15
0.069
0.087
0.027
0.050
0.089
0.021
1
样品1
0.052
0.084
0.021
0.037
0.0071
0.022
样品2
0.041
0.055
0.110
0.110
0.0210
0.0073
样品3
0.030
0.112
0.072
0.160
0.056
0.021
样品4
0.074
0.083
0.105
0.190
0.020
1.000
Matlab函数介绍:
函数名称:
classify
调用格式:
[class,err,…]=classify(sample,training,group,…)
说明:
sample:
待判样品;
training:
训练样本;
group:
分类变量。
注意:
sample与training具有相同的列数;
group与training具有相同的行数。
返回:
class:
样品的分类结果;err:
误判率的估计。
Matlab程序:
training=[0.0560.0840.0310.0380.00810.022;
0.0400.0550.1000.1100.02200.0073;
0.0500.0740.0410.0480.00710.020;
0.0450.0500.1100.1000.02500.0063;
0.0380.1300.0790.1700.05800.043;
0.0300.1100.0700.1600.05000.046;
0.0340.0950.0580.1600.2000.029;
0.0300.0900.0680.1800.2200.039;
0.0840.0660.0290.3200.0120.041;
0.0850.0760.0190.3000.0100.040;
0.0640.0720.0200.2500.0280.038;
0.0540.0650.0220.2800.0210.040;
0.0480.0890.0620.2600.0380.036;
0.0450.0920.0720.2000.0350.032;
0.0690.0870.0270.0500.0890.021];
group=[111122112222221]';
sample=[0.0520.0840.0210.0370.00710.022;
0.0410.0550.1100.1100.02100.0073;
0.0300.1120.0720.1600.0560.021;
0.0740.0830.1050.1900.0201.000];
[class,err]=classify(sample,training,group)
class=[1122]
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析 MATLAB 应用