书签分享收藏举报版权申诉 / 12

立即下载加入VIP,免费下载

当前位置：首页 > 法律文书 > 判决书 > 判别分析及MATLAB应用.docx

判别分析及MATLAB应用.docx

文档编号：20393389
上传时间：2023-04-25
格式：DOCX
页数：12
大小：146.61KB

判别分析及MATLAB应用.docx

《判别分析及MATLAB应用.docx》由会员分享，可在线阅读，更多相关《判别分析及MATLAB应用.docx（12页珍藏版）》请在冰豆网上搜索。

判别分析及MATLAB应用.docx

判别分析及MATLAB应用

判别分析

类型：

判断样品属于已知类型中哪一类。

判别分析模型：

设有k个总体G1，G2，…，Gk，它们都是p元总体，其数量指标是

设总体Gi的分布函数是Fi（x）=Fi（x1，x2，…，xp），i=1,2,…,k，通常是连续型总体，即Gi具有概率密度fi（x）=fi（x1，x2，…，xp）。

对于任一新样品数据x=（x1，x2，…，xp）T,要判断它来自哪一个总体Gi。

通常各个总体Gi的分布是未知的，它需要由各总体Gi取得的样本数据资料来估计。

一般，先要估计各个总体的均值向量与协方差矩阵。

从每个总体Gi取得的样本叫训练样本。

判别分析从各训练样本中的提取各总体的信息，构造一定的判别准则，判断新样品属于哪个总体。

从统计学的角度，要求判别准则在某种准则下是最优的，例如错判的概率最小或错判的损失最小等。

由于判别准则的不同，有各种不同的判别分析方法：

距离判别、Bayes判别和Fisher判别等。

一、距离判别

1.两个总体的距离判别

1.1距离定义

马氏平方距离：

设x，y是从均值向量为

、协方差矩阵为

的总体G中抽取的两个样品，马氏距离定义为：

（1）

1.2双总体的判别规则

设G1，G2为两个不同的p元已知总体，Gi的均值向量是

Gi的协方差矩阵是

。

设

是一个待判样品，距离判别准则为

（2）

即当x到G1的马氏距离不超过到G2的马氏距离时，判x来自G1；反之，判x来自G2。

1.3两个矩阵协方差矩阵相等的情况

1.3.1已知

（3）

记

其中

，则

（4）

距离判别简化为

（5）

1.3.1未知

数据资料来自两个总体的训练样本，每个样品皆是p元向量。

总体G1的训练样本：

，容量：

n1；

总体G2的训练样本：

，容量：

n2；

要以训练样本估计

，其估计量分别为

（6）

其中S1，S2为两个训练样本的协方差矩阵。

距离判别规则为：

（7）

其中

，

1.4两个总体协方差矩阵不相等的情况

1.4.1已知

令

（8）

距离判别规则如下：

（9）

1.4.2未知

数据资料来自两个总体的训练样本，每个样品皆是p元向量。

要以训练样本估计

，然后用估计值进行判断。

1.5判别准则的评价

当一个判别准则提出以后，还要研究其优良性。

考察一个判别准则的优良性，要考察误判概率，即考察x属于G1而误判为属于G2，或x属于G2而误判为属于G1的概率。

下面介绍一训练样本为基础的用回代方法估计误判率的方法。

1.5.1误差率回代估计法

将全体训练样本作为新样品，逐个回代已建立的判别准则中判别归属，这个过程称为回判，回判结果如下：

回判情况

实际归类

G1

G2

G1

n11

n12

G2

n21

n22

误判率的回代估计为：

（10）

它常常比真实误判率小，但可以作为真实误判率的一种估计。

1.5.2误判率的交叉确认估计

误判率的交叉确认估计是每次剔出训练样本中的一个样品，利用其余容量为n1+n2-1的训练样本建立判别准则，再用建立的判别准则对删除的那个样品作判别。

对训练样本中的每个样品作上述分析，以其误判的比例作为误判率的估计。

具体步骤如下：

1）从总体G1的容量为n1的训练样本开始，剔除其中的一个样品，用剩余的容量为n1-1的训练样本和总体G2的训练样本建立判别函数；

2）用建立的判别函数对删除的那个样品做判别；

3）重复步骤1）、2），直到G1的训练样本中的n1个样品一次被删除，又进行判别。

其误判样品个数记为n12；

4）对总体G2的训练样本重复步骤1）、2）、3），并记其误判样品个数为n21。

误判率的交叉确认估计为：

（11）

1.6多总体的距离判别

设有k个总体G1，G2，…，Gk，均值向量分别为

协方差矩阵分别为

，类似两总体的距离判别方法，计算新样品x到各总体的马氏距离，比较这k个距离，判定x属于其马氏距离最短的总体。

若最短距离在不只一个总体达到，则可将x判归具有最短距离总体的任一个。

当总体的均值向量和协方差矩阵未知时，使用训练样本作估计。

也可以与两总体相同的方式作误判率的回代估计与交叉确认估计。

二、Bayes判别

2.1Bayes判别的基本思想

Bayes统计是现代统计学的重要分支，其基本思想是：

假定对所研究的对象（总体）在抽样前已有一定的认识，常用先验分布来描述这种认识，然后给予抽取的样本再对先验认识作修正，得到后验分布，而各种统计推断均基于后验分布进行。

将Bayes统计的思想用于判别分析，就得到Bayes判别。

设G1，G2，…，Gk为k个p元总体，分别具有概率密度

在进行判别分析以前，我们已对各总体有一定的了解。

一般说来，一个待判样品应该首先考虑判入有较大可能出现的总体之中。

在Bayes判别中，开应该考虑误判引起的损失。

2.2两个总体的Bayes判别

2.2.1一般讨论

考虑两个p元总体G1和G2，它们分别具有概率密度f1（x），f2（x），G1和G2出现的先验概率为p1和p2，且p1+p2=1。

对于p元指标x=（x1，x2，…，xp）T来自Rp。

一个判别法则实质上是对Rp的一个划分，记为R1和R2，并满足下列条件：

（12）

一个划分R=（R1，R2）相当于一个判别准则R。

在判别准则R下将来自G1的样品误判为G2的概率是

（13）

而将来自G2的样品误判为G1的概率为

（14）

设将G1误判为G2造成的损失是c（2|1），而将G2误判为G1在造成的损失是c（1|2）。

Bayes判别即寻求R=（R1，R2），使平均误判损失达到最小。

下面总假定c（1|1）=c（2|2）=0。

情况1：

c（1|2）=c（2|1）

当得到新样品x后，由Bayes公式得总体G1，G2的后验概率是

（15）

两总体Bayes判别的一个最优划分是

（16）

此时的Bayes判别法则：

（17）

最优划分R使得平均误判概率

（18）

达到最小。

情况2：

c（1|2）≠c（2|1）

关于先验分布p1、p2，误判所造成的平均损失为：

（19）

Bayes判别（即使L达到最小）的最优划分为：

（20）

此时的Bayes判别法则：

（21）

2.2.2两个正态总体的Bayes判别

需分c（1|2）和c（2|1）相等与否，两个总体的协方差矩阵相等与否分别讨论。

（详细参见：

范金城，梅长林编著.数据分析：

P174-177.北京：

科学出版社，2002.）

2.2.3误判率的计算

（参见：

范金城，梅长林编著.数据分析：

P177-182.北京：

科学出版社，2002.）

2.3多个总体的Bayes判别

（参见：

范金城，梅长林编著.数据分析：

P182-187.北京：

科学出版社，2002.）

判别分析课堂例题

例题1：

某气象站预报某地区有无春旱的观测资料中，x1与x2是与气象有关的综合预报因子。

数据包括发生春旱的6个年份的x1，x2观测值和无春旱的8个年份的相应观测值（见下表）。

表某地区有无春旱的观测数据

G1:

有春旱

G2:

无春旱

序号

X1

X2

序号

X1

X2

1

24.6

-2.0

1

22.1

-0.7

2

24.7

-2.4

2

21.6

-1.4

3

26.6

-3.0

3

22.0

-0.8

4

23.5

-1.9

4

22.8

-1.6

5

25.5

-2.1

5

22.7

-1.5

6

27.4

-3.1

6

21.5

-1.0

7

22.1

-1.2

8

21.4

-1.3

在假定

条件下，建立距离判别函数并估计误判率；

解：

经过计算

判别函数为：

利用回代法将总体G1（春旱）的第4号样品误判来自总体G2（无春旱）的样品，误判率为

利用交叉确认法，同样将总体G1（春旱）的第4号样品误判来自总体G2（无春旱）的样品，误判率为

例题2：

我国山区某大型化工厂，在厂区及邻近地区挑选有代表性的15个大气取样点，每日4次同时抽取大气样品，测定其中含有的6种气体的浓度，前后共4天，每个取样点没种气体实测16次。

计算每个取样点没种气体的平均浓度，数据见下表所示。

气体数据对应得污染地区分类如表中最后一列所示。

现有两个取自该地区的4个气体样本，气体指标如表中后4行所示，试判别这4个样品的污染分类。

表大气样品数据表

气体

氯

硫化氢

二氧化硫

碳4

环氧氯丙烷

环己烷

污染分类

1

0.056

0.084

0.031

0.038

0.0081

0.022

1

2

0.040

0.055

0.100

0.110

0.0220

0.0073

1

3

0.050

0.074

0.041

0.048

0.0071

0.020

1

4

0.045

0.050

0.110

0.100

0.0250

0.0063

1

5

0.038

0.130

0.079

0.170

0.0580

0.043

2

6

0.030

0.110

0.070

0.160

0.0500

0.046

2

7

0.034

0.095

0.058

0.160

0.200

0.029

1

8

0.030

0.090

0.068

0.180

0.220

0.039

1

9

0.084

0.066

0.029

0.320

0.012

0.041

2

10

0.085

0.076

0.019

0.300

0.010

0.040

2

11

0.064

0.072

0.020

0.250

0.028

0.038

2

12

0.054

0.065

0.022

0.280

0.021

0.040

2

13

0.048

0.089

0.062

0.260

0.038

0.036

2

14

0.045

0.092

0.072

0.200

0.035

0.032

2

15

0.069

0.087

0.027

0.050

0.089

0.021

1

样品1

0.052

0.084

0.021

0.037

0.0071

0.022

样品2

0.041

0.055

0.110

0.0210

0.0073

样品3

0.030

0.112

0.072

0.160

0.056

0.021

样品4

0.074

0.083

0.105

0.190

0.020

1.000

Matlab函数介绍：

函数名称：

classify

调用格式：

[class,err,…]=classify（sample,training,group,…）

说明：

sample：

待判样品；

training：

训练样本；

group：

分类变量。

注意：

sample与training具有相同的列数；

group与training具有相同的行数。

返回：

class：

样品的分类结果；err：

误判率的估计。

Matlab程序：

training=[0.0560.0840.0310.0380.00810.022;

0.0400.0550.1000.1100.02200.0073;

0.0500.0740.0410.0480.00710.020;

0.0450.0500.1100.1000.02500.0063;

0.0380.1300.0790.1700.05800.043;

0.0300.1100.0700.1600.05000.046;

0.0340.0950.0580.1600.2000.029;

0.0300.0900.0680.1800.2200.039;

0.0840.0660.0290.3200.0120.041;

0.0850.0760.0190.3000.0100.040;

0.0640.0720.0200.2500.0280.038;

0.0540.0650.0220.2800.0210.040;

0.0480.0890.0620.2600.0380.036;

0.0450.0920.0720.2000.0350.032;

0.0690.0870.0270.0500.0890.021];

group=[111122112222221]';

sample=[0.0520.0840.0210.0370.00710.022;

0.0410.0550.1100.1100.02100.0073;

0.0300.1120.0720.1600.0560.021;

0.0740.0830.1050.1900.0201.000];

[class,err]=classify（sample,training,group）

class=[1122]

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 判别分析 MATLAB 应用

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：判别分析及MATLAB应用.docx
链接地址：https://www.bdocx.com/doc/20393389.html

判别分析及MATLAB应用.docx

热门标签