判别分析中Fisher判别法的应用致远书屋Word格式文档下载.docx
- 文档编号:14366828
- 上传时间:2022-10-22
- 格式:DOCX
- 页数:12
- 大小:269.79KB
判别分析中Fisher判别法的应用致远书屋Word格式文档下载.docx
《判别分析中Fisher判别法的应用致远书屋Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《判别分析中Fisher判别法的应用致远书屋Word格式文档下载.docx(12页珍藏版)》请在冰豆网上搜索。
(2)Fisher方法可直接求解权向量;
(3)Fisher的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher还可以进一步推广到多类问题中去
缺点:
(1)如果,,则样本线性不可分;
,未必线性可分;
不可逆,未必不可分。
(2)对线性不可分的情况,Fisher方法无法确定分类
2实验原理
2.1线性投影与Fisher准则函数
各类在维特征空间里的样本均值向量:
,(2.5-2)
通过变换映射到一维特征空间后,各类的平均值为:
,(2.5-3)
映射后,各类样本“类内离散度”定义为:
,(2.5-4)
显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。
因此,定义Fisher准则函数:
(2.5-5)
使最大的解就是最佳解向量,也就是Fisher的线性判别式。
2.2求解
从的表达式可知,它并非的显函数,必须进一步变换。
已知:
,,依次代入(2.5-1)和(2.5-2),有:
,(2.5-6)
所以:
(2.5-7)
其中:
(2.5-8)
是原维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此,越大越容易区分。
将(2.5-6)和(2.5-2)代入(2.5-4)式中:
(2.5-9)
,(2.5-10)
因此:
(2.5-11)
显然:
(2.5-12)
称为原维特征空间里,样本“类内离散度”矩阵。
是样本“类内总离散度”矩阵。
为了便于分类,显然越小越好,也就是越小越好。
将上述的所有推导结果代入表达式:
可以得到:
其中,是一个比例因子,不影响的方向,可以删除,从而得到最后解:
(2.5-18)
就使取得最大值,可使样本由维空间向一维空间映射,其投影方向最好。
是一个Fisher线性判断式。
这个向量指出了相对于Fisher准则函数最好的投影线方向。
2.3Fisher算法步骤
由Fisher线性判别式求解向量的步骤:
把来自两类的训练样本集分成和两个子集和。
由,,计算。
由计算各类的类内离散度矩阵,。
计算类内总离散度矩阵。
计算的逆矩阵。
由求解。
3实验目的
应用统计方法解决模式识别问题的困难之一是维数问题,在低维空间行得通的方法,在高维空间往往行不通。
因此,降低维数就成为解决实际问题的关键。
Fisher的方法,实际上涉及维数压缩。
如果要把模式样本在高维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩到一维,这在数学上容易办到。
问题的关键是投影之后原来线性可分的样本可能变得混杂在一起而无法区分。
在一般情况下,总可以找到某个最好的方向,使样本投影到这个方向的直线上是最容易分得开的。
如何找到最好的直线方向,如何实现向最好方向投影的变换,是Fisher法要解决的基本问题。
这个投影变换就是我们寻求的解向量
本实验通过编制程序体会Fisher线性判别的基本思路,理解线性判别的基本思想,掌握Fisher线性判别问题的实质。
4实验实例
例题:
根据我国东部沿海11个省市城镇居民家庭平均每人全年家庭收入的5个指标(工薪收入、经营净收入、财产性收入和转移性收入)数据将各省市城镇居民家庭分为高收入组和次高收入组,建立判别函数进而判定未分组省市的类别。
4.1数据录入
通过国家统计局网站得到我国东部沿海11省市的城镇居民家庭平均每人全年家庭收入的5个指标(工薪收入、经营净收入、财产性收入和转移性收入)数据得到excel表格,并将11个省份划分为高收入组(代号为1)和次高收入组(代号为2),分类如图2-1组别,将其导入spss得到如图4-1所示:
4-1
4.2进行Fisher判别分析
在SPSS中进行如下操作:
步骤一在analyze菜单中的classify子菜单中选择discriminant命令如4-2图所示。
4-2
步骤二在如图4-3所示的discriminantanalyze对话框中,从左侧变量的变量列表中选择“工薪收入”、“经营净收入”、“财产性收入”和“转移性收入”变量,使之添加到independents框中
4-3
步骤三选择“组别”变量使之添加到groupariable框中。
这时groupariable框下的definerange按钮变为可用,单击,弹出discriminantanalyze:
difine对话框如图4-4所示,并在minium中输入1,在maximum中输入2.
4-4
步骤四在discriminantanalyze对话框中单击statistics按钮,弹出discriminantanalyze:
statistics对话框,如图4-5所示。
4-5
步骤五在discriminantanalyze对话框中单击classify按钮弹出discriminantanalyze:
classification对话框,如图4-6所示
4-6
步骤六单击图4-3所示的discriminantanalysis对话框中的ok键,完成操作。
4.3得到分析结果
如表4-1所示可知只有一个判别函数:
D1=2.94*城镇居民家庭总收入-1.892*工资性收入+0.943*经营性收入-1.322*财产性收入-1.112*转移性收入
标准化的典型判别式函数系数
函数
1
城镇居民家庭总收入
2.940
工资性收入
-1.892
经营性收入
.943
财产性收入
-1.322
转移性收入
-.112
表4-1
由分析结果表4-2可知高收入组的Fisher线性判别函数为:
F1=0.025*城镇居民家庭总收入-0.018*工资性收入+0.014*经营性收入-0.064*财产性收入-0.009*转移性收入-105.381
次高收入组的Fisher判别函数为:
F2=0.021*城镇居民家庭总收入-0.015*工资性收入+0.009*经营性收入-0.05*财产性收入-0.009*转移性收入-55.554。
分类函数系数
组别
高收入
次高收入
.025
.021
-.018
-.015
.014
.009
-.064
-.050
-.009
(常量)
-105.381
-55.554
Fisher的线性判别式函数
表4-2
将初始数据代入判别函数可得到表4-3,可知判别函数对初始分组案例100%的进行了正确分类。
4.4应用Fisher判别方程对未分组省份进行分组
由分析可知判别函数
(其中分别代表城镇居民家庭总收入、工资性收入、经营性收入、财产性收入、转移性收入)
又有高收入组各项指标的均值
=(24632.8,18453.4,1826.2,703.4,6592.4)
次高收入组各项指标的均值
=(16178.16667,11553.66667,1480.333333,489.5,4210.666667)代入判别函数可得=30968.06,=21770.85
进而可得=25951.4
将剩余的省份代入判别函数如表4-4所示
地区
城镇居民家庭人均可支配收入
判别函数值
河北省
14718
9831
977
194
4674
20138.023
山西省
13997
9741
944
252
4045
18780.216
内蒙古自治区
15849
11267
1737
364
3583
22451.383
吉林省
14006
9482
1307
146
4220
19584.545
黑龙江省
12566
8357
1224
89
4020
17698.93
安徽省
14086
10362
1023
273
4033
17927.023
江西省
14022
9790
1153
240
3864
19175.231
河南省
14372
9910
1203
165
4130
19827.699
湖北省
14367
10332
1232
297
3838
19192.122
湖南省
15084
9854
1744
419
4060
22279.146
重庆市
15749
11824
1019
254
3894
20226.053
四川省
13839
10132
1132
305
3754
18006.734
贵州省
12863
9006
1135
134
3518
17759.009
云南省
14424
9642
1092
1044
3902
19474.46
西藏自治区
13544
13326
378
218
1056
13500.554
陕西省
14129
10775
544
152
3839
17196.04
甘肃省
11930
9182
690
59
2986
14954.096
青海省
12692
9341
835
46
3928
15999
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析 Fisher 判别 应用 书屋