书签分享收藏举报版权申诉 / 16

立即下载加入VIP,免费下载

当前位置：首页 > 农林牧渔 > 畜牧兽医 > 判别分析论文.docx

判别分析论文.docx

文档编号：4529555
上传时间：2022-12-01
格式：DOCX
页数：16
大小：27.18KB

判别分析论文.docx

《判别分析论文.docx》由会员分享，可在线阅读，更多相关《判别分析论文.docx（16页珍藏版）》请在冰豆网上搜索。

判别分析论文.docx

判别分析论文

中国各地区消费价格指数聚类判别分析摘要:

消费价格指数结构作为城市的重要组成部分,对于城市经济发展起着至关重要的影响,而消费价格指数结构的合理性又是城市经济发展的核心要素,直接影响到居民生活水平的高低，本文利用聚类分析对于中国各个城市消费价格指数进行分析,将其分为5类,并对其进行分析;再聚类分析的基础上进行判别分析，检验聚类分析的正确性，最后提出可行性的优化政策。

关键词:

消费价格指数;消费结构;经济发展;聚类分析

一、研究背景:

消费者物价指数是ConsumerPriceIndex，英文缩写为CPI。

反映居民生活中的产品和劳务价格所统计出来的物价变动指标，通常是作为观察通货膨胀水平的重要指标。

用於衡量消费者经常购买的确定的一篮子商品和劳务的价格变化，每月公布一次。

其中能源和食品专案的价格变化很大，因此将它们扣除以后得到“核心资料（CoreRate）”，能更为真实地反映价格的变化。

消费价格指数的变化反映了零售水平的通胀压力。

消费价格指数在国外被称为消费指数或生活费用指数,是度量一组代表性消费品及服务项目价格水平随时间而变动的相对数,反映居民家庭所购买的生活消费品和服务的价格水平对职工货币工资的影响,是研究具名生活、宏观经济分析和决策、价格总水平监测和调空的依据。

今年以来与居民生活息息相关的消费价格屡创新高，今年一月份食品类价格同比上涨10（3%，烟酒类价格同比上涨1（8%，衣着类价格同比下降0（2%。

家庭设备用品及维修服务类价格同比上涨1（4%，医疗保健和个人用品类价格同比上涨3（2%，交通和通信类价格同比下降0（1%，娱乐教育文化用品及服务类价格同比上涨1（0%，居住类价格同比上涨6（8%。

而消费者的工资水平基本不变的情况下，消费价格指数普遍上涨，对居民的生活压力和生活水平满意度有很大的影响。

虽然消费价格指数结构上涨没有引发全面的通货膨胀，但结构增长的危害也不小，这会导致资本一定范围内的转移，引起再分配效应，进而有可能加大贫富差距，贫富差距过大会造成财富的过度集中，不利于社会稳定，有悖于共同富裕的宗旨。

在正常的分配领域中，收入差距并不大，但是如果灰色收入和黑色收入部分越来越大，就会形成强烈的反差，这样就不利于社会总财富的增长，也会进一步加剧社会风气的恶化。

在消费价格指数增长的情况下，我们就更加需要关注消费安全与消费发展的关系。

注重消费者的消费需求，满足消费者不断增长的消费需求，并在此基础上不管扩大消费需求，是社会主义和谐社会里消费发展的首要内容。

但随着经济市场进程加快，存在着消费价格指数结构不合理，影响了消费结构和消费价格指数

1

的优化。

消费结构优化是建立合理的产业结构以及产品结构的前提。

社会主义生产目的是极大限度的瞒住人民群众的消费需求，因而人民群众的消费需求结构和消费价格指数结构又对产业结构和产品结构的建设，调整和发展防线骑着指导器作用。

我们需要尽快优化消费结构和消费价格指数结构，充分利用各种社会资源，提高经济效益和消费效益。

而且如果消费者物价指数升幅过大，表明通胀过渡，会带来经济不稳定，央行就会有紧缩货币政策和财政政策的风险，从而会造成经济前景不明朗。

因此我们需要通过对消费价格指数结构进行聚类分析，进而为优化各个消费价格指数结构提出建议。

二、方法

（一）聚类分析

所谓聚类分析就是根据样品或指标的“相似”特征进行分类的一种多远统计分析方法，这里离的类就是“相似”元素的集合。

进行聚类分析需要知道待分类的若干样品及其指标值;然后通过聚类分析将对象的数据特征按一定规则把分类对象分成若干类，通过每一类指标数据的分析，进一步对各个结构进行优化。

聚类分析法的基本理想是定义样品之间的距离（或相似系数）和类与类之间的距离。

一开始将n个样品各自自成一类，这时类间的距离与样品间的距离是一致的，然后将距离最近的两个类进行合并形成一个新类，并计算新类与其他类之间的距离，再按距离最小准则并类。

每并类一次，类的个数就减少。

这个过程持续到所有样品都被归为一类为止。

传统的聚类算法已经比较成功的解决了低维数据的聚类问题。

但是由于实际应用中数据的复杂性，在处理许多问题时，现有的算法经常失效，特别是对于高维数据和大型数据的情况。

高维聚类分析已成为聚类分析的一个重要研究方向。

同时高维数据聚类也是聚类技术的难点。

根据以上聚类分析的基本思想以及各种距离的定义，可以得到不同聚类分析方法，如下:

（一）最短距离聚类法

最短距离聚类法，是在原来的m×m距离矩阵的非对角元素中找出，把分类对象Gp和Gq归并为一新类Gr，然后按计算公式计算原来各类与新类之间的距离，这样就得到一个新的（m,1）阶的距离矩阵;再从新的距离矩阵中选出最小者dij，把Gi和Gj归并成新类;再计算各类与新类的距离，这样一直下去，直至各分类对象被归为一类为止。

（二）最远距离聚类法

最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时

2

采用的公式不同。

最远距离聚类法所用的是最远距离来衡量样本之间的距离。

（三）直接聚类法

直接聚类法是先把各个分类对象单独视为一类，然后根据距离最小的原则，依次选出一对分类对象，并成新类。

如果其中一个分类对象已归于一类，则把另一个也归入该类;如果一对分类对象正好属于已归的两类，则把这两类并为一类。

每一次归并，都划去该对象所在的列与列序相同的行。

经过m-1次就可以把全部分类对象归为一类，这样就可以根据归并的先后顺序作出聚类谱系图。

（四）中间聚类法是当类与类之间的距离不采用最短距离也不采用最长距离，而是介于两者之间，这种聚类方法称为中间距离法。

当进行到某一步，类Gi和Gj并为G（k），则按中间距离法计算新类G（k）与其他聚类Gl之间的距离。

（五）重心法是指类与类之间的距离定义为两类重心之间的距离。

（六）离差平方法的基本思想是来自方差分析。

先将n个样品各自成一类，然后每次每缩小一类，每缩小一类离差平方和就要增加，选择使离差平方和增加（SSM,SSK,SSL）最小的两类合并，直至所有的样品归为一类为止。

（二）判别分析

1.基本思想

判别分析（DiscriminatoryAnalysis），就是根据已知不同类别的研究对象一批样品观测数据，建立一个判别规则，然后对未知类型的样本进行判别归类的一种统计分析方法.其基本思想是:

判别分析就是根据以上观测数据，依据某种判别标准建立一个判别准则（也称为判别函数），并根据该准则对新样品进行判别归类。

判别分析的任务是根据已掌握的样本资料，建立判别函数，进而对给

[3]定的新观察，判断它来自哪一个总体。

2.费歇（Fisher）判别法

费歇判别法是Fisher于1936年提出的，它借助于方差分析的思想来导出判别函数和建立判别规则。

由于线性函数计算简便，使用起来也方便，所以在Fisher判别中也通常使用线性判别函数。

下面仅介绍不等协差阵的两总体Fisher判别法的判别函数的导出。

假设有两个总体G1、G2，从总体G1中抽取n1个样品，从总体G2中抽取n2个样品，每个样品观测P个指标，列表如下:

，，1

（1）

（2）

（2），，，，xx？

xxx？

x1112111121pp,,,,:

:

G？

？

G？

？

12,,,,

（1）

（2）

（2）,,,,xx？

xxx？

xn1n2npn1n2np111222，，，，

（1）第一步，求判别函数，设判别函数为

3

Y=cx+cx+„+cxpp2211

则分别得到第总体G,G2的各个样本的判别值和均值。

1

方差分析的思想:

要有好的判别效果，就有:

（1）类间离差平方和最大，

n1

（1）

（2）

（1）22（y,y）即最大;

（2）类内离差平方和最小，即G1中最（y,y）,ii,1

n2

（2）

（2）2（y,y）小，G2中最小，,ii,1

（1）

（2）2（）yyQ,记I,,nn12

（1）

（2）F

（1）2

（2）2（）（）yyyy,，,,,ii,,11ii

方差分析的思想也就是求I的极大值，也是求lnI的极大值。

通过求导，有

1css？

sd,,,,,,p1111211,,,,,,css？

sd,,,,,,221222p2,,,,,,,？

？

,,,,,,,,,,,css？

sdpp1p2ppp,,,,,,

（2）第二步，建立判别准则

在假设两总体先验概率相等的情况下，一般取判别临界值

（1）

（2）ny，ny12y,（5）0n，n12

判别准则为:

若新样品值y,y,判xG

（1）

（2）,01当y,y时，,若新样品值y,y,判x,G02,

若新样品值y,y,判xG

（1）

（2）,02当y,y时，,若新样品值y,y,判x,G01,

（3）第三步，检验判别效果

H:

u=uH:

u和u不等022111

（n，n,2,p，1）212T检验统计量F=（6）（n，n,2）p12

（1）,

（2）,

（1）,

（2）nn2,112,（n，n,2）（x,x）S（x,x）T（7）12n，n12

4

S=（S）ijpp

（4）第四步，对已知类别的样品进行回判;

（5）第五步，对待判样品进行判别归类。

三、实证分析

（一）指标选取

本例研究是中国中国各地区消费价格指数，结合实际情况以及分析需要，选取以

下8个指标，分别是居民消费价格指数食品（x1）、烟酒及用品（x2）、衣着（x3）、家庭设备用品及服务（x4）、医疗保健及个人用品（x5）、交通和通信（x6）、娱

乐教育文化用品及服务（x7）、居住（x8）

北京市10810198.7102.4103.3100.1100.4110.4天津市109.2102.4100.4105.3101.89997.8103.1河北省109.2101.396100.1102.199100.7108.3山西省110.3102101.4101.4103.899.4101.5105.9内蒙古自治区111.5102.1100.399.6101.7100100105.1辽宁省110.3101.497.9101.5102.999.5100.2106.2吉林省109.2101.5100.6100.9103.199.9100104.2黑龙江省110.6102.798.4100.2105.399.699.6110.1上海市110.1101.497.8104.9105.498101.4104.9江苏省108.7102.5102.5102.2102.999.8101.7108.9浙江省110.4101.1100.4102.4102.5100.2101.2108安徽省108.3102.1103.8100.110399.6100.1105.1福建省110.1102.19199.8102.799.9101.4107.8江西省10910010399.510299.7100.4105.8山东省108.8101.797.5100.1101.799.4100.6106.2河南省109.1102.9102.5101.3102.9100101.6109.5湖北省109.5103.1102.7102103.8100.4100.3106.7湖南省110.6101.7101101.1101.9101102.2108.8广东省110.3101.7100.1102.2104100102.3105.1广西壮族自治区114.2102.1101.7100.2103101.7101103.4海南省115.4100.7100.499.9101.2100.3101.1106.9重庆市113.3103.495.8101.5101.998.1101.4106四川省111.6101.898.6101.4103.5101101.1107.1贵州省115.5101.797.1100.4101.699.899.8104.4

5

云南省109.610194.898.8102.198.999104.2西藏自治区107.7101.8102.9101.2102.6100.9100.4108.7陕西省111.1101.3101.2100.310599.599.5107.3甘肃省113.5101.6100.9101.8105.6100.9103.5109.2青海省115101.7105.7103.1104.2100.6102.2111.9宁夏回族自治区115.5101.3104.8102.2104101.1102105.7新疆维吾尔自治区112.8102.699.4101102.699.7100.6105.

（二）、实证

1.聚类分析

根据收集的数据，现编程如下:

dataxf;

inputprovince$x1-x8@@;

cards;

;

run;

procclusterdata=xfmethod=wardnonorm

stdouttree=xf1pseudo;idprovince;run;

proctreedata=xfn=4out=out1horizontalgraphics;idprovince;procsort;bydescendingcluster;run;

procprintdata=out1;idprovince;

bydescendingcluster;run;

表18个聚类变量的特征值信息

EigenvalueDifferenceProportionCumulative

12.314374390.856488490.28930.2893

21.457885900.410327390.18220.4715

31.047558510.049176650.13090.6025

40.998381860.135226150.12480.7273

50.863155710.289137740.10790.8352

60.574017970.166433220.07180.9069

70.407584760.070543870.05090.9579

80.337040890.04211.0000

表1虽然对聚类结果分析的意义不大，但是却表明了8个变量的统计信息，8个变量的统计信息可以用俩年两个主成分来近似反映，着有利于用两个主成分画散点图，以便直观的确定类的个数。

6

表2ward聚类法的聚类过程

NCL--ClustersJoined---FREQSPRSQRSQPSFPST2BSS30江苏省河南省20.0018.99819.2.0.431129山西省广东省20.0038.99412.6.0.923228河北省山东省20.0039.99011.6.0.92627辽宁省吉林省20.0048.98610.6.1.152126内蒙古自新疆维吾20.0060.9809.7.1.433425北京市浙江省20.0074.9728.8.1.781724湖南省四川省20.0088.9648.0.2.110623CL27安徽省30.0109.9537.32.32.626722CL30湖北省30.0114.9416.96.42.739621CL26贵州省30.0119.9296.62.02.855620CL25西藏自治30.0122.9176.41.62.933119黑龙江省陕西省20.0133.9046.3.3.18318广西壮族宁夏回族20.0158.8886.1.3.78617CL20CL2450.0167.8715.91.84.001216甘肃省青海省20.0167.8555.9.4.012115CL28云南省30.0168.8385.94.34.021714CL29CL2350.0194.8185.93.04.65913CL15福建省40.0224.7965.92.25.370612江西省海南省20.0226.7735.9.5.417211CL21重庆市40.0330.7405.73.77.920710CL17CL2280.0371.7035.53.88.8989CL14CL1970.0412.6625.43.99.8948CL18CL1640.0493.6135.23.011.8437天津市上海市20.0509.5625.1.12.226CL13CL1180.0527.5095.23.412.6495CL10CL9150.0527.4565.53.612.6544CL6CL12100.0605.3965.92.914.5133CL5CL7170.1041.2925.85.324.9852CL3CL8210.1285.1635.75.130.8441CL2CL4310.1634.000.5.739.215

表2给出了Ward聚类法给出的聚类过程，从并类（-ClustersJoined-）所在的两列可以看到。

Ward法首先把江苏和河南聚为一类，记为CL30,两者之间的离差平方和（BBS最小所在列）为0.4311，是所有样品（共31个类）中离差平方和最小者;接下来把山西省和广东省聚为一类，记为CL29，两者之间的离差平方和为0.9232，是30个类中离差平方和最小者;第三次是把河北省和山东省聚为一类，记为CL28，是29个类中离差平方和最小者;第四次是把辽宁省和吉林省聚为一类，记为CL27，两者之间的离差平方和为1.1521，是28个类中离差平方和最小者;第五次是把内蒙自治区和新疆维吾尔自治区聚为一类，是27

7

个类中离差平方和最小者;第六次是把北京市和浙江省聚为一类，是26个类中离差平方和最小者;第七次是把湖南省跟四川省聚为一类，是25个类中离差平方和最小者;第八次是由于CL27已包含辽宁省和吉林省两个样本，所以CL23中含有安徽省，辽宁省和吉林省三个样本，与“FREQ”列对应该行的值是一致的这一过程一直持续到所有样本被归为一类，并类思想与所解释的三个类的合并过程是一样的。

在整个聚类过程中，Ward法并没有指出合并成几类，但根据给出的与分类有关的几个统计量的值，样本被归为最后4类时有关统计量列表如下:

表3聚类过程中输出的有关统计量

统计量样本被合并的个数

1234PseudoF.5.75.85.9Pseudot^25.75.15.32.9RSQ0.0000.1630.2920.396SPRSQ0.16340.12850.10410.0605

由表3可以看出，伪F统计量在归为3类或4类时较大，说明归为3类或4类比较好;伪T^2统计量在归为1类、3类时较大，T^2大表明上一次聚类的效果好，所以由伪T^2可知归为2类或4类较好。

类似的由统计量RSQ可得归为2类、3类和4类较好，由统计量半偏RSQ可得归为2类和3类较好。

结合实际，考虑实用性问题，所以归为4类较好。

表4由Ward聚类法聚为4类的结果

--------------------------CLUSTER=4-------------------------------

province天津市上海市

CLUSNAMECL7CL7

--------------------------CLUSTER=3-------------------------------

province广西壮族宁夏回族甘肃省青海省

CLUSNAMECL8CL8CL8CL8

--------------------------CLUSTER=2-------------------------------

province河北省山东省内蒙古新疆维吾尔贵州省云南省福建省

江西省海南省重庆市

CLUSNAMECL4CL4CL4CL4CL4CL4CL4CL4CL4CL4

--------------------------CLUSTER=1-------------------------------

province江苏省河南省山西省广东省辽宁省吉林省北京市浙江省

湖南省四川省安徽省湖北省西藏自治黑龙江省陕西省

CLUSNAMECL5CL5CL5CL5CL5CL5CL5CL5CL5CL5CL5

CL5CL5CL5CL5

由表4给出了4类的具体省份。

其中，第四类包含上海、天津2个直辖市，第三类包含广西壮族、宁夏回族、甘肃省、青海省4个地区，第二类则是河北省、山东省、内蒙古、新疆维吾尔、贵州省、云南省、福建省、江西省、海南省、重庆市10个地区，第一类则包含江苏省、河南省、山西省、广东省、辽宁省、吉林

8

省、北京市、浙江省、湖南省、四川省、安徽省、湖北省、西藏自治、黑龙江省、陕西省、湖南省、四川省、安徽省、湖北省、西藏自治、黑龙江省、陕西省。

2.判别分析

对于上面的分组情况，在聚类分析的基础上，进行判别分析。

利用所判断的分组情况进行判别性的检验一下，我们从第二种抽出江苏，第三组中抽出安徽、四川、青海，用Fisher判别法对其进行判别分析,判定4个待判样品所属类别。

（具体数据见附录表2）

现编程如下:

Dataa;

Inputtypex1-x8@@;

Cards;

1109.2102.4100.4105.3101.89997.8103.11110.1101.497.8104.9105.498101.4104.92114.2102.1101.7100.2103101.7101103.42115.5101.3104.8102.2104101.1102105.72113.5101.6100.9101.8105.6100.9103.5109.23109.2101.396100.1102.199100.7108.33108.8101.797.5100.1101.799.4100.6106.23111.5102.1100.399.6101.7100100105.13112.8102.699.4101102.699.7100.610