多元统计分析方法兰州商学院傅德印第八章典型相关分析f.docx
- 文档编号:492509
- 上传时间:2022-10-10
- 格式:DOCX
- 页数:20
- 大小:347.56KB
多元统计分析方法兰州商学院傅德印第八章典型相关分析f.docx
《多元统计分析方法兰州商学院傅德印第八章典型相关分析f.docx》由会员分享,可在线阅读,更多相关《多元统计分析方法兰州商学院傅德印第八章典型相关分析f.docx(20页珍藏版)》请在冰豆网上搜索。
多元统计分析方法兰州商学院傅德印第八章典型相关分析f
第八章典型相关分析
在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。
典型相关分析就是测度两组变量之间相关程度的一种多元统计方法。
第一节典型相关的基本原理
(一)典型相关分析的基本思想
典型相关分析方法(canonicalcorrelationanalysis)最早源于荷泰林(H,Hotelling)于1936年在《生物统计》期刊上发表的一篇论文《两组变式之间的关系》。
他所提出的方法经过多年的应用及发展,逐渐达到完善,在70年代臻于成熟。
由于典型相关分析涉及较大量的矩阵计算,其方法的应用在早期曾受到相当的限制。
但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。
典型相关分析是研究两组变量之间相关关系的一种统计分析方法。
为了研究两组变量,,…,和,,…,之间的相关关系,采用类似于主成分分析的方法,在两组变量中,分别选取若干有代表性的变量组成有代表性的综合指标,通过研究这两组综合指标之间的相关关系,来代替这两组变量间的相关关系,这些综合指标称为典型变量。
(二)典型相关分析的数学描述
设有两随机变量组,,…,和,,…,,不妨设。
对于,,不妨设第一组变量的均值和协方差为矩阵为
==
第二组变量的均值和协方差为矩阵为
==
第一组与第二组变量的协方差为矩阵为
==
于是,对于矩阵=有(9—1—1)
均值向量===(9—1—2)
协方差矩阵=
=
=
要研究两组变量,,…,和,,…,之间的相关关系,首先分别作两组变量的线性组合,即
=
=
,分别为任意非零常系数向量,则可得,
==
==
==
则称与为典型变量,它们之间的相关系数称为典型相关系,即
==
典型相关分析研究的问题是,如何选取典型变量的最优线性组合。
选取原则是:
在所有
线性组合和中,选取典型相关系数为最大的和,即选取和使得=与=之间的相关系数达到最大(在所有的和中),然后选取和使得=与=的相关系数在与和不相关的组合和中最大,继续下去,直到所有分别与和,都不相关的线性组合,为止。
此时等于诸变量与之间的协方差矩阵的秩。
典型变量和,和……和是根据它们的相关系数由大列小逐对提取,直到两组变量之间的相关性被分解完毕为止。
(三)典型相关分析的应用
典型相关分析的用途很广。
在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。
例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标,如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。
又如,为了研究宏观经济走势与股票市场走势之间的关系,就需要考察各种宏观经济指标如经济增长率、失业率、物价指数、进出口增长率等与各种反映股票市场状况的指标如股票价格指数、股票市场融资金额等两组变量之间的相关关系。
再如,工厂要考察所使用的原料的质量对所生产的产品的质量的影响,就需要对所生产产品的各种质量指标与所使用的原料的各种质量指标之间的相关关系进行测度。
又如,在分析评估某种经济投入与产出系统时,研究投入和产出情况之间的联系时,投入情况面可以从人力、物力等多个方面反映,产出情况也可以从产值、利税等方面反映;
再如在分析影响居民消费因素时,我们可以将劳动者报酬、家庭经营收入、转移性收入等变量构成反映居民收入的变量组,而将食品支出、医疗保健支出、交通和通讯支出等变量构成反映居民支出情况的变量组,然后通过研究两变量组之间关系来分析影响居民消费因素情况。
第二节典型变量与典型相关系数的求法
(一)总体典型变量与典型相关系数
由上一节的数学描述我们知道,典型相关分析希望寻求和使得达到最大,但是由于随机变量乘以常数时不改变它们的相关系数,为了防止不必要的结果重复出现,最好的限制是令=1和=1。
于是,我们的问题就转化为,在约束条件为=1和=1下,寻找非零常数向量和使得相关系数=达到最大。
根据数学分析中条件极值的求法,引入拉格朗日(Lagrange)乘数,问题则转化为,求
的极大值点,其中是拉格朗日乘数。
由极值的必要条件,需求对和的偏导数,并令其等于零,得到的极值条件为:
将分别以和左乘上式,得
又因为,
故==,
说明,的值就是线性组合和之间的相关系数。
因此上述方程可写成:
为求解方程,先以左乘以上述第二式,并将第一式代入,得
同理,将左乘以上述第一式,并将第二式代入,得
将上边两式分别左乘以和,得
令
则得
说明,既是矩阵,同时也是矩阵的特征值,同时也表明,相应的与分别是特征值的特征向量。
而且,根据证明,矩阵和的特征值还具有以下的性质:
(1)矩阵和有相同的非零特征值,且相等的非零特征值的数目就等于。
(2)矩阵和的特征值非负。
(3)矩阵和的全部特征值均在0和1之间。
根据前边,我们知道,==,所以为其典型变量和之间的简单相关系数。
又由于要求其相关系数达到最大(按习惯考虑为正相关),所以取矩阵或的最大特征值的平方根,作为相关系致,同时由特征值所对应的两个特征向量和有:
=和=
这就是所要选取的第一对线性组合,也即第一对典型变量,它们在所有的线性组合和中具有有最大的相关系数。
若求出矩阵或的个非零特征根(是矩阵的秩,这里实际上),设为
相应的特征向量是与和,则可得对线性组合:
和
它们的相关系数为。
称为典型相关系数,称、,、……、为其典型变量。
将和的值和原始数据、分别代入、的表达式中求得的值,称为第个典型变量的得分。
如同因子得分,典型变量的得分可以构成得分平面等值图,借以进行分类和统计分析。
另外,这里,我们也直接给出典型变量所具有的性质:
性质1:
由…所组成的典型相关变量、…互不相关,同样由…,所组成的典型相关变量、…也互不相关,并且它们的方差均等于1。
用数学表达式为
==1
==1
==0
其中,1,2,……,
==1
==0
1,2,……,
性质2:
与的同一对典型变量和之间的相关系数为,而不同对的典型变量和()之间不相关,也就是协方差为0,即
==
所以,严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两个变量组之间的相关。
而各对典型变量之间构成的多维典型相关共同揭示了两个观测变量组之间的相关形式。
(二)原始变量与典型变量之间的相关系数
设典型变量为和,原始变量与典型变量之间的相关系数为,,则有,
====,
类似的有,
===,
这里,,是衡量原始变量与典型变量相关性的尺度,例如与第一典型变量的相关系数最大,则表明变量与第一典型变量的关系密切,反之则不甚密切。
对于,,有的书也称为典型负载系数(Canonicalloading)或结构相关系数(Structurecorrelation)。
对应的,如果某一组中典型变量与另外一组的原始变量之间的两两简单相关系数,则又称为交叉负载系数(Cross-loadings)。
则交叉负载系数有,
==
==
典型相关分析中,常常把典型变量对本组原始变量总方差解释比例的分析以及典型变量对另外一组原始变量总方差交叉解释比例的分析统称冗余分析(RedundancyAnalysis)。
这里“冗余”,有冗长、多余、重复、过剩的意思。
在统计上,如果一个变量中的部分方差可以由另外一个变量的方差来解释或预测,就说这个方差部分与另一变量方差相冗余,相当于说变量的这个方差部分可以由另一个变量的一部分方差所解释或预测。
典型相关分析中的冗余分析是对分组原始变量总变化的方差分析。
类似于因子分析,典型相关系数可以看作为该典型变量组从原始变量中提取的方差,这样第一组典型变量提取的方差百分数为;第二组典型变量提取的方差百分数为。
因此有,便是第一组典型变量提取的方差被第二组典型变量重复的百分数,
它称为在第一组冗余而在第二组存在的冗余测度,记为,即
类似地,在第二组冗余而在第一组中存在的冗余测度为,
可见,冗余的本质是共享方差百分比。
(三)样本典型相关变量和样本典型相关系数
以上讨论都是基于总体情况下的讨论,然而在实际应用中,总体的均值向量和总体协方差矩阵往往都是未知的,和其他多元统计分析方法的应用一样,这就需要从总体中随机抽取一个样本,根据样本资料对总体的均值向量和总体协方差矩阵进行估计,进而求出样本典型相关变量及其典型相关系数。
设,中个变量中,每个变量的个观察值的随机样本,可以构成的矩阵,设数据矩阵为
样本协方差矩阵为
=,其中
=
=
=
根据证明,样本协方差矩阵就是总体协方差矩阵的极大似然估计。
于是我们就可以用代替,也就是用代替,用代替,求出特征值,特征向量和,称为样本典型相关系数,称、,、……、为样本其典型相关变量。
而且,数理统计上还可以证明,和分别是,和的极大似然估计。
另外,在实际计算过程中,如果对原始数据进行了标准化变化,也可以从原始数据相关矩阵出发,求样本的典型相关系数和样本典型相关变量。
第三节典型相关系数的检验
在进行两组变量和典型相关分析之前,首先应检验两组变量是否相关,若两者不相关,即,则作典型相关分析就没有任何实际意义。
因此,在根据样本数据进行典型相关分析时,首先应该检验假设。
典型相关系数显著性检验,主要采用的是巴特来特(Bartlett)关于大样本的检验。
如果两组变量和之间互不相关,则协方差矩阵仅包含零,因而典型相关系数都变为零。
为此,
:
,即
:
对于矩阵的特征值,按照大小排列为,这时作乘积:
==,
其中是=的特征根
对于当充分大,成立时,统计量
=-ln
近似服从个自由度的分布,若在给定的显著性水平下,,则拒绝原假设,则至少可以认为第一对典型变量具有相关性,相关系数为,第一个典型相关系数为显著的。
接下来,为检验其余的典型相关系数的显著性,先将剔出,再作乘积,
=
作统计量为
=-
它近似服从自由度为的分布,若在给定的显著性水平下,,则拒绝原假设认为显著,即第二对典型相关变量具有相关性。
如此进行下去,直至到第个典型相关系数检验为不显著时,即第对典型变量不具有相关性时停止。
一般地,当检验第个典型相关系数的显著性时,应用的检验统计量为:
=-ln
其中,
=
近似服从分布,自由度为。
第四节典型相关分析计算步骤
(一)根据分析目的建立原始矩阵
原始数据矩阵
(二)对原始数据进行标准化变化并计算相关系数矩阵
=
其中,分别为第一组变量和第二组变量的相关系数阵,=为第一组变量和第二组变量的相关系数
(三)求典型相关系数和典型变量
计算矩阵以及矩阵的特征值和特征向量,分别得典型相关系数和典型变量。
(四)检验各典型相关系数的显著性
第五节利用SPSS进行典型相关分析
第一步,录入原始数据,如下表:
X1X2X3X4X5分别代表多孩率、综合节育率、初中及以上受教育程度的人口比例、人均国民收入和城镇人口比例。
研究人口出生与教育程度、生活水平等的相关。
序号
X1
X2
X3
X4
X5
1
0.94
89.89
64.51
3577
73.08
2
2.58
92.32
55.41
2981
68.65
3
13.46
90.71
38.2
1148
19.08
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元统计分析方法兰州商学院傅德印第八章 典型相关分析f 多元 统计分析 方法 兰州 商学院 傅德印 第八 典型 相关 分析