多元统计分析十属性数据统计分析.docx
- 文档编号:974284
- 上传时间:2022-10-14
- 格式:DOCX
- 页数:32
- 大小:277.80KB
多元统计分析十属性数据统计分析.docx
《多元统计分析十属性数据统计分析.docx》由会员分享,可在线阅读,更多相关《多元统计分析十属性数据统计分析.docx(32页珍藏版)》请在冰豆网上搜索。
多元统计分析十属性数据统计分析
第10章属性数据的统计分析
10.1列联表的独立性分析
10.1.1实例
列联表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与定性变量相联系。
通过对列联表的分析,可以了解这些变量之间的依赖关系。
例10.1在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个,结果如表10-1所示。
表10-1商场调查数据
年龄段(岁)
商场1
商场2
商场3
总和
≤30
31~50
>51
总和
80
91
41
212
70
86
38
194
45
15
10
70
195
192
89
476
那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。
可以看到,表中只有两个变量,这样的列联表称为二维列联表。
例10.2下表给出了一个假设的某大学毕业生的专业M(文科、理工科),性别G及毕业后工作的收入I(高、低)为变量的三维列联表,结果如表10-2所示。
表10-2大学毕业生调查牙刷
专业(M)
性别(G)
收入(I)
低
高
文科
理工科
男
女
男
女
120
180
80
20
80
120
320
80
则根据这样的含有三个变量(专业、性别和收入)的列联表,我们可以观察这些变量之间的关系,这样的列联表称为三维列联表。
10.1.2定性变量与列联表
对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称为该定性变量的水平。
我们用表示定性变量,用表示相应的水平。
假设有n个随机实验的结果按照两个变量和分类,取值为,取值为,将变量和的各种情况的组合用一张列联表表示,称列联表,如表8-3所示。
其中表示取及取的频数。
,其中:
表10-3变量频数表
B
A
…
总和
总和
…
类似的当涉及三个定性变量时,观测的频数可用三维列联表给出,若还用上面的表示方式,则需要一个三维立体表,但这样通常用起来不方便,所以一般是采用象例10.2的方式把三维列联表给出。
10.1.3二维列联表的独立性检验
二维列联表的两个变量和可视为离散型随机变量,取值分别和,以表示取及取的概率,通常称为格子概率,以分别表示和的边缘概率。
则对于二维列联表,变量和的联合及边缘分布列如表10-4所示。
表10-4变量联合及边缘分布列
B
A
…
总和
总和
…
1
其中
这时检验变量和是否独立等价于检验假设
如果为真,则在次观测中事件发生的理论频数为
当较大时,理论频数与表10-3中相应的观测频数的差异对,均不应很大,为此,我们用
(10.1)
来描述理论频数与相应的观测频数的总差异量。
当为真时,的值应较小,所以,当的值显著偏大时,就拒绝,也就是认为和不独立。
但是在实际中,由于均未知,则我们采用相应的观测概率
分别作为概率的估计()。
这样,将概率的估计代入(10.1),则可以得到统计量:
(10.2)
理论上可以证明,当为真时,渐近服从自由度为分布,一般的要求,即每个单元格的频数不少于5。
如果值过大,或值很小,则拒绝原假设,认为行变量和列变量存在关联。
这种关联并没有指出两变量之间的相关或其他特殊的关系,所以称为一般关联。
例10.3(续例10.1)根据例题10.1所给的数据以及所表示的列联表,为了探讨两个变量之间的关系,不妨给出原假设:
这两个变量是相互独立的。
我们只要将表格中相应的频数代入到式子(10.2),则就可以得到相应的值,利用渐近服从自由度为分布,就可以根据分布表查出是否在水平下拒绝原假设,我们看看如何利用SAS语言来解决这样的问题。
为了得到不同年龄段的顾客与他们先去哪一个商场这样两个变量之间的关系,则我们可以利用SAS语言中关于列联表检验的语言PROCFREQ来求出值,则如下所示:
dataclient;
doi=1to3;
doj=1to3;
inputf@@;
output;
end;
end;
cards;
807045
918615
413810
;
run;
procfreq;
weightf;
tablesi*j/chisq;
run;
其中用i=1,2,3分别表示顾客的年龄段为≤30,31--50,>51;用j=1,2,3分别表示顾客首先去的商场为商场1,商场2,商场3。
则运行程序可以得到下面的结果:
TABLEOFIBYJ
IJ
Frequency‚
Percent‚
RowPct‚
ColPct‚1‚2‚3‚Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1‚80‚70‚45‚195
‚16.81‚14.71‚9.45‚40.97
‚41.03‚35.90‚23.08‚
‚37.74‚36.08‚64.29‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2‚91‚86‚15‚192
‚19.12‚18.07‚3.15‚40.34
‚47.40‚44.79‚7.81‚
‚42.92‚44.33‚21.43‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
3‚41‚38‚10‚89
‚8.61‚7.98‚2.10‚18.70
‚46.07‚42.70‚11.24‚
‚19.34‚19.59‚14.29‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total21219470476
44.5440.7614.71100.00
STATISTICSFORTABLEOFIBYJ
StatisticDFValueProb
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Chi-Square419.1420.001
LikelihoodRatioChi-Square419.1420.001
Mantel-HaenszelChi-Square15.8080.016
PhiCoefficient0.201
ContingencyCoefficient0.197
Cramer'sV0.142
SampleSize=476
上面的结果分为两个部分,第一部分左上角分别是指:
频数(Frequency),百分比(Percent),行百分比(RowPct)和列百分比(ColPct)。
第二部分给出了检验的结果:
我们可以看到的值为19.1425,自由度为4,p值为0.0007小于0.05,所以可以拒绝不同年龄段的顾客与他们先去哪个商场相互独立的原假设,即认为它们是相关的。
下面我们再看一个例题来加深一下印象。
例10.4为研究血型与肝病之间的关系,对295名肝病患者及638名非肝病患者(对照组)调查不同血型的得病情况,如表10-5所示,问肝病与血型之间是否存在关联?
表10-5血型与肝病调查数据表
血型
肝炎
肝硬化
对照
合计
O
A
B
AB
98
67
13
18
38
41
8
12
289
262
57
30
425
370
78
60
合计
196
99
638
933
本例中行和列都是分类变量,不妨给出原假设肝病与血型之间是相互独立的,即它们之间不存在关联,则可以利用列联表的独立性检验来判断原假设是否正确,为了得到值,可如下得到:
datablood;
doi=1to4;
doj=1to3;
inputf@@;
output;
end;
end;
cards;
9838289
6741262
13857
181230
;
run;
procfreq;
weightf;
tablesi*j/chisq;
run;
则可以得到结果:
TABLEOFIBYJ
IJ
Frequency‚
Percent‚
RowPct‚
ColPct‚1‚2‚3‚Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1‚98‚38‚289‚425
‚10.50‚4.07‚30.98‚45.55
‚23.06‚8.94‚68.00‚
‚50.00‚38.38‚45.30‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2‚67‚41‚262‚370
‚7.18‚4.39‚28.08‚39.66
‚18.11‚11.08‚70.81‚
‚34.18‚41.41‚41.07‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
3‚13‚8‚57‚78
‚1.39‚0.86‚6.11‚8.36
‚16.67‚10.26‚73.08‚
‚6.63‚8.08‚8.93‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
4‚18‚12‚30‚60
‚1.93‚1.29‚3.22‚6.43
‚30.00‚20.00‚50.00‚
‚9.18‚12.12‚4.70‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total19699638933
21.0110.6168.38100.00
STATISTICSFORTABLEOFIBYJ
StatisticDFValueProb
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Chi-Square615.0730.020
LikelihoodRatioChi-Square614.2230.027
Mantel-HaenszelChi-Square10.5190.471
PhiCoefficient0.127
ContingencyCoefficient0.126
Cramer'sV0.090
SampleSize=933
运行程序可以得到检验结果,自由度为6,值为15.0734,p值为0.0197,由于p值小于0.05,可以拒绝血型与病种独立的假设,所以认为血型与肝炎有一定的关联。
10.1.4三维列联表的独立性检验
当列联表是三维时,便涉及到三个变量,它们之间的关系要比二维情形复杂的多。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 属性 数据