书签分享收藏举报版权申诉 / 32

立即下载加入VIP,免费下载

当前位置：首页 > 经管营销 > 多元统计分析十属性数据统计分析Word格式.docx

多元统计分析十属性数据统计分析Word格式.docx

文档编号：13895403
上传时间：2022-10-14
格式：DOCX
页数：32
大小：277.80KB

《多元统计分析十属性数据统计分析Word格式.docx》由会员分享，可在线阅读，更多相关《多元统计分析十属性数据统计分析Word格式.docx（32页珍藏版）》请在冰豆网上搜索。

多元统计分析十属性数据统计分析Word格式.docx

70

86

38

194

45

15

10

195

192

89

476

那么通过对这个数据列表的分析，我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。

可以看到，表中只有两个变量，这样的列联表称为二维列联表。

例10.2下表给出了一个假设的某大学毕业生的专业M（文科、理工科），性别G及毕业后工作的收入I（高、低）为变量的三维列联表，结果如表10-2所示。

表10-2大学毕业生调查牙刷

专业（M）

性别（G）

收入（I）

低

高

文科

理工科

男

女

120

180

20

320

则根据这样的含有三个变量（专业、性别和收入）的列联表，我们可以观察这些变量之间的关系，这样的列联表称为三维列联表。

10.1.2定性变量与列联表

对定性变量的观测，一般是对它们在不同水平组合上的频数的记录，这里我们将定性变量所描述的不同状态称为该定性变量的水平。

我们用表示定性变量，用表示相应的水平。

假设有n个随机实验的结果按照两个变量和分类，取值为，取值为，将变量和的各种情况的组合用一张列联表表示，称列联表，如表8-3所示。

其中表示取及取的频数。

，其中：

表10-3变量频数表

B

A

…

类似的当涉及三个定性变量时，观测的频数可用三维列联表给出，若还用上面的表示方式，则需要一个三维立体表，但这样通常用起来不方便，所以一般是采用象例10.2的方式把三维列联表给出。

10.1.3二维列联表的独立性检验

二维列联表的两个变量和可视为离散型随机变量，取值分别和，以表示取及取的概率，通常称为格子概率，以分别表示和的边缘概率。

则对于二维列联表，变量和的联合及边缘分布列如表10-4所示。

表10-4变量联合及边缘分布列

1

其中

这时检验变量和是否独立等价于检验假设

如果为真，则在次观测中事件发生的理论频数为

当较大时，理论频数与表10-3中相应的观测频数的差异对，均不应很大，为此，我们用

（10.1）

来描述理论频数与相应的观测频数的总差异量。

当为真时，的值应较小，所以，当的值显著偏大时，就拒绝，也就是认为和不独立。

但是在实际中，由于均未知，则我们采用相应的观测概率

分别作为概率的估计（）。

这样，将概率的估计代入（10.1），则可以得到统计量：

（10.2）

理论上可以证明，当为真时，渐近服从自由度为分布，一般的要求，即每个单元格的频数不少于5。

如果值过大，或值很小，则拒绝原假设，认为行变量和列变量存在关联。

这种关联并没有指出两变量之间的相关或其他特殊的关系，所以称为一般关联。

例10.3（续例10.1）根据例题10.1所给的数据以及所表示的列联表，为了探讨两个变量之间的关系，不妨给出原假设：

这两个变量是相互独立的。

我们只要将表格中相应的频数代入到式子（10.2），则就可以得到相应的值，利用渐近服从自由度为分布，就可以根据分布表查出是否在水平下拒绝原假设，我们看看如何利用SAS语言来解决这样的问题。

为了得到不同年龄段的顾客与他们先去哪一个商场这样两个变量之间的关系，则我们可以利用SAS语言中关于列联表检验的语言PROCFREQ来求出值，则如下所示：

dataclient;

doi=1to3;

doj=1to3;

inputf@@;

output;

end;

cards;

807045

918615

413810

;

run;

procfreq;

weightf;

tablesi*j/chisq;

其中用i=1,2,3分别表示顾客的年龄段为≤30，31--50，＞51；

用j=1,2,3分别表示顾客首先去的商场为商场1，商场2，商场3。

则运行程序可以得到下面的结果：

TABLEOFIBYJ

IJ

Frequency‚

Percent‚

RowPct‚

ColPct‚1‚2‚3‚Total

ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ

1‚80‚70‚45‚195

‚16.81‚14.71‚9.45‚40.97

‚41.03‚35.90‚23.08‚

‚37.74‚36.08‚64.29‚

2‚91‚86‚15‚192

‚19.12‚18.07‚3.15‚40.34

‚47.40‚44.79‚7.81‚

‚42.92‚44.33‚21.43‚

3‚41‚38‚10‚89

‚8.61‚7.98‚2.10‚18.70

‚46.07‚42.70‚11.24‚

‚19.34‚19.59‚14.29‚

Total21219470476

44.5440.7614.71100.00

STATISTICSFORTABLEOFIBYJ

StatisticDFValueProb

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

Chi-Square419.1420.001

LikelihoodRatioChi-Square419.1420.001

Mantel-HaenszelChi-Square15.8080.016

PhiCoefficient0.201

ContingencyCoefficient0.197

Cramer'

sV0.142

SampleSize=476

上面的结果分为两个部分，第一部分左上角分别是指：

频数（Frequency），百分比（Percent），行百分比（RowPct）和列百分比（ColPct）。

第二部分给出了检验的结果：

我们可以看到的值为19.1425，自由度为4，p值为0.0007小于0.05，所以可以拒绝不同年龄段的顾客与他们先去哪个商场相互独立的原假设，即认为它们是相关的。

下面我们再看一个例题来加深一下印象。

例10.4为研究血型与肝病之间的关系，对295名肝病患者及638名非肝病患者（对照组）调查不同血型的得病情况，如表10-5所示，问肝病与血型之间是否存在关联？

表10-5血型与肝病调查数据表

血型

肝炎

肝硬化

对照

合计

O

AB

98

67

13

18

8

12

289

262

57

30

425

370

78

60

196

99

638

933

本例中行和列都是分类变量，不妨给出原假设肝病与血型之间是相互独立的，即它们之间不存在关联，则可以利用列联表的独立性检验来判断原假设是否正确，为了得到值，可如下得到：

datablood;

doi=1to4;

9838289

6741262

13857

181230

则可以得到结果：

1‚98‚38‚289‚425

‚10.50‚4.07‚30.98‚45.55

‚23.06‚8.94‚68.00‚

‚50.00‚38.38‚45.30‚

2‚67‚41‚262‚370

‚7.18‚4.39‚28.08‚39.66

‚18.11‚11.08‚70.81‚

‚34.18‚41.41‚41.07‚

3‚13‚8‚57‚78

‚1.39‚0.86‚6.11‚8.36

‚16.67‚10.26‚73.08‚

‚6.63‚8.08‚8.93‚

4‚18‚12‚30‚60

‚1.93‚1.29‚3.22‚6.43

‚30.00‚20.00‚50.00‚

‚9.18‚12.12‚4.70‚

Total19699638933

21.0110.6168.38100.00

Chi-Square615.0730.020

LikelihoodRatioChi-Square614.2230.027

Mantel-HaenszelChi-Square10.5190.471

PhiCoefficient0.127

ContingencyCoefficient0.126

sV0.090

SampleSize=933

运行程序可以得到检验结果，自由度为6，值为15.0734，p值为0.0197，由于p值小于0.05，可以拒绝血型与病种独立的假设，所以认为血型与肝炎有一定的关联。

10.1.4三维列联表的独立性检验

当列联表是三维时，便涉及到三个变量，它们之间的关系要比二维情形复杂的多。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 多元统计分析属性数据

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：多元统计分析十属性数据统计分析Word格式.docx
链接地址：https://www.bdocx.com/doc/13895403.html

多元统计分析十属性数据统计分析Word格式.docx

热门标签