书签分享收藏举报版权申诉 / 10

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 职业规划 > 交叉表分析Word格式.docx

交叉表分析Word格式.docx

文档编号：19624037
上传时间：2023-01-08
格式：DOCX
页数：10
大小：2.17MB

交叉表分析Word格式.docx

《交叉表分析Word格式.docx》由会员分享，可在线阅读，更多相关《交叉表分析Word格式.docx（10页珍藏版）》请在冰豆网上搜索。

交叉表分析Word格式.docx

（1）根据样本（yà

ngběn）数据产生二维或多维交叉列联表。

交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。

（2）在交叉列联表的基础（jīchǔ）上，分析两变量之间是否具有独立性或一定的相关性。

4-2卡方检验（jiǎnyà

n）的原理（yuá

nlǐ）

为了理解列联表中行变量（Row）和列变量（Column）之间的关系（guānxì

），我们需要借助非参数检验方法。

通常采用的方法是卡方检验。

和一般假设检验一样，卡方检验主要包括三个步骤：

（1）建立零假设：

行变量和列变量相互独立。

（2）选择和计算检验统计量。

列联表分析中的检验统计量是Pearson卡方统计量。

其公式为：

（4-9-1）

其中，r为列联表的行数，c为列联表的列数，

为实际观测频数，

期望观测频数。

期望频数的计算公式为：

（4-9-2）

其中，RT是指定单元格所在行的观测频数合计，CT是指定单元格所在列的观测频数合计，n是观测频数的合计。

由式（4-9-1）可以看出，卡方统计量的大小取决于两个因素：

一个是列联表的格子数；

另一个是观测频数和期望频数的差值。

在列联表固定的情况（qí

ngkuà

ng）下，卡方统计量取值的大小取决于观测频数和期望频数的总差值。

当总差值越大时，卡方值也就越大，表明行列变量之间越相关；

反之，当总差值越小时，卡方值也就越小，表明行列变量之间越独立。

（3）得出结论并做决策（jué

cè

）。

根据卡方统计量的概率P值和显著性水平

进行比较，做出拒绝还是接受原假设的结论。

如果卡方检验（jiǎnyà

n）的概率P值小于显著性水平

，则拒绝原假设（jiǎshè

），认为行列变量之间不独立，两者之间存在依存关系。

反之，如果卡方检验的概率P值大于显著性水平

，则接受原假设，认为行列变量（bià

nlià

ng）之间独立，两者之间不存在依存关系。

在卡方检验中还需要注意：

交叉列联表中不应有期望频数小于1的单元格，或者不应有大量期望频数小于5的单元格。

如果交叉列联表中有20%以上单元格中的期望频数小于5，则不应用卡方检验，可以采用似然比（LikelihoodRatio）卡方检验等方法进行修正。

5、背景材料

某新产品上市前一个月中，分别对北京、上海、深圳三地进行了市场调查，调查表中有一项是关于顾客获知该产品的渠道。

随机抽取了300份调查表，统计顾客获知产品渠道的数据如下，SPSS数据文件见4-9.sav。

表4-9-1顾客获知某新产品渠道的调查数据

城市

北京

上海

深圳

合计

朋友

电视

网络

报刊

20

9

60

34

26

13

33

16

5

30

28

62

27

123

88

98

79

300

6、实训步骤（bù

zhò

u）

6-1选择（xuǎnzé

）菜单“Analyze”→“DescriptiveStatistics”→“Crosstabs”弹出如图4-9-1所示的窗口（chuāngkǒu），进入列联表分析（fēnxī）界面。

图4-9-1列联表分析（fēnxī）窗口

6-2选择列联表中的行变量进入Row（s）框，如表4-9-1中的获取新产品的渠道变量。

6-3选择列连表中的列变量进入Column（s）框，如表4-9-1中的城市变量。

6-4Layer框：

Layer指的是层，对话框中的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。

如果要让不同的变量做不同的分析，则将其选入Layer框，并用Previous和Next钮设为不同层。

Layer在这里用的比较少，在多元回归中我们将进行详细的解释。

6-5选择（xuǎnzé

）Displayclusteredbarcharts复选框表示（biǎoshì

）输出分组条图。

选择（xuǎnzé

）Suppresstable复选框表示（biǎoshì

）禁止在结果（jiēguǒ）中输出列联表。

6-6单击

按钮，弹出ExactTests子对话框，如图4-9-2所示。

图4-9-2ExactTests子对话框

ExactTests子对话框是针对2*2以上的行*列表设定计算确切概率的方法，可以是不计算（Asymptoticonly）、蒙特卡罗模拟（MonteCarlo）或确切计算（Exact）。

其中，系统默认是不计算；

蒙特卡罗模拟默认进行10000次模拟，给出99%置信区间；

确切计算默认计算时间限制在5分钟内。

这些默认值均可更改。

6-7单击

按钮，弹出Statistics子对话框，用于定义所需计算的统计量。

如图4-9-3所示。

图4-9-3Statistics子对话框

Statistics子对话框包括（bāokuò

）：

（1）Chi-square复选框：

）是否进行卡方检验，计算（jì

suà

n）

值。

（2）Correlaitons复选框：

计算（jì

n）列联表两变量（bià

ng）的Pearson相关系数和Spearman等级相关系数。

（3）Nominal复选框组：

选择是否输出反映分类资料相关性的指标，很少使用，共有四个选项：

Contingencycoefficient复选框：

列联系数，其值界于0～1之间，取值越大说明两变量之间的相关性越强。

PhiandCramer’sV复选框：

这两者也是基于

值的，Phi在四格表

检验中界于-1～1之间，在R*C表

检验中界于0～1之间；

Cramer’sV则界于0～1之间。

该指标的绝对值越大，说明两变量之间的相关性越强。

Lambda复选框：

在自变量预测（yù

）中用于反映比例缩减误差，其值为1时表明自变量预测因变量（bià

ng）好，为0时表明（biǎomí

ng）自变量预测因变量（bià

ng）差。

Uncertaintycoefficient复选框：

不确定系数，以熵为标准的比例缩减误差，其值接近（jiējì

n）1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后一变量的信息与前一变量无关。

（4）Ordianl复选框组：

选择是否输出反映定序资料相关性的指标，很少使用。

包括以下组成部分：

Gamma复选框：

界于-1～1之间，所有观察实际数集中于左上角和右下角时，其值为1，取1和-1代表两变量完全一致或不一致，取0代表两变量完全不相关。

Somers’d复选框：

为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例。

界于-1～1之间，结果解释同上；

Kendall’stau-b复选框：

Kendall’stau-c复选框：

（5）NominalbyInterval：

Eta复选框：

计算Eta值，用于分类变量的检验，其平方值可认为是因变量受不同因素影响所致方差的比例；

（6）Kappa复选框：

计算Kappa值，即内部一致性系数。

通常Kappa大于0.75则认为两变量的一致性较好；

小于0.4则认为两变量的一致性较差；

（7）Risk复选框：

计算相对危险系数；

（8）McNemar复选框：

ng）McNemar检验（jiǎnyà

n）（一种非参检验），该检验只有（zhǐyǒu）在行列数相等时才能用；

（9）Cochran’sandMantel-Haenszelstatistics复选框：

ng）独立性和齐性检验。

6-8单击

按钮弹出Cell子对话框，用于定义列联表单元格中需要（xūyà

o）计算的指标，如图4-9-4所示。

图4-9-4Cell子对话框

Cell子对话框主要包括以下几部分：

Counts复选框：

是否输出实际观察数（Observed）和期望数（Expected）；

Percentages复选框：

是否输出行百分数（Row）、列百分数（Column）以

及合计百分数（Total）；

Residuals复选框：

）残差的显示方式，可以是实际数与期望（qīwà

ng）数的差值（Unstandardized）、标化后的差值（standardized，将差值转化（zhuǎnhuà

）为标准正态分布），或者（huò

zhě）被标准（biāozhǔn）误除的单元格残差（Adj.standardized）；

NonintegerWeights：

当频数因为加权而变成小数时，选择该项对频数进行取整。

主要包括五种方法：

Roundcellcounts：

对频数进行四舍五入取整；

Roundcaseweights：

对加权样本在使用前进行四舍五入取整；

Truncatecellcounts：

对频数进行舍位取整；

Truncatecaseweights：

对加权样本在使用前进行舍位取整；

Noadjustments：

不调整。

6-9单击

按钮，弹出Format子对话框，用于选择行变量是升序还是降序。

单击

按钮返回主界面，单击

按钮完成操作。

7、实训解析

由于背景资料中表4-9-1的数据给出的直接是频数表，因此在建立SPSS数据集时可以直接输入三个变量：

——行变量、列变量和指示每个单元格中频数的变量，然后指定频数变量，最后进行

检验。

因此，我们要检验原假设：

“获知方式”与“城市”两变量之间是独立的，需要首先用Data菜单中的“WeightCases”命令，设置频数变量；

然后在“Crosstabs”命令中将“获知方式”、“城市”分别设置为行列变量；

选中Displayclusteredbarcharts选项，在Statistics对话框中选择Chi-square选项，在Cells对话框中选择Observed、Expectde选项，设置完成后点击OK按钮，完成操作，结果如表4-9-2、表4-9-3和图4-9-5所示。

表4-9-3是卡方检验结果，共使用了三种（sānzhǒnɡ）检验方法。

PearsonChi-Square的显著水平0.107大于0.05，因此不能拒绝原假设（jiǎshè

），认为“获知（huò

zhī）方式”与“城市（ché

ngshì

）”两变量（bià

ng）之间独立，即它们之间不存在相互依赖关系。

表4-9-2列联表获知方式*城市Crosstabulation

Total

获知方式

Count

ExpectedCount

36.1

28.7

23.2

88.0

50.4

40.2

32.4

123.0

11.1

8.8

7.1

27.0

25.4

20.3

16.3

62.0

98.0

79.0

300.0

表4-9-3卡方检验结果Chi-SquareTests

Value

df

Asymp.Sig.（2-sided）

PearsonChi-Square

10.450a

6

.107

LikelihoodRatio

10.183

.117

Linear-by-LinearAssociation

.046

1

.830

NofValidCases

a.0cells（.0%）haveexpectedcountlessthan5.Theminimumexpectedcountis7.11.

图4-9-5获知方式（fāngshì

）与城市交叉分组的条形图

内容总结

（1）进行交叉表分析时需要注意：

（1）卡方检验要求各单元的期望频数均大于5或小于5的比例不能超过20%

（2）将childs为行变量，occcat80为列变量，region为控制变量选入Layerof框中，进行交叉表分析

（3）Lambda复选框：

在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测因变量好，为0时表明自变量预测因变量差

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 交叉分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：交叉表分析Word格式.docx
链接地址：https://www.bdocx.com/doc/19624037.html

交叉表分析Word格式.docx

热门标签