第11章问卷缺失值、信度处理与多重响应分析PPT文件格式下载.ppt
- 文档编号:13125316
- 上传时间:2022-10-06
- 格式:PPT
- 页数:29
- 大小:1.36MB
第11章问卷缺失值、信度处理与多重响应分析PPT文件格式下载.ppt
《第11章问卷缺失值、信度处理与多重响应分析PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《第11章问卷缺失值、信度处理与多重响应分析PPT文件格式下载.ppt(29页珍藏版)》请在冰豆网上搜索。
,11.1调查问卷缺失值处理方法,缺失值是统计人员和数据采集人员所不愿见到的,但也是无法避免的。
在大型的数据采集任务中,即使有着非常严格的质量控制,含有缺项、漏项的记录也可能很容易地达到10%。
进行敏感问题的调查时,缺失值问题就更加突出了,比如问卷中涉及了家庭收入、婚外性伴侣问题时,许多受访者都会以漏填来避免尴尬。
有些统计分析方法采取将含缺失值的观测记录直接删除的做法,当缺失值较少时,这有太大问题;
但当缺失值数量较多时,这样做会直接丢失大量的信息,并有可能会导致错误结论,故而进行更为系统的缺失值分析是非常有必要的。
11.1.1缺失值的类型与处理方法11.1.2替换缺失值的SPSS操作详解11.1.3缺失值分析的SPSS操作详解11.1.4实例图文分析:
电信公司客户数据缺失值的分析,11.1.1缺失值的类型与处理方法,数据的缺失是有一定规律的,其缺失方式大致可以分为以下三种:
完全随机缺失(completelyatrandom,MCAR)、随机缺失(missingatrandom,MAR)和非随机缺失(nrandom,MANR)。
1.完全随机缺失完全随机缺失的含义就是指缺失现象完全是随机发生的,和自身或其他量的取值无关。
这是缺失值问题中处理起来比较简单的一种,可以直接将缺失值删除,无需担计偏差,这样做唯一的缺点是会丧失一些信息;
也可以采用均值替换等方法处理缺失值,以充分利用样本信息。
要评估MCAR假设是否成立,可以通过比较回答者和未回答者的分布情况进行了验证,也可以使用单变量f检验或LittlesMCAR检验进行了更精确的推断。
事实上,完全垮合MCAR的情况非常少见,而且上述的检验方法都只能证明MCAR假设不成立,而不是证明其成立,因此在对缺失情况作评价时一定要相当谨慎,切不可妄下结论。
11.1.1缺失值的类型与处理方法,2.随机缺失这种情况要严重些,但也更加常见,它的含义是指有缺失值的变量缺失情况的发生与数据集中其他无缺失变量的取值有关。
此时,缺失值不仅会引起信息损失,还可能导致分析结果的不可信。
比如调查人群的血压时发现数据有缺失,但缺失情况是以高龄组为主,这是由于高龄组的受访者因行动不便,不能到场接受深度访谈和检查所致;
此时将缺失值直接删除就不一定合适,而应利用已知变量对缺失的数据进行估计,这样才能对总体有一个综合的评价。
3.非随机缺失这是最坏的一种情形,数据的缺失不仅和其他变量的取值有关,也和其自身有关,比如在调查收人时,收人高的人出于各种原因不愿意提供其家庭年收人值。
这种情形下,缺失值分析模型基本上是无能为力的,只能做一下粗略的估计。
SPSS的缺失值分析模块,主要是对MCAR和MAR的情况进行研究,尤其是后者。
研究者应该在进行调查之前,就考虑哪些重要变量可能会有缺失值出现,以及由此引发问题的严重程度;
然后在设计问卷时就包括一些与之相关的变量,以便用这些变量来估算缺失值。
11.1.2替换缺失值的SPSS操作详解,单击菜单栏中的【转换】【替换缺失值】命令,弹出【替换缺失值】对话框,如下图所示。
在该对话框左侧的候选变量列表框中选择一个或几个变量,将其移入【新变量】列表框中,这时系统自动产生用于替代缺失值的新变量,用户也可在【名称】框处自己定义替代缺失值的新变量名。
11.1.3缺失值分析的SPSS操作详解,选择菜单栏中的【分析】【缺失值分析】命令,弹出【缺失值分析】对话框,如下图所示。
在该对话框左侧的候选变量列表框中选择一个或几个变量,将其移【定量变量】或【分类变量】列表框中。
定量变量是选择进入缺失值分析的变量。
11.1.4实例图文分析:
电信公司客户数据缺失值的分析,1.实例内容某电信公司在减少客户群中的客户流失方面的举措,每个个案对应一个单独的客户,并记录各类人口统计和服务用途信息。
下面将结合本数据文件详细说明如何得到数据文件的缺失值是否为随机缺失及其他统计量输出结果从而来认识SPSS的缺失值分析过程。
数据如下图所示。
电信公司客户数据缺失值的分析,2.实例操作打开数据文件,进入SPSS数据编辑器窗。
选择菜单栏中的【分析】【缺失值分析】命令,弹出对话框。
电信公司客户数据缺失值的分析,3.实例结果及分析下表所示的“单变量统计”表给出了所有分析变量未缺失数据的频数、均值和标准差,同时给出了缺失值的个数和百分比以及极值的统计信息。
通过这些信息,我们可以初步了解数据的概貌特征,以employ栏为例,employ变量的有效数据有904个,它们的均值为11,标准差为10.113,缺失数据有96个,占数据总数的比例为9.6%,有15个极大值。
电信公司客户数据缺失值的分析,3.实例结果及分析下表所列为使用EM法进行缺失值的估计和替换后,总体数据的平均值和标准差的变化情况,其中“所有值”行为原始数据的统计特征,EM行为使用EM法后总体数据的统计特征。
电信公司客户数据缺失值的分析,3.实例结果及分析下表给出了单个方差T检验结果,通过此表用户可以找出影响其他定量变量的变量的缺失值模式,即通过单个方差T统计量结果检验缺失值是否为完全随机缺失。
由表11.4可以看出,年龄大的人倾向于不报告收入水平,当收入值缺失时,age的平均值是49.73;
当收入值完整时,age的平均值为40.01。
通过income一栏的T统计量可以看出,income的缺失将明显影响其他定量变量,这就说明income的缺失不是完全随机缺失。
电信公司客户数据缺失值的分析,3.实例结果及分析下表以marital为例给出了分类变量与其他定量变量间的交叉表。
该表给出了在不同婚姻情况下,各分类变量非缺失的个数和百分比,以及各种缺失值的个数和百分比,表中标识了系统缺失值的取值及在不同婚姻情况中的人的分布情况。
电信公司客户数据缺失值的分析,3.实例结果及分析右表给出了指标模式输出表格,就是缺失值样式表,它给出了缺失值分布的详细信息,表中用“”标识了使用该模式下缺失的变量。
由表可以看出,所有显示的950个个案中,9个变量值都完整的个案数有475个,缺失income值的个案有109个,同时缺失address和income值的个案有16个,表格其他数据的解释类似。
电信公司客户数据缺失值的分析,3.实例结果及分析下表给出了EM算法的相关统计量,包括EM平均值、协方差和相关性。
从EM平均值表中可知,age变量的平均值为41.91,从EM协方差输出表可知age和tenture间的协方差值为135.326,从EM相关性输出表可知,age与tenture的相关系数为0.496。
另外,从3个表格下方的Little的MCAR检验可知,卡方检验的显著性值明显小于0.05,因此,拒绝了缺失值为完全随机缺失(MCAR)的假设,这也验证了由表11.4所得到的结论。
11.2调查问卷的信度分析,在作调查问卷时,最看重的是调查问卷的科学性和有效性,如果一份问卷设计出来无法有效地考察问卷中所涉及的各个因素,那么为调查问卷所作的抽样、调查、分析、结论等一系列的工作也就白做了。
那么,如何检验设计好的调查问卷有效与否,信度分析是评价调查问卷是否具有稳定性和可靠性的有效分析方法。
11.2.1信度分析概述11.2.2信度分析的SPSS操作详解11.2.3实例图文分析:
调查问卷的信度,11.2.1信度分析概述,1.使用目的为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷的信度和效度。
信度分析是评价调查问卷是否具有稳定性和可靠性的有效的分析方法。
2.基本原理重测信度法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数,适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异。
重测信度法属于稳定系数。
复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。
复本信度属于等值系数。
折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。
折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。
这种方法一般适用于态度、意见式问卷的信度分析。
克朗巴哈信度系数法是评价的量表中各题的得分之间一致性的,属于内在一致性系数。
这种方法适用于态度、意见式问卷的信度分析,是目前最常用的信度系数,其公式为:
其中,为调查问卷中题项的总数,为个项目相关系数的均值。
11.2.2信度分析的SPSS操作详解,打开【可靠性分析】对话框选择菜单栏中的【分析】【度量】【可靠性分析】命令,弹出【可靠性分析】对话框,如下图所示。
在该对话框左侧的候选变量列表框中选择一个或几个变量,将其移入【项】列表框中,选择进入信度分析的变量。
【度量标签】主要对信度分析的信度系数做一个标签。
11.2.3实例图文分析:
调查问卷的信度,1.实例内容下图给出了某调查问卷的测量数据。
该调查问卷共有10道题目,均为10分量表,高分代表同意题目的观点为,共测量了102人。
试考察此问卷的信度。
调查问卷的信度,2.实例操作打开【可靠性分析】对话框选择菜单栏中的【分析】【度量】【可靠性分析】命令,弹出【可靠性分析】对话框。
调查问卷的信度,3.实例结果及分析
(1)信度系数。
Alpha系数是衡量信度的一种指标,越大表示信度越高。
一般而言,信度系数如果在0.9以上,则说明信度非常好;
如果在0.8以上,则说明可以接受;
在0.7以上,则说明该量表需进行重大修订但不失价值;
在0.7以下,则说明应该放弃。
如下表所示,本例中Alpha系数是0.881,说明信度还是比较不错的。
(2)项统计量摘要。
下表给出了问卷中各题目的平均数、极小值、极大值、方差等统计量。
容易发现各道题之间的得分差距还是比较大的。
例如,项的均值“极小值”为1.196,极大值为6.304,跨度很大;
项方差范围为2.557,大于2,差异也很大。
调查问卷的信度,3.实例结果及分析,(3)项总计统计量。
下表给出了如果将相应的变量(题目)删除,则试卷总的信度如何改变的统计量。
依次为总分的平均值改变、方差改变、该题与总分的相关系数和Alpha系数的改变情况(多相关的平方一栏不予考虑)。
其中重要的是后两项,如果相关系数太低,则说明该题的应答分值与总分的高低相关性不强,可考虑删除或改进该题。
比如本例中的题
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 问卷 缺失 信度 处理 多重 响应 分析