Spss的数据预处理.docx
- 文档编号:4980936
- 上传时间:2022-12-12
- 格式:DOCX
- 页数:9
- 大小:283.72KB
Spss的数据预处理.docx
《Spss的数据预处理.docx》由会员分享,可在线阅读,更多相关《Spss的数据预处理.docx(9页珍藏版)》请在冰豆网上搜索。
Spss的数据预处理
Spss的数据预处理
数据预处理的目的:
在数据文件建立好后,通常还要对待分析的数据进行必要的预加工处理,这是数据分析过程中不可缺少的一个关键环节。
数据的预加工处理是服务与数据分析和建模的,需要解决的问题如下:
1、缺失值和异常数据的处理。
2、数据的转换处理。
数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信息的新数据或对数据原有分布进行转换等。
3、数据抽样。
从实际问题、算法或效率等方面考虑,并非收集到的所有数据(个案)在某项分析中都有用途,有必要按照一定的规则从大量数据中选取部分样本参与分析。
4、选取变量。
并非所有数据项(变量)在某项分析中均有意以,选取部分变量参与分析是必要的。
Spss提供了一些专门的功能辅助用户实现数据的预加工处理工作,通过预处理还可以使用户对数据的总体分布有所了解。
、数据预处理步骤:
1、数据的排序:
(1)数据排序的目的:
a通常数据编辑窗口中个案的前后次序是由数据数录入的先后顺序决定的,数据排序便于数据的浏览,有助于了解数据取值状况、缺失值数量的多少。
、通过数据排序能够快速找到最大值和最小值,进而可以计算出数据的全距,快速把握和比较数据的离散程度。
c、通过数据排序能够快速发现数据的异常值。
(2)、数据排序的步骤:
a选择菜单:
【Date】f【SortCased
b、指定主排序量到【Sortby】框中,并选择【SortOrder]框中
的选项指出
该变量按升序还是降序排序排序。
【Ascending】表示升序,
【DescendinQ表
示降序。
c、如果是多重排序,还要依次指定第二、第三排序变量及相应的排
序规则。
否
则本部可略。
排序窗口如下图:
拶SortCa^es
rSaveSortedData
Savefilewithsorteddata
图1
2、变量计算:
(1)变量计算的目的:
a通过数据的转换处理,在原有数据的基础上,计算产生一些含量更丰富的新数
据。
、对数据的原有分布状态进行转换,由于数据分析和建模中某些模型对数据分布
有一定的要求,因此可以利用变量计算对原有数据的分布进行转换。
c、spss变量计算是在原有数据的基础上,根据用户给出的spss的算术
表达式以及
函数,对所有个案或满足条件的部分个案,计算产生一系列新变量
(2)变量计算的操作步骤:
a、选择菜单:
【Transform】f【ComputeVariable】
出现如图2所示窗口:
图2
・在【NumericExepression】框给出spss算术表达式和函数。
可以手工输入也
可以按窗口的按钮算数表达式和函数的输入工作。
6在【TargetVariable框中输入存放结果的变量名。
、如果用户只希望对符合一定条件的个案计算产生变量,则按if按钮,出现如
图3所示的窗口。
选择【Includeifcasesatisfiesconditior】选项,然后输入条件表达式,否则本步略去。
图3
3、变量的选取:
(1)数据选取的目的:
a提高数据的分析效率。
b、检验模型。
(2)数据选取的步骤:
a、【Date】—【SelectCasd
・在【Select!
框中选择选取方法。
如图4所示:
・SelectCases对话框
图4
4、计数:
(1)计数的目的:
把握个案各方面的特征。
(2)计数的步骤:
a、选择菜单:
【Transform】f【CountValueswithinCased如图5所示:
b、选择参与计数的变量到【NumericVariableSI框中。
6在【TargetVariable框中输入存放技术结果的的变量名,并在【Target
Label]框中输入相应的变量名标签
pn斗门nnr
图5
d、按DefineValues按钮定义计数区间,出现图6所示窗口。
通过Add、
d、按DefineValues按钮定义计数区间,出现图6所示窗口。
通过Add、
Remove
按钮完成计数区间的增加、修改和删除。
e如果仅希望对满足条件的个案进行计数,则按if按钮并输入spss相应表达
式。
否则本部可略
CountValuerwithinCases:
ValuestoCount
ValuestoCount.
Value
i/VslLlC
System-missing
System-nruser-trussing
Range:
through:
-RanseLLOWESTthroughv^lue:
Rangehv^luethroughHIGHEST:
5、分类汇总:
(1)【Date】—【Aggregate]
(2)指定分类变量到【BreakVariables]框中,指定汇总变量到【aggregatedVariables]
框中,如图7:
(3)按function按钮指定对汇总变量计算那些统计量。
Spss默认计算均值。
(4)制定将汇总结果保存到何处。
(5)按name&Lab按钮重新指定汇总结果中的变量名或变量名标签。
(6)如果希望在结果文件中保存各分类组的个案数则选择【Numberofcased.
6、数据分组:
(1)【Transform】—【RecodeintoDfferentVariable^
(2)选择分组变量到【NumericVariable—>Output】框中。
(3)在【NumericVariable]框中的【name】后输入存放分组结果的变量名,并按change
按钮确认。
(4)按oldandnewValues按钮进行分组区间定义。
如图8所示:
(5)如果只对符合条件的个案进行分组,则按if按钮输入spss条件表达式
7、数据转置:
(1)【Date】—【transposd如图9所示:
(2)指定数据转置后保留那些变量,将它们们选入【Variables]框中
3)指定数据转置后应保留那些变量名。
8、加权处理:
(1)【Date】—【WeightCased
(2)选择【WeightCasesbj选项,并选择某变量作为加权变量到【Frequency
Variable]框中。
如图10所示:
9、数据拆分:
(1)数据拆分的目的:
根据指定变量对数据进行分组,它将为以后进行的分组统计分析提供便利。
(2)数据分组的步骤:
a【Date】—【SplitFile】如图11所示:
b、选择拆分变量到【Groupsbasedon框中。
c、拆分会使后面的分组统计产生两种不同格式的结果。
d、如果数据编辑窗口中的数据已经事先安所指定的拆分变量进行了排序,则可以选择
【Fileisalreadysorted项,他可以提高拆分执行的速度,否则选择【SortthefilebygroupingVariables!
项。
、spss数据预处理应注意的事项:
1、数据排序时须注意的事项:
1)数据排序是整行数据排序,而不只是对某列变量进行排序
(2)多重排序中指定排序变量的次序很关键。
(3)数据排序以后,原有数据的排列必然别打乱。
2、变量计算:
(1)如果指定存放计算结果的变量为新变量,spss会自动创建它,如果指定产生的变量已经存在,spss会提问用户是否以计算出的新值覆盖原有旧值。
(2)对不满足指定条件的个案,spss不进行变量值计算。
对新变量取值为系统缺失值,对已有旧变量,变量值保持不变。
3、数据选取:
(1按上述操作步骤完成数据选取后,以后的spss分析操作仅针对那些被选中的个案直到用户再次改变数据选取为止。
(2)采用按指定条件选取和随机选取方法进行数据选取后,spss将在数据,编辑窗口中自动生成一个名为filter_$的新变量,取值为1或0。
1表示本条个案被选中,0表示为别选中。
该变量是spss产生的中间变量,如果删除它,则自动取消样本选取。
4、分类汇总:
(1)分类汇总中的分类变量可以是多个,此时的分类汇总陈伟多重分类汇总。
(2)类似与数据排序,在多重分类汇总中,指定多个分类变量的先后次序是关键的。
5、数据的分组:
在定义分组区间时,应遵循补充不漏的原则。
6、加权处理:
一旦指定了加权变量,在以后的分析处理中加权是一直有效的,直到取消加权为止。
7、数据拆分:
(1)无论进行那种统计分析,都将按拆分变量不同分组分别进行分组计算。
如对所有数据进行分析,则需要对所有数据进行重新拆分。
(2)对数据可以进行对冲拆分,类似与数据的多重排序,多重拆分的次序取
决于选择拆分变量的前后次序
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spss 数据 预处理