第一讲SPSS数据预处理操作.docx
- 文档编号:3065681
- 上传时间:2022-11-17
- 格式:DOCX
- 页数:30
- 大小:975.16KB
第一讲SPSS数据预处理操作.docx
《第一讲SPSS数据预处理操作.docx》由会员分享,可在线阅读,更多相关《第一讲SPSS数据预处理操作.docx(30页珍藏版)》请在冰豆网上搜索。
第一讲SPSS数据预处理操作
第一讲:
SPSS数据预处理操作
教学目的:
能应用SPSS软件进行:
数据文件的建立、数据录入与修改、变量计算及转换
教学内容:
1)SPSS概述
2)SPSS数据文件的建立
3)SPSS数据整理与转换
教学重点:
SPSS数据文件的建立
教学难点:
SPSS数据转换
教学时间:
1学时
SPSS概述
1.1SPSS简介
SPSS是英文StatisticalPackagefortheSocialScience(社会科学统计软件包)的缩写。
SPSS名为社会科学统计软件包,这是为了强调其在社会科学应用的一面(因为社会科学研究中的许多现象都是随机的,要使用统计学来进行研究),而实际上广泛应用于经济学、社会学、生物学、教育学、心理学、医学以及体育、工业、农业、林业、商业和金融等各个领域。
SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。
SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。
SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
1.2SPSS的运行环境
硬件环境:
能运行Windows95/NT/2000或以上版本的微机。
软件环境:
SPSS能在中英文Windows9X、WindowsNT4.0、Windows2000及更高版本的Windows操作系统上运行。
1.3SPSS的进入和退出
进入Windows后,逐一选取开始程序SPSSforWindows—SPSS11.0forWindows,单击SPSS11.0forWindows后,即可进入SPSS。
首先是一个对话框如图1.1,显示最近打开的数据文件、结果文件和程序命令文件。
可选取你要打开的文件,按OK按钮打开。
如不喜欢这个对话框,可选取对话框下方的Don’tshowthisdialoginthefuture选项则以后不会再显示。
要退出SPSS,在任一SPSS窗口下逐一选取File——Exit,或在SPSSDataEditor窗口单击右上角关闭按钮。
若生成了新文件或对以前文件进行了修改,退出前会提醒你对其进行保存。
1.4SPSS窗口及其功能
SPSS有数据编辑窗口SPSSDataEditor、结果窗口SPSSViewer和语句窗口Syntax。
这里只介绍数据编辑窗口和结果窗口。
1.4.1数据编辑窗口
启动SPSS后,首先进入数据编辑窗口SPSSDataEditor,如图1.2的DataView窗口,可在此窗口下录入数据、修改数据等。
图1.2DataView窗口
点击下方VariableView按钮可进入变量定义窗口,如图1.3。
在此窗口下可定义、修改变量或察看变量的设置情况。
在下图中可看到变量的名字(Name)、宽度(Width)、类型(Type)、小数位数(Decimals)、标签(Label)等。
SPSS的几个窗口菜单大致相同其中的命令也基本相同。
菜单下的工具按钮均为常用的命令。
将鼠标移至按钮附近,则弹出该按钮的解释,以后就不再说明。
下面将简介,各命令的具体作用请参考实验指导教材。
●File菜单中常用的命令为New(创建新文件)、Open(打开已有文件)、Save(保存)、SaveAs(另存为)、Close(关闭窗口,SPSSDataEditor窗口下无此命令,该窗口关闭则退出SPSS)、RecentlyusedData(最近打开的数据)、RecentlyusedFiles(最近打开的文件)、Exit(退出)等。
图1.3VariableView窗口
●Edit菜单下的常用命令有Undo(撤销上次操作)、Redo(重复上次操作)、Cut(剪切)、Copy(复制)、Paste(粘贴)、Clear(清除)、Find(查找)、Options(选项)、Options(可对SPSS的一些设置进行调整)等。
●View菜单中的命令可对窗口的设置进行调整,有StatusBar,ToolBars,Fonts,Gridlines,ValueLabels。
●Data菜单中是数据进行编辑整理的命令,包括DefineDates,InsertVariable,InsertCase,GotoCase,SortCases,Transpose,MergeFiles,Aggregate等
●Transform中命令有:
Compute;RandomNumberSeed;Count;Recode;CategorizeVariable;等
●Utilities菜单中命令有:
Variables;FileInfo;DefineSets;UseSets;RunScript;MenuEditor;Analyze;Graph等
菜单下的工具按钮均为常用的命令。
将鼠标移至按钮附近,则弹出该按钮的解释,在此不再一一说明。
1.4.2结果窗口
该窗口中显示SPSS处理的输出信息。
如处理成功,则显示处理结果;如处理失败,则显示错误信息。
结果窗口可分为左右两个窗口。
左窗口为大纲窗口,其内容即结果的目录;右窗口为内容窗口,显示具体结果。
如点击大纲窗口的项目,则内容窗口会显示相应内容,与资源管理器操作类似,如图1.4。
SPSS结果一般由以下几个部分组成:
题头(Heading,即处理的名称)、标题(Title)、记录(Notes,包括数据文件名、缺失值处理、操作所用时间等,默认选项为隐藏,只有双击大纲窗口中该项目才显示出来)、结果具体内容(文本、图形等)。
单击题头(对准题头左边黄色的盒状图标),则可选中上述的整个处理的结果;双击题头时,可使整个结果折叠或打开。
单击题头前的“+”或“—”符号,也可达到同样效果。
双击大纲窗口中某个项目,则可使相应内容隐藏或显示,同时大纲窗口中该项目名称前图标由一本打开的书变为合上的书或相反。
如要改变结果中表格或图形的位置,可在大纲窗口或结果窗口单击该项目,将它拖到指定位置即可。
在此窗口中还可对结果进行编辑如选择删除复制等。
该窗口菜单同数据编辑窗口类似,新增加项目如图所示:
File;Edit;View等
SPSS数据文件的建立
如上一章所述,建立SPSS数据文件有两种方法:
一是在SPSS中直接输入,二是从其他数据文件转入。
重点介绍第一种方法,它类似于在FOXPRO建立数据库。
首先,在SPSSVariableView窗口中建立数据文件结构,如定义变量类型、宽度、标签等;然后在SPSSDataView窗口输入数据,并保存为“.sav”格式的SPSS数据文件。
通常情况下,调查问卷的数据文件建立与录入都是采用第一种方法。
在问卷数据录入前,还必须对问卷选项进行编码。
2.1问卷设计及数据编码
2.1.1问卷
一份调查问卷的结果通常表现为文字型和数字型两大类,其中文字型包括二项选择问题、多项选择问题、排序问题、开放式问题、连线问题等调查结果,而数字型包括百分比、绝对数等。
对于数字型,可直接录入数据;而文字型则需要进行事前或事后编码,且不同类型的调查结果有不同的编码表现。
此外,无论是数字型还是文字型,都有可能碰到调查数据缺省或不应该有的情况。
这同样需要事先编码。
下面将以为了解大学生购书情况进行调查而获得的一份问卷为例,介绍几种常见问卷数据编码。
2.1.2数据编码
1、单项选择题的编码
由于单项选择题的答案是唯一的,所以对各答案依次编码为1、2、3….。
如问卷中的第1题有四个答案,可依次编码“1”代表答案“300元以下”,“2”代表答案“300—500元”,“3”代表答案“500—700元”,“4”代表答案“700元以上”。
于是,被访问者选择的任何答案都可以用1,或2,或3,或4来表示。
2、多项选择题的编码
问卷中的第5题是多项选择题,共有6个答案项。
编码时,可将6个答案看作6个变量,用“1”表示选择了该项答案,用“0”表示没有选择该项答案。
若第5题答案顺序是从左到右、一行一行的排列,则012号问卷结果的编码是“001110”。
此外,该题的第6个答案项没有唯一的表现,应该视为开放性问题的编码(详细解释见后面)。
3、排序题的编码
对于排序题的编码,其处理方法是:
将每个序位当作一个变量,而需要排序的那些选项作为每个变量的取值。
如问卷中第3题有六个选项要排序,将“购书时考虑的第一因素”作为第一个变量,记为“Q301”;其取值可为“内容”、“价格”、“包装”“实用性”、“知名作家的作品”、“热门畅销书”中的任何一个,可分别编码为“1”、“2”、“3”、“4”、“5”、“6”。
同理,可将“购书时考虑的第二因素”、“购书时考虑的第三因素”等依次作为第二、第三变量等,记为“Q302”、“Q303”等;而每个变量的取值都与Q301相同,同样也编码为1、2、3、4、5、6。
于是,012问卷第3题排序结果可转化为6个变量的取值依次为:
2,4,1,5,6,3。
4、开放式问题的编码
对于开放式问题,如第5题的“其他”选项,第7、8、9题,有的答案是数字型,可直接录入,但有的答案则需要归类编码。
其中第5题的“其他”选项和第7题的第一个空,由于事先不知道有多少类答案,需事后抽查部分调查问卷结果统计后才能初步确定与编码。
这就是“事后编码”,它类似于二项选择问题的编码。
至于第9题的“性别”、“专业”、“年级”等问题的所有可能答案,在事先都容易确定,可以直接编码录入数据。
这就是“事前编码”,如“性别”有两个选项——男或女,可用“1”表示“男”,“0”表示“女”,也类似于二项选择问题的编码。
问卷编号:
012
1.您的月收入大概有多少?
■300元以下□300—500元
□500—700元□700元以上
2.您购书的主要目的是:
■学习、考试需要□了解时尚、热点
□休闲娱乐□个人爱好及收藏
3.您购书时主要考虑的因素依次是:
(请在选项前横线上标出序号)
3内容1价格
6包装2实用性
4知名作家的作品5热门畅销书
4.您较能接受的书的价格为:
■20元以下□20—50元
□50元以上□需要,则无所谓
5.您购书的地点一般是:
(可多选)
□新华书店□校内书店
■学校附近书摊■菜园坝书刊市场
■商家在校园内的图书展销□其他跳蚤市场
6.您对商家来校园内进行图书展销的看法是:
□既方便又实惠,很好
■无所谓,视其内容、价格而定
□没兴趣,宁愿到正规书店购买
7.您最近一次购书的时间是两个月前;花费为5.60元;
8.您平均每个月的购书支出占月收入的比例为2%;
9.您的性别女,专业经济学,年级大二,电话62650029。
5、缺失值的编码
问卷中,若遇到被调查者不回答的一些选项,则应该当作缺失值。
缺失值又称为用户缺失值(UserMissingValue)。
如第8题“您平均每个月的购书支出占月收入的比例”有缺失值,可编码为99%。
又如,第7题“花费”有缺失值,可编码为9999.99。
如果可以选择的项目有9项,但被调查者正好选择了第9个选项,则以“0”表示缺失值。
当然,缺失值也可用研究者自己能够识别的其他数字来表示,如“0”或“9”为用户缺失值。
用户缺失值与系统缺失值(SystemMissing)的含义不同。
系统缺失值主要是指计算机
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第一 SPSS 数据 预处理 操作