SPSS基础Word格式文档下载.docx
- 文档编号:21971653
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:23
- 大小:474.45KB
SPSS基础Word格式文档下载.docx
《SPSS基础Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《SPSS基础Word格式文档下载.docx(23页珍藏版)》请在冰豆网上搜索。
2.4.1单元值的查找
2.4.2增加或删除一个观测
2.4.3分析数据的排序
2.4.4分析数据集的转置
2.4.5选取数据的观测子集
2.4.6分析数据归类分组汇总
2.4.7缺失值的替代
2.5数据变量的操作
2.5.1增加或删除一个变量
2.5.2从原有变量构造新变量
2.5.3数据排秩
2.5.4产生计数变量
2.5.5数据重新编码
2.5.6产生自动分组变量
2.5.7变量集的定义和使用
2.6数据文件的合并与拆分
2.6.1数据文件的纵向合并
2.6.2数据文件的横向合并
2.6.3数据文件的拆分
第一章SPSS简介
StatisticalpackageforSocialScience,社会科学统计软件包是一个组合式软件包,它集数据整理、分析过程、结果输出等功能于一身,是世界上著名的统计分析软件之一。
但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“StatisticalProductandServiceSolutions”,意为“统计产品与服务解决方案”,标志着SPSS软件的应用领域有了重大拓展。
SPSS解决方案广泛应用于市场研究、电讯、卫生保健、银行、财务金融、保险、制造业、零售等领域。
SPSS的5大特色
●智能操作,易学易用
●一般情况下无须编写程序
●数据转换接口有很好的兼容性
●具有丰富的统计分析功能和完善的分析报告功能
●ComplexSamples模块增加了统计建模的功能
SPSS公司的历史
1968年:
美国斯坦福大学的三位专业背景截然不同的研究生NormanH.Nie、C.Hadlai(Tex)Hull和DaleH.Bent开发了最早的统计软件系统,他们称呼这个软件系统为“社会科学统计软件包”,简称“SPSS”。
他们的出发点是使用统计方法来将原始数据转变为决策所必需的信息。
Nie是一位社会科学家、斯坦福大学的博士生,承担了用户的角色,提出应用需求;
Bent是斯坦福大学的运筹学博士生,拥有着数据分析方面的专业知识,设计出了SPSS系统文件结构;
Hull刚从斯坦福大学获得MBA学位,由他来负责编程。
1975年:
在芝加哥成立SPSS总部
1984年:
推出用于个人电脑的SPSS/PC+
1992年:
推出Windows版本,同时在纳斯达克上市,股票代码为SPSS。
目前在全球100多个国家和地区有分支机构或合作伙伴,直系员工超过2000人。
SPSS软件家族广泛应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。
SPSS是世界上应用最广泛的专业统计软件,全球约有25万家SPSS公司产品的用户,它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业,全球500强中有80%的公司使用SPSS,而在市场研究和市场调查领域有超过80%的市场占有率。
在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。
基本功能——建立SPSS数据文件
主要构件
●标题栏和系统状态栏
●菜单栏
●工具栏
文件以.sav为扩展名
2.输出窗口(Viewer)
∙以.spo为扩展名
编辑SPSS程序,通过运行主菜单的RUN命令将编辑好的程序一次性地提交给计算机执行。
也可以将编好的程序保存为一个后缀为.sps的文件供以后需要的时候调用。
1.3SPSS系统参数的设置
2.1.2定义新变量
大多数情况下我们需要从头定义变量,在SPSS10.0中,定义变量的操作界面和FoxPro等数据库非常相似,只需单击左下方的VariableView标签就可以切换到变量定义界面开始定义新变量。
①变量名必须以字母、汉字或@开头,剩下的字符可以是字母,数字,句点,@,#,_,$等
②变量名不能以句点结尾
③名字长度不能超过8个字符
④空格和特殊字符不能被用,如?
!
`,*
⑤每一个变量名必须是唯一的,重复的变量名是不被允许的
⑥变量名无大小写之分
⑦下列关键词不能用作变量名
allNEEQTOleltbyorgtandnotgewith
举例:
locationloc#5x.1over$500
2.变量类型(Type):
变量类型可由变量类型对话框确定
在SPSS数据集中,变量分为8种类型,主要有字符型变量(String)和数值型变量(numeric)。
Numeric——数值型
Comma——加有逗号的数值型
Dot——加有圆点的数值型
Scientificnotation——科学计数型
Date——日期型
Dollar——货币型
Customcurrency——用户自定义型
String——字符型
变量值标签则在它右侧的Value框定义。
以性别
为例,单击Value框右半部的省略号,会弹出变量值标签对话框如下:
上部的两个文本框分别为变量值输入框和变量值标签输入框,分别在其中输入“f”和“女生”,此时下方的Add钮变黑,单击它,该变量值标签就会被加入下方的标签框内。
与此类似定义变量值“m”为“男生”,最后按OK,变量值标签就设置完成。
切换回DataView界面,然后选择菜单View==>
ValueLabels.
SPSS有两类缺失值:
系统缺失值和用户缺失值。
数据长方形中任何空的数字单元都被认为是系统缺失值,用点“.”表示。
由特殊原因造成的信息缺失值被认为是用户缺失值,例如调查问卷中,被调查者不愿意回答的项目可定义为用户缺失值。
单击missing框下相应变量右侧的省略号,会弹出缺失值对话框如下:
nomissingvalues:
无缺失值,系统默认选项;
discretemissingvalues:
定义离散缺失值,选择该选项后,激活下面3个输入框,可以在其中指定3个数值作为缺失值,也可以少于3个。
例如对于性别变量,值2,3,4都被认为是非法的,在输入数据过程中有可能输入了这几个数,则可以把这3个值分别输入到3个矩形框中;
rangepulsoneoptionaldiscretemiss:
定义一个缺失值的范围,选择该选项后,激活下面3个输入框。
在low和hight输入框中分别输入缺失值的下限和上限。
可以在最下方的discrete框中输入范围之外的一个离散值。
选择变量值显示时的对齐方式,系统默认是右对齐。
备选方式:
●Left——左对齐
●Right——右对齐
●Center——居中对齐
为了区分变量在分析中的不同作用,又按变量的度量方式分为三类:
选择变量的度量方式,系统默认是定距变量。
●Scale——定距变量必须是数值型变量,可以对其观测值进行四则运算。
●Ordinal——顺序变量,可以是数值型的,也可以是字符型的,可以对其观测值进行排序。
●Nominal——名义变量可以是数值型的,也可以是字符型的,常起分类作用。
使用该窗口,我们可以一次定义许多新变量,不会象老版本那样一个一个的定义了。
2.1.3数据的输入
2.1.4数据的保存
在对数据做了修改后,保存数据文件是必不可少的工作之一。
选择菜单File==>
Save,如果数据文件曾经存储过,则系统会自动按原文件名保存数据;
否则,就会弹出和选择Saveas菜单时相同的Saveas对话框。
里面可以保存的数据类型和可以打开的几乎一样多,选择合适的类型,确定就是了。
2.2读如其他格式的数据文件
SPSS可以直接读入许多格式的数据文件,
Open==>
Data或直接单击快捷工具栏上的“
”按钮,系统就会弹出OpenFile对话框,单击“文件类型”列表框,在里面能看到直接打开的数据文件格式,分别是:
SPSS(*.sav)
SPSS数据文件(6.0~10.0版)
SPSS/PC+(*.sys)
SPSS4.0版数据文件
Systat(*.syd)
*.syd格式的Systat数据文件
Systat(*.sys)
*.sys格式的Systat数据文件
SPSSportable(*.por)
SPSS便携格式的数据文件
EXCEL(*.xls)
EXCEL数据文件(从5.0版~2000版)
Lotus(*.w*)
Lotus数据文件
SYLK(*.slk)
SYLK数据文件
dBase(*.dbf)
dBase系列数据文件,(从dBaseII~IV)
Text(*.txt)
纯文本格式的数据文件
data(*.dat)
选择所需的文件类型,然后选中需要打开的文件,SPSS就会按你的要求打开你要使用的数据文件,并自动转换为数据SPSS格式。
2.3 File菜单中的其他条目
【DispDataInfo】
该菜单项用于显示数据的基本信息,选择它后会弹出非常类似于打开文件的一个对话框用于选择数据文件,选择好后按OK,系统就会在结果窗口中列出所选数据的基本情况,如建立时间、标签设置、记录数、变量设置等。
【ApplyDataDictionary】
即使用数据字典,该功能使你可以直接在新数据集中套用以前定义好的变量设置(格式、标签等,但不包括数据类型),例:
打开Li1_1.sav文件,将变量x的长度从8改为4,标签删掉,然后选择菜单File==>
ApplyDataDictionary,在文件对话框中选择Li1_1.sav并按OK(即将Li1_1.sav的变量设置按相同变量名一一套用在现在的数据集上)。
【CacheData】
建立数据缓冲区。
以前SPSS每执行一条命令都会重新读取所需的数据,如果是从远程用SQL调用数据库,这会非常的费时。
现在使用CacheData,可以将数据全部读入暂存盘,建立活动数据的缓冲区。
大大加快处理速度。
如果是处理本机数据的话,该命令对速度的提升不是非常明显。
【Print和PrintPreview】
这两个菜单项用于将数据管理窗口中的数据以表格的形式打印出来,其中PrintPreview是新增加的,使用上和WPS2000的打印预览非常相似(其实用的是同样的程序),不过和SPSS结果的打印程序一样,用SPSS直接打印数据非常的浪费纸张。
【StopProcessor】
用于停止执行当前的SPSS命令。
由于SPSS处理速度非常的慢,如果你正在对一个大型的数据执行统计命令,等了半天都没有结束,可是你的结果还没有存,执行命令时又存不了,怎么办呢?
试试这个命令吧。
但并非所有的命令都可以喊停的,许多数据库操作命令(计算变量,合并等)好象就停不了。
在SPSS中,数据文件的编辑、整理等功能被集中在了Edit,Data和Transform三个菜单项中。
下面我们将根据其功能来分别讲述。
2.4.1观测与变量的查找
编辑(Edit)
转至个案(GotoCase)打开转至(G)(GotoCase)对话框
●增加一个新的行
激活需要添加行的下一行的任意单元,选择Edit
InsertCase
●删除一个行
单击要删除行的行头,将该行全部选中,按Delete键
观测数据的排序,特别是逐级排序,可以从统计角度了解整体数据的取值情况。
例将数据集补钙产品.sav按“性别”降序,再按“问卷编号”升序排序
操作:
1选择菜单数据(Data)==>
排序个案(SortCases),系统弹出排序个案(SortCases)对话框
2下方的排列顺序(SortOrder)单选钮,有升序和降序两种选择。
请注意,该单选钮是和上方的SortBy框一起使用的,具体方法如下:
确认降序单选钮被选择,将“性别”选入SortBy框;
选择升序单选钮,将“问卷编号”选入SortBy框。
将观测(行)和变量(列)位置互换,特别适用于实现存/取Excel文件进行数据共享功能前/后的预操作。
例将数据集“补钙产品.sav”中的变量“性别”,“年龄”和“居住时间”进行转置
操作
①择菜单数据(Data)==>
Transpose,打开Transpose对话框;
②将需要转置的变量移入Variable列表框;
③如果在数据文件中有一个变量是代表转置后各变量的变量名,则将该变量移入NameVariable列表框中;
否则转置后数据集的变量将被分别命名为“Var001”,“Var002”
“Var003”…;
单击OK
2.4.5选取观测的子集
在统计分析时,有时并不需要对所有的观测进行分析,只需要对某些观测进行分析,例如在补钙产品的市场调查中,我们只对女性被调查者的情况感兴趣,或者只有在本市居住时间超过3年的被调查者才具有统计分析价值。
另一种情况是在全部样品中抽取一小部分样品进行分析,SPSS的SelectCases可以实现这种样本筛选的功能。
仍以补钙产品数据为例来说明。
①选择菜单数据(Data)=>
选择个案(SelectCases)打开选择个案(SelectCases)对话框;
②制定样本筛选方式:
SelectCases对话框右上Select下共有5种筛选方式
∙Allcases:
不进行筛选,选中它则分析所有的记录;
∙Ifconditionissatisfied:
按指定条件筛选,单击下面的If按钮
在弹出的SelectCasesIf对话框可以设置筛选条件。
在右上方的输入框中输入条件表达式。
条件表达式可以用键盘直接输入,也可以左侧的变量列表中选择变量,从下面的计算器中选择数字和运算符号。
在右下方的Functions列表中有SPSS的常用函数供用户选择。
在本例中如果只相对居住时间超过3年的被调查者进行分析,则在输入框中输入表达式time>
3
∙Randomsampleofcases:
随机抽取观测,单击下面的sample按钮,在弹出的SelectCasesRandomsample对话框中设定随机抽取的观测数,有两种选择:
按百分比抽取记录,在本例中如果想从所有的观测中抽取30%进行分析,则在Approximately后的框中输入30;
或者精确设定从前n个观测中随机精确抽取一定量的观测,在本例中如果想从前10个观测中随机抽取5个,则按下表填写。
∙Basedontimeorcaserange:
按顺序抽样。
单击Range按钮,在弹出的SelectCases:
range子对话框中设定被筛选的观测的起止序号。
∙Usefiltervariable:
使用指定的过滤变量进行观测筛选。
选择这一项的前提是数据文件中已经存在一个过滤变量。
所谓过滤变量即只取“0”“1”两个值的变量。
该变量取值为“1”的观测将被选中,取值为“0”的观测将被删除。
③确定未被选中的观测的处理办法
在SelectCases对话框的左下output下有3种选择
∙FilteroutunselectCases:
则在数据文件中根据用户定义的选择条件自动生成一个变量名为filter_&
的新筛选变量,同时未被选择的观测左端的观测序号上将北大上一个斜杠,以后的分析将把这些观测排除在外,但这些观测并没有从数据文件中删除。
∙CopyselectCasestoanewdataset:
建立一个新数据集,仅包含选中的观测,将新数据集的名输入datasetname后的框中。
∙Deleted:
未被选中的观测将被删除,一般不要使用。
注意:
当对数据集做出筛选后,所做的筛选将在以后的分析中一直有效,直到再次改变选择条件为止。
用于对数据进行分类汇总,所谓分类汇总就是按指定的一个或多个分类变量(一般为离散型变量)对观测值进行分组,对每组观测的其余变量(一般为连续型变量)值进行指定的描述统计分析,结果可以存入新数据文件,也可以替换当前数据文件。
例如在补钙产品的市场调查中,我们想要知道按性别分类后,男性和女性被调查者的平均年龄、平均年收入以及收入差距的大小。
①择菜单(Data)=>
分类汇总(Aggregate),打开分类汇总(Aggregate)对话框
②选择分类变量:
把分类变量移入分组变量(BreakVariables)框,这里把变量gender移入
3选择汇总变量:
即想要对其计算描述性统计量的变量,这里把变量age和income移入AggregateofVariable(s)列表框中。
由于收入要计算均值和标准差两个统计量,所以这里要将变量income移入两次
4选择要计算的统计量
系统默认计算的统计量是均值(mean),要想改变计算的统计量,单击AggregateVariable列表框中的某个变量,在单击Functions,打开AggregateFunction子对话框
共有5组函数
∙Summary:
为最常用的均值、中位数、标准差等统计量;
∙SpecificValue:
同组的第一个观测值、最后一个观测值、最小值和最大值
∙Numberofcases:
分组后各组的观测数;
∙Percentages和Functions:
分别给出处于某个取值区间的观测占各组观测总数的百分比和比率。
例如,可以计算男性和女性被调查者分别有多少人的年龄超过40岁。
⑤单击Name&
Lable对产生的新变量重新命名。
⑥选中savenumberofcasesinbreakgroupasvariable将各组的观测数作为新变量保存。
⑦选择新生成的数据文件的保存方式,有两个选项:
∙Createnewdatafile:
定义一个新文件以存储汇总的结果,右侧的File钮用于具体文件名的定义,默认文件名为AGGR.sav;
∙Replaceworkingdatafile单选钮:
用汇总的结果替换原来的数据。
⑧单击OK.
SPSS统对用户缺失值有较好的替代方法
①选择菜单转换(Transform)=>
替换缺失值(Replacemissingvalues),打开替换缺失值(Replacemissingvalues)对话框
②选择左侧的变量名列表框中选择有缺失值的变量,将其添加到NewVariable(s)框中,这时系统自动产生一个新变量,变量名默认为在原变量名后加上“_1”,用于替代含有缺失值的变量,用户也可以在Name框中自己定义替代的新变量名。
③在method的下拉列表中选择缺失值的替代方法,有5种方法
Seriesmean用该变量所有非缺失值的均值代替缺失值;
Meanofnearbypoints用缺失值相邻点的非缺失值的均值作替代,对缺失值有多个相邻点时,替代方式没有限制;
Medianofnearbypoints用缺失值相邻点的非缺失值的中位数作替代,对缺失值有多个相邻点时,替代方式没有限制;
Linearinterpolation用缺失值相邻两点的非缺失值的均值作替代;
Lineartrendatpoint利用回归分析,用线性预测值替代缺失值。
在SPSS数据文件中,每一列对应一个变量,增加或删除一个变量其实就是增加一个新的列或删除一个已有的列。
(1)增加一个变量有3种方法:
我们只介绍其中的2种
例如要在第4列前增加一个新的列,先单击第4列的列头,这是整个第4列被选中。
单击鼠标右键,在弹出的菜单中选择InsertVariables选项,这时系统自动在第4列前插入一个新的变量列,原第4列自动右移一列成为第5列。
打开变量定义窗口,单击鼠标右键,在弹出的菜单中选择InsertVariables选项,这时系统自动在第4行前插入一个新的行,原第4行自动下移一行成为第5行。
(2)删除一个变量
删除一个变量就是删除一个已有的列。
例如要删除第4列,先单击第4列的列头,这是整个第4列被选中,这时按Delete键。
从头定义变量的情况多数在建立数据集时出现。
但是,当数据集已经建立,需要整理、转换变量时,碰到的更多情况是需要根据某种条件从数据集中的原有变量构造出新变量。
例如在studendf.sav中建立新变量w/h2,令其值为体重/身高的平方。
菜单Transform=>
ComputeVariabl打开ComputeVariable对话框
选择ok
软键盘上几个符号的含义如下:
~=
&
|
**
~
不等号,等价于<
>
逻辑符号AND
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 基础