第02章 数据文件的建立与编辑.docx
- 文档编号:24091671
- 上传时间:2023-05-24
- 格式:DOCX
- 页数:39
- 大小:896.35KB
第02章 数据文件的建立与编辑.docx
《第02章 数据文件的建立与编辑.docx》由会员分享,可在线阅读,更多相关《第02章 数据文件的建立与编辑.docx(39页珍藏版)》请在冰豆网上搜索。
第02章数据文件的建立与编辑
第2章SPSS数据文件的建立与编辑
数据管理是SPSS的重要组成部分,也是对数据进行统计分析的基础。
在对数据分析之前必须先建立数据文件,将收集到的各种信息、数据输入计算机中。
SPSS具有建立数据文件的功能,在SPSS中建立数据文件分两步:
一是在变量视图(VariableView)中建立数据文件的格式(定义变量名、类型、宽度等),另一个是在数据视图(DataView)中,向建立好格式的数据文件中输入数据。
现以某单位人事档案工资表为例说明建立数据文件的基本方法。
表2.1某单位人事档案工资表
编号
姓名
性别
出生年月
职称
婚否
工资
奖金
(x1)
(x2)
(x3)
(x4)
(x5)
(x6)
(x7)
(x8)
0101
李莉娟
女
01/12/78
助工
F
230.50
30.00
0102
王万宏
男
12/23/60
高工
T
500.00
50.00
0103
张华卫
男
07/01/70
工程师
T
240.00
60.00
0104
赵斌
男
11/05/54
高工
T
350.00
80.00
0105
梁萍
女
03/12/79
助工
F
210.00
20.00
0201
王兰香
女
11/23/78
工人
F
230.00
34.00
0202
黄丽丽
女
05/12/67
工程师
T
350.00
40.00
0203
王永歌
男
06/29/72
助工
F
240.00
25.00
0204
许艳艳
女
02/28/64
高工
F
490.00
30.00
0205
李建辉
男
04/12/68
工程师
T
340.00
40.00
2.1建立数据文件
执行“开始”|“程序”|“SPSSFORWINDOWS”|“SPSSFORWINDOWS”命令,启动SPSS或双击桌面上的快捷图标即可启动SPSS软件并显示数据编辑窗口(DATEEDITOR)。
数据编辑窗口有两个标签,一个是变量视图(VariableView),另一个是数据视图(DataView)。
变量视图用于定义和编辑变量的数据格式,数据视图用于输入数据。
⒈定义数据文件格式
单击VariableView(变量视图)标签,打开变量视图窗口,系统出现定义变量的10种选项,功能如下:
1)变量名(Name):
变量名栏,在该栏输入变量名。
本例,定义x1、x2、x3、x4、x5、x6、x7、x8等8个变量为变量命名,见图2.1,变量命名应该遵循如下原则:
图2.1变量视图
(1)变量名由不多于8个字符组成。
也可使用4个汉字,但由于汉字在变量输入与处理方面有诸多不便,一般不建议使用汉字。
(2)首字符应该是英文字母或汉字,其后可为字母或数字及除了“?
”、“!
”和“*”以外的字符。
但圆点“.”不能出现在变量名尾。
(3)变量名不能使用SPSS的关键字(保留字)。
如:
ALL、AND、OR、NOT、EQ、GE、LE、LT、NE、TO、WITH及一些常用的符号等。
(4)系统中不区分变量名中的大小写字符。
例如ABCD与abcd被认为是同一变量。
2)类型(Type):
变量类型
默认变量类型为数值型(Numeric),单击数值(Numeric)右侧的小按钮,可打开变量类型对话框,改变变量类型,变量类型有8种:
(1)数值(Numeric):
标准数值型变量,见图2.1.2,系统默认为数值型;总长度为8,小数位数为2。
系统的默认长度可以从编辑(Edit)菜单中的选项(Options)命令中重新设置。
图2.2变量类型对话框
(2)逗点(Comma):
带逗点的数值型变量;默认总长度为8,小数位数为2。
其值在显示时,整数部分自右向左每三位用一个逗点作分隔符,圆点做小数点。
如:
12,345.00,输入时逗点可不输入。
(3)句点(Dot):
带圆点的数值型变量;默认总长度为8,小数位数为2。
显示时与逗点(Comma)相反,其值在显示时,整数部分自右向左每三位用一个圆点作分隔符,逗点做小数点。
(4)科学记数法(ScientificNotation):
科学记数法;默认总长度为8,小数位数为2。
对于很大或很小的数据用此方法表示,指数的字母可以用E,也可用D,也可省略,如:
12345可输入为1.2345E4、12345、1.2345D4、1.2345E+4、1.2345+4,但显示值为1.2345E+04
(5)日期(Date):
日期型变量,有27种表示方法,见表2.2和图2.3;
表2.2日期型变量格式
格式说明
格式说明
dd-mmm-yyyy日日-月月月-年年年年
dd-mmm-yy日日-月月月-年年
mm/dd/yyyy月月/日日/年年年年
mm/dd/yy月月/日日/年年
dd.mm.yy日日.月月.年年
yydd年年日数
yyyydd年年年年日数
qQyyyy季度Q年年年年
qQyy季度Q年年
mMmyyyy月份年年年年
mMmyy月份年年
wWWKyyyy周数WK年年年年
wWWKyy周数WK年年
MONDAY,TUESDAY…星期几
MON,TUE,WED……星期几的缩写JANUARY,FEB…月份
JAN,FEB,NAR月份缩写
dd-mmm-yyyyhh:
mm日日月月月-年年年年
时时:
分分
dd-mmm-yyyyhh:
mm:
ss日日-月月月-年年年年
时时:
分分:
秒秒
dd-mmm-yyyyhh:
mm:
ss.ss日日-月月月-年年年年
时时:
分分:
秒秒.百分秒
hh:
mm时时:
分分
hh:
mm:
ss时时:
分分:
秒秒
hh:
mm:
ss.ss时时:
分分:
秒秒.百分秒
ddd:
hh:
mm日数:
时时:
分分
dddhh:
mm:
ss日数:
时时:
分分:
秒秒
dddhh:
mm:
ss.ss日数:
时时:
分分:
秒秒.百分秒
图2.3变量类型对话框日期格式
(6)货币型(Dollar):
货币型变量,默认总长度为8,小数位数为2,其值在显示时有效数字前有“$”,用逗点做分隔符。
输入时可不带“$”,系统自动加上。
如输入12345.67系统自动显示:
$12,345.67有12种表示方法,见表2.3和图2.4;
图2.4变量类型对话框美元格式
表2.1.3贷币型变量格式
格式
位数
总长度
小数
格式
数
总长度
小数位
$#
$##
$###
$###.##
$#,###
$#,###.##
2
3
4
7
6
9
0
0
0
2
0
2
$###,###
$###,###.##
$###,###,###
$###,###.###.##
$###,###,###,###
$##,###,###,###.##
8
11
12
15
16
19
0
2
0
2
0
2
(7)自定义型(Customcurrency):
自定义型变量,是一种由用户利用编辑(Edit)菜单的选项(Options)功能定义的,一般用于货币符号等的设置,见图2.5;
图2.5变量类型对话框自定义货币格式
其中:
CCA、CCB、CCC、CCD、CCD、CCE是用户自己定义的5种自定义格式,CC为自英文定义货币型的首字母,A-E为编号。
如定义CCA的格式为¥1,234.56RMB等。
可在编辑(Edit)菜单的选项(Options)命令中,打开货币(Currency)选项卡,进行设置,其中全部数值(AllValues)用于设置首(前缀)(Prefix)、尾(后缀)(Suffix)字符,负数(NegativeValue)栏用于设置负数的首(Prefix)尾(Suffix)字符,系统默认负数的首字符是“-”。
小数点分隔符(DecimalSeparator)栏用于设置小数点的符号,默认为圆点(Period),也可定义为逗号(Comma)。
图2.6选项对话框
(8)字符型(String):
字符型变量。
有任何可以显示的字符组成,可以是汉字或字符,宽度1-255,作为常量时应用单引号“’”、双引号“””括起。
注意应为英文引号。
一般地,为便于数据统计,变量类型应定义为数值型。
3)宽度(Width)与小数位数(Decimals)。
根据每个变量数据的大小(最大数)及保留小数点的位数,定义变量的总宽度,小数点位数。
总宽度包括小数点位数,但不包括小数点本身。
如:
12345.67。
宽度定义为7位,2位小数。
应该再次强调的是宽度是变量内容的宽度,而不是变量本身的宽度。
本例中,定义性别数值型、小数为0.
4)变量标签(Label)。
为了便于标示变量,对变量的含义进行进一步说明常常需要用汉字表示,变量的内容,如X3变量的标签为“性别”。
其最大长度为255个字符。
给变量加上标签后,在数据窗口鼠标指向变量时,变量名下会显示标签。
在对数据分析后出现的结果输出窗口中凡是出现变量名的地方均用变量标签来表示。
5)数值标签(Values):
。
对X3(性别)及X5(职称)变量,对变量的可能取值进行进一步的说明,通常仅对分类变量的取值指定值标签。
当变量值是有限数据时,对这些数据输入时尽量用代码输入,以加快输入速度、方便数据处理。
如性别中“男”可输入“1”(或M),“女”可输入“2”(或F),职称也与此类似。
结果输出时为了便于识别,可以使用数值标签,定义输入值的含义。
默认没有数值标签(None),要改变,可按以下步骤:
(1)单击None后的小按钮,弹出数值标签(ValueLabel)对话框,在上面的“数值”(Value)栏中输入变量值,如“1”,在下面的数值标签(ValueLabel)栏中输入标签如“男”,单击“Add”按钮,同理可输入其他数值说明。
X3中“1”为“男”,“2”为“女”。
(2)单击确定按钮
这样凡是在结果中性别是“1”的地方都会用“男”代替,性别是2的地方都会用“女”代替。
见图2.7
图2.7数值标签对话框
如要在数据视图中显示变量值用数值标签表示,则可执行“视图(View)菜单|数值标签(Valuelabel)”命令,如对性别变量值标签定义完毕后,则输入1时将显示“男”,2时显示“女”,也可通过单击“值”标签右侧的按钮,在弹出的下拉列表框中进行选择其他值,用于对输入值的修改。
但变量中存放的数值仍然是其原值,这里是1和2。
6):
缺失值(Missing),缺失值有二种类型
一种是用户定义的缺失值。
由于调查数据资料时(如测量人群生长发育情况),某项数据(如身高)没有调查,数据收集错误(调查表上填写数据错误,如身高误写为300CM),或输入数据完毕后发现一些数据不符合逻辑等。
可以将这些数据定义为遗漏值或称缺失值、缺省值,对数据进行分析时,系统将不分析这些数据,使该项其他数据有效,用户可以定义以下3种缺失值。
(1)没有缺失值(Nomissingvalues)无需定义缺省值,即除了默认的缺省值外,不设缺省值,这是默认方式。
(2)离散的缺失值(Discretemissvalues):
可定义1~3个离散的单一数为缺失值;如有效范围为1-7,缺失值可定义为0,8,9
(3)范围加离散的缺失值(Rangeplusoneoptionaldiscretemiss):
定义指定某一范围为缺失值,同时指定另外一个不在这一范围内的离散单一数为缺失值,如可定义性别中3-9及0为缺失值,见图2.8。
图2.8设置遗漏值
另一种是系统缺失值,指在数据输入时某项数据由于没有输入(如按回车键跳过某项数据)或输入不合逻辑的数据(如数值型数据输入一个英文字符),系统默认缺省值为“.”。
系统缺省值不需定义。
缺失值定义后,在进行数据统计时默认不参加计算。
这样会产生数据例数不一的情况,对数值型及日期型数据,为保持数据完整性,系统提供了5种不同替代缺省值的方法。
(1)选择主菜单的“数据转换(Transform)=>替换缺省值(ReplaceMissingValues…)”命令,打开替换缺省值对话框。
(2)在左侧变量列表框中选择要转换缺省值的变量,方法与Windows中选择文件方法类似,要选择一个变量单击某变量,要选择多个连续变量,可单击第一个变量,然后按Shift键后单击最后一个变量,或用鼠标拖动的方法选择;要选择多个不连续变量,可单击第一个变量,然后按Ctrl键后单击其他要选择的变量。
(3)变量选择完后,单击对话框中间的右向箭头按钮。
将选择变量选择到新变量(New variables)框中,
(4)在名称和方法框(NameandMethod)选择新变量名称和方法
默认变量名为变量名后加下划线表示。
如X8,新变量为X8_1。
默认方法(Method)为使用该变量的均数替代缺省值,在可以使用其他。
X8_1变量中数值为将缺省值用均数替换,其他值不变。
替代缺省值(ReplaceMissingValues)的方法(Method)可以是(图2.9):
●Seriesmean,将缺省值替代为均数(默认)。
●Meanofnearbypoints,用邻近点有效数值的均数替换缺省值。
●Medianofnearbypoints,用邻近点有效数值的中位数替代缺省值。
●LinearInterpolation,用线性插值法替代缺省值。
如果序列的第一个或最后一个值是缺省值,则不被替代。
●Lineartrendatpoints:
用点的趋势替换缺省值。
当前序列将根据与从1到n的变量进行回归,缺省值将被替换成预测值。
图2.9替代遗漏值
7)栏宽(Columns):
定义变量值的列显示宽度,默认宽度为8,用户根据需要可进行调整。
8)对齐(Align):
字符对齐方式,有三种选择项:
靠左(Left)向左对齐;靠右(Right)向右对齐;居中(center)居中对齐。
默认字符型数据左对齐,其他数据为向右对齐,用户可单击右侧的下拉列表中选择一种对齐方式。
9)测度:
(Measure)数据测度选项,
测度是指按照某种法则给现象、事物或事件分派一定得数字或符号,通过测度来刻划事物的特征或属性。
有三种类型选择:
(1)刻度型(Scale),定比测度或比率测度,为连续型变量,表示间隔测度的变量和表示比值的变量,如身高、体重等。
(2)序数(Ordinal):
定序测度或顺序测度,为有序分类变量,用于表示有顺序的等级变量,如文化程度,职称,考试排名等。
变量值可以是数值型,也可以是字符型;
(3)名义型((Nominal):
定类测度,或名义测度,为标称变量,是分类变量的一种,可以是数值型变量,也可以是字符型变量,如:
性别、宗教信仰,党派等,没有顺序大小之分。
测度的确定与许多统计分析过程以及图形过程有密切关系。
在这些过程中系统需要区分变量是定比测度或分类变量。
后两种只作为分类变量对待。
如该统计过程没有要求,则按系统默认数值型自动按刻度型(Scale),字符型自动按名义测度(Nominal)也可。
本例,x3(性别)可定义为名义型(Nominal)类型变量。
X5(职称)为Ordinal型变量。
见图2.1.
2、数据录入
将变量定义完毕,单击窗口下端的数据视图(DataView)标签,定义的变量会自动出现在窗口上端,将表2.1.1中的数据依次录入。
图2.10据视图中数据
①在定义变量之后,数据编辑窗口形成了一个数据文件的二维表格,表格的顶部标有定义的变量名,表格的左侧有观察值(case)的序号(黑色的说明已输入数据,灰色的说明没有数据被输入)。
②一个变量名和一个观察量序号就对应了二维表格中的一个单元格。
输入数据时可按变量(列式)输入数据,也可按察序号(记录、行式)输入数据,默认按变量输入数据,
③输入数据时,单击鼠标左键,把插入点定位到第一个单元格,使该单元格为当前操作的单元格,输入该变量的第一个值,按回车键;当前操作单元格下移到同变量下一个单元格,输入第二个值,以此方法把该变量值输完。
如按观察序号(记录)输入数据,可在一个单元格输完数据后按“Tab”键,输入同一观察序号(记录)的下一变量值,输入数据时,可利用上、下、左、右光标键,或单击鼠标将光标移到插入点定位到某一单元格,并在其中输入或编辑数据。
3、文件的保存
第一次保存文件时,单击文件(File)菜单中的保存(Save)命令或工具上的保存按钮,系统会弹出另存为(SaveDataAs)对话框,如图2.11,系统给出14种保存的格式供选择,分述如下(括号内为扩展名):
图2.11另存为对话框
⑴SPSS(*.sav):
SPSSforWindows建立的数据文件;
⑵SPSS7.0(*.sav):
SPSSforWindows7.0建立的数据文件;
⑶SPSS/PC+(*.sys):
SPSS/PC或SPSS/PCplus建立的数据文件;
⑷SPSSportable(*.por):
一种ASCⅡ码文件;
⑸Tab-delimited(*.dat):
是用ASCⅡ码写的数据文件;
⑹FixedASCⅡ(*.dat):
混合ASCⅡ码数据格式文件;
⑺Excel(*.xls):
Excel的数据格式文件;
⑻1-2-3Rel3.0(*.wk3):
Lotus3.0版本的数据格式文件;
⑼1-2-3Rel2.0(*.wk1):
Lotus2.0版本的数据格式文件;
⑽1-2-3Rel1.0(*.wks):
Lotus1.0版本的数据格式文件;
⑾Sylk(*.slk):
多种扩展电子表格的文件;
⑿dBASEⅡⅢ Ⅳ(*.dbf):
dBASEⅡⅢⅣ版本的文件。
本例中,选择SPSS数据文件格式SPSS(*.sav),并选择路径(可事先在C盘建立一个名为自己名字如DATA命名的文件夹,也可单击该窗口中的“新建”按钮)和文件名“RSDA.SAV”,单击对话框中的“Save”即可,数据编辑窗口标题栏上出现文件名。
数据保存时可单击变量(Variables)按钮打开保存变量(SAVEASVARIABLES)对话框。
在保留(KEEP)列可选择需要保存的变量(打X号),也可选择“保存所有”(KEEPALL)变量或“去除所有”(DROPALL)变量的保存。
单击“继续”(CONTINUE)返回“另存为”(SAVEAS)对话框。
如果是一个保存过的数据文件,要存盘文件,单击保存命令不会弹出另存为对话框,要换名存盘,可选择“File“(文件)菜单中的“SaveData”另存为命令,打开另存为对话框。
⒊文件的打开
单击“文件”(File)菜单中的“打开”(Open)子菜单,选择“数据”(Data)选项,出现“数据文件”(OpenFile)对话框,如图2.12,对话框中出现12种选项,分述如下(括号内为扩展名):
图2.12打开文件
⑴SPSS(*.sav):
SPSSforWindows建立的数据文件,默认文件类型;
⑵SPSS/PC+(*.sys):
SPSS/PC或SPSS/PCplus建立的数据文件;
⑶Systat(*.syd):
美国疾病控制中心编写的流行病学分析软件;
⑷Sytat(*.sys):
美国疾病控制中心编写的流行病学分析软件;
⑸SPSSportable(*.por):
一种ASCⅡ码文件;
⑹Excel(*.xls):
Excel的数据格式文件;
⑺Lotus(*.w*):
Lotus文件;
⑻Sylk(*.slk):
多种扩展电子表格的文件;
⑼dBASE(*.dbf):
dBASE文件;
⑽Text(*.txt):
纯文本文件;
⑾Data(*.dat):
Data文件;
⑿Allfiles(*.*):
所有文件。
本例中选择Spss(*.sav),给出路径名(如C盘DATA文件夹)及文件名后(RSDA.SAV),单击对话框中的“Open”(打开)选项,即可打开目的文件。
如要打开最近打开过的数据文件,可以在FILE(文件)菜单下端的最近使用过的数据文件(RECENTUSEDDATA)菜单中选择。
打开其他文件(程序文件、结果文件)可在最近使用过的文件(RECENTUSEDFILE)中选择。
2.2数据文件的编辑与管理
对数据进行处理时,一种统计分析方法需要数据具有一定的数据格式,因此需要对原来数据文件进行编辑加工,它包括变量的增加和删减、观察值的增加和修改,数据的定位、排序、对数据进行转换或重新编码等。
⒈增加新的变量(InsertVariable)
(1)如果要在某一处增加一个新变量,可先切换到变量视图(VariableView),然后把插入点定位于该处。
(2)单击数据(Data)菜单中的插入变量命令(InsertVariable)。
如单击X5(职称)变量行的任一个单元格,然后单击Data菜单中的InsertVariable子菜单命令,系统自动插入一个新的变量,默认插入的第一个变量名为var00001,如插入第二个变量则为var00002,用户可以定义其名字(Name)类型(Type)、宽度(Width)等项目。
变量插入后在数据视图输入数据,见图2.13,如为var00001,更名为age(年龄)。
图2.13插入变量
(3)也可在数据视图中用类似方法插入变量,但默认类型为数值型(Numeric),需到变量视图(Variableview)修改其类型(Type)、宽度(Width)等格式。
(4)如要增加多个同格式变量,可先选中原变量(如X8),选择编辑(Edit)菜单中的复制(Copy)变量命令,将变量格式复制到剪切板,然后单击编辑(Edit)菜单中的粘贴变量(PasteVariable)项,打开粘贴变量(PasteVariable)对话框,
2、修改变量格式
要修改变量名(Name)、类型(Type)、宽度(Width)、小数位(Decimals)等格式可单击VariableView(变量视图)标签,单击需修改格式单元格进行修改。
如可将X3(性别)类型变为“STRING”(字符)型。
图2.14粘贴变量
3、删除变量
(1)在变量视图中单击待删变量的序号(位于变量行首),此时整个变量列被选中,呈反象显示(黑底白字)
(2)然后单击编辑(Edit)菜单中的清除(CLEAR)命令或按键盘中的Delete键,该列即被删除。
(3)也可在数据视图中单击变量名,选中变量列,执行编辑(EDIT)菜单中的剪切(CUT)命令或清除(CLEAR)命令,或按DEL键删除变量。
变量删除后其中的数据将一起被删除,因此删除时要确认。
4、移动变量位置
(1)在变量视图中(VariableView)中单击要移动变量所在行的行号(如X5前的5),选中要移动的变量行。
(2)将鼠标指向变量名前的行号(5)的拖动到需要的位置(X8下面最后处),则将变量移动到需要的位置。
(3)数据视图(DataView)中单击变量名,选中变量列,拖动鼠标到目标位置处。
5、浏览数据
(1)在数据视图中,看到输入的数据,如果变量或观察值在一个窗口显示不完全,可使用垂直及水平滚动条移动到所需位置(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第02章 数据文件的建立与编辑 02 数据文件 建立 编辑