统招硕士研究生上机实习讲义Word文档格式.docx
- 文档编号:17257992
- 上传时间:2022-11-29
- 格式:DOCX
- 页数:28
- 大小:76.83KB
统招硕士研究生上机实习讲义Word文档格式.docx
《统招硕士研究生上机实习讲义Word文档格式.docx》由会员分享,可在线阅读,更多相关《统招硕士研究生上机实习讲义Word文档格式.docx(28页珍藏版)》请在冰豆网上搜索。
检验
实验五:
1)非参数检验…………………………………………………第15周
2)测验2
实验六:
1)相关与回归………………………………………………第17周
2)上机考试
上课时间:
周三、五18:
30-21:
00
上课地点:
本部实验楼
一、SPSS统计软件的概述及数据文件的建立与修改
1.SPSS统计软件的概述:
SPSS是社会科学用的统计软件包。
事实上,它不仅适用于社会科学,同样可应用于经济学、心理学、医学等各个不同领域。
除了数据录入外,它无须编写程序,完全可以在Window下通过“菜单”、“对话框”使用点击或双击鼠标来操作,对读者提供及大的方便,深受用户欢迎。
SPSSforwindow安装时,根据所选的模块多少及版本的不同,所占的硬盘空间也不同,一般来说,需要16-24MB。
除此之外,为了运行此软件,一般还应有大于10MB的自由空间,否则,会感到存取速度明显的下降,甚至会出现错误信息。
目前,本软件无汉化版。
本软件与其他软件有数据转化接口,可以方便地读入其他软件的数据文件,也可以方便地转化为相应的其他数据文件。
2.SPSS13.0的主要窗口:
数据编辑窗(DataEditor)、结果输出窗(Viewer)、程序编辑窗(SyntaxEditor)和脚本编辑窗(Script)。
3.SPSSforWindow的启动和退出双击软件图标,进入其主界面,主菜单的内容有:
File文件操作
Edit文本编辑
View视图
Data数据文件的建立与编辑
Transform数据转换
Analyze统计分析
Graphs统计图表的建立与编辑
Utilities实用的一些工具
Window窗口信息与控制
Help帮助
每个菜单都包括一系列功能,用鼠标点击可出现下拉式菜单,供下一步选择和操作。
4.数据文件的建立:
数据文件的建立是指把科研工作过程中采集的各种信息、数据以某种方式存入到计算机的磁盘中,建立可随时存取、修改、统计分析的数据文件的全过程。
一般来说,它包括数据编码、建立数据文件的二维结构、数据录入、选定数据文件名及保存数据等几个步骤。
操作过程:
File→New→Data
4.1数据编码
在建立数据文件之前首先要进行数据编码(DataCode),它包括如下三个层次:
4.1.1定义数据项的变量名(VariableName)给数据项取变量名可以用汉语拼音或是英文缩写。
但是,应遵循如下原则:
1)变量名由一般不多于8个字符组成。
2)首字符应该是英文字母,其后可以为字母或数字及除了“?
”“!
”“*”以外的字符。
但是应该注意,不能以下划线“-”和“.”作为变量名的最后一个字符。
3)变量名不能使用SPSS的保留字。
SPSS的保留字有:
ALL、AND、OR、NOT、EQ、GE、GT、LE、LT、NE、TO、WITH及一些常用的函数符号等。
4)系统中不区分变量名中的大小写字母。
例如ABCE与abcd被认为是同一变量。
4.1.2定义数据项变量的标签(VariableLabel)定义变量标签是对该变量名所表示的数据项内涵的进一步说明,可以用英文或中文。
变量标签是一个可选择项,可以定义,也可以不定义。
4.1.3定义数据项变量取值的标签(ValueLabels)每个变量名对应一个数据项,每个变量取不同的值,表示数据项中的不同信息。
有时为了更好地理解统计分析过程中的输出结果,要进一步给变量的不同的取值赋以不同的标签,以便对不同的信息作出解释。
并不是所有的变量值都要定义标签,一般来说,离散变量才给变量值定义标签。
3.2建立数据文件的操作
定义变量包括定义变量名、变量类型、变量长度(含小数点位数)、变量标签、变量值标签、缺失值和变量显示格式(宽度、对齐方式)等。
定义变量的步骤如下:
进入数据窗口、激活定义变量的对话框、定义每个变量的名称及数据类型等、保存(存储)数据文件的框架结构、最后是数据录入和存储。
5.其他类型的数据文件的读入SPSS有很好的兼容性,它能把DBASE、FOXBASE、FOXPRO及EXCEL所建立的数据文件读入并进行统计分析。
6.上机内容:
5.1根据《医学统计学》187页表15-1围手术期输血对先天性巨结肠术后感染关系的探讨的数据,在电脑上建立该项数据文件:
并依照188页定义相应的变量名,定义合适的变量类型,数据宽度和小数点为数,依照189页表15-2定义变量标签,依照189页表15-3定义分类变量的变量值标签。
最后录入该数据,并以“EG1501”为名保存在D盘的“SPSS上机实验”的文件夹下。
5.2对EG1501.sav数据集依照sex和age排序。
Data→SortCases
5.3对EG1501.sav数据集依照sex拆分成两个数据文件。
Data→SplitFile
5.4根据《医学统计学》1页表1-1,建立可在SPSS软件上分析用数据文件。
5.5根据《医学统计学》39页表5-2,建立可在SPSS软件上分析用数据文件。
本单元参考书目:
1.马斌荣.《医学统计学》人民卫生出版社
二、统计图表
统计表和统计图是统计描述的重要工具,在搜集、整理及分析资料时,尤其在科研论文中,表达统计结果及进行对比分析时应用极为广泛。
将统计分析的事物及其指标用表格的形式列出,即为统计表。
合理的统计表可将统计数据和分析结果简明而正确地表达出来,既可避免冗长的文字叙述,又可使数据条理化、系统化,便于理解、分析和比较。
1统计表在对分类变量较多的数据进行分类汇总,或在处理由多项应答组成的问卷时,SPSS的统计表(Table)过程体现了很大的灵活性和方便性。
统计表菜单下包括以下六种过程:
CustomTables自定义统计表
MultipleResponseSets定义多项应答数据集
BasicTables基本统计表
GeneralTables综合统计表
MultipleResponseTables多项应答统计表
TablesofFrequencies频数统计表
本课程只讲授基本统计表(BasicTables)基本统计表过程可用以创建三维统计表。
所谓三维统计表,是指由行变量(row/downvariable)、列变量(column/acrossvariable)和分层变量(layer/separatevariable)构成的统计表。
2.统计图统计图利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料和指标,它将研究对象的特征、内部构成、相互关系、对比情况、频数分布等情况形象而生动地表达出来,更直观地反映出事物间的数量关系,更易于比较和理解,可以给读者留下清晰的印象,研究论文与宣传展示中经常用到它。
统计图的缺点是往往不能精确地显示数字大小,所以经常与统计表一起使用。
在医学中常用的统计图有直条图、百分条图、圆图、普通线图、半对数线图、直方图、箱图和散点图等。
绘制统计图总的基本要求首先是根据资料的性质和分析目的选择适当的图形。
击主菜单中的Graphs→Interactive,弹出统计制图的子菜单:
Bar…直条图
Dot…点形图
Line…线图
Ribbon…带形图
Drop-Line…下降线图
Area…面积图
Pie…饼图
Boxplot…箱式图
ErrorBar…误差条图
Histogram…直方图
Scatterplot…散点图
3.上机内容
1.基本统计表:
数据集为上节课录入并存储的EG1501.sav。
Analyze→CustomTables→BasicTables,弹出基本统计表主对话框。
Summaries:
汇总变量,一般为定量变量。
选入汇总变量后,击Statistic按钮,可在统计量对话框中选择汇总统计量,如均数、标准差、标准误等。
Subgroups定义分组变量。
●Down:
行变量,一般为分类变量。
●Across:
列变量,一般为分类变量。
●Separate:
分层变量,一般为分类变量。
○Allcombinations(nested):
嵌套排列。
当行变量、列变量或分层变量同时选入两个或两个以上变量时,该选项被激活。
○Eachseparately(stacked):
平行排列。
▼根据数据集,以sex、hct、opa、disease、infect为研究变量制作三维统计表、行变量嵌套统计表、行变量平行排列统计表。
2.条图:
用以描述按性质分组某项指标值的大小。
▼如表2-1数据,建立数据文件bar.sav,(建立三个变量:
year(1=1952,2=1972),cause(1=肺结核,2=心脏病,3=恶性肿瘤),prop)并制图:
表2-1某地两年3种疾病的死亡率(1/10万)
死因
1952年
1972年
肺结核
163.2
27.4
心脏病
72.5
83.6
恶性肿瘤
57.2
178.2
1)单式条图:
分别以1952和1972年数据制图,作三种疾病的死亡率比较。
Data-SelectCases-If时间=1,
Groups-Bar-Simple&
Summaries……
DefineOthersummaryfunction(Mean)
Variable:
Prop
Category:
cause
2)复式条图:
建立3种疾病死亡率比较的复式条图:
Groups-Bar-Cluster&
cause(year)
DefinClusterby:
year(cause)。
4)分段条图(stacked)
3.线图(Line):
用以描述某一(些)变量随时间变量变化的关系。
▼根据表2-2中数据,建立数据line.sav,并制作单变量线图(simple)和复变量线图(multiple)。
表2-2某地居民1950-1964年伤寒与结核病死亡率(1/10万)
年份
1950
1952
1954
1956
1958
1960
1962
1964
伤寒
31.3
22.4
18.0
9.2
5.0
3.8
1.6
0.8
结核
174.5
157.1
142.0
127.2
97.7
71.3
59.2
46.0
4.饼图(pie):
用以描述构成比资料。
▼根据表2-3中数据,建立数据pie.sav,并制作5种主要死因构成饼图。
表2-3某地1983年5种主要死因构成
死因分类
例数
1242
脑血管病
1113
651
呼吸系统病
337
消化系统疾病
157
5.Pareto图:
产生从高到低排列的条图,并可给出累积曲线。
▼以pie.sav为例,绘制单式Pareto图。
6.箱丝图(Boxplot):
用以描述数值变量的五个百分位点,即P0(最小值)、P25、P50、P75、P100(最大值)。
▼对EG1501.sav数据文件,作出hct关于sex的简单箱形图。
7.散点图(Scatter):
用于表示双数值变量之间的相关关系。
▼以数据文件line.sav为例,绘制结核与伤寒之间关系的简单散点图。
▼绘制复合散点图(Overlay):
以数据文件line.sav为例,x轴表示时间变量,y轴表示结核和伤寒死亡率。
8.直方图(Histogram):
用以描述一组数值变量资料的频数分布
▼对EG1501.sav数据文件,作出hct的直方图。
1.马斌荣.《医学统计学》人民卫生出版社
2.陈平雁.《SPSS13.0软件应用教程》人民卫生出版社
三、计量资料的统计描述
1.数据汇总报告(Report)主菜单Analyze列出了统计分析的绝大部分内容,在菜单中Reports列在第一行,它的重要功能是数据的汇总统计,它可以按自行规定的格式报告描述统计量。
1.1.即时汇总分析(OLAPCubes)
OLAP是OnlineAnalyticalProcessing的缩写,该过程主要用于统计描述。
其特点是提供快捷、灵活多样的交互方式。
从菜单选择Analyze→Reports→OLAPCubes
Summaryvariable:
分析变量。
一般为计量变量。
Groupingvariable:
分组变量。
可选1个或多个,对上面的分析变量进行分组统计。
★Statistics:
统计量。
▼数据集EG1501.sav分别以sex为分组变量、infect为分组变量及二者共同为分组变量对time,hct计算统计量,包括合计、均数、样本量、标准差、标准误、最小值和最大值。
1.2数据汇总(CaseSummarize)
数据汇总是将数据编辑窗中的全部或部分数据源在结果窗中罗列出来,以便浏览或打印。
同时对数据的基本特征进行描述。
从菜单选择Analyze→Reports→CaseSummarize
Variables:
选入汇总变量。
Groupingvariable:
选入分组变量。
▼对数据集EG1501.sav以sex为分组变量,计算反应变量time、lossb、opab的例数、均数及标准差,只限于数据文件中前20例的计算,并输出原始数据。
1.3.行汇总报告(ReportSummariesinRow)
行汇总报告过程可以罗列原始数据,其格式是以观察单位和统计量为行标目,以报告变量为列标目。
与汇总数据过程相比,它可以给出更为复杂的报告形式,其输出格式的设置也更为详细。
从菜单选择Analyze→Reports→ReportSummariesinRow
DataColumns:
定义报告变量。
BreakColumns:
选入分组(分类)变量。
注意:
在本界面存在两个Summary
★正下方Summary:
分组报告统计量。
★右下方Summary:
汇总报告统计量。
▼对数据集EG1501.sav以sex为分组变量,计算反应变量time、lossb、opab,分组统计量选择均数、样本量和标准差,汇总统计量选择均数、样本量、标准差及最大和最小值。
1.4.列汇总报告(ReportSummariesinColumn)
列汇总报告以分组变量的不同水平为行目标,以报告变量(包括合计汇总变量)和统计量为列目标。
列汇总报告的功能与行汇总报告有许多相似之处,但也有不同,列汇总每次只能选择1个变量,但可以分别选择不同的统计量,不能列出原始数据;
行汇总可多选变量,但入选变量只能选择相同的统计量,可以列出原始数据。
从菜单选择Analyze→Reports→ReportSummariesinColumn
▼对数据集EG1501.sav以sex为分组变量,在报告变量中,每次选一个变量,Summary按钮被激活,击Summary按钮,分别选定待输出的统计量,一次仅选一个待输出的统计量。
若不选,则系统默认求合计。
本实验要求:
计算反应变量time的PercentageinsideLow:
120High:
180、lossb均数、opab最大值。
2.频数分布分析(Frequencies)
频数分布分析主要通过频数分布表、条图和直方图,以及集中趋势和离散趋势的各种统计量,描述数据的分布特征。
从菜单选择Analyze→Descriptive→Frequencies
有包括四分位间距等的百分位数、包括均数等的集中趋势和包括标准差的离散趋势可供选择。
★Chart:
统计图。
▼对数据集EG1501.sav的lossb(失血量)作描述性分析,并绘制直方图。
3.描述性统计分析(Descriptives)
描述性统计分析主要用以计算描述集中趋势和离散趋势的各种统计量,此外还有一个重要功能是对变量做标准化变换,即Z变换。
从菜单选择Analyze→Descriptive→Descriptives
▼对数据集EG1501.sav的lossb、opab进行描述性分析。
4.探索性分析(Explore)
探索性分析主要有以下几个目的:
●对数据进行初步检查,判断有无离群点(outliers)和(或)极端值(extreme values)。
●对前提条件假定,如正态分布和方差齐性进行检验。
●了解组间差异特征。
探索性分析(Explore)可以给出统计量、正态性检验和描述性统计图,包括茎叶图、直方图和箱图。
▼对数据集EG1501.sav中的time(手术时间)按分组(分类)变量sex(性别)进行探索性分析,要求输出描述统计量、做出箱图和茎叶图、作正态性检验及方差齐性检验并绘制正态概率图。
5.对12只小鼠进行完全随机分3组:
方法1:
Tansform――Randomnumberseed――Compute,指定目标变量m,Uniform(3),Tansform―Categorize……
方法2:
Data-SelectCases-Randomsample……-Filtered,于Sample中,指定Exactly4casesfrom12cases,选择Tansform―Compute,指定目标变量m,NumericExpression为1,选择Tansform―Compute,指定目标变量m,NumericExpression为3,iffilter=1,Data-SortCases,指定m、Ascending。
最后从前面的8条中按上述方法再测取4条。
四、两组计量资料的均数比较-t检验与单因素方差分析
1.对于两组计量资料的均数做显著性检验可用t检验。
它要求该两组资料都分别服从正态分布或近似正态分布,并且要求两组的方差具有齐同性。
t检验可根据实验设计分为单样本t检验(Oen-SampleTTest)、配对t检验(paired-samplesTtest)和两组独立样本的t检验(independent-samplesTtest)。
表4-1两均数差别的比较
样本均数与总体均数的比较
H0:
μ=μ0
H1:
μ≠μ0
n较小,服从正态分布
t=
n≥50,或σ0已知
or
配对资料
μd=0
μd≠0
成组设计两样本均数比较
n1≥50,n2≥50
2.方差分析:
又称为变异度分析,它是英国统计学家R.A.Fisher首先提出的一种统计方法,为此有时也称为F检验。
方差分析简写为ANOVA(AnalysisofVariance)。
它要求各组观察值服从正态分布或近似正态分布,并且各组之间的方差具有齐性。
方差分析的基本思想是把所有观察值之间的变异分解为几个部分,即把描写观察值之间的变异的离均差平方和分解为某些因素的离均差平方和及随机抽样误差的离均差平方和,进而计算其均方,然后相互比较,做统计学处理。
如表3-2
表4-2完全随机设计方差分析计算表
差异源
SS
ν(自由度)
MS
F
组间
SS组间
ν组间=k-1
MS组间=SS组间/ν组间
F=MS组间/MS组内
组内(误差)
SS组内=SS总-SS组间
ν组内=ν总-ν组间
=N-k
MS组内=SS组内/ν组内
总计
SS总
ν总=N-1
3.步骤要求:
1)写出检验假设
2)建立数据文件
3)统计分析,并纪录统计量和检验结果
4)写出统计结论和专业结论
4.单样本t检验:
推断样本所代表的未知总体与已知总体均数有无差别,还可以计算相应的描述性统计量及样本均数和总体均数之差的95%可信区间。
Analyze→CompareMeans→One-SampleTTest
▼已知某水样中含CaCO3的真值为20.7mg/L,现用某法重复测定改水样11次,CaCO3的含量为:
20.99,20.41,20.10,20.00,20.91,22.60,20.99,20.41,20.00,23.00,22.00。
问该法侧得的均数是否偏高?
5.配对t检验:
用于检验两组相关样本或成对样本所得平均数间是否有显著性差异,实质上是检验样本差值的总体均数与0的差异有无显著性意义,以及配对样本是否相关。
Analyze→CompareMeans→paired-samplesTtest
▼比较10例矽肺患者经药物治疗前后的血红蛋白量(g/dl)。
表4-310例矽肺患者经药物治疗前后的血红蛋白量(g/dl)
治疗前
11.3
15.0
13.5
12.8
10.0
11.0
12.0
13.0
12.3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统招 硕士研究生 上机 实习 讲义