第二课基本统计描述与数据转换11.docx
- 文档编号:12033522
- 上传时间:2023-04-16
- 格式:DOCX
- 页数:15
- 大小:311.22KB
第二课基本统计描述与数据转换11.docx
《第二课基本统计描述与数据转换11.docx》由会员分享,可在线阅读,更多相关《第二课基本统计描述与数据转换11.docx(15页珍藏版)》请在冰豆网上搜索。
第二课基本统计描述与数据转换11
第二课基本统计描述与数据转换
描述统计分析
引:
统计分析的目的是研究总体特征。
而往往由于客观条件的限制,我们只能够得到从总体中随机抽取的一部分观察对象,称之为样本,只有通过对样本的描述和研究,才有可能对总体进行某种可能的推断。
描述统计分析是推断统计分析的基础。
一、描述统计分析的基本内容包括:
集中趋势分析:
众数:
出现频率最高的数
中位数:
将数据排序后位于正中间的数值。
适合于所有分布类型的数据
分位数:
四分位数、中位数、百分位数。
理解分位数的含义。
均值:
一组数据的简单算术平均数或加权算术平均数。
适合于正态分布或对成分布资料。
几何平均数:
算术平均数的变形,专门用来处理特殊数据的平均数,如发展速度
调和平均数:
算术平均数的一种变形。
离散趋势分析
极差:
数据最大值减去最小值,最简单的离散程度测度值
标准差、方差:
最常用的离散程度测侧度值,一般适合于正态分布资料
最小值、最大值
标准误:
样本平均数的标准差
偏度、峰度测量
偏度系数:
Skewness,当分布对称时,偏度系数为0。
当偏度系数为正值,可以判断为右偏(正偏),反之,判断为左偏(负偏)。
峰度系数:
Kurtosis,是对数据分布平峰或尖峰程度的测度。
峰度是针对标准正态分布而言的。
峰度系数为0,表明数据为标准正态分布。
若峰度系数大于0,则数据为尖峰分布;反之为平峰分布。
统计图形分析:
直方图、PP图、茎叶图、箱线图等
上述三种图形是描述统计分析过程中常用的几种图形,是用于观察数据的分布形态的辅助工具。
二、菜单介绍:
1、frequencies过程:
生成频数分布表,适合于定性资料,以及部分定量资料。
2、descriptive:
进行一般的描述统计统计分析,包括集中趋势值,离散趋势值,偏度系数,峰度系数等。
适合服从正态分布的定量资料。
使用频率最高。
3、Explore:
适合于数据分布状况不清时的探索性数据分析。
4、ratio:
对连个连续性变量计算相对指标。
三、frequencies过程。
四、descriptive过程
主要针对连续性资料,可以计算一系列描述统计量。
并且可以将变量的原始数据标准化并以变量的形式保存。
五、explore过程
适用于对资料的性质、分布特点完全不清楚时,称之为探索性分析。
能计算常用描述统计量,并绘制统计图形,包括茎叶图、箱线图。
箱线图:
首先找出一组数据的五个特征值,包括最小值、最大值、中位数、两个四分位数(上四分位数和下四分位数),然后,连接两个四分位数构成箱子,最后连接两个极值点与箱子,形成箱式图。
可观察数据呈正态分布、左偏分布、右偏分布还是其他类型的分布,如U型分布。
例:
某班学生英语成绩如下:
7690977170938683788581绘制箱线图如下:
茎叶图:
将数据分成茎和叶两部分,通常以数据的高位数值为茎,低位为叶,树叶上一般保留数据的最后一个数字,树叶长在树茎上。
通过茎叶图,也可以看出数据的分布形状及数据的离散状况。
实际上是横放的直方图。
适合于数据量较少的情况。
该图形的优势,既保留原始数据的信息,又能看出数据的分布状况。
这是比直方图优越的地方。
【例】某生产车间50名工人日加工零件数如下(单位:
个)。
试绘茎叶图观察分布特征。
117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121
M-estimators:
用于对集中趋势进行最大稳健估计。
当数据中存在异常值较多时,适合于用该估计值代替平均值来反映数据的集中趋势。
通常有四种统计量:
Huber、Andrew、Hampel、Tukey。
若这四个统计量的结果较为接近,且与均数相差不大,则说明数据分布不太偏,也就说明均值可以代表数据的集中趋势。
Levene:
方差齐性检验。
适合于对分组数据检验各组间数据是否方差齐。
Shapirowilk检验:
正态性检验的方法之一。
当检验一组数据是否服从正态分布,可以运用该检验方法。
一般适合于小样本场合。
K-S检验:
正态性检验的方法之一。
当检验一组数据是否服从正态分布,可以运用该检验方法。
一般适合于连续性数据,大样本场合。
Transform/Data菜单详解
本章主要介绍数据管理的基本内容,包括数据的合并、拆分、转置、编码等内容,是进行正式统计分析前的重要一步。
Transform菜单主要针对数据中变量的变换,如根据已知变量产生一个新的变量,Data菜单主要针对数据库的维护,如数据文件的合并、拆分、汇总等。
3.1SPSS对话框元素介绍
下面所介绍的是在SPSS所有的统计分析中都会出现的典型的对话框,了解对话框的基本结构有助于更好的掌握SPSS。
一、一级对话框元素介绍
1、候选变量列表框2、选入变量列表框3、变量移动钮4、五个标准按钮5、其他按钮
二、二级对话框元素介绍
1、单选框2、复选框3、下拉列表框4、文本框
以回归分析(Analyze——Regression)
3.2Transform菜单详解
本菜单功能丰富,主要针对数据文件中的变量进行各种转换。
一、Compute过程(重点掌握)
Compute过程是Transform菜单中最常用的一个过程,功能是用于给变量赋值。
方法一:
第一步:
产生一个新变量“new”,并给该变量赋值1;
第二步:
对该新变量进行修改,修改条件:
当血磷值超过1的时候,令“new”的取值为2
方法二:
用逻辑函数any
例2:
打开cars.sav文件,对产地为欧洲的汽车的数据进行转换,将“马力”增加20
函数介绍:
1、Arithmetic函数——数学函数
Abs(?
)——返回变量的绝对值
Arsin(?
)——返回变量的反三角函数值
Mod(?
?
)——返回数值表达式除以模数后的余数,要求模数不能为0
Rnd(?
)——返回数值表达式四舍五入后得到的整数值
Trunc(?
)——返回数值表达式截尾以后得到的整数值
2、CDF
返回累积分布函数的累积概率值
如:
CDF.Normal(X1,0,1)=X2
X1
X2
-2
0.02
-1
0.16
0
0.5
1
0.84
2
0.98
3、日期和时间函数(略)
4、随机变量函数(Randomnumbers)
RV.Normal(mean,stddev)
——返回来自指定均值和标准离差的正态分布的随机数
RV.EXP(shape)
——返回服从指定参数的指数分布随机数
RV.Possion(mean)
——返回服从指定均值的泊松分布的随机数
RV.Uniform(min,max)
——返回指定最小值和最大值的均匀分布的随机数
(1)产生一系列随机数(操作讲解)
(2)应用:
如有100个case,想打乱它们的顺序,该如何解决?
方法:
首先产生一个均匀分布的随机数,然后按随机数进行排序后即可。
如:
从编号为1~300的灯泡中随机抽20个进行检验,如何实现?
方法:
运用计算机产生20个1到600间的随机数,取出他们对应的灯泡进行检验即可。
5、统计函数
CFVAR(标准离差/均值);MAX/最大值;MIN/最小值;MEAN/均值;SD/标准差;SUM/求和;VARIANCE/方差
例:
运用产生随机数的方法产生一个数据文件,文件命名为chengji.sav,包含学号(x1),语文(x2)、数学(x3)、英语(x4)四个变量名,计算各门功课的平均成绩/总分。
6、逻辑函数
ANY
7、字符串函数
8、转换函数converse
主要用于字符型变量与数值型变量的转换
二、Count过程
该过程用于标示某个值或某些值在某个变量的取值中是否出现。
标示:
SPSS会自动用数字1来标注满足所需条件的记录。
如果想知道哪些记录的血磷脂在2~3之间,则可以通过count过程实现。
(操作)
例2:
在cars.sav文件中标出美国产的汽车马力在135以下的记录
注意:
Count在标示数据的过程中,不能对同时满足多个取值条件的记录进行标示,只能对满足某一个条件的变量进行标示。
三、Recode过程
该过程用于将原变量按照某种一一对应的关系生成新变量,可以将新值赋给原变量也可以生成一个新变量。
例2:
打开cars.sav,将美国产的汽车进行编码,马力在100以下的取值为0,马力在100~200的取值为10,马力在200以上的取值20,生成新变量temp
四、RankCases过程
该过程是专门履行排次序的功能的。
因为在非参数统计中,经常要用到秩次这个统计量。
例:
请分组计算血磷脂的秩次。
五、其他菜单
1、RandomNumberSeed
该过程用于随机种子的设定,可以保证随机数重复出现
操作:
固定随机种子,并产生20个随机数
不固定随机种子,并产生20个随机数
2、AutomaticRecode(与Rankcase过程相似,略)
3、ReplaceMissingValue与CreateTimesSeries均属于针对于时间序列数据,此处略。
3.3Data菜单详解
Transform倾向于对变量进行处理操作,而Data倾向于对整个数据文件进行处理操作
该菜单所履行的功能分为下列三类:
简单命令:
包括插入变量、插入记录和到达某条记录,直接用鼠标拖放就可以快速完成,无需调用菜单。
上述命令也可以通过优化工具栏,将上述命令设置在工具栏中直接调用。
方法:
单击工具栏,右键——toolbars——customize,然后按照需要进行设置。
简单过程:
包括排序、拆分文件、选择观测和加权观测,使用频繁。
专用过程:
包括定义日期变量、数据转置、文件的合并、数据汇总等。
一、SortCase过程
当我们调用该过程时,多半是针对多变量排序,如果仅对单变量排序,右键即可。
例1:
见书P37
例2:
请将chengji.sav按学号升序、总分成绩降序排列数据。
二、MergeFiles过程(重点掌握)
该过程用于合并多个来自SPSS的数据文件
1、纵向合并(记录合并)
从外部数据文件中增加记录到当前数据文件中,要求两文件具有相同的变量。
例1:
右侧列表框中显示的是合并后新数据文件中显示的变量,若不需要那么多变量,直接将其选入左侧列表框。
例2:
运用随机数产生服从均值为1,方差为2的正态分布的随机数(x1)10个,其中前5个为第一组,后5个为第二组。
令组别变量为group.将该数据文件合并到xuelin.sav中
2、横向合并(增加变量)
从外部文件中增加变量到当前数据文件,称为横向合并。
对数据要求较高:
默认按照相同记录号进行合并
如果按照一个一一对应的关键变量进行匹配合并,则记录要按照该变量进行升序排列
例2:
练习:
运用随机数产生两个SPSS数据文件,命名为merge1.sav和merge2.sav并将其合并。
其中第一个文件包含学号(x1,取值1-10),语文(x2),数学(x3);第二个文件包含学号(x1,取值为10~20),化学(x4),生物(x5)
三、Aggregate过程(重点掌握)
该过程主要用于对数据进行分类汇总,即对数据文件按照分组变量(如性别、宗教信仰等)进行分组,然后对给各组进行汇总统计,结果可以存入新的数据文件,也可以替换当前数据文件
例1:
见书
例2:
打开cars.sav,按照产地求出各个国家的汽车平均马力和重量。
四、SplitFile过程
该过程用于将数据文件进行分组处理
例1:
将cars.sav中按照产地进行拆分
五、SelectCases过程
当不需要对全部数据进行分析,而只需选择其中一部分进行分析时常常选用该过程。
六、Transpose过程
该过程用于对数据进行行列转置,变量便成记录,记录便成变量
七:
DefineDates
用于自动生成时间变量,适合于时间序列变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 基本 统计 描述 数据 转换 11