数据分析.docx
- 文档编号:29101445
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:21
- 大小:461.35KB
数据分析.docx
《数据分析.docx》由会员分享,可在线阅读,更多相关《数据分析.docx(21页珍藏版)》请在冰豆网上搜索。
数据分析
数据分析
数据例子介绍:
调查了初中三个年级150名学生,调查的变量信息包含:
年级(初一、初二、初三分别用1、2、3表示)、性别(男生、女生分别用1、2表示)、成绩、成绩等级(优、良、中、差分别用1、2、3、4表示)、学习动机(10个题目,其中1-5题为内部动机题目,6-10题为外部动机题目)。
一、数据录入
将收集到的问卷进行编号,从1至150,然后录入到excel或txt记事本中。
第一,将数据录入excel中,每个变量占一列,每个人占一行,如下图所示。
第二,将数据录入到txt文本中,每个人占一行,不同人的数据要对齐。
如下图所示:
编号为1的学生,00111862代表的含义依次为:
001是学生编号(因为有100人,所以编号要占3位);第二个1表示年级为初一;第三个1表示性别为1,即男生;86表示成绩为86分,2表示成绩等级为2,即良;5555555534分别表示在10个动机题目上的得分。
二、将数据导入SPSS
1.excel的导入方式
打开SPSS软件,然后依次点击file→open→data,找到excel文件所在位置,filesoftype选择excel,如下图所示。
最后点击open,确定导入数据。
2.txt的导入方式
打开SPSS软件,然后依次点击file→open→data,找到txt文件所在位置,filesoftype选择txt,如下图所示:
点击open导入数据,共包含6步:
第一步,默认已有选择,点击next;第二步,选择fixedwidth(即自己设定每列数据所占位数),点击next;第三步,默认已有选择,点击next;第四步,对数据的列进行定义,见下图所示:
在001后添加一个竖线,表示前三列数据为一个变量,即编号。
之后,依次在每个变量后添加竖线,点击next;第五步,对数据进行preview,点击next;第六步,点击finish,数据导入成功。
三、数据管理
1.对变量进行命名
spss有dataview(用于看数据)和variableview(对变量命名和含义进行解释),见下图,在name列修改变量名称,在values列可以定义数字的含义,如性别,1表示男,2表示女。
2.计算新变量
✧整理后数据后,就需要计算内部动机的得分。
在spss中依次点击transform→compute,进入下图,在targetvariable中写入新的变量名:
内部动机;在numericexpression中写入计算方法。
四、描述统计分析
1.平均分及标准差
平均数是统计学中最常用、最基本的统计量,表示某个变量所有取值的平均水平或分布的集中趋势。
平均数是一个良好的集中量数,具有反应灵敏、计算严密、计算简单、适合进一步演算和较小受抽样变化的影响的优点。
同时,算术平均数易受极端数据的影响,若出现模糊不清的数据时,无法计算平均数的缺点。
标准差为方差的平方根,表示一组数据关于平均数的平均数离散程度,反映数据离散趋势的统计量。
其值越大,说明次数分布的离散程度越大,该组数据较分散;其值越小,说明次数分布离散程度比较集中,离散程度越小。
当已知一组数据的平均数和标准差后,就可以知道落在平均数上下一个标准差(68.26%)、两个标准差(95.45%)、或三个标准差(99.7%)之内的数据所占的百分比。
✧举例:
本次调查中学生的内部动机平均分和标准差是多少?
在SPSS中,依次点击analyze→descriptivestatistics→descriptive,将要分析的变量“内部动机”放入右边对话框中,见下图。
计算的结果如下:
结果显示,本次调查中,学生在内部动机上的平均分为18.30,标准差为3.51。
2.频次
考察不同的数值出现的频数,了解数据的分布状况。
✧举例:
在本次测试中学生的成绩等级分布是什么样的?
在SPSS中,依次点击analyze→descriptivestatistics→frequencies,将要分析的变量“成绩等级”放入右边对话框中,见下左图。
结果见下右图。
五、统计图
1.条形图
条形图适用于相互独立的分组资料。
以条形的长短表示各事物间数量的大小与数量之间的差异情况。
条形图中一个轴是分类轴,表示类别,描述计数数据;另一个轴是数量轴,表示大小多少,描述计量数据。
✧举例:
用条形图来表示初中三个年级的内部动机的平均分
在spss中,依次点击graphs→legacydialogs→bar,看到下左图,选择simple、summariesforgroupofcases,点击define,进入下右图,选择otherstatistic,将“内部动机”放入variable,将“年级”放入categoryaxis。
结果见下图:
2.饼图
饼图:
用于描述间断性资料,目的是为显示各部分在整体中所占的比重大小,以及各部分之间的比较。
✧举例:
用饼图来表示本次调研中男生、女生的人数比例。
在spss中,依次点击graphs→legacydialogs→pie,选择summariesforgroupsofcases,进入下左图,将性别放入defineslicesby。
结果见下右图。
3.线图
线图适用于描述变化趋势,描述某变量随着另一个变化变化而变化的趋势。
✧举例:
用线图来描绘本次调研中外部动机随年级增高的变化。
在spss中,依次点击graphs→legacydialogs→line,看到下左图,选择simple、summariesforgroupofcases,点击define,进入下右图,选择otherstatistic,将“外部动机”放入variable,将“年级”放入categoryaxis。
结果见下图:
六、连续变量的组间差异比较
1.两组间比较-独立样本t检验
独立样本t检验是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异存在。
运用这个检验的前提有两个:
一是两个样本应是互相独立的,即从一总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响,两组样本个案数目可以不同;二是样本来自的两个总体应该服从正态分布。
适用条件:
比较两个均值是否有差异。
自变量是两个没有关联的组别,为名义变量。
因变量为等距变量(连续变量)。
✧举例:
在本次调查中,男生与女生的内部动机得分是否存在显著差异?
在spss中,依次点击analyze→comparemeans→tindependent-sampleTtest,将“内部动机”放入testvariable对话框,将“性别”放入groupingvariable,之后再definegroups,见下图。
结果如下图:
第一个表格groupstatistics,列出了男生组、女生组的人数、平均数、标准差和标准误。
第二个表格independentsamplestest,呈现了t检验的结果。
在检验方差是否齐性(levene’stestforequalityofvariances)的结果显示sig=.699(即,p=.358),代表两个群体方差差异不显著(当p<.05时,表示两组差异显著,而当p>.05时,表示两组差异显著),因此方差齐性。
t检验结果看第一排,t=1.027,df=148,p=.306,这表明,男生和女生在内部动机上没有显著差异。
2.多组比较---单因素方差分析
方差分析又称变异分析,探讨一个或多个自变量和一个因变量之间的关系。
其主要功能在于分析实验数据中不同来源的变异对总变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响。
使用方差分析的前提条件:
样本是相互独立的;样本分别来自正态分布总体;方差齐性。
单因素方差分析的适用条件:
检验单个变化在各个水平下的因变量均值是否存在差异。
✧举例:
在本次调查中,初一、初二、初三三个年级的内部动机得分是否存在显著差异?
在spss中,依次点击analyze→comparemeans→one-wayANOVA,将“内部动机”放入testvariable对话框,将“年级”放入factor对话框,之后再definegroups,见下左图。
点击option,看到下右图,选择descriptive(描述统计)和homogeneityofvariancetest(方差齐性检验)。
结果见下表:
第一个表descriptives,介绍了不同年级学生的人数、内在动机的平均数和标准差等。
第二个表格testofhomogeneityofvariances,是有关方差齐性的判断,在本次分析中,p>.05,表明方差齐性。
方差齐性主要用于后续的事后检验。
第三个表格ANOVA,检验不同年级学生在内部动机上的得分上是否存在差异。
结果发现,F(2,147)=30.35,p<.05。
表明三个年级学生的内部动机得分存在显著差异。
为了进一步检验三个年级到底是哪几个年级之间存在显著差异,需要进行事后检验(posthoc)。
在spss中,依次点击analyze→comparemeans→one-wayANOVA→posthoc。
因为在前面的检验中发现方差齐性,因此,选择方差齐性时的检验方法:
LSD。
若不齐性,则选择方差不齐性时的检验方法。
结果见下表:
结果表明(结合每个年级的平均分结果),初一年级的内部动机低于显著低于初二(p<.05)和初三(p<.05),而初二与初三年级的内部动机不存在显著差异(p=.910)。
七、分类变量的差异检验-卡方分析
卡方检验法也称卡方拟合度检验,是根据样本数据的实际频数推断总体分布与期望分布或理论分布是否有显著差异。
前提条件:
对数据的分布形态没有要求;分类相互排斥,互不包含,观测值之间相互独立。
适用条件:
分类或计数数据。
✧举例:
在本次调查中,男生、女生的成绩等级是否存在显著差异?
在spss中,依次点击analyze→descriptivestatistics→crosstab,将“性别”放入row对话框,将“成绩等级”放入columns对话框,然后点击statistics,看到右下图,选择chi-square,最后点击cell,选择observed以及expected。
结果如下:
第一个表呈现了人数信息。
第二个表呈现了男生、女生在不同成绩等级上的实际人数(count)和期望人数(expectedcount)。
第三个表呈现了卡方分析的结果,结果表明男生、女生的成绩等级存在显著差异(χ2=22.32,p<.05)。
八、变量之间的关系—相关分析
相关系数是用来表示两列变量间相关关系强度的指标,常用r来表示。
相关存在正相关、负相关、无相关和非线性相关四种(见下图)。
适用条件:
分析两个定量变量之线性相关。
✧举例:
在本次调查中,内部动机与学习成绩之间是否存在相关?
在做相关分析之前,一般写画散点图,来看两个变量之间的关系趋势,在spss中,依次点击graphs→legacydialogs→scatter/dot,看到下左图,选择simplescatter,点击define,看到下右图,将“成绩”放入YAxis,“内部动机”放入XAxis。
从上图可看出,内部动机与成绩之间存在一定的正相关的线性关系,因此接下来进行相关分析。
在spss中,依次点击analyze→correlate→bivariate,然后将“内部动机”和“成绩”放入右边对话框中。
见下图:
结果发现,内部动机与成绩之间存在显著的正相关(r=.22,p<.05)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析