资料审核与初步统计.ppt
- 文档编号:2653240
- 上传时间:2022-11-05
- 格式:PPT
- 页数:84
- 大小:482.50KB
资料审核与初步统计.ppt
《资料审核与初步统计.ppt》由会员分享,可在线阅读,更多相关《资料审核与初步统计.ppt(84页珍藏版)》请在冰豆网上搜索。
第十二章调查资料的审核与整理l资料的审核l资料的整理l统计表第一节资料的审核资料的审核l资料的审核是资料处理的第一步工作。
它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。
其目的是使得原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录人与统计分析工作打下较好的基础。
l资料的审核工作包含两方面的内容:
一是检查出问卷资料中的问题;二是重新向被调查者核实。
l资料的审核工作有两种不同的做法:
边收集边审核集中审核第二节资料的整理一、资料整理资料整理是根据研究目的将经过审核的资料进行分类汇总,使资料更加条理化和系统化,为进一步深入分析提供条件。
二、定性资料的整理l整理笔记与建立档案l资料的编码编码类型:
开放式编码、轴心式编码选择式编码三、定量资料的整理l资料的编码(见下表一)l资料的录入(见下表二)l数据清理有效范围清理逻辑一致性清理l数据质量抽查编码手册列问题号码变量名称内容说明1-6a1期刊年月编号91年6月第二个个案为9106027a2性别1.男2.女8-9a3年龄如实填写10a4学历1.小学以下2.中学3.高中4.中专5.大专6.大学7.硕士8博士9.其他11-13a5身高cm14-15a6职业1.工人2.农民3.党政机关公务员4.私营企业主5.离退休人员6,教师医生7.公安,司法,军人8.企业白领9专业技术人员10其他16a7婚姻状况1.未婚2离婚3.丧偶4.其他表一择偶标准调查数据登录表表个案编号A1A2A3A4A5A6A71-678-91011-1314-1516052592100113551760310526921002224616504205279210031277177305289210041286167092.0529921005231815812105309210062247155101.06表二第三节统计表一、统计表的结构l从外表形式上看,统计表由总标题、横行标题、纵栏标题、指标数值四部分组成。
l总标题是表的名称;横行标题在表的左端,它代表所说明的对象;纵栏标题在表的上方,它代表统计指标的名称。
它们分别对横行或纵栏内的统计值作出说明。
二、统计表的种类l1.简单表某村历年人均收入某村历年人均收入年份1977197819791980收入202840452.简单分组表是总体仅按一个标志进行分组,即运用简单分组形成的表格。
某村各户年人均收入统计表某村各户年人均收入统计表年人均收入村百分比()6080801201201605911203842合计203.复合分组表是总体按两个以上标志进行层叠分组的统计表,它又称为交互分类表,它能表现两个分组标志之间的关系。
某村家庭规模和经济情况统计表某村家庭规模和经济情况统计表经济水平家庭规模大小合计高低30501201015060合计80130210第十三章资料的统计分析统计分析方法是一种定量分析。
它是进行科学预测的重要方法。
统计分析的特点:
l
(1)统计分析要以定性分析为基础;l
(2)统计分析方法必须和其他分析结合运用;统计分析有一套专门的方法和技术。
观观察察调调查查实实验验12229986489如何使用各种统如何使用各种统计表与统计图来计表与统计图来描述一组数据的描述一组数据的分组与分布情况分组与分布情况如何通过一组数如何通过一组数据计算一些特征据计算一些特征数,简缩数据,数,简缩数据,进一步显示与描进一步显示与描述一组数据的全述一组数据的全貌(集中情况、貌(集中情况、分散情况、分布分散情况、分布特征)特征)数据如数据如何分组何分组收集方法收集方法原始数据原始数据表达形式表达形式作作用用分析过程(图示)主要内容主要内容l单变量描述统计l单变量推论统计l相关与回归分析l双变量统计分析l多变量统计分析第一节、单变量描述统计l由一种变量的全部分数或观察值组成由一种变量的全部分数或观察值组成的一组或一批数据称为一个分布。
单的一组或一批数据称为一个分布。
单变量数据的描述统计就是对其分布情变量数据的描述统计就是对其分布情况进行说明。
单变量描述统计包括集况进行说明。
单变量描述统计包括集中量数分析、离散量数分析。
中量数分析、离散量数分析。
一.频数分布与频率分布l频数分布(FrequencyDistribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。
l频率分布(percentagesdistribution),是一组数据中不同取值的频数相对于总数的比率分布情况.常以百分比的形式来表达.编制频数分布表,画出频数分布图编制频数分布表,画出频数分布图某中学初三甲班某中学初三甲班60人期中英语考试分数人期中英语考试分数826093938972859768777698564577766146605189437569896080747467858755877191746488578491606159637879889687895289857656545890案例案例某中学初三甲班某中学初三甲班6060人英语期中考试成绩人英语期中考试成绩累积频数(频率)分布表累积频数(频率)分布表二、集中量数分析l集中量数就是代表数据分布集中趋势的量数。
l集中量数分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。
l最常见的集中量数有算术平均数(简称平均数,也称为均值)、众数和中位数三种。
中位数中位数(Mdd)l中位数中位数(MMdd),又称中数,是频数分又称中数,是频数分布上布上50%50%处的数值,即将观察总数一处的数值,即将观察总数一分为二的变量值。
在这个值的两边各分为二的变量值。
在这个值的两边各有相同个数的数据。
当数据的个数为有相同个数的数据。
当数据的个数为偶数时,取分布偶数时,取分布50%50%(最中心)处的(最中心)处的两个数据的平均数作为中数。
两个数据的平均数作为中数。
中位数中位数(Mdd)l中位数中位数(MMdd),又称中数,是频数分又称中数,是频数分布上布上50%50%处的数值,即将观察总数一处的数值,即将观察总数一分为二的变量值。
在这个值的两边各分为二的变量值。
在这个值的两边各有相同个数的数据。
当数据的个数为有相同个数的数据。
当数据的个数为偶数时,取分布偶数时,取分布50%50%(最中心)处的(最中心)处的两个数据的平均数作为中数。
两个数据的平均数作为中数。
几何平均数几何平均数(MMgg)是是nn个数据的连乘积开个数据的连乘积开nn次方的根。
次方的根。
常用作速率的集中量数,如学龄儿童人常用作速率的集中量数,如学龄儿童人数的增加率、学校经费的增加率、阅读数的增加率、学校经费的增加率、阅读能力的进步率等。
能力的进步率等。
Mg=算术平均数算术平均数l通常称平均数,又称均数或均值。
英文为通常称平均数,又称均数或均值。
英文为MeanMean,故以故以MM表示。
如果是由变量表示。
如果是由变量XX计算得来的就记为计算得来的就记为(读(读XX杠),现在一般都杠),现在一般都以表示样本的平均数,以表示样本的平均数,以以UU表示总体的平均数。
表示总体的平均数。
l算术平均数就是各个变量值相加求和再除以变量算术平均数就是各个变量值相加求和再除以变量的总次数的总次数。
=算术平均数的计算方法算术平均数的计算方法l11、用原始数据计算平均数、用原始数据计算平均数。
当一组数据。
当一组数据个数不多时,可直接用原始数据来计算。
个数不多时,可直接用原始数据来计算。
l如某实验小组如某实验小组1010人的实验成绩为人的实验成绩为1111,1313,1515,1616,1616,1616,1717,1818,1818,2020。
其平。
其平均数为:
均数为:
=1616l22、用频数分布表求平均数、用频数分布表求平均数。
如果样本的。
如果样本的数据很多,达到数十个或数百个,则需编数据很多,达到数十个或数百个,则需编制频数分布表,用频数分布表求平均数。
制频数分布表,用频数分布表求平均数。
=XXcc为各组的组中值,为各组的组中值,ff为各组的频数,为各组的频数,NN为总次数(为总次数()某中学初三甲班某中学初三甲班6060人英语期中考试成绩人英语期中考试成绩平均数、标准差计算表平均数、标准差计算表=73.573.573.573.573.573.5中位术与平均数的比较
(1)平均数要求计算所有的数值,而中位数只用到数值的相对位置,一般说来平均数利用了更多的信息,更全面和准确.
(2)平均数容易受到极端值的影响,中位数则不会受到这种影响.平均数是一种比中位数更为稳定的量度,它随样本的变化比较少.(3)当资料是定序,定类测量或者是有开口组的定居测量时,中位数能够拟补不足.三.离散量数分析l离散(中)量数分析指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。
差异程度小,平均数的代表性高;差异程度大,代表性低。
l它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况.共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出补充说明.l常见的离散量数统计量有全距,标准差,异众比率,和四分位差.示例:
某三个班各选5名同学参加测试.他们的成绩分别如下中文系:
78,79,80,81.82X=80数学系:
65,72,80,88,95X=80外语系:
35,78,89,98,100X=80如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低.1.全距(R)l全距也叫极差,它是一组数据中,最大值与最小值之差.l它是表示数据分布离散程度最简单的方式,即一组数据中最大数与最小数差,故称两极差。
R=Xmax-Xmin当数据较多时,应用频数分布表求全距。
其方法为:
最大组与最小组的组中值之差或最大组上限与最小组下限之差。
R=Xcmax-XcminR=Umax-LminlR=98R=98(最大值)最大值)4343(最小值)(最小值)l=55=551.求全距求全距步步骤骤l视数据资料的性质和数据多少而定。
视数据资料的性质和数据多少而定。
组数不宜太多,如太多不能明显表示组数不宜太多,如太多不能明显表示出分布的主要趋势。
但也不宜太少,出分布的主要趋势。
但也不宜太少,太少则把很多不同事实归于一组,其太少则把很多不同事实归于一组,其分配的主要特征将因此而被蒙蔽。
分配的主要特征将因此而被蒙蔽。
2.2.定定组组数数分组参考表分组参考表n5080100150200300500100020005000分组数9111214161822303956l组距就是每一组的间距,即每组组距就是每一组的间距,即每组所包含的单位。
组距以所包含的单位。
组距以“ii”表示。
表示。
3、求求组组距距组距i=9.3i=i=本例组数为本例组数为6,组距,组距一般地,为计算方便,组距取一般地,为计算方便,组距取10为宜为宜l组限是分组的界限,其底数为下限组限是分组的界限,其底数为下限(LL),其顶数为上限其顶数为上限(UU)。
组限的写法有很多,组限的写法有很多,有的用上下限表示,有的用组中值表示。
如有的用上下限表示,有的用组中值表示。
如以以“10”10”为组距,一般多用首尾相接,间隔为组距,一般多用首尾相接,间隔为为1010的形式表示。
即的形式表示。
即60706070,70807080,80908090。
其中每组上限即为下一组的下限,通常将组其中每组上限即为下一组的下限,通常将组下限包含在本组中,而不包含在上限所在的下限包含在本组中,而不包含在上限所在的组。
因为分组的实际界限应是这一组的精确组。
因为分组的实际界限应是这一组的精确界限,如界限,如“8090”8090”这一组的精确界限为这一组的精确界限为“79.589.4999”79.589.4999”。
4.定组
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料 审核 初步 统计