第十二章研究资料的审核整理与统计分析.docx
- 文档编号:28046274
- 上传时间:2023-07-07
- 格式:DOCX
- 页数:25
- 大小:55.59KB
第十二章研究资料的审核整理与统计分析.docx
《第十二章研究资料的审核整理与统计分析.docx》由会员分享,可在线阅读,更多相关《第十二章研究资料的审核整理与统计分析.docx(25页珍藏版)》请在冰豆网上搜索。
第十二章研究资料的审核整理与统计分析
第十二章 研究资料的审核、整理与统计分析
第一节 资料的审核与整理
一、资料审核的概念和原则
1.资料审核的概念
资料审核是指在着手整理调查资料之前,对原始资料进行审查与核实的工作过程,目的是保证资料的客观性、准确性和完整性,为资料的整理打下坚实的基础。
2.资料审核的原则
资料审核工作一般应按照以下一些原则进行:
(1)真实性原则。
对收集到的资料要根据实践经验和常识进行辨别,看其是否真实可靠的反映了调查对象的客观情况。
(2)标准性原则。
在较大规模的调查中,对于需要相互比较的材料要审核其所涉及的事实是不是具有可比性。
(3)准确性原则。
要对资料进行逻辑检查,检查资料中有无不合理和相互矛盾的地方。
例如,某人年龄栏内填写的是23岁,而工龄栏内填写的是18年,这显然是不合逻辑的。
(4)完整性原则。
要检查调查资料是不是按照提纲或统计表格的要求收集齐全。
如果资料残缺不全,就会降低甚至失去研究的价值。
二、资料的整理
1.资料整理的概念和原则
资料的整理是根据研究目的将经过审核的资料进行分类汇总,使资料更加条理化和系统化,为进一步深入分析提供条件。
资料整理应遵循三条原则:
(1)条理化。
条理化是指对资料进行分类从而为进一步的分析创造条件。
(2)系统化。
系统化是指从整体上考察现有资料满足研究目的的程度如何,有没有必要吸收补充其他资料。
(3)统计汇总。
统计汇总是指将调查得到的各种数据进行初步的统计整理,以把握其总体上的数量特征。
2.分类与分组
从严格的意义讲,分类和分组都是一种定性分类方法,即根据研究对象的某些特征将其区分为不同种类。
分类适用于全部调查资料,分组只限于数量化的统计资料,习惯上将后者称为统计分组或称为统计分类。
就调查过程而言,调查资料的分类有两种,即前分类和后分类。
前分类就是在设计调查提纲、调查表格或问卷时,按照事物或现象的类别设计指标,然后再按分类指标收集、整理资料。
后分类,是指在调查资料收集起来以后,再根据资料的性质、内容或特征而将它们分别集合成类。
如文献调查的资料、非结构观察、座谈会的纪录、问卷调查中开放性回答等。
(1)分类的类型及意义。
分类的方法有两种,即现象分类方法和本质分类方法。
本质分类法也被称为科学分类法。
(2)选择和确定分类标准的原则。
分类的关键在于选择和确定分类标志。
①分类标志的类别。
分类标志可以分为品质标志和数量标志。
按品质标志分类就是选择反映事物属性差异的品质标志为分类标准。
②选择分类标志的原则。
要选择正确的分类标志,必须遵循四条原则:
第一,从研究目的出发选择标志。
第二,从反映事物本质的需要去选择标志。
第三,根据具体的历史条件去选择标志。
分类标志要随历史条件的变化而变化。
第四,分组标志的确立必须坚持穷尽性和互斥性的原则。
穷尽性是指分组标志的确定必须使所有个案的特征表现都找到归属组,无一例外,也就是要将所有可能的类别都要列出。
在研究我国宗教信仰时,只分佛教、基督教、伊斯兰教这三大类。
互斥性是指分组标志应该互斥,要使每个个案的特征表现只能分配到一组之内,不能同时在几个组内出现。
第二节 资料汇总
一、计算机汇总的步骤
计算机汇总大致分为四个步骤:
编码、登录、录入和程序编制。
1.编码
编码是将问卷中的信息数字化,转换成统计软件和统计程序能够识别的数字,这项工作是一种信息代换的过程。
2.登录
登录是将编好码的问卷资料过录到资料卡片上去,以便于将它们输入到计算机的软盘或硬盘等存储设备上去。
3.录入
录入是将登录在资料卡片上的数据录入到计算机的存储设备上,其工作性质同登录相同。
4.程序编制
要用计算机汇总资料就必须给计算机输入一种指令,指挥计算机进行工作,这种指令就是程序。
二、一个资料汇总的实例
我们结合一个例子来说明资料汇总的具体技术。
某部门为了了解老干部和老知识分子的状况,曾对本系统60岁以上的成员做过一次普查。
下面,我们摘选该调查表的一部分。
这个调查共提出了60个问题,收集了50000份问卷,由于工作量太大,所以应采用计算机整理。
1.编制编码手册
上面列出六个问题可以分为两种类型,一是开放性问题(1、2、3题),二是封闭式问题(4、5、6题)。
比如业务专长这个问题,通阅后归纳出了29个类别共250多种专长,那么就用数码的前两位代表类别,后一位代表该类别中的不同专业。
如规定“文学”类别编码是00,其中“文学概论”的编码是001,“外国文学”是006,还可以规定“国际贸易”是089。
编码手册包含4个主要项目:
(1)第一列“列”中的数字符号代表着固定格式的电子数据库中数据矩阵中列的序号。
(2)问题号码。
编码手册上的问题号码和问卷或调查表上的题号应该一致。
(3)项目名称。
(4)编码的内容说明。
2.根据编码手册做卷面资料登录
3.调查资料的计算机录入
(1)固定格式录入
例如“性别”是1位数,“月收入”是4位数等。
按照固定格式录入数据最大的好处是资料录入员可以集中精力敲击键盘,不必去考虑每个数据应该对应哪个变量,这样可以提高录入的速度。
但缺点是必须先将调查数据转化为固定的格式,并且卷面登录和计算机录入时都要严格注意每个变量上数码的位数和位置,不能有一点差错。
(2)自由格式录入
自由格式录入是指以一个个的变量值为单位直接将数据录入到计算机电子表格中。
自由格式录入最大的好处是在录入时比较直观,只需要将每个变量的数值录入到相应的位置上,而不用将每个变量都先转化成标准化的数码格式并准确对位。
并且由于数据比较直观,在录入时一旦键盘敲击错误也容易发现。
在输入数据时,一旦输入的数码不符合预先设计的位数或可取值范围,计算机马上就可以识别并显示错误。
4.向计算机发布指令,通过计算机整理资料
表12—2某单位职工家庭居住面积情况
变量值
频数
百分比(%)
累计百分比(%)
1
2
3
4
15000
12500
12500
10000
30.0
25.0
25.0
20.0
30.0
55.0
80.0
100.0
合计
50000
100.0
如果在建立数据库结构中已经把各个变量的具体内容输入了,就可得出表12—3。
表12—3某单位职工居住面积情况
居住面积(m2)
人数(人)
百分比(%)
累计百分比(%)
20以下
20~45
45~65
65以上
15000
12500
12500
10000
30.0
25.0
25.0
20.0
30.0
55.0
80.0
100.0
合计
50000
100.0
三、统计表
资料整理的结果可以用不同形式表现,但统计表是应用最广泛的形式。
广义的统计表包括调查工作中所用的一切表格。
1.统计表的意义和结构
资料通过统计汇总,按照一定的目的,在表格上表现出来,这种表格就叫做统计表。
统计表的意义是:
(1)能有条理、有系统地排列统计资料,使人们在阅读时一目了然。
(2)能合理地、科学地组织统计资料,使人们在阅读时便于对照比较。
从外表形式上看,统计表由总标题、横行标题、纵栏标题、指标数值四部分组成。
从内容上看,统计表由主词和宾词两部分构成。
2.统计表的种类
统计表按总体分组的情况可以分为简单表、分组表和复合表。
(1)简单表。
简单表是指按总体未做任何分组,仅罗列各单位各称或按时间顺序排列的表格。
如下表:
表12—4某市历年结婚对数(1977-1982年)
年份
1977
1978
1979
1980
1981
1982
对数
9300
12400
11352
8674
9320
7536
表12—5我国三个直辖市人口数
1982年7月1日0时单位:
人
市名
人口数
北京市
9230687
天津市
7764141
上海市
11859748
(2)简单分组表。
简单分组表是总体仅按一个标志进行分组,即运用简单分组形成的表格。
组距分组表每个组都有其上限与下限。
表12—6某乡各村年人均收入统计表
年人均收入(元)
村
百分比(%)
60~80
80~120
120~160
160~200
200+
1
2
7
5
5
5
10
35
25
25
合计
20
100
(3)复合分组表。
复合分组表是总体按两个以上标志进行层叠分组的统计表,又称为交互分类表。
表12—7某乡家庭规模和经济情况统计表
经济水平
家庭规模
大
小
合计
高
低
30
50
120
10
(150)
(60)
合计
(80)
(130)
(210)
3.统计表的设计
(1)统计表形式的设计;
(2)统计表的内容设计;
(3)统计表制表的要点。
第三节 定量研究资料的统计分析
一、统计分析概述
1.统计分析的作用
社会研究资料的统计分析是采用数理统计的方法和技术对社会研究中获得的资料进行定量分析。
统计分析在社会研究中的必要性主要表现在以下几个方面。
(1)统计分析的方法可以为社会研究提供一种清晰精确的形式化语言。
例如对人们在对生育行为进行研究时发现生育行为受文化程度的影响。
从总体上看,文化程度高的妇女其子女数量少于文化程度低的妇女。
(2)统计分析是进行科学预测,探索未来的重要方法。
(3)统计分析技术是处理调查研究资料的必要工具。
2.统计分析的特点
(1)统计分析要以定性分析为基础。
(2)统计分析有一套专门的方法和技术。
统计分析有一套独特的方法和技术。
二、单变量描述性统计分析
深入地进行分析,还要对资料进行进一步的数学概括,也就是对数据资料用特定的计算公式算出一些量数,用以描述数据的全貌和各种特征。
集中量数和离中量数就是对一组数据两个基本特征的描述。
前者是大量数据向某一点集中的情况,后者是大量数据彼此离散的程度。
1.集中量数分析
(1)集中量数的意义和作用。
集中量数也称集中趋势量数,它是用一个数值去代表一组数据的一般水平。
常用的集中量数有平均数、中位数和众数。
在统计分析中,集中量数有下列四个方面的作用。
首先,集中量数说明某一社会现象在一定条件下,其数量的一般水平。
其次,集中量数可以对于在不同空间的同类现象进行比较。
再有,集中量数可以对一定社会现象在不同时间中的变化进行比较,以说明这些现象的发展趋势和规律。
最后,集中量数可以用来分析某些社会现象之间的依存关系。
(2)平均数。
简单说,平均数是表明一组数据的平均水平的数值。
算术平均数的基本定义是以总体各单位数值之和除以总体单位总数的商,即:
根据数字资料的不同,可以采用简单算术平均数法和加权算术平均数法进行计算。
①简单算术平均数
简单算术平均数法就是直接由原始数据计算算术平均数的方法。
其计算公式为:
式中:
代表算术平均数;
分别代表各个具体的标志数值。
例如:
有5个家庭,人数分别为8人、5人、3人、3人、1个,其算术平均数为:
计算结果是这5个家庭平均人员数为4人。
②加权算术平均数
当使用统计表中的分组资料计算平均数的时候,要用加权平均数法进行计算。
其计算公式为:
式中f为权数,即变量在总体中出现的次数。
首先,由单项分组资料求算术平均数的公式和加权算术平均数的公式一致。
表12—8某地区家庭人口数次数分布和计算表
家庭人数
家庭数
家庭数×家庭数
(x)
1
2
3
4
5
6
(f)
24
275
430
382
210
86
(x×f)
24
550
1290
1528
1050
516
合计
1407
4958
其计算过程如下:
其次,由组距分组资料也可以求算术平均数。
在调查中我们还会遇到这样的资料,变量X不是一组确定的数值,而是一组数据区间,如表12—9。
表12—9某工厂发放加班费状况和平均值计算表
按周加班费分组(元)x
工人数(人)f
组中值(元)xmid
工资总额(元)f·xmid
40~50
50~60
60~70
70~80
80~90
90~100
100
200
400
200
70
30
45
55
65
75
85
95
4500
11000
26000
15000
5950
2850
合计
1000
65300
对于这样的资料要先计算出组中值,然后,再使用加权算术平均数的公式进行计算。
组中值的符号xmid,其计算公式是:
那么,由组距分组资料计算平均数的公式就变为:
可以根据表12-9的资料计算该厂每周人均发放加班费数。
(3)中位数
把一组数据按照其大小顺序排列起来,处于最中间位置的那个数就是中位数。
中位数也常常用来表示一组数据的平均水平,有时也被称“位置平均数”。
①由原始资料计算中位数。
原始资料是以单项标志值形式表现的。
先把各个标志值按照大小顺序排列,然后用总体单位数加1除以2,即
,就可以求也中位数的位次。
这个位次的标志值就是中位数。
当总体单位数是奇数时,如7个女同学的操行评定分别是:
优、优、优、良、良、中差,这时中位数的位次是
第四个标志值是中位数,即“良”。
当总体单位是偶数时,如6个男同学的操行评定分别是:
优、优、良、中、差、差,这时的中位数位次是
,中位数的位次在第三个标志值与第四个标志值中间,即在良与中之间。
②经过汇总的资料计算中位数。
首先,根据单项分组资料计算中位数的方法与由原始资料计算中位数的计算方法大致相同。
表12-10某村青年文化程度统计表
文化程度
人数
累计次数
文盲
识字
小学
初中
高中
6
11
30
20
20
6
17
47
67
87
合计
87
其次,由组距分组资料计算中位数,应先用
公式确定中位数所在组的位置,然后再用下限公式计算中位数的值,下限公式为:
式中:
Md为中位数
L为中位数所在组的下限;
fm为中位数所在组的次数;
cfm-1为中位数所在组以下的累计次数;
i为中位数所在组的组距。
下面以表12-11的资料为例,说明由组距分组资料计算中位数的方法。
表12—11某厂工人一周奖金发放统计表
按奖金数量分组(元)x
工人数(人)f
累计数cf
50-
50~60
60~70
70~80
80~90
90+
100
200
400
200
70
30
100
300
700
900
970
1000
合计
1000
首先确定中位数所在值的位置,得
中位数在第三组内,组下限是60,第三组的次数是400,第三组的组距是70-60=10,第三组内下的累计次数是300。
将这些数值代入下限公式:
(4)众数。
众数是指在一组数据中出现次数最多的标志值。
众数的计算方法有两类,即从单位分组数据资料中计算众数和从组距分组数据资料中计算众数。
用单项分组数据资料计算众数的方法比较简单,一般采用直接观察法即可。
在统计表中找出出现次数最多的标志值便可确定为众数。
例如,表12-10中出现次数最多的是小学文化程度,有30人,由此可以确定该村青年文化程度的众数是小学文化程度。
从组距分组资料中计算众数的方法有两种,一种是组中值法,另一种是摘补法。
组中值计算众数分两步:
第一步对资料进行观察,确定次数最多的组为众数所在组,如在表12—11中,月奖金收入在60~70元的职工为400人,在职工总数中占的比重最大,所以确定60~70元这一组为众数所在组。
第二步,根据众数组的组距进一步计算众数数值。
其公式为:
,其中L代表众数所在组的组下限,U代表众数所在组的组上限,那么该厂月工资收入的众数为
。
算术平均数包含的信息最丰富,代表性最好,中位数和众数不具备算术平均数的优点。
2.离中量数分析
集中量数能对同质性总体做出概括的说明,用以反映数据资料集中趋势的特征和一般水平,但数据资料还有分散的一面,即离散趋势的一面。
(1)离中量的意义和作用。
初中二年级的3个班各抽5名同学进行外语测试,他们的成绩分别如下:
甲班:
6869707172,
乙班:
4562707895,
丙班:
15608095100,
如果仅以平均数作为衡量标准看,三个班的外语水平没有什么差别。
但是从各组分类的分布来看,甲班学生的水平整齐一致,乙班学生的水平参差不齐,丙班学生的水平相差悬殊。
离中量数是一个概括性量值,是研究现象差异程度的概括表现,它的意义在于阐明被研究现象的差异特征。
它的作用在于:
第一,描述了一组数据的差异情况,使我们对一组数据的全貌有个比较清楚的了解;第二,对集中量数的代表性作了补充说明,差异量数越小,集中量数的代表性越大。
下面只介绍异众比率、四分位差和标准差这三种离中量数的计算方法。
它们分别对众数、中位数和平均数作补充说明。
集中量数和离中量数是配合使用的,众数和异众比率配合,中位数和四分位差配合,平均数和标准差配合。
(2)异众比率。
异众比率是指非众数的次数与总体内全部总体单位的比率。
其计算公式为:
式中:
VR代表异众比率;
n是总体内全部总体单位的数;
fmo为众数的次数。
现将表12-10的资料代入公式,求异众比率。
说明87名青年中非小学文化程度的青年占63.6%,异众比率较大。
这说明这个村子青年的文化程度较分散,众数的代表性较小。
异众比率越小,众数的代表性越大。
(3)四分位差。
把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的数叫四分位数。
简单说,四分位差就是第三个四分位数的值减去第一个四分数位值。
①对定序类型资料计算的四分位差。
计算公式为:
Q=Q3-Q1
以表12-10的资料为例,首先要找出Q3的位次,Q3的位次=
,第66个数据的标志值在“初中”组内,所以Q3值为初中;Q1的位次
,第22个数据在“小学”组内,Q1值为小学;那么Q=Q3-Q1=初中-小学,这一结果显示了在87名农村青年中,处于中间的50%的人其文化程度在初中到小学之间。
四分位差之间的间距越小,中位数的代表性越大。
②对于定距类型资料计算四分位差。
其计算公式为:
以表12-11资料为例,首先要确定Q3和Q1的位次。
所以Q3落在70~80元组内,Q1落在50~60元组内。
再求出Q3和Q1的数值,其方法与求中位数大致相同。
这个值告诉我们该厂的1000名工人中,在中间的50%工人中其一周的奖金收入落在57.5到72.5元之间。
也就是说,一周奖金收入在65元±7.5元的区间包括了该厂工人数目的一半。
(4)标准差
标准差又叫做均方差,是指资料中各个数值与算术平均数相减之间的平方和的算术平均数的平方根。
它是用得最多,也是最重要的离中量数,其代表符号为σ,计算公式为:
式中:
xi为资料中的各个数值;
为算术平均数;
n为总体单位数。
利用前面所给的外语考试成绩的例子,甲、乙、丙三班学生的平均分数都是70分,要判断哪个班的分数差异小和平均数的代表性程度就要计算标准差来解决这一问题。
经计算,甲、乙、丙三个班考试的标准差分别是1.41、16.6和30.8。
甲班的标准差最小,所以甲班的分数差异小,平均值的代表性大。
3.相对差异量数分析
主要介绍离散系数和标准分数。
(1)离散系数。
离散系数是标准差与算术平均数的比值,用百分数表示。
它是一个相对数,所以不受单位的限制。
在算术平均数不为零的情况下,离散系数越大,数据的离散程度越大,集中量数的代表性越小;反之,数据离散程度越小,集中量数的代表性越大。
离散系数的公式为:
式中:
σ为标准差;
X为算术平均数。
例如:
根据调查,某高100户下岗职工家庭人均月收入为73.75元,标准差6.52元;人均住房面积8.21m2,标准差3.09m2。
试比较收入和住房情况哪一个差异程度比较大?
这是对不同计算单位的资料比较差异程度。
可见住房情况的差异程度比较大。
例如,某公司白领职员的每天的平均工资为70元,标准差为6.5元;而蓝领工人的平均工资为60元,标准差为6元。
从表面上看,职员工资的离散程度大于工人,因为标准差大,但经过计算可以看到工人工资的离散系数大于职员。
(2)标准分数
如果一个学生在报考研究生专业的入学考试的4门课程中总成绩为348分,那么他在全体考生中居于什么位置?
我们可用准确的数量概念来表示,即使用测量这种相对位置的工具——标准分数来表示。
标准分数的符号是Z,其公式为:
①确定原始数据在总体分布中的位置。
如报考某校某研究生专业的学生在四门入学考试中的总成绩平均为286分,标准有效期为62分。
其中一位学生的总成绩为348分。
所以该考生在全体考生中的位置可以通过分数来计算:
我们将标准分数和标准正态分布表联系在一起,可以查出Z=1,在总体中的相对位置是0.84,也就是说在全体考生中有84%的人总分数低于该考生,有16%的考生高于该考生。
这就是他在全体考生中所处的位置。
②对不同分布的各原始数据进行比较。
如果是不同的考生,考生甲的分类情况和上例相同,而考生乙的四门
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十二 研究 资料 审核 整理 统计分析
![提示](https://static.bdocx.com/images/bang_tan.gif)