统计学知识点3.docx
- 文档编号:3452436
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:18
- 大小:122.13KB
统计学知识点3.docx
《统计学知识点3.docx》由会员分享,可在线阅读,更多相关《统计学知识点3.docx(18页珍藏版)》请在冰豆网上搜索。
统计学知识点3
第三章统计数据的整理
第一节统计数据整理的概念
一、统计数据整理的意义
统计整理是统计工作的第二阶段,它是根据统计研究的目的和任务,对调查阶段所搜集到的大量原始资料进行科学的分类、汇总,为统计分析提供能描述现象总体数量的综合特征资料的工作过程。
统计整理包括有两个内容:
一是对统计调查所搜集得到的原始资料即初级资料进行汇总整理。
一是对某些已经加工的综合资料,即次级资料进行整理。
通过统计调查所搜集到的资料,只是一些个别单位的、零星分散的、不系统的原始资料,反映的是个别单位的现象,不能深刻揭示总体事物的本质,更不能从量的方面反映事物总体发展变化的规律性,这就有必要对统计调查所获得的原始资料进行科学的整理,即统计整理。
统计整理就是人们从对各调查单位的具体认识过渡到对总体综合数字性认识的过程。
统计整理在统计工作中起着承前启后的作用,是统计工作中一个十分重要的中间环节,它既是统计调查的继续,又是统计分析的前提。
二、统计整理的内容
统计整理的内容,要依据事先拟定的整理纲要要求的项目来确定。
统计整理的基本内容包括,对调查资料进行审核和订正,对各项资料进行汇总;根据研究的目的要求选择整理指标和确定具体的分组,计算各组和总体的总数量;用统计表的形式表现整理结果。
第二节统计分组
一、统计分组的意义
统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干个有联系组成部分的一种统计方法。
其目的就是把同质总体中的具有不同性质的单位分开,把性质相同的单位结合在一起,保持各组内统计资料的一致性和组与组之间资料的差异性,以便进一步运用各种统计方法,研究现象的数量表现和数量关系,从而正确地认识事物的本质及其规律性。
统计分组对总体而言是“分”,对个体而言是“合”即是将性质相同的各个总体单位结合在一起。
例如,在工业企业这一同质总体中,就存在着所有制不同的差别,存在着生产方向上的差别和规模大小的差别等等,为了研究问题的需要,就必须对总体进行各种分组,以便从数量方面深入了解和研究总体的特征。
社会经济现像是复杂多样的,总体中的各个总体单位既有共性,也有个性。
由于有共性的存在,因而各个总体单位可以共处于一个总体之中,由于有个性,又使各单位在质量上、数量上存在差异。
统计为了认识总体,不仅确定总体单位数,划定总体范围,还应对总体中所有总体单位在质量上与数量上的差异进行分析研究,这就需要将总体中的全部总体单位,按照某一特征的表现进行分组或分类,并通过相应的指标来分析它们的构成及相互关系,这样才能实现认识事物的本质和规律性的目的。
统计分组在统计资料的整理中有举足轻重的作用。
分组的好坏直接关系到统计能否整理出准确、实用的统计资料,关系到统计能否得出正确的结论。
即从某种意义上讲,没有统计分组,就没有科学的统计资料的整理,也就没有科学的统计分析。
二、统计分组的作用
统计分组在统计研究中占有重要地位,其基本作用有以下几方面:
1、揭示现象总体内部的构成状况
社会经济现象所包括的大量单位,不但在性质上不尽相同,而且在总体中所占比重也不一样。
研究现象总体的结构是十分重要的。
统计分组把统计总体划分为若干部分或组,通过数量比例反映现象内部的构成状况,表明总体的本质特征。
例如,将我国人口总体按“民族”分为56个组,表明我国是一个多民族的共和国。
另外,各组比重数大小的不同,说明它们在总体中所处地位不同,对总体分布特征的影响也不同;其中比重数相对大的部分,决定着总体的性质或结构类型。
例如,假设一个国家或地区的工农业总产值中,农业总产值所占比重在百分之八、九十,则说明这个国家或地区的经济性质是农业经济。
将总体的结构分组资料按时间的移动联系起来进行分析,可以反映由于各组比重变化速度不同而引起各组地位改变的状况,从而认识现象发展变化的规律性。
2、划分社会经济现象的类型。
社会经济现象存在着复杂多样的类型,各种不同的类型有着不同的特点以及不同的发展规律。
统计分组能将复杂的社会现象划分为各种不同类型,从数量方面研究其不同特征及相互关系,深刻认识其本质和规律性。
通过科学分组来区分现象的类型,才能正确地分析现象的实质。
社会经济现象的类型各异,其中,最重要的类型是指直接反映社会生产关系的类型,因为他可以直接反映一定社会经济结构的特点。
例如,国民经济划分为物质生产部门和非物质生产部门;工业划分为重工业和轻工业两大类;重工业可划分为采掘工业、原料工业、制造工业等类型;轻工业可划分为以农产品为原料的轻工业和以非农产品为原料的轻工业;农业可划分为农、林、牧、副、渔五大类。
3、分析现象间的相互依存有关系
社会经济现象间,存在着广泛的联系和相互制约的关系,现象之间发生联系的方向和紧密程度各不相同,有的关系相当密切,表明现象间具有依存关系,如职工工资收入和社会商品零售顾额,施肥量与农作物的产量之间都存在着相互依存的关系。
用统计分组法确定现象之间的依存关系,通常是把那些表现为事物变化发展原因的因素叫做影响因素,而把表现为事物发展结果的因素叫做结果因素。
将现象按影响因素来分组,计算各组的平均指标和相对指标,揭示其数量变化特征和规律性。
研究现象之间依存关系的统计方法很多,如分组分析法、相关与回归分析法、指数因素分析法等,其中统计分组分析法是最基本的方法,是进行其它分析法的基础。
统计分组的上述三方面作用是分别从结构分组、类型分组和分析分级角度来说明的,它们不是彼此孤立的,而是相辅相成、相互补充、配合运用的。
三、统计分组的原则和方法
(一)分组标志的选择
分组标志即是分组时用来划分资料的标准。
如人口总体按文化程度分组,“文化程度”就是分组标志;工业企业按规模分组,“规模”就是分组标志。
正确选择分组标志,是保证统计分组作用得以实现的关键,是使统计研究获得正确结论的之前提。
正确选择分级标志,须考虑到以下几点:
1、根据研究问题的目的来选择分组标志。
任何事物都有许多标志,标志选择不当,分组结果必然不能正确反映总体的性质特征。
即使是同一个总体,由于研究的目的不同,选择的分组标志也不同。
这就要求我们根据统计研究的目的,采取不同的分组标志。
例如对工业企业进行研究,如果目的是要了解工业企业生产内部结构,那就以生产部门作为分组标志;如果目的是了解工业企业生产计划的完成情况,那就以工业企业计划完成的程度作为分组标志;如果目的在了解工业企业盈亏情况,那就以盈亏作为分组标志;如果目的变为了解工业生产技术力量状况,那就以职工技术等级、技术装备水平等为分级标志。
2、选择最能反映被研究现象本质特征的标志作为分组标志。
即,围绕统计研究的目的和任务,选择现象本质特征及内在联系的标志作为分组标志。
如要研究国民经济的现状、发展和平衡关系时,可按所有制分组、按国民经济部门分组等,这些分组都是最基本的分组或分类;分析我国职工构成,可按工作性质、劳动岗位把职工分为:
工人、学徒、工程技术人员、管理人员、服务人员、其它人员等,这正好能够反映我国职工的结构状况及其经济状况;生产领域按国民经济部门分为工业、农业、建筑业、交通运输业、商业等等。
按本质特征进行分组,对检查与分析经济活动的过程和结果,都具有重要意义。
3、要结合现象所处的具体历史条件或经济条件来选择分组标志。
社会经济现象随着时间、地点、条件的变化而变化,历史条件不同,事物特征也会有变化。
因此,随着历史条件的变化,分组标志也应作相应改变。
必须充分考虑被研究现象所处的具体历史条件,因为被研究现象的本质特征,在不同时间、地点、条件下表现不同。
如反映企业规模的标志很多,如生产能力、职工人数、固定资产价值、产值等,这就要根据不同部门、不同生产特点、生产条件来决定。
在技术不发达的条件下,用职工人数的多少来表示企业规模的大小比较恰当;在技术较发达、技术装备较高的条件下,要采用固定资产价值、生产能力等标志表示企业规模比较合适。
如研究工业企业生产规模将工业企业划分为特大型、大型、中型、小型,由于不同行业有不同的生产特点,不能用同一标准分组。
现行报表制度规定:
钢铁工业企业按“年产钢能力”及“固定资产原值”分组;电力工业企业按“装机容量”分组;棉纺织企业按“年产棉纱锭数”及“布机台数”分组。
可见,研究相同性质的问题,在不同的历史条件下,应选择不同的分组标志。
(二)分组标志的种类:
统计分组的标志分为数量标志和品质标志。
由于总体单位的标志有品质标志和数量标志两种,因此,分组标志也有品质标志和数量标志两种。
1、按品质标志进行分组,也就是按照反映事物质量属性的特征来分组。
情况有所不同,有的比较简单,各组标志表现的界限清楚,比如人口按“性别”分组,按“文化程度”分组等;有的则比较复杂,即个别现象品质标志的具体表现之间边缘不清,存在过渡状态,复杂的品质分组称为分类,比如,产品按“用途”分类,对于兼有两种用途的产品如何分类,工业生产按“部门”进行分类等。
在我国统计实践中,对重要的比较复杂的品质标志分类,往往编有标准的分类目标,统一规定的划分标准来统一分类口径。
如《主要商品分类》、《工业部门分类》、《工业产品分类》、《国民经济行业分类》、《经济类型分类》等。
2、按数量标志分组。
也就是按照反映事物数量差异的数量标志作为分组标志进行的分组。
如:
居民家庭按“人口数”、按“收入水平”分组,人口总体按“年龄”分组,工业企业总体按“产品产值”、“固定资产原值”分组。
按数量标志分组的目的是要通过数量差异来区分各组的不同类型和性质。
因此,必须根据统计研究任务和性质来确定数量标志的划分标准,通过正确划定数量差异来体现不同类型间的本质差别。
(三)统计分组方法
在进行统计分组时,由于采用的分组标志的多少不同,可分为简单分组与复合分组。
简单分组又称为单一分组,是将被研究的现象总体按一个标志进行的分组。
如将人口总体按“性别”分组。
复合分组是将被研究的总体按两个或两个以上的标志进行多层次的分组。
如工业企业按“所有制形式”和“性别”这两个标志来分组。
按所有制形式分组:
按性别分组:
国有企业男职工
女职工
集体企业男职工
女职工
外资企业男职工
女职工
私营企业男职工
女职工
复合分组比简单分组,能深入细致地说明问题,但是工作量大、复合分组的组数随标志的增加而增加,各组的单位数则随着组数的增加而减少,在组数过多时,总体单位分布过于分散,反而不利于揭示现实的内部构成和分布规律。
简单分组与复合分组的选用,要求根据统计研究的任务,以能充分发挥统计分组的作用为目的。
无论简单分组还是复合分组,都只能对社会经济现象从一个方面或几个方面进行观察和分析研究。
而社会现象是复杂的,需要对各方面进行观察和分析研究,以获得对事物全貌的认识,这通常需要采用一系列相互联系,相互补充的标志对现象进行多种分组。
第三节频数分布
一、频数分布概念和种类
(一)频数分布的概念
频数分布就是将总体中所有总体单位按一定的标志分成若干组,列出各组总体单位数,反映总体各单位在各组之间的分布状况,用以表明总体内部的构成。
频数分布又称为次数分布。
分布在各组的总体单位数,叫频数,又叫次数。
各组的频数(次数)与总频数(全部总体单位数)之比叫频率,表明各组单位数在总体中所占的比重。
将各组的频数或频率按照一定的顺序排列而成的数列,称为频数分布数列、简称分布数列,又称分配数列。
频数分布是统计整理的结果,是进行统计描述和统计分析的重要方法。
(二)频数分布数列的种类
根据分组标志性质的不同,频数分布数列分为品质分布数列(简称品质数列)和变量分布数列(简称变量数列)。
1、品质分布数列是指按品质标志分组后所形成的分布数列,用来反映具有不同属性的各组的次数在总体中的分布状况。
品质分布数列由各组名称和各组的频数(次数)或频率(次率)组成。
(如表3-1)
表3-1某班学生的性别构成表
性别
人数(人)
比重(%)
男
女
30
20
60%
40%
合计
50
100%
各组名称频数或次数频率或次率
2、变量分布数列是指按数量标志分组后所形成的分布数列,用来反映具有不同变量值的各组的次数在总体中的分布状况,变量分别数列由各组变量值与各组次数构成。
变量值是指分组标志不同的数量表现,在数列中代表各组(各组名称)。
(如表3-2)
表3-2某企业三月份工人日产量表
日产量(件)
工人人数(人)
比重(%)
3
10
8.7
4
15
13.0
5
30
26.1
6
40
34.8
7
20
17.4
合计
115
100.0
各组的变量值 频数或次数频率或次率
二、变量分布数列的种类及编制
(一)变量分布数列的种类
由于所掌握的调查资料状况及性质不同,按数列中每组变量值的多少及取值范围,变量分布数列可分为单项式变量数列和组距式变量数列。
1、单项式变量数列就是每一个组只有一个变量值的变量数列。
对于离散型变量,如果变量值变动范围较小,总体单位数又不太多时,适宜编单项式变量数列。
(如表3-2)
2、组距式变量数列是指将变量的取值范围划分为或若干区间,以一段变动区间为一个组的数列称为组距式数列。
连续型变量以及变量值变动较大、总体单位数较多的离散型变量通常采用组距式变量数列。
(如表3-3)
在组距式变量数列中,各组两端的数值称为组限,其中最大的数值称为上限,最小的数值称为下限。
如表3—3中第二组的两个变量值5000、6000就是这一组的组限,6000为上限,5000为下限。
各组上下限之间的距离(即两者之差)为组距,如上例中的组距为1000=(6000-5000)元。
变量数列中最大变量与最小变量值之差,称为全距,用英语字母R表示。
各组上下限的中点值称为组中值,组中值=(上限+下限)÷2,如第二组的组中值为:
(6000+5000)÷2=5500元。
在各组总体单位均匀分布或在组中值两侧对称分布的条件下,可以以各组的中值作为各组的代表值,由于事实上各组单位的分布不一定满足以上条件,因而组中值仅仅是各组总体单位一般水平的近似值。
在组距数列中,若首末两组的上下限齐全的数列称为闭口数列(如表3-4)。
若首组缺下限或末组缺上限的数列称为开口数列如表3-3中,第一组只有上限5000元,最后一组只有下限15000元。
上限或下限不齐的组称为开口组,如表3-3中的第一组和最后一组。
开口组的组距以相邻的组距近似代替。
第一组组距为1000元,最后一组组距为1500元。
开口组的组中值=(上限-邻组组距)/2(缺下限),或=(下限+邻组组距)/2(缺上限)。
组距数列中各组的组距既可以相等,也可以不相等,各组组距均相等的组距数列称为等距数列(如表3–4),各组距不上等的组数列称为异距数列(如表3–3)。
表3-3某县1999年家庭平均收入表
家庭年均收入(元)
户数(户)
比重(%)
5000元以下
900
6.7
5000—6000
2510
18.8
6000—7000
4360
32.6
7000—8000
2890
21.6
8000—9000
1440
10.8
9000—15000
650
4.8
15000元以上
630
4.7
合计
13380
100.0
各组的变量值频数或次数频率或次率
(二)组距数列的编制
在编制组距数列的过程中,应根据统计研究的目的来确定作等距分组编等距数列,还是作异距分组编异距数列。
如果分组的目的是为了直接比较各组次数分布或分析对比各组的指标,即可采用等距分组,编制等距数列;如果分组的目的在于从数量上区分性质不同的总体,或者有某一特定的目的要求,则应采用异距分组,编制异距数列。
另外要正确选择分组标志,要合理确定组数、分组界限。
下面以等距式数列的编制,来说明组距数列的编制。
例如,按百分制记分,某班30位学生《统计学》考试成绩(分)资料如下:
92857851638860718770
56978068777564728987
98819583798376897286
第一步:
将上述资料(成绩:
分)按数值的大小顺序排列如下:
51566063646870717272
75767778798081838385
86878788898992959798
经过初步加工,从顺序化的变量值,可以观察到全距和变量值分布的集中趋势,全距=98-51=47分。
从变量的排列中看出成绩的分布集中在60—90分之间。
第二步:
确定组数和组距。
编制组距数列必须要确定组距和组数,使分组的结果尽可能反映出总体分布的特点。
组数的确定和组距有密切联系。
组距大则组数少,组距小则组数就多,两者成反比例的变化。
组数和组距的确定,一般是先确定组数,再确定组距。
组数的确定应该全面分析所反映现象的内容,变量值分布趋势。
如上例在60分的数量界限的基础上分为不及格、及格、中等、良好、优秀五个类型,即确定分为5组,则组距(i)=R/K(R为全距,K为组数),即组距=(98-51)/5=9.4,为了计算方便,组距宜取5的倍数,因此组距为10。
在具体确定组距时,应使组距能体现组内资料的同质性和组与组资料的差异性。
第三步:
确定组限与组中值。
确定组限与组中值应遵守以下原则:
①在分布比较集中的变量值确立组距的中心位置,然后再根据组距的大小确定上、下限。
尽可能使总体各单位的标志值在组内分布均匀,以满足组中值计算的假定条件。
②确定组限要遵守一个基本原则,即按这样的组限分组后,标志值在各组的变动,能反映事物的质的变化。
也就是要使同质的单位在同一组内。
第一组的下限不能大于最小变量值,应小于最小变量值,但不宜小得过多。
最末一组的上限不得小于最大变量值,应大于最大变量值,但不能过大。
在选取各组上、下限时,也应尽可能使组中值恰为整数,以减少计算工作量。
由于变量分为连续型变量与离散型变量,因此,组限的确定也有所不同。
对于连续型变量的分组,由于相邻两组的上限与下限通常以同一个数值来表示,每一组的上限同时是下一组的下限,为了避免计算总体单位分配数值的混乱,一般原则是把到达上限值的单位数计入下一组内,一般称为“上组限不在内”原则。
如前例50—60分,满了60分,应计入下一组60-70分这一组内。
这样做,不仅能使计算方法统一,而且这些数字也往往正是事物发生质变的量的界限,就拿考分来说,事实上是成绩及格与不及格的数量界限;对于离散型变量分组,则相邻两组的上限与下限通常是以两个确定的不同整数值来表示,相邻两组的上下限可以不重合。
例如,企业按工人数分组可分为以下各级:
200人以下、201~400人、401~600人、601~1000人、1000人以上,这是一般的表示方法。
也可以按“上组限不在内”的原则写为重叠式组限,如上面的工人人数分组,也可写成:
200人以下、200~400人、400~600人、600~1000人、1000人以上等。
第四步:
计算频数,编制变量数列。
各组的组限确定后,就应根据资料计算各组变量值所包含的总体单位数,即频数或频率。
现将30个学生考试成绩的资料编制变量数列(如表3-4):
(三)频数分布的表示法:
描述总体各单位在总体中的分布情况可以编制变量分布数列,以统计表的形式来表现,也可以通过频数分布图来表现。
1、累计次数分布
将变量数列各组的次数和比率逐组累计相加而成累计次数分布,它表明总体在某一标志值的某一水平上下总共包含
表3-4某班学生《统计学》考试成绩表
成绩(分)
人数
频数(人)
频率(%)
50——60
2
6.7
60——70
4
13.3
70——80
9
30.0
80——90
11
36.7
90—100
4
13.3
合计
30
100.0
的总体次数和比率。
编制变量数列,以统计表来表示频数分布,仅只能反映每一组的频数,如上表中的70—80分的学生有9人,但成绩不到80分的有几人,占全班学生的比例是多少?
达到80分以上的有几人,占全体学生人数的比例是多少?
则需要在编制的变量数列基础上加工,编制累计频数表,分别就频数和频率进行累计。
累计频数和频率有以下两种计算方法,例如表3-5的累计频数表。
(1)向上累计。
向上累计,又称以下累计,或称较小制累计,是将各级次数和比率,由变量值小的组向变量值大的组逐组累计。
每组累计的频数、频率表明各组上限以下总共所包含的总体次数和比率有多少。
即小于该组上限的频数有多少,如表3—5中第三组的累计频数为15人,表明全班70分以下的有15人,占全班人数的50%。
(2)向下累计,即是由变量值大的组向变量值小的就频数进行累计。
每组的累计频数(频率)表明大于该组下限的频数(频率)有多少,如上表中,第三组的向下累计频数为24人,表明全班70分以上的有24人,占总人数的80%。
将各个累计频数落在各组的下限,从末组的上限开始连接。
由此可见,将频数、频率进行累计,可以概括地反映出总体各单位的分布特征。
表3-5某班学生《统计学》考试成绩分布表
成绩(分)
人数
向上累计
向下累计
频数(人)
频率(%)
频数(人)
频率(%)
频数(人)
频率(%)
50-60
2
6.7
2
6.7
30
100.0
60-70
4
13.3
6
20.0
28
93.3
70-80
9
30.0
15
50.0
24
80.0
80-90
11
36.7
26
86.7
15
50.0
90-100
4
13.3
30
100.0
4
13.3
合计
30
100.0
—
—
—
—
2、频数分布图
用统计图形来表示频数分布,常用的有直方图,折线图和曲线图三种。
(1)直方图:
是表示频数分布的最基本的一种图形,直方图中的横轴表示各组的组限,纵轴表示频数(频数标在左方、频率标在右方),然后按分布在各组的频数或频率确定各组在纵轴上的坐标,并依据各组组距的宽度与频数(频率)的高度绘制成直方图。
据表3–5的资料所绘制直方图(如图3-1):
说明:
①直方图的纵轴常从零开始,横轴可以从任何数字开
图3-1
始,也可以选择任何合适的位置开始。
②若是不等距数列,在绘制图形时,应将不等距变换为等距。
(2)折线图:
连接直方图每个长方形顶端中点(即组中值)的连线。
累计频数图仍是以横坐标代表变量值,纵坐标代表频数。
向上累计频数以第一组下限为起点,将各组的累计频数落在各组的上限。
因该组的频数表示小于该组上限的频数有多少,因此从下限开始绘制。
向下累计频数以最后一组向上为起点,因该组的频数表示大于该组下限的频数有多少,因此从上限开始绘制(如图3-2,图3-3)
图3-2
(1)
(2)
图3-3
(1)向上累计图;
(2)向下累计图
(3)曲线图:
当变量值趋于无限即组数趋于无限多时,折线图的一种极限描绘,是一种理论曲线。
(如图3-4、3-5、3-6)
3、频数分布的主要类型(曲线图)
各种不同性质的社会经济现象不同的频数分布,主要有三种类型:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 知识点