统计学教案第3章统计数据的整理与显示.docx
- 文档编号:2835489
- 上传时间:2022-11-15
- 格式:DOCX
- 页数:27
- 大小:1,007.42KB
统计学教案第3章统计数据的整理与显示.docx
《统计学教案第3章统计数据的整理与显示.docx》由会员分享,可在线阅读,更多相关《统计学教案第3章统计数据的整理与显示.docx(27页珍藏版)》请在冰豆网上搜索。
统计学教案第3章统计数据的整理与显示
统计学
授课题目
第3章统计数据的整理与显示
课次
第4-5次
授课方式
讲授
课时安排
第4教学周-第5教学周,共3课时
教学目的:
过本章的学习,要求明确统计整理的意义、内容和步骤;掌握统计分组的涵义及作用、正确选择分组标志的原则及分组方法;掌握分配数列的概念、种类、编制方法;熟悉统计表的结构及设计要求。
教学重点及难点提示:
重点为统计分组的概念、作用;正确选择分组标志的原则、方法;分配数列的编制。
难点为分组标志的选择和次数分布的特征。
案例导入:
我国人口老龄化趋势不可逆转
第1节数据整理的意义和程序
一、数据整理的意义
通过统计调查,我们得到许多原始数据,但这些数据是反映总体单位特征的、分散的、不系统的,为此必须对数据进行整理,使之由“个别”上升到“一般”,成为既便于储存,又便于传递的反映总体特征的资料。
统计数据的整理是统计分析的前提,关系到整个统计工作的质量,因此,必须十分重视统计数据的整理。
2、数据整理的程序
统计数据整理的主要内容有:
数据预处理、数据的分组(类)、汇总、整理后的数据显示。
第二节数据预处理
一、数据的审核
在分类汇总之前,必须对原始数据进行认真的审核。
审核的内容是数据的完整性和准确性。
所谓完整性审核,一是审核各调查单位的调查表或调查问卷是否汇集齐全,比如,已对500个学生分别发放了调查问卷,要审核是否全部回收,如果回收不全要及时催收;若无法催收,要清点已回收的数量;若回收的数量不能满足要求,必须进行补充调查。
其次,要审核各份调查表或调查问卷的项目是否填写齐全。
若填写不全要补充完整;若一些缺失的重要项目无法补充填写,视为无效调查表或调查问卷对其剔除。
所谓准确性审核,就是审核各调查项目的填写内容是否准确。
数据的准确性审核主要采用逻辑检查和计算检查。
逻辑检查就是根据项目之间存在的内在联系,从逻辑上或常识上判断其合理性,以确定其正确与否。
计算检查就是根据有些项目之间数量上的依存关系,通过简单的计算,检查数据有无错误。
对于二手数据,应该弄清楚数据的来源、数据的口径、数据的时效性以及有关的背景材料,以便确定这些数据是否符合自己的需要,是否需要重新加工整理。
二、数据的录入
在对数据审核基础上,应该将调查所得的原始数据录入计算机形成数据文件,以便进行分组与汇总。
用计算机Excel录入数据的文件格式为:
第一列为各总体单位(或调查单位)的名称或编号,以后各列分别为调查所得的各变量的具体数据。
应该注意的是,必须标示每列变量的名称——标志。
【例3-1】用单一表对重庆市5个企业2006年的销售收入等进行了调查,得到如下资料(单位:
万元),将其录入到计算机Excel表格中。
企业名称销售收入利税资产负债
红星公司10505152142
嘉林公司360019420290
红光公司375040670370
白云公司40055435
渝乐公司38036033
录入后的文件格式如图3-1。
图3-1重庆市5个企业2006年销售收入等数据的文件格式
二、数据的筛选与排序
(一)数据的筛选
筛选的目的主要有两个,一是对原始资料做进一步的准确性检查,将有错误的或不合要求的或录入有误的数据筛选出来,并根据具体情况给予修正或剔除。
二是将符合某种条件的数据筛选出来。
【例3-2】根据以上的数据文件,筛选出重庆市①销售收入3000万元以上的企业;②销售收入3000万元、利税20万元且资产500万元以上的企业。
筛选出销售收入3000万元以上企业的计算机操作步骤是:
解:
第1步:
顺次点击【销售收入】单元格、【数据】菜单、【筛选】和【自动筛选】命令,见图3-2。
图3-2Excel自动筛选命令
第2步:
顺次点击【销售收入】标志的下拉箭头、【自定义】,见图3-3。
图3-3选择“自定义”命令
第3步:
点击对话框中的下拉箭头,选择“大于或等于”,并在其后的空格中输入3000,见图3-4。
单击【确定】,即可得到图3-5所示的结果。
图3-4填写“自定义自动筛选方式”对话框
图3-5自动筛选结果
要筛选出销售收入3000万元、利税20万元且资产500万元以上的企业,由于筛选条件大于两个,需要进行高级筛选。
进行高级筛选时,必须在数据文件之前预留三行,输入筛选条件,见图3-6。
图3-6输入高级筛选条件
顺次点击【数据】、【筛选】、【高级筛选】,填写对话框。
在高级筛选对话框的【数据区域】、【条件区域】对应的空格中分别引用A4:
E9、A1:
D2,见图3-7。
单击“确定”,即可得到筛选的结果。
图3-7填写高级筛选对话框
(二)数据的排序
从某种意义上说,数据的排序就是对资料的初步分析。
因为通过数据的排序,可以对现象的发展趋势和分布状况有一个初步的认识,可以为统计分组提供有用的信息。
有时,研究者就是要认识变量值最大的几个总体单位,比如,要认识某地纳税最多的几个企业。
通过数据的排序,还可以发现极端值偏离一组数据的程度,从而对输入数据的正确性做出大致的判断。
用Excel对数值型数据降序或升序排序,即可以用工具栏的图标
进行,也可以用【数据】菜单中的【排序】对话框完成;若要按字母顺序、笔画多少进行排序,则必须用【数据】菜单中的【排序】对话框完成。
第三节数据的分组
一、统计分组的含义与原则
(一)统计分组的含义
根据统计研究的目的和研究对象的特点,按照一个或几个标志,将被研究的统计总体划分为几个不同的组成部分,称为统计分组。
任何统计总体都是由具有某种共同性质的许多个别单位所组成,这些个别单位除了它们的共性之外,在其它方面的特征各不相同。
为了深刻认识总体的全貌,就需要把总体的全部单位按一定标志划分为不同的组成部分。
统计分组实际上是对总体进行“分”与“合”的过程。
所谓“分”,就是将总体划分为几个不同的组成部分,“合”就是将性质相近的总体单位合并在一组。
比如,按文化程度标志把被调查者分为不识字或识字很少、初中、高中、大学及以上几个组,就是把各个被调查者按照文化程度的差异分到不同的组,即为“分”;把具有相同文化程度的人归并到同一个组,体现了“合”。
通过统计分组,可以划分社会经济现象的类型,可以研究现象的内部结构,也可以揭示某一现象与另一现象之间的依存关系。
统计分组既是一种整理数据的方法,也是一种常用的统计分析方法。
在分组时,对研究总体可以按一个标志进行分组,从一个方面说明和反映事物的分布状况和内部结构,这种分组叫简单分组。
比如,对某一人口总体按年龄可以分为20岁以下、20-35岁、35-55岁、55-65岁几个组。
在许多场合,要用两个或两个以上的标志对总体进行分组,即先按一个标志分组,在此基础上再按第二个标志分组,又再层叠地按第三个标志分组等,它可以从多方面反映事物的分布和内部结构,这种分组叫做复合分组。
比如,一定时期的新增价值按物质生产部门划分为农业、工业、建筑业、商业和邮电通讯业,在此基础上,对各个组又按一定的标志分组,比如农业,可进一步分为种植业、养殖业、林业、渔业,这种分组可以进一步揭示新增价值的构成。
(二)统计分组的原则
统计分组必须遵循两个基本的原则,这就是穷尽原则和互斥原则,或不重不漏的原则。
所谓穷尽原则,就是在分组时,必须使每一个总体单位都可以归属于某一组,而不能让任何总体单位遗漏。
所谓互斥原则,就是在分组时,必须使总体的各个单位只能归属于一个组,而不能同时或可能同时归属于两个及两个以上的组。
比如,把被调查者按从事的工作不同,分为企业工作人员、企业管理人员、科教文卫工作人员、个体从业人员等几个组,若某被调查者是企业的销售经理,那么,他既可以归属于企业工作人员,也可以归属于企业管理人员,这种分组不满足互斥原则。
二、非数值型数据的统计分组
可以对非数值型数据即分类数据或顺序数据分组,也可以对数值型数据分组。
分组数据的性质不同,进行统计分组时的处理方法也不完全相同。
对非数值型数据分组也称为分类。
分类数据和顺序数据是对事物性质属性的描述,在分类的时候,二者的区别在于:
按分类数据分组可以不考虑类别之间的顺序,而按顺序数据分组则必须按照一定的顺序排列所分的类别。
有些现象的属性界限比较明确,且类别不多,按照这种标志分组就比较容易。
比如,人口按性别、文化程度、婚否状况分组,学生按照所在院系的分组等。
分组时,列出这些标志的各个类别,按类别汇总即可。
有些现象的品质属性界限比较模糊,存在交叉过渡状态,按照这种标志分组就比较困难。
比如,从业人员按行业分组,若某人在高校从事校办工厂的工作,应归属于教育行业还是工业?
又如人口按居住地分为城镇与乡村的分组,对于居住在城镇乡村过渡地带的居民如何分类?
对于这一类问题,需研究制定统一的分类标准,为统计分组提供统一的依据。
在实际工作中为了方便和统一,各国都制定了适合一般情况的标准分类目录,如我国的《国民经济行业分类》、《三次产业划分的规定》、《公有和非公有控股经济的分类办法》等,联合国为便于各国的国际比较,还制定了国际通行的有关分类标准。
三、数值型数据的分组
数值型数据分组就是要通过数值的不同来反映事物性质的差异。
数值型数据分组有单项式分组和组距式分组。
单项式分组就是一一列举有限的变量值,用一个变量值作为一个组的分组形式。
比如,对被调查住户按家庭就业人数分组,可分为:
0个、1个、2个、3个等四个组。
单项式分组适合于离散型变量并且变动范围不大情形,因为只有这种情形才可能一一列举有限的变量值。
而对变动范围较大的离散型变量,若一一列举所有的变量值,将导致分组太多,每组的单位数太少,难以反映总体的特征,从而失去分组的意义;对于连续型变量,不可能一一列举所有的变量值,所以不适合进行单项式分组。
组距式分组就是将变量值依次划分为几个区间,每个区间作为一个组,再将总体各单位按变量值的大小分别归并于相应的某一个组的分组形式。
比如,对被调查住户按月人均收入的多少分为0-500元、500-800元、800-1500元、1500-3000元、3000元以上几个组。
组距式分组适合于连续型变量或变动范围较大的离散型变量。
组距式分组中,每一个组的最大值和最小值分别称为上限和下限,统称为组限;待分组数据中的最大值与最小值之差称为全距;各组的上限与下限之差为组距;上限和下限之间的中点数值称为组中值,其计算公式为:
组距式分组要确定并考虑组距、组数、组限、组中值等问题。
组距式分组的步骤是:
(一)确定组距与组数
组距与组数互为消长,在全距一定的情况下,若组数很多,则必然组距较小,反之,若组数少,则必然组距较大。
在分组时,应避免组距过大或过小,因为当组距过大以至组数过少时,则可能将一些性质不同的单位归并到同一组,不能充分显示总体的特征;当组距过小以至组数过多时,则可能把性质相同或相近的单位分散到不同的组,也不能很好地显示总体的特征。
比如对学生按考试成绩分为0-60分、60-100分,显然分组过少,不能充分揭示学生考试成绩的差异;反之,分为0-10、10-20、20-30、……等若干组,则分组过多,将一些性质相近的分数值分散到不同的组,也不便于反映考试成绩的分布。
组距式分组是先确定组距还是先确定组数?
组数应为多少、组距应取多大?
由于面临的社会经济现象不同,分析研究的目的不同,因此不能一概而论。
应根据研究者的经验、研究对象的性质特征和研究目的来确定,也可以在以前分组的基础上做适当的调整。
组距式分组有等距分组和异距分组两种。
若每组的组距完全相同,称为等距分组,若各组组距不完全相同,称为异距分组。
一般来说,变量值分布比较均匀的情况下,适宜等距式分组。
等距式分组有很多好处,它便于绘制统计图,便于进行一些运算。
若变量值的分布不均匀,适宜于异距分组,即:
在变量值比较密集的区间取较小的组距,在分布比较稀疏的区间取较大的组距。
(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 教案 统计数据 整理 显示