数据分析建模复习要点.docx
- 文档编号:8957648
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:25
- 大小:624.91KB
数据分析建模复习要点.docx
《数据分析建模复习要点.docx》由会员分享,可在线阅读,更多相关《数据分析建模复习要点.docx(25页珍藏版)》请在冰豆网上搜索。
数据分析建模复习要点
第一章
统计学的研究对象和性质
统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识
统计学由一套收集和处理统计数据的方法组成,这些方法来源于对统计数据的研究,目的也在于对统计数据研究;统计数据不用统计方法去分析,则仅仅是一组数据,无法得到任何有益的结论。
一、统计学的要素和内容
1统计总体与总体单位
凡客观存在的,在某些相同性质基础上综合起来的许多个别事物的全体,称为统计总体,简称总体。
组成总体的个体,称为总体单位或样本。
例1:
全国或某地区全部工业企业可构成一(统计)总体(每个企业都从事工业生产经营活动,经济职能相同,具有同质性)。
每个工业企业即为总体单位。
同质性是构成统计总体的基础。
总体单位的总个数,称为总体单位数或样本数(常用N表示)。
根据总体中包含的单位数的范围可将统计总体分为有限总体(总体中包含的单位数是有限的)和无限总体(指总体数无限或总体范围无法确定)。
进行抽样调查或研究时,抽取的部分单位组成的总体又称为样本总体,也简称为样本。
样本都是有限总体,其单位数(也称为样本容量)常用n表示。
注意:
总体与总体单位不是固定不变的,它们可根据研究的目的与任务的不同,以及条件的变化,其地位或位置是可以变换的。
2标志与指标
标志:
标志是说明总体单位某种特征的名称(variable)。
例3:
某工业企业全体职工形成的总体,每个职工这一总体单位都有性别、文化程度、年龄、身高、体重等不同的标志;
某地区所有工业企业组成的总体中,每个企业这一总体单位都有所有制形式、职工人数、生产总值等不同标志。
标志按其所反映的特征性质的不同,可分为品质标志与数量标志。
品质标志:
表明事物的质或属性,这一特征无法用数值表示。
(上述例中职工的性别、文程度;企业的所有制形式;股票例中的股票交易所)
数量标志:
表明事物的量或值。
(如职工的年龄、企业的产值、股票年销售量)
注:
品质标志值可以是数字,但却不具数值的含义,因此不能对其进行算术运算,或其算术运算无意义(如某地的车牌号,电话号码等)
标志的具体表现为标志值。
指标
统计指标:
统计指标是说明总体特征的范畴或名称。
它反映某事物现象总体的质的规定性与量的确定性。
指标的具体表现称为指标的数值。
统计指标,一般包括5个部分,即:
指标的名称、(统计的)时间、范围(空间)、指标数值及相应的计量单位。
统计指标的种类
根据指标反映内容的不同,可以分为数量指标和质量指标
按其表现形式分为总量指标、相对指标和平均指标
指标与标志的区别与联系
区别:
指标是说明总体特征的,标志则说明总体单位特征;
统计指标都是用数量表示的,而统计标志则不尽然。
联系
有许多统计指标的数值是从总体单位的数量标志值汇总而来。
如:
某省粮食总产量是从该省各地区粮食总产量汇总而来;某工业行业增加值是由该行业所有企业增加值汇总而来。
指标与数量标志之间存在变换关系。
由于研究目的不同,当原来的统计总体变成总体单位时,相应的统计指标也就变成数量标志了,反之亦然。
如:
某地区某工业行业增加值是研究该地区该工业行业总体时的统计指标;而又是研究该地区全部工业增加值的一个数量标志。
统计指标体系
3变异与变量
统计中的标志和指标都是可变的,即标志和指标的具体表现可不相同,这种差别称为变异,有属性的变异和数值的变异。
具有变异的标志也叫可变标志。
用数量表示的可变标志和指标也叫变量。
变异是普遍存在的,这是统计的前提,有变异才有统计存在的必要。
变量
例5:
研究某地区工业企业,每个工业企业拥有的固定资产可能不同,则工业企业的固定资产就是一个可变标志,也是一个变量。
而该地区所有工业企业的固定资产总和则为一指标,它随时间(年)而变化,也是一变量。
\
变量按其值是否连续出现,可分为连续变量与离散变量。
离散变量的变量值只能取整数,且只能通过计数的方法取得(人数、企业数、机器台数等)
连续变量的变量值是连续的,相邻两个值之间可以取任意数值。
(人的身高、体重,工厂的产值等)
变量按其性质的不同,可分为确定性变量与随机性变量。
确定性变量,指其变化方向及其结果变量值可以确定;
如:
圆的面积,一旦半径确定下来,则面积就可唯一确定
随机性变量,指其取值不确定,有一定的偶然性。
如:
粮食产量与施肥量的关系,施肥量确定,但粮食产量不一定就能确定下来
4.样本
样本:
是从总体中随机抽取部分单位所构成的集合体。
样本特点:
必须取自所要研究的总体;
从一个总体中可抽取许多个样本,这些样本的数值是不同的,也即存在着随机的差异;
样本必须具有代表性;
样本必须具有客观性,也即排除主观因素的影响
推断:
就是以样本信息为依据对总体的某些特征作出预测和估计。
推断的可靠性:
根据随机抽取的样本对总体推断所得出的结果的可靠程度,也称置信度。
统计数据的测量尺度
一般分为4类:
定类尺度、定序尺度、定距尺度、和定比尺度等
四个测定层次的比较
二.描述统计学与推断统计
描述统计
内容
搜集数据
整理数据
展示数据
目的
描述数据特征
找出数据的基本规律
描述统计学:
研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。
推断统计
当被观察事物数据总体很大(总体),由于时间、成本等因素,只能从中抽出一部分数据(样本)。
通过对该部分数据(样本)特征进行分析,并从中推断事物总体的数量特征,这时进行的是统计推断。
推断统计学:
研究如何通过样本数据去推断总体数量特征。
是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断
内容
参数估计
假设检验
目的
对总体特征作出推断
例2:
高亮度灯泡平均使用寿命
某灯泡厂使用一种新灯丝生产灯泡以延长灯泡使用寿命。
问题:
如何知道该新灯丝的平均使用寿命?
回答:
需进行统计推断
总体:
所有用新灯丝生产的灯泡
样本:
200个随机抽检的灯泡
数据收集:
每个被检灯泡(样本)照明的小时数
如果该200个被检灯泡的平均照明时间为76小时,则可推断该新灯丝所生产灯泡的平均寿命为76小时。
描述统计与推断统计
如果收集到的是总体数据(如普查数据),经过描述统计往往能达到认识总体数量规律的目的;如果获得的只是样本数据,则必须应用概率论理论并根据样本信息对总体规律进行科学的推断。
描述统计是整个统计学的基础,推断统计是现代统计学的主要内容;
由于对现实问题的研究,往往只能获得样本数据,因此,推断统计在现代统计学中的地位越来越重要,已成为统计学的核心内容;
三.统计学与数学的关系
统计学与数学有密切联系,但又有
本质区别:
数学为统计理论和统计方法发展提供了数学基础;
统计学的主要特征是研究数据。
联系:
统计学与数学一样,都是研究数量规律的,都是与数字打交道;
统计方法与数学方法一样,不能独立地直接研究和探索客观现象的规律,而是给各学科提供了一种研究和探索客观规律的数量研究方法;
区别:
数学研究的是抽象的数量规律,统计学研究的是具体的、实际现象的数量规律;
数学研究的是没有量纲或单位的抽象数,而统计学研究的是有具体实物或计量单位数据;
统计学与数学研究中所使用的逻辑方法不同,数学研究使用是纯粹的演绎方法,而统计学则是演绎与归纳相结合,占主导地位是归纳法。
统计学只有与实际相结合,收集实际数据,经过大量的归纳才能得出有益的结论。
第二章统计数据的搜集
一.数据的计量尺度
1定类尺度
计量层次最低
对事物进行平行的分类
各类别可以指定数字代码表示
使用时必须符合类别穷尽和互斥的要求
数据表现为“类别”
具有=或的数学特性
2定序尺度
对事物分类的同时给出各类别的顺序
比定类尺度精确
未测量出类别之间的准确差值
数据表现为“类别”,但有序
具有>或<的数学特性
3定距尺度
对事物的准确测度
比定序尺度精确
数据表现为“数值”
没有绝对零点
具有+或-的数学特性
4定比尺度
对事物的准确测度
与定距尺度处于同一层次
数据表现为“数值”
有绝对零点
具有乘或除的数学特性
二.统计方案中的设计方法
三数据的搜集方法
四.调查方案设计
第三章统计数据的整理与显示
一.数据的审核、筛选与排序
数据的审核
发现数据中的错误
数据的筛选
找出符合条件的数据
数据排序
发现数据的基本特征
升序和降序
1.数据的审核
审核的内容(原始数据)
完整性审核
检查应调查的单位或个体是否有遗漏
所有的调查项目或指标是否填写齐全
准确性审核
检查数据是否真实反映客观实际情况,内容是否符合实际
检查数据是否有错误,计算是否正确等
审核数据准确性的方法
逻辑检查
从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象
主要用于对定类数据和定序数据的审核
计算检查
检查调查表中的各项数据在计算结果和计算方法上有无错误
主要用于对定距和定比数据的审核
数据的审核(第二手数据)
适用性审核
弄清楚数据的来源、数据的口径以及有关的背景材料
确定这些数据是否符合自己分析研究的需要
时效性审核
应尽可能使用最新的统计数据
确认是否必要做进一步的加工整理
二.数据的筛选
对审核过程中发现的错误应尽可能予以纠正
原因:
当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选
数据筛选的内容包括:
将某些不符合要求的数据或有明显错误的数据予以剔除
将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出
三.数据的排序
要点
按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索
排序有助于对数据检查纠错,以及为重新归类或分组等提供依据
在某些场合,排序本身就是分析的目的之一
排序可借助于计算机完成
方法
定类数据的排序
字母型数据,排序有升序降序之分,但习惯上用升序
汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分
定距和定比数据的排序
递增排序:
设一组数据为X1,X2,…,XN,递增排序后可表示为:
X
(1) (2)<… 递减排序可表示为: X (1)>X (2)>…>X(N) 四.定类数据的整理与显示 要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的 对定类数据和定序数据主要是做分类整理 对定距数据和定比数据则主要是做分组整理 适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据 定类数据的整理 列出各类别 计算各类别的频数 制作频数分布表 用图形显示数据 定类数据的图示— 条形图 Ø条形图是用宽度相同的条形的高度或长短来表示数据变动的图形 Ø条形图有单式、复式等形式 Ø在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率 Ø绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图 Ø Ø Ø 圆形图(圆形图的制作) 也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形 主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用 在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的 例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为3600×25.5%=91.80,其余类 五.定序数据的整理与显示 1定序数据的整理(可计算的指标) 1.累计频数: 将各类别的频数逐级累加 2.累计频率: 将各类别的频率(百分比)逐级累加 定类数据的图示 环形图 (环形图的制作) 环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示 环形图与圆形图类似,但又有区别 圆形图只能显示一个总体各部分所占的比例 环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环 环形图可用于进行比较研究 环形图可用于展示定类和定序的数据 六.数值型数据的整理与显示 编制频数分布表的步骤 分组方法 ⏹组距分组 Ø将变量值的一个区间作为一组 Ø适合于连续变量 Ø适合于变量值较多的情况 Ø必须遵循“不重不漏”的原则 Ø可采用等距分组,也可采用不等距分组 Ø 确定组数: 组数的确定应以能够显示数据的分布特征和规律为目的。 在实际分组时,可以按Sturges提出的经验公式来确定组数K Ø确定各组的组距: 组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 ◆组距=(最大值-最小值)÷组数 Ø组距分组(几个概念) ✧1.下限: 一个组的最小值 ✧2.上限: 一个组的最大值 ✧3.组距: 上限与下限之差 ✧4.组中值: 下限与上限之间的中点值 等距分组 各组频数的分布不受组距大小的影响 可直接根据绝对频数来观察频数分布的特征和规律 不等距分组 各组频数的分布受组距大小不同的影响 各组绝对频数的多少不能反映频数分布的实际状况 需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况 频数分布的类型 七.统计表 统计表的设计 Ø要合理安排统计表的结构 Ø总标题内容应满足3W要求 Ø数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明 Ø表中的上下两条横线一般用粗线,其他线用细线 Ø通常情况下,统计表的左右两边不封口 Ø表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 Ø对于没有数字的表格单元,一般用“—”表示 Ø必要时可在表的下方加上注释 第四章数据分布特征的测度 对统计数据进行排序、分组、整理,是对数据的分布特征进行描述的一个基本方面,为进一步掌握数据分布特征及其变化规律,以进行深入的分析,还需找出反映数据分布特征的各个代表值。 统计学中刻划数据分布特征的代表有三: 数据分布的集中趋势、数据分布的离散程度和数据分布的峰度和偏态。 第一节集中趋势的测度 一.定类数据: 众数 二.定序数据: 中位数和分位数 三.定距和定比数据: 均值 四.众数、中位数和均值的比较 集中趋势 Ø一组数据向其中心值靠拢的倾向和程度 Ø测度集中趋势就是寻找数据一般水平的代表值或中心值 Ø不同类型的数据用不同的集中趋势测度值 Ø低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据 Ø选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定 1.众数 Ø集中趋势的测度值之一 Ø出现次数最多的变量值 Ø不受极端值的影响 Ø可能没有众数或有几个众数 Ø主要用于定类数据,也可用于定序数据和数值型数据 ●注意: 1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。 在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助 2定序数据: 中位数和分位数 中位数 集中趋势的测度值之一 中位数是一组数据按大小排序后,处于正中间位置上的变量值。 Ø不受极端值的影响 Ø主要用于定序数据,也可用数值型数据,但不能用于定类数据 Ø各变量值与中位数的离差绝对值之和最小,即 中位数(位置的确定)(数值型未分组数据) 如果数据个数为奇数,则中位数恰为处于中间位置的数: 2)如果数据个数为偶数,则为中间位置两个数的平均 组距分组数据: 由于均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时用中位数代替均值则更有意义。 中位数(位置的确定)(数值型分组数据) 3四分位数(概念要点) ⏹集中趋势的测度值之一 ⏹排序后处于25%和75%位置上的值 ⏹.不受极端值的影响 ⏹主要用于定序数据,也可用于数值型数据,但不能用于定类数据 4定距和定比数据: 均值 均值(概念要点) Ø均值就是一组数据的平均值,用来测度中心位置。 基本形式是标志值总量/单位数总量. Ø集中趋势的测度值之一 Ø最常用的测度值 Ø一组数据的均衡点所在 Ø易受极端值的影响 Ø用于数值型数据,不能用于定类数据和定序数据 均值(数学性质) 5众数、中位数和均值的应用场合 众数、中位数和均值都是对数据集中趋势的测度, 1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。 2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。 3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。 4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。 5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。 计算和应用平均数应该注意的主要问题 平均数必须用于同质总体 用组平均数补充说明总体平均数 用频数分布补充说明平均数 平均分析与具体分析相结合 离中趋势 Ø数据分布的另一个重要特征 Ø离中趋势的各测度值是对数据离散程度所作的描述 Ø反映各变量值远离其中心值的程度,因此也称为离中趋势 Ø从另一个侧面说明了集中趋势测度值的代表程度 Ø不同类型的数据有不同的离散程度测度值 异众比率 四分位差 Ø离散程度的测度值之一 Ø也称为内距或四分间距 Ø上四分位数与下四分位数之差 ØQD=QU-QL Ø反映了中间50%数据的离散程度 Ø不受极端值的影响 Ø用于衡量中位数的代表性 方差和标准差定距和定比数据:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 建模 复习 要点