统计基础理论及相关知识.docx
- 文档编号:10997496
- 上传时间:2023-02-24
- 格式:DOCX
- 页数:38
- 大小:95.77KB
统计基础理论及相关知识.docx
《统计基础理论及相关知识.docx》由会员分享,可在线阅读,更多相关《统计基础理论及相关知识.docx(38页珍藏版)》请在冰豆网上搜索。
统计基础理论及相关知识
统计学原理
一、绪论
1、统计学:
是一门处理数据的方法和技术的学科,也是一门研究“数据”的科学,任务是如何有效地收集、整理和分析这些数据,探索数据内在的数量规律性,对所观察的现象做出推断或预测,直到为采取决策提供依据。
研究对对象的特点:
总体性、数量性、客观性、数据的随机性、范围的广泛性。
2、基本概念:
1统计总体和总体单位统计总体:
统计所需要研究的客观事物的全体,称为统计总体,简称总体,通常所说的总体,都是以客观存在的实体为单位组成的总体,在推断统计中,又常把所有观察值的集合定义为总体。
统计总体的形成具备三个条件:
客观性、同质性、差异性统计总体按总体单位是否有限分为两种:
有限总体和无限总体。
总体单位:
组成总体的每一个事物,成为总体单位,简称个体。
统计总体与总体单位不是固定不变的,总体与总体单位具有相对性,随研究任务的改变而改变。
2标志和指标标志:
说明总体单位特征的名称。
标志按表现形式有品质标志和数量标志两种。
标志的具体表现是在标志名称后面所表明的属性或数值。
数量标志的数值表现称标志值。
指标是统计指标的简称,两种理解:
一种认为统计指标是反映总体现象数量特征的概念,这种理解适用于统计理论和统计设计;另一种认为统计指标是反映总体现象数量特征的概念和具体数值,这种理解适用于实际统计工作。
指标和标志的关系:
区别:
i指标说明总体特征,标志说明总体单位特征。
ii标志有不能用数值表示的品质标志和能用数值表示的数量标志两种;指标必须是能用数值表示的。
联系:
有许多统计指标的数值是直接从总体单位的数量标志值汇总而来的;指标与数量标志间存在转化关系。
3变异与变量变异:
可变标志的属性或数值表现在总体各单位间存在的差异,统计上称为变异。
在一个总体中,不管是品质标志或数量标志,当某个标志在每个总体单位上具体表现都相同,称此标志为不变标志。
当某标志在每个单位的具体表现不同时,称为可变标志,又称变异标志。
变量:
变异标志又称为变量,即泛指一切可变标志,既包括可变数量标志,也包括可变品质标志。
变量对具体表现成为变量值。
变量分为:
分类变量(说明事物类别的一个名称)、顺序变量(说明事物有序类别的一个名称)和数值变量(说明事物数量特征的一个名称,根据取值不同分为离散变量和连续变量)。
4统计指标体系:
有一系列相互联系的统计指标所构成的整体
5从形成分,数据分为静态数据和动态数据。
静态数据:
也称截面数据,是由若干相关现象在某一时点上所处的状态组成的,描述了现象在某一时刻的变化情况,它反映一定时间、地点等客观条件下诸相关现象之间存在的内在数值联系。
是在相同时点上收集的数据。
动态数据:
也称时间序列数据,是由某一现象或若干现象在不同时刻上的状态所形成的数据,描述了现象随时间变化的情况,反映的是现象及现象间关系的发展变化规律,是在不同时点上收集的数据。
3、统计学的研究方法:
实验设计、大量观察、统计描述(统计研究的基础)和统计推断(可以用于总体数量特征的估计,也可以用于总体某些假设的检验)。
实验设计遵循的原则:
重复性原则、随机化原则、区组化原则。
二、统计工作过程及基本方法
1、统计设计:
根据统计研究对象的特点,确定统计研究对象的概念和调查范围,明确统计指标和指标体系,以及对应的分组方法,并以分析方法指导实际的统计活动,其基本任务是制定出各种统计工作方案。
意义:
统计是需要高度集中统一的工作;统计工作把认识对象作为一个整体进行全面的、综合的反映和研究;从认识的顺序来讲,统计工作不是从搜集资料开始的,而是从对客观现象的定性认识开始的;从统计实践的经验看,加强和重视统计设计工作对完成整个统计工作,保证统计工作的质量是必须的。
(1)统计设计的种类:
通常研究对象内容的设计称为横向设计,统计工作过程的设计可称为纵向设计。
按研究对象范围,统计设计分为整体设计和专项设计。
按工作阶段,统计设计分为全过程设计和单阶段设计。
按时期不同,统计设计分为长期设计和短期设计。
(2)统计设计的内容:
统计指标和统计指标体系的设计;统计分类和分组的设计;统计调查方式和方法的设计;统计工作组织与协调的设计;统计力量的组织和安排。
2、统计调查:
根据统计任务的要求,运用科学的调查方法,有计划、有组织的向社会搜集统计资料的过程。
统计调查是统计工作的基础环节,是认识事物的起点,统计资料的整理、计算汇总与分析研究都必须在调查搜集资料的基础上进行。
(1)统计调查的种类按调查对象包括的范围不同,分为全面调查和非全面调查。
按登记时间是否连续,分为经常性调查和一次性调查。
按调查组织方式不同,分为统计报表制度和专门调查。
专门调查包括:
普查、重点调查、抽样调查、典型调查等。
(2)抽样调查是按随机原则,从总体中抽取一部分单位作为样本进行观察,并根据观察结果推断总体数量特征的一种非全面调查。
重点调查是在调查对象中选择一部分对全局有决定性作用的重点单位进行调查,只适用于调查任务要求掌握调查总体的基本情况,调查标志比较单一,调查标志表现在数量上集中于少数单位,而这些少数单位的标志值之和在总体中有占绝对优势的情况。
典型调查是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识选择若干具有典型意义的或有代表性的单位进行调查。
调查作用是补充全面调查的不足,在一定条件下可以验证全面调查数据的真实性。
(3)统计调查的方案内容:
确定调查目的、明确调查对象和调查单位、确定调查项目、选择调查方式方法、规定调查地点、时间及调查的具体实施。
调查对象:
根据调查目的、任务确定的有某些性质上行通的许多个别事物所组成的总体。
调查单位:
调查总体中的个体,即调查对象中的各个具体事物,它是调查重要调查登记的项目的承担者。
也就是总体单位,填报单位是负责向上报告调查内容的单位。
确定调查项目要注意:
调查项目的含义必须明确,不能含糊不清。
设计调查项目时,既要考虑调查任务的需要,又要考虑是否能够取得答案。
调查项目应尽可能做到项目间相互关联。
调查方式有:
普查、重点调查、典型调查、抽样调查、统计报表制度等。
具体收集统计资料的调查方式有:
访问法、观察法、报告法等。
调查地点:
确定登记资料的地点。
调查标准时间:
调查资料所属时间。
调查期限:
从调查工作开始到结束的时间。
3、统计整理内容:
对调产来的资料进行审核;按照统计目的要求进行分组或分类,对各单位的指标进行汇总和必要的加工计算;将汇总整理的结果编织成统计表;做好统计工作的系统累积工作。
(1)统计分组基本原则:
必须保证在某一标志上组内各单位的同质性和组与组之间的差异性。
作用:
划分总体现象的类型;揭示事物内部结构;分析现象之间的依存关系。
分组标志选择的原则:
根据研究目的选择分组标志;选择反映事物本质区别的标志;根据经济发展变化及历史条件选择分组标志。
统计分组的方法:
按标志的特征分组,可分为:
按品质标志分组和按数量标志分组。
按标志的多少分组,可分为:
简单分组和复合分组。
统计分组体系有两种表现形式:
平行分组体系和复合分组体系。
(2)次数分布:
在统计分组的基础上,将总体所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组间的分布,称为次数分布。
分布在各组的总体单位数又叫次数,又称频数。
次数与总次数之比叫比率,又叫频率。
次数分布有两部分组成:
各组名称和各组次数或频率。
1次数分布的种类:
根据分组标志的不同,分布数列分为两种:
品质分布数列(简称品质数列,按品质标志分组)、变量分布数列(简称变量数列,按数量标志分组)。
变量数列分为单项数列和组距数列两种。
2影响组距数列的要素:
组距:
在组距数列中是用变量值变动的一定范围代表一个组,每个组的最大值为组的上限,最小值为组的下限,每个组的上限和下限之间的距离成为组距。
组数:
在一个组距数列中共有多少个组成为组数。
(分组数目一般不低于5组,不高于15组)组数与组距成反比。
次数密度指单位组距的分布次数,=各组次数/组距
组距=(最大值—最小值)/组数或组距二全距/(1+3.322XIgN),N表示总次数。
组限:
即组距的两个端点成为组限。
注意遵循“上组组限不在其内”的原则组中值:
指组距数列每组下限与上限之间中点位置的数值。
组中值=(上限+下限)/2
组距数列根据组距是否相等分为等距数列和异距数列。
3次数分布数列的编织步骤:
i将原始资料按大小顺序排列,确定总体中的最大值和最小值及全距;ii确定编织数列的类型,若离散变量,且变量值变动幅度不大,可编制单项式数列;iii若连续变量,应编制连续的组距数列;iv确定组数和组距;计算各组次数,编制分布数列表。
(3)次数分布的表示方法:
1列表法将各组频数或频率进行累计,表示各组的累计次数或累计频率。
累计的方法分为向上累计和向下累计,向上累计是将各组次数或频率从变量值小的组向变量值达的组进行累计;向下累计是将各组次数或频率从变量值大的组向变量值小的组进行累计。
向上累计可以说明各组上限以下分布的总次数,或占总体的比重;向下累计说明各组下限以上分布的总次数,或占总体的比重。
2图示法直方图:
横轴表示各组组限,纵轴表示次数和比率,对于不等组距式变量数量,通常按次数密度(频数密度)绘制直方图以表示分布。
折线图:
在直方图基础上,将每个长方形的顶端中点用折线连接而成,或用组中值与频数求坐标点连接而成。
两端应与横轴连线。
曲线图:
向上累计曲线是从最小值的下限开始,连接各组上限与该组累计频数所形成的坐标点,构成折线图,再将其用光滑曲线连接而成。
向下累计曲线从最大组的上限开始,连接各组下限与该组累计频数所形成的坐标点,构成折线图。
(4)统计表的种类:
按用途不同分类:
调查表、整理表、分析表按总体分组不同分类:
简单表、复合分组表按统计资料的时间和空间分类:
空间数列表、时间数列表、时空结合表统计表设计总的要求是:
简练、明确、实用、美观、便于比较。
4、总量指标和相对指标综合指标按其反应现象总体数量特征的不同分为总量指标、相对指标、平均指标和标志变异指标四种不同形式。
(1)总量指标:
反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合指标。
也表现为某现象总体在一定时空条件下数量增减变化的绝对数。
1总量指标按说明总体特征的内容不同分为总体单位总量(反映总体单位数多少的总量指标)和总体标志总量(反映总体单位某一数量标志值综合的总量指标)。
2按反映的时间状态不同分为时期指标(具有可加性,时期越长,指标数值越大)和时点指标(不具有可加性,大小与时点间隔大小无关)。
(2)相对指标:
是质量指标的一种表现形式,通过两个有联系的统计指标对比而得到的,其具体数值表现为相对数,一般表现为无名数、通常用系数、倍数、百分数、千分数表示,也可用有名数表示,通常用分子、分母的双重单位计量。
相对指标按其作用不同分为六种:
1结构相对指标:
表明总体总某部分占总体的比重,常称为比重指标。
结构相对指标=总体某部分/总体全部数值
2比例相对指标:
总体中不同部分数值对比的结果,表明总体内不同部分之间的比例关系。
比例相对指标=总体中某部分数值/总体中基准部分数值
3强度相对指标:
两个性质不同又有一定联系的指标对比的结果,表明事物现象的强度、密度、普遍程度等。
强度相对指标=某一总体的指标数值/另一有联系的总体指标数值表现形式的特点:
大多数情况下,表现为复名数的形式。
,有时也用百分数表示。
有些强度相对指标可以分子分母互换,形成正指标和逆指标,一般正指标越大越好,逆指标越小越好。
4动态相对指标:
某一指标在不同时间上的数值对比的结果,反映事物现象的发展变化程度。
动态相对指标=报告期指标数值/基期指标数值x100%
5比较相对指标:
事物现象某项指标在不同空间或不同场合、不同条件的指标数值对比的结果,表明事物发展的不均衡程度或不同条件下的差异程度。
比较相对指标:
某条件下的某类指标数值/另一条件下同类指标数值
6计划相对指标:
一定时期内实际完成的指标数值与计划任务数值对比的结果,一般用百分数形式表示。
计划完成程度相对指标=实际完成指标数值/计划任务数值对于提高率形式:
计划完成程度相对指标=(1+实际提高率)/(1+计划提高率)对于降低率形式:
计划完成程度相对指标=(1-实际提高率)/(1-计划提高率)
5、平均指标与标志变异指标
(1)平均指标:
用来描述静态数列分布集中趋势的综合指标。
主要有位置平均数(中位数和众数)和数值平均数(算术平均数、调和平均数、几何平均数)。
是同质总体中各单位某一数量标志值在一定时间和空间条件下所达到的一般水平的综合指标。
特点:
通过平均将总体各单位变量值之间的差异抽象化,能反映出总体的综合特征;平均指标能测定次数分布数列汇总各变量值分布的集中趋势;也是质量指标的一种表现形式,其数值大小不随总体范围的大小而增减。
平均指标只能就同质总体计算。
1算术平均数:
总体各单位变量值之和除以总体单位的个数所得的结果。
i简单算术平均数:
ii加权算术平均数:
若为组距数列,可用足中指代表各组标志值计算。
变量值出现的次数在计算平均数的过程中起权衡轻重的作用,称为权数。
也可以用各组次数与总次数之比,即频率(或称比重)来表示。
权数对算术平均数的影响在于作为权数的各组次数占总次数比重(即频率)大小。
算术平均数的数学性质:
各单位变量值与其算术平均数离差之和等于零。
各单位
变量值与其算术平均数离差平方之和为最小
2调和平均数:
变量值倒数的算术平均数的倒数,也称倒数平均数。
简单调和平均数:
加权调和平均数:
调和平均数和算术平均数的变形关系:
在社会经济领域中,调和平均数经常作为算术平均数的变形使用,在已知分配数列各组变量值及变量值之和(各组标志总量)的条件下,计算变量值的平均数可采用调和平均数方法。
3几何平均数:
是n个比例乘积的n次方根。
常用来计算平均比率或平均速度。
简单几何平均数:
加权几何平均数:
4中位数:
将总体各单位标志值按大小顺序排列,处于中间位置的那个标志值。
,在总
体标志值差异很大的情况下,中位数具有较强代表性。
一般用Me表示。
未分组资料的中位数:
用(n+1)/2确定。
单项式分组资料的中位数:
先根据位置公式确定位次,根据位次确定所在组,该组的标志值就是中位数。
组距式分组资料中位数:
L表示中位数所在组下限,U表示中位数所在组上限;表示所在组的次数;表示所在组以前各组的累计次数;表示中位数所在组以后各组的累计次数;表示各组次数之和;d表示中位数所在组的组距。
中位数特点:
影响中位数大小的主要因素是数列总次数的大小,而不是变量大小。
5众数:
总体中出现次数最多的变量值,一般用M。
表示。
i单项式变量数列的众数为次数最多的变量值。
i组距数列的众数,先根据数列中各组次数确定众数所在组,计算:
下限公式:
上限公式:
式中,表示众数,表示众数所在组的下限,表示所在组的上限,表示众数所在组的次数与前一组次数之差;表示所在组的次数与后一组次数之差;表示所在组的组距。
iii根据比重最大的变量值为众数特点:
众数不受极端值影响;在组距数列中,各组分布的次数受组距大小影响,所以根据组距数列确定众数时,要保证各组组距必须相等;在一个次数中分布有多个众数称为多重众数,两个众数称为双重众数。
算术平均数、中位数和众数间的关系:
如果数列对称分布,众数、中位数、算术平均数相等;如果数列左偏分布,
如果数列右偏分布,
(2)标志变异指标:
测定分布数列中总体单位标志值之间变动范围和离散程度的指标,常用的指标由全距、平均差、标准差和标志变异系数(离散系数)等。
1全距,又称极差。
在组距数列条件下,可用数列中最高一组的上限减去最低一组的下限求得。
2平均差:
总体各单位标志值与其算术平均数的离差绝对值的算术平均数,一般用表示。
平均差越大,说明总体各单位标志值分布越分散,平均指标的代表性越差;反之相反。
简单平均法:
加权平均法:
3标准差与方差:
标准差又称均方差,表示变量值对算术平均数的平均距离。
简单平均法:
标准差:
方差:
加权平均法:
标准差:
方差:
4标志变异系数:
也称标志变动系数或离散系数,指用标志变异指标与其相应的平均指标对比,用来反映总体各单位标志值之间离散程度的相对指标,一般用V表示。
它消除了平均水平和计量单位的影响,使不同事物可以直接比较。
全距系数:
平均差系数:
标准差系数:
离散系数与平均数的代表性优劣成反方向关系。
离散系数大,说明变量值的差异程度大,平均数的代表性差;离散系数小,说明变量值的差异程度小,平均数的代表性强。
三、时间数列
1、时间数列:
一种统计数列,反映将某一现象的统计指标在不同时间上的数值按时间先后顺序排列所形成的数列。
又称动态数列。
时间数列的作用:
了解与预测
(1)时间数列的种类按其构成要素中统计指标值得表现形式,分为绝对数时间数列(原始数列)、相对数时间数列(派生数列,各项数值不能直接相加)和平均数时间数列(派生数列)三种。
绝对数时间数列依据指标值得时间特点,分为时期数列和时点数列。
时期数列的主要特点:
可加性;时期中指标数值的大小与其所属的时期长短有关;采用连续登记方式取得。
时点数列的特点:
不可加性;指标数值大小与间隔时期长短没有直接联系;通过一次性调查登记取得。
(2)时间数列的编制原则:
①时间的可比性原则②统计口径或总体范围的一致性③经济内容的一致性④计算方法和计算单位的一致性。
2、时间数列的分析指标
(1)水平指标
1发展水平:
指客观现象在一定时期内(或时点上)发展多达到的规模、水平,也是时间数列中对应于每一具体时间的指标数值,也就是说,在绝对数时间数列中,发展水平就是绝对数,在相对数时间数列中,发展水平就是相对数或平均数。
2平均发展水平:
把时间数列种不同时期(或时点)的发展水平数值加以评价而得到的平均数,又称序时平均数或动态平均数,可以概括性地描述现象在一段时期内达到的一般水平。
3一般平均数反映的是静态上的一般发展水平;平均发展水平反映的是动态上一定时期内发展变化的一般趋势。
㈠绝对数时间数列的平均发展水平:
由时期数列计算平均发展水平:
由时点数列计算平均发展水平:
i连续时点数列的平均发展水平:
ii间断时点数列的平均发展水平:
a.登记时间间隔相等时:
b.登记时间间隔不等时:
㈡相对数和平均数时间数列的平均发展水平,公式:
其中,——相对数或平均数时间数列的平均发展水平
——分子指标时间数列的平均发展水平
——分母指标时间数列的平均发展水平
4增长量和平均增长量
i增长量=报告期水平-基期水平
根据基期的不同确定方法,增长量分为逐期增长量和累计增长量。
累计增长量等于相应时期逐期增长量之和。
a.逐期增长量:
b.累计增长量:
c.年距增长量=报告期某月(季)发展水平-上年同月(季)的发展水平
ii平均增长量
根据逐期增长量和累计增长量的数量关系,平均增长量可表示为:
(2)速度指标
1发展速度:
报告期水平与基期水平的比值。
分为定基发展速度与环比发展速度。
a.定基发展速度:
说明社会经济现象对于某一基础水平,在一定时期内总的发展速度。
b.环比发展速度:
说明所研究现象相邻两个时期(逐期)发展变化的程度。
两者之间的数量依存关系:
㈠定基发展速度等于相应时期内各环比发展速度的连乘积:
㈡两个相邻时期定基发展速度的比率等于相应时期的环比发展速度:
c.年距发展速度=本期发展水平/上年同期发展水平
2增长速度
增长速度=报告期增长量/基期水平=(报告期水平-基期水平)/基期水平
a.定基增长速度:
b.环比增长速度:
c.年距增长速度=年距增长量/上年同期发展水平=年距发展速度-1计算发展速度与增长速度时,注意:
定基增长速度与环比增长速度不能像定基发展速度那样互相推算,定基增长速度不等于相应时期内各环比增长速度的连乘积;两个相邻的定基增长速度的比率也不等于相应时期的环比增长速度。
3增长1%的绝对值二逐期增长量/(环比增长速度X100)=
4平均发展速度和平均增长速度
平均增长速度=平均发展速度-1
计算平均发展速度的方法:
a.几何平均法(水平法)原理:
一定时期内现象发展的总速度等于各期环比发展速度的连乘积。
公式:
b.高次方程法(累计法)原理:
各期发展水平等于序列初始水平于相应各期环比发展速度的连乘积。
公式:
计算与应用平均速度指标注意:
平均速度指标计算方法的选择要考虑研究目的和研究对象的性质特征两个方面。
(高次方程法只适用于时期序列,几何平均法既适用于时期序列,也适用于时点序列。
对于着重考察各期总和的指标,采用高次方程法计算;对于考察最末期水平的指标,采用几何平均法。
)几何平均法的应用要与具体的环比速度分析相结合。
对平局速度指标的分析要充分利用原始时间序列的信息。
3、时间数列的分析与预测在进行时间数列分解时,一般将时间数列的构成因素按性质和作用分为四类:
即长期趋势(T)、季节变动(S)、循环波动(C)、不规则变动(I)。
按4种因素对时间数列的影响方式不同,时间数列分解为多种模型,如乘法模型、加法模型、混合模型等等。
最常用的就是乘法模型和加法模型。
加法模型假定4种变动因素相互独立:
Y=T+S+C+I
乘法模型假定4种变动因素彼此间存在交互作用:
丫=T・S-C-I
㈠长期趋势的测定:
(1)修匀法基本思路:
通过对相邻项的合并或求平均来消除时间数列中的偶然因素,使得数列的主要运动方向和趋势比以前更加明显,又可分为时距扩大法和移动平均法。
1时距扩大法:
将原时间数列中各期指标数值加以合并,得到一个扩大了时距的时间数列,这是测定长期趋势的最简单最原始的方法。
只适用于时期数列,应该遵循事物发展的客观规律,扩大后的时距要一致。
2移动平均法:
通过对时间数列相邻各项求平均数作为趋势值或预测值的平滑或预测方法,称为移动平均法,他具体分为简单移动平均法和加权移动平均法两种。
a.简单移动平均法将最近的k期数据加以平均,作为移动平均中项的趋势测定值。
第t
期的移动平均值为:
k为奇数,直接用公式;k为偶
数时,在第一次对原数列做移动平均后,对所得数列再做一次相邻两项的移动平均。
b.加权移动平均法:
对各期指标值进行加权后计算移动平均数。
一般计算奇数项加权
移动数,各期权数以二项展开式为计算基础,使得中项时期指标值的权数最大。
采用移动平均法形成的派生数列的项数比原时间数列的项数少,奇数时期项数移动,首尾各少(k-1)/2项数值,按偶数时期项数移动,首尾各少k/2项数值。
(2)数学模型法:
通过对时间数列的观察判断,在确定其性质和特点的基础上,构建一个比较符合原时间数列的数学方程,用来描述该时间数列的长期趋势,并利用其进行分析和预测。
常用的有直线趋势模型和曲线模型两类,曲线模型包括指数曲线、二次曲线、Gomperts曲线、Logistic曲线等等。
1线性趋势模型:
现象随时间推移,时间数列的逐期增减量大致相等。
通常为了计算方便,把时间数列的中点定为原点,使得刀t=0,则ab的求解公式:
2指数曲线趋势:
若时间数列的环比增长速度大致相当,数学方程为:
表明现象每年以b的环比发展速度发展,可先将等式两边取对数,得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 基础理论 相关 知识