中级统计师考试 统计方法笔记.docx
- 文档编号:24580549
- 上传时间:2023-05-29
- 格式:DOCX
- 页数:29
- 大小:39.83KB
中级统计师考试 统计方法笔记.docx
《中级统计师考试 统计方法笔记.docx》由会员分享,可在线阅读,更多相关《中级统计师考试 统计方法笔记.docx(29页珍藏版)》请在冰豆网上搜索。
中级统计师考试统计方法笔记
实用文案
统计方法笔记
第一章统计和数据
第一节:
统计的含义
一、什么是统计学
●统计是用来处理数据的,是关于数据的一门学问。
1、统计学:
是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。
2、统计分析数据的方法分为:
(1)描述统计
(2)推断统计
描述统计:
是研究数据搜集、处理和描述的统计学方法。
其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。
推断统计:
是研究如何利用样本数据来推断总体特征的统计学方法。
内容包括参数估计和假设检验两大类;
推断统计包括:
(1)参数估计
(2)假设检验
二、统计的应用
(一)统计的应用领域
统计是适用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。
第二节、数据类型
一、变量与数据
变量的特点是从一次观察到下一次观察会出现不同的结果,把观察数据记录下来就是数据。
二、数据类型
(一)定性变量(数据)与定量变量(数据)
(1)定性变量
定性变量的观察结果称为定性数据。
定性变量的特点:
只反映现象的属性特点,不能说明具体量的大小和差异;
●定性变量包括分类变量和顺序变量。
●分类变量:
只反映现象分类特征的变量称分类变量。
分类变量没有数值特征,所以不能对其数据进行数学运算。
分类变量观察结果就是分类数据;
分类数据只能用来区分事物,不能用来表明事物之间的打下、优劣关系。
●顺序变量:
如果类别具有一定的顺序,这样的变量称为顺序变量。
顺序变量不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。
顺序变量的观察结果就是顺序数据。
顺序数据最主要的特征在于不论它的数据是用数值表示还是文字表示,都存在一定的客观顺序,一定可以按照大小、高低、优劣进行排序。
顺序虽然可以比较大小,却无法计算相互之间大小、高低或优劣的距离,不能用来反映事物在数量上的差异,因此,从本质上将,顺序数据仍然是定性数据的一种;
2、定量变量
定量变量也称为数值变量,定量变量的观察结果称为定量数据。
定量变量的特点:
可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。
数值型数据的特征在于它们都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差(绝对距离),而有些数值型数据不仅可以计算数据之间的绝对差,还可以计算数据之间的相对差(相对距离)。
显然,数值型数据的计量功能要远大于前面介绍的两种定性数据,其计量精度也远远高于定性数据,因此在统计研究中,数值型数据有着最广泛的用途。
由数值型数据的特点决定了对数值型数据可以运用多种不同的数学方法进行计算,从而给统计学各种分析方法的应用奠定了基本的数据基础,在统计学研究中对数值型数据的研究是定量分析的主要内容。
(二)观测数据和实验数据
不论是哪一类数据,根据获取数据的方法不同,都可以分为观测数据和实验数据。
观测数据可能是全面数据也可能是样本数据,实验数据一般都是样本数据。
文案大全.
实用文案
1、观测数据:
是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。
观测是取得数据最主要的方法。
很多社会经济问题不适合应用实验的方法,职能通过向实际做调查得到数据,用各种调查方法得到的数据都属于观察数据。
2、实验数据:
一般是在科学实验环境下取得的数据,在实验中,实验环境是受到严格控制的,数据的产生一定是某一约束条件下的结果。
在自然科学研究中实验的方法应用非常普遍,因此,自然科学研究中所用的数据多为实验数据。
第三节数据来源于收集数据的方法
一、数据的来源
从使用者的角度看,统计数据资料的来源主要有两种渠道:
(1)是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称之为原始或第一手统计数据;
(2)是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称之为次级数据或第二手简洁的统计数据。
一切简洁的统计数据都是从原始的、第一手数据过渡而来。
(一)数据的直接来源——原始数据
收集数据最基本的形式就是进行统计调查或进行实验活动,统计调查或进行试验就是统计数据的直接来源。
1、统计调查:
是根据统计研究预定的目的,要求和任务,运用科学的方法,有计划、有组织地向客观实际收集资料的过程。
通过统计调查得到的数据,一般称为观测数据。
2、实验法:
是直接获得统计数据的重要来源。
通过实验法得到的数据就是实验数据。
通过有意识地改变或控制某些输入变量,观察其他输出变量的变化,从而达到对事物本质或相互联系的认识。
为了观察对输入变量的控制是否导致了输出变量的改变,在实验中往往需要将研究对象分两个组,一个实验中,一个对照组,对实验组的输入变量加以控制和改变,而对照组则不加控制,根据两组的输出结果,可以看到输入变量对输出的影响。
运用实验法要注意的是:
(1)首先实验组和对照组的产生应当是随机的;
(2)其次实验组合对照组还应当是匹配的;
(二)数据的间接来源——次级数据
(1)公开出版的统计数据:
主要来自官方的统计部门和政府、组织、学校、科研机构。
如《中国统计年鉴》、《人口普查资料汇编》、《北京市统计年鉴》、《世界发展报告》、某大学、科研机构发布的研究数据、专业调查咨询机构发布的调查结果数据,各种媒体和图书中发布的统计数据等;
(2)尚未公开发表的统计数据:
如各企业的经营报表数据、专业调查咨询机构未公开发布的调查结果数据。
如果公开引用未公开发表的数据需要征得数据所有者的同意,同时要为自己发布的数据负责。
恰当的运用间接数据,需要注意一下几点:
①是否了解并正确理解简洁数据中变量的含义、计算口径、计算方法、以防止误用
错用他人的数据;
②引用间接数据时要注明数据来源,尊重他人的劳动成果和知识产权;
二、搜集数据的方法
统计调查是根据调查的目的与要求,运用科学的调查方法,有计划、有组织地收集统计数据资料的过程。
(1)普查:
是专门组织的一次性的全面调查,用来调查属于一定时点上或一定时期内的社会现象总量。
他适于收集某些不能或不适宜于定期的全面统计报表收集的统计资料,以摸清重大的国情、国力。
特点:
它是一种全面调查,具有资料包括范围全面、详尽、系统的优点;
缺点:
它是一次性的专门调查,因为普查的工作量大,耗资也多,时间周期较长,一般不宜经常举行。
(2)抽样调查:
是一种非全面调查,它是按照随机原则从总体中抽取一部分单位作为样本进行观察研究,以抽取样本的指标去推算总体指标的一种调查。
随机原则要求所有调查单位都有一定的概率被抽取。
特点:
①样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响;
②能够根据部分调查的实际资料对调查对象的总体的数量特征进行推断,从而达到对调查总体的认识。
③在抽样调查中会存在抽样误差,但是这个误差可以事先计算并加以控制;
优点:
既能节省人力、物力、财力,又可以提高资料的时效性,而且能取得比较正确的全面的统计资料,具有许多优点。
抽样方法主要有两种:
概率抽样和非概率抽样;
文案大全.
实用文案
(1)概率抽样:
是根据一个已知的概率随机选取被调查者。
从理论上讲,概率抽样是最科学的抽样方法,它能保证抽出来的部分单位(样本单位)对总体单位的代表性,而且它能将抽样误差限制在一定范围之内。
常用的概率抽样形式为:
①简单随机抽样:
是最基本的形式,是完全随机地选择样本。
②分层抽样:
是首先将总体分成不同的层(或组),然后在每一层内进行抽样。
③整群抽样:
是将一组被调查者视为一个抽样单位,每次抽取时抽出来的是一组(群),而不是一个个体单位。
调查者将对被抽中的某个居委会中的美甲每户进行调查。
④系统抽样:
又称等距抽样,是在总体的名录框中每隔一定距离抽选一个被调查者。
(2)非概率抽样:
是没有完全按照随机原则选取样本单位。
缺点:
理论上讲,不能保证抽出来的部分单位(样本单位)对总体单位的代表性;不能由样本的特征准确地推断总体的特征;
优点:
方法简单、经济,所以也是人们常用的方法。
(三)统计报表:
是按照国家统一规定的调查要求与文件(指标、表格形式、计算方法等)自上而下地提供统计资料的一种调查方式。
国家利用它定期地取得全社会的国民经济和社会发展情况的基本统计资料,是国家取得调查资料的方法之一。
按照报送范围,统计报表有全面报表和非全面报表之分:
全面报表:
要求调查对象汇总的每一个单位均要填报;
非全面报表:
要求一部分调查单位填报;
按照报送周期,统计报表主要有月报、季报、年报组成。
月报内容简单,时效性强,年报则内容比较全面;
统计报表的内容:
(1)表式:
是由国家统计部门根据研究的任务和目的而专门设计制定的统计报表表格,用于收集统计资料,它是统计报表制度的主体。
(2)填表说明:
它是对统计表的统计范围、指标等作出的规定,具体有:
填报范围、指标解释、分类目录、其他有关事项的规定;
优点:
对于大型、国有企业来说,利用统计表收集数据,具有时间快、成本低的优点;
(对于小型、非国有经济单位,则难以全面采用统计报表调查。
)
(四)重点调查:
是在调查对象中选择一部分对全局具有决定性作用的重点单位进行的一种非全面调查。
特点:
这些重点单位虽然数目不多,但它们所研究的现象总量在总体总量中占据绝大部分;
●当调查的任务只要求掌握事物的基本状况与基本的发展趋势,而不要求掌握全面的准确资料,而且在总体中确实存在着重点单位时,进行重点调查是比较适宜的。
●优点:
重点调查可以节省人力、财力、而且及时,所以当调查任务只要求掌握事物的基本情况时,采用重点调查为好。
(五)典型调查:
是一种非全面的调查,是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查。
典型调查的作用:
(1)补充全面调查的不足
(2)在一定条件下可以验证全面调查数据的真实性。
●特点:
典型调查具有灵活机动、通过少数典型即可取得深入详实的统计资料的优点,但是易受人们主观认识上的影响,必须同其他调查结合起来使用,才能避免出现片面性。
第二章数据描述
第一节用图表展示定性数据
定性数据包括分类数据和顺序数据,它们的图表展示方法剧本相同,通常可以分为频率分布表和图形来描述;
一、生产频数分布表
定性数据本身就是对事物的一种分类,因此,只要先把所有的类别都列出来,然后统计处每一类别的频数,就是一张频数分布表。
二、定性数据的图形表示有:
(1)饼图
(2)条形图(3)环形图
●饼图是利用圆形及圆内扇形面积来表示数值大小的图形。
文案大全.
实用文案
●条形图是用宽度相同的条形的高度或长度来表述数据多少的图形。
●如果想比较不同变量之间的结构差异,可以通过环形图来实现。
第二节用图表展示定量数据
定性数据的图示表示方法,也都适用于定量数据。
但定量数据还有一些特定的图示方法,它们并不适用于定性数据。
一、生产频数分布表
●生成定量数据的频数分布表的步骤:
(1)对数据进行分组,一般一组个数在5-15之间;
(2)确定组距(所谓组距指每个组变量值中最大值和最小值之差。
大值称为上限,小值称为下限。
组距=上限-下限)
(3)统计出各组的频数及频数分布表
●在确定组距时应掌握的原则:
(1)要考虑各组的划分是否能区分总体内部各个组成部分的性质差别。
(2)要能准确地清晰地反映总体单位的分布特征。
●在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很不均匀时,一般采用不等距分组。
●频数:
是指频数分布表中落在某一特定类别的数据个数。
●在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。
二、定量数据的图形表示
常用来表述定量数据统计图形:
直方图、折线图和散点图。
此外还有茎叶图、箱线图等;
(一)直方图
它的横坐标代表变量分组,纵坐标代表各变量值出现的频数。
(二)折线图
利用线段的升降来说明现象变动的一种统计图,它主要用于表示现象的分配情况,现象在时间上的变化和两个现象之间的依存关系等。
(三)散点图
第三节用统计表来表示数据
统计表的五个组成部分:
(1)表头:
放在表的上方,说明表的主要内容;
(2)行标题:
放在第一行,表示所研究问题的类别名称
(3)列标题:
放在第一列,表示所研究问题的指标名称
(4)数字资料
(5)表外附加:
通常放在统计表的下发,用来说明资料来源、指标注释和必要的说明等内容。
通常情况下,统计表的左右两边不能封口。
第四节用数字来概括数据
数据的分布特征:
(1)集中趋势,即一组组数据的数值向其中心值的靠拢程度
(2)离散程度,即一组数据的各个数值远离其中心的趋势和程度
一、定性数据的数字特征
定性数据主要是计数,比较简单,对定性数据的集中趋势常用的方法就是计算百分比、中位数和众数;
(1)百分比
(2)中位数:
它是数据按照大小排列之后位于中间的那个数。
如果样本量为偶数,则是中间两个数的平均。
(3)众数:
就是数据中出现次数或出现频率最多的数值。
在定性数据中由于记录的是频数,因此众数用得多些。
二、定量数据的数字特征
反映数据集中趋势的水平度量:
平均数、中位数、众数和分位数等
反映数据离散程度的差异度量:
(1)极差
(2)四分位差(3)标准差(4)方差
(一)水平的度量
1、平均数:
也称均值,是把某一组数据进行算术平均,用以表述某一事物的平均水平,它在统计中也叫均值。
2、中位数:
它是数据按照大小排列之后位于中间的那个数。
如果样本量为偶数,则是中间两个数的平均。
文案大全.
实用文案
3、众数:
就是数据中出现次数或出现频率最多的数值。
在定性数据中由于记录的是频数,因此众数用得多些。
4、用哪个值代表一组数据
●平均数在实际应用中较多,但主要确定是更容易受少数极端数值的影响,对于严重偏态分布的数据,平均数的代表性较差;
●中位数和众数提供的信息不像平均数那样多,但它们也有优点,比如不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数,这时它们的代表性比平均数好。
(二)差异的度量
1、极差:
又称全距,是一组数据中的最大值和最小值之差。
缺点:
但是它仅仅受最大值和最小值的影响,不能反映一组数据变量分布情况,而且它非常容易受数据中极端值的影响,不能准确的描述数据的分散程度。
极差是从一个范围反映数据的差异程度,比较粗略。
2、方差与标准差
为了能反映数据中的每一个观察值和平均水平的差异程度就必须引入方差和标准差
(1)方差试讲各个变量值和其平均值离差平方的平均数作为样本数据,它反映了样本中各个观测值到其均值的平均离散程度。
(2)标准差是方差的平均根,它与方差相比更具量纲性,而且与变量值的计量单位相同,使用的范围也比方差更广泛。
2?
?
?
sZ●方差用表示,离散系数用表示,总体标准差用表示,标准分数用表示,样本标准差用表示。
●在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋中程度就越差。
反之,其标准差越小,说明它的各个观测值分布的越集中,它的趋中程度就越好。
●标准差的大小会受到数据本身数值大小的影响。
两个数列的标准差相同,但是两数列的差异程度却不同。
为了更准确地反映差异程度,要计算离散系数。
是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。
3、离散系数:
为了更准确地反映研究现象的差异程度,我们要计算离散系数。
:
是变量值与其平均数的离差除以标准差的值,用以测定某一个数据在该组数据中的相对位置。
4、标准分数标准分数最大的用途可以吧两组数据中的两个不同均值、不同标准差的数据进行对比,以判定它们在组中的位置。
2.8,标准差,两位同学的相对身高更高一些?
我们了解到男生的身高均值172例如:
某男176CM,某女170CM2.5
164女生身高的均值是,标准差:
Zi=Xi-X/S=176-172/2.8=1.43某男身高的标准分数Zi=Xi-X/S=170-164/2.5=3.2某女身高的标准分数:
显然某女在女生中的身高要高于某男在男生中的身高。
参数估计第三章依据样本数据对总体数据特征进行估计、判断的过程就是统计推断。
统计推断包括参数估计和假设检验;抽样分布第一节
一、总体分布于总体参数是总体中所有观测值所形成的分布。
由于总体中的观察值是有差别的,可以视为随机变量,如果我们用总体分布:
的分布就是总体分布。
表示,XX是对总体特征的某个概括性的度量。
总体参数:
2?
?
?
)总体比例()(3)等。
)总体方差((1总体参数指标有:
()总体平均数()2二、统计量与抽样分布●统计量是样本的函数。
构成统计量的函数中不能包含未知因素。
●由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出来的统计量也是随机的。
所以在抽取样本前,理论上统计量是一随机变量;●由样本统计量所形成的概率分布就是抽样分布,如样本均值的分布,样本比例的分布等。
文案大全.
实用文案
2xps)样本比例()))样本均值(()
(2)样本方差(3(●样本统计量指标有:
1●统计量的概率分布构成了推断总体参数的理论基础。
(一)关于样本均值的抽样分布:
nNnN种抽法;在不重复抽样个元素,从中随机抽取一个容量为)设总体共有的样本,在重置抽样时,共有(1!
Nn?
C个样本。
时,共有
N)!
?
Nnn!
(
x(2的分布。
)样本均值的抽样分布就是指所有可能抽出来的样本
?
?
)E(x)样本均值的均值就是总体均值,即3。
(?
1?
?
?
,即(4)重置抽样时,样本均值的标准差为总体标准差;的
xnn2?
nN?
2?
?
不重置抽样时,样本均值的方差为。
x1nN?
5)当总体服从正态分布时,样本均值一定服从正态分布,即有:
(2?
2?
?
?
)N(,x)(N,X~~时,。
n
xnn仍会接近正态分布,,足够大(通常要求样本均值≥30(6)若总体为未知的非正态分布时,只要样本容量)1其分布的期望值为总体均值,样本方差为总体方差的。
nnn,为小样本时(通常样本均值的分布则不服从正态分布。
<30)(7)如果总体不是正态分布,当
(二)关于样本比例的抽样分布:
?
pp?
)(Ep近似服从正态分布,且有。
的数学期望就是总体比率,即
(1)当样本容量比较大时,样本比率?
?
)?
(12?
?
p。
的方差为)在重置抽样时,2(
pn?
?
n)N(1?
?
2?
?
p的方差为。
(3)在不重置抽样时,
p1N?
n?
?
)(1?
?
)N,(pp~的分布为4()在重置抽样时,
n?
?
n)N1(?
?
?
N()pp~)在不重置抽样时,的分布为(5
1?
nN三、关于统计量的标准误差:
(1)统计量的标准误差也称标准误,它是指样本统计量分布的标准差。
标准误差是用于衡量样本统计量的离散程度。
在参数估计中,用于衡量样本统计量与总体参数之间差距的一个重要尺度;?
?
?
)样本均值的标准误计算公式为:
(2
xn?
s代替计算,这时计算的标准误差称为估计标准误差。
3()当总体标准差未知时,可用样本标准差文案大全.
实用文案
?
?
)?
(1?
?
4)样本比例的标准误计算公式为:
(pn?
?
)1?
p)p(1?
(代替。
未知时,可用样本比例的方差(5)当总体比例的方差参数估计第二节
就是用样本统计量去估计未知的总体参数。
参数估计:
一、点估计与区间估计)区间估计用样本统计量估计总体参数的两种方法:
(1)点估计(2●常用的点估计有:
?
x(1估计总体均值)用样本均值?
p估计总体比例
(2)用样本比例22?
s)用样本方差估计总体方差(3)元情况,但是付款却要付510;(例如:
你花510元情况,你可以说花500就是根据估计可靠程度的要求,利用随机抽取的样本的统计量值确定能够覆盖总体参数的可能区间的●区间估计:
一种估计方法;区间估计是包括样本统计量在内的一个区间,该区间通常是由样本统计量加减估计标准误差得到的。
关于区间估计:
N1。
(1)标准正态分布)的均值为(0,10,标准差为?
Z
(2)标准化的公式为:
-均值)÷标准差(观测值?
)1(z?
)以68.27%的置信水平推断总体参数:
的置信区间为3(?
?
)?
(x?
xnn?
)2z?
(的置信区间为)以95.45%的置信水平推断总体参数:
4(?
?
)x?
(x?
22,nn?
)z?
3(的置信水平推断总体参数:
的置信区间为5()以99.73%?
?
)3xx?
3?
(nn(例如:
经常说这个人有1.7-1.8米高,有70-80斤)
二、评价估计量的标准有:
(1)无偏性
(2)有效性(3)一致性
2?
?
xps、总、、、总体比例分别是总体均值●无偏性是指估计量抽样分布的期望值等于被估计的总体参数。
2?
体方差的无偏估计量。
是指估计量的方差尽可能小。
对同一个总体参数的两个无偏估计量,有更小方差的估计量更有效。
●有效性样本均值是总体均值的一●一致性是指一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。
个一致估计量。
三、一个总体均值的区间估计:
)在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已知、用于估计的样本是大样1(30?
n30n?
)等情况。
本()还是小样本(文案大全.
实用文案
?
-1为体总均值在置信水平间信区下的置体
(2)大样本情况下,总服从正态分布,总体方差已知,?
?
?
?
?
?
zz?
xx?
?
?
?
?
nn?
?
22?
-1为值在置信水平信区间下的置分大样本情况下,总体服从正态布,总体方差未知,总体均(3)?
?
ss
?
?
z?
xx?
z?
?
?
?
nn?
?
22?
-1为信水平区间下的置信方体服从正态分布,总体差已知,总体均值在置本(4)小样情况下,总?
?
?
?
?
?
z,x?
x?
z?
?
?
?
nn?
?
22?
-1为区间下的置信总体方差未知,体均值在置信水平,总)(5小样本情况下,体服从正态分布总?
?
ss?
?
t,x?
x?
t?
?
?
?
nn?
?
22四、一个总体比例的区间估计?
5)?
n(1-pnp?
5-1,则二项分布可用正态分布近似,在的置信水平下的置信区间为在大样本条件下,若,?
?
?
?
?
?
pp?
p11?
p?
?
?
p?
p?
z?
z。
?
?
?
?
nn?
?
22●样本量与置信水平成正比关系,与总体方差成正比,与允许的估计误差的平方成反比。
?
?
?
?
?
?
?
1p达到最大。
=0.5的值不知道可以用样本比例,使得代替,或者取●如果总体比例
第四章假设检验
假设检验:
是依据样本信息推断未知的总体参数,而假设检验是先对总体参数或分布形式提出某种假设,然后利用样本信息和相关统计量的分布特征去检验这个假定,做出是否拒绝原来假设的结论。
第一节假设检验的基本理论
如何进行假设检验
?
表示。
小概率事件:
是指在一次事件中几乎不可能发生的事件,一般称为“显著性水平”,用?
?
=5%。
或●显著性水平一般取值为=0.0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中级统计师考试 统计方法笔记 中级 统计 考试 方法 笔记