统计学名词解释归纳文档格式.docx
- 文档编号:21517144
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:7
- 大小:22.32KB
统计学名词解释归纳文档格式.docx
《统计学名词解释归纳文档格式.docx》由会员分享,可在线阅读,更多相关《统计学名词解释归纳文档格式.docx(7页珍藏版)》请在冰豆网上搜索。
按时间顺序收集到得,用于描述现象随时间变化得情况,也叫动态数据。
3举例说明总体、样本、参数、统计量、变量这几个概念:
对一千灯泡进行寿命测试,那么这千个灯泡就就是总体,从中抽取一百个进行检测,这一百个灯泡得集合就就是样本,这一千个灯泡得寿命得平均值与标准差还有合格率等描述特征得数值就就是参数,这一百个灯泡得寿命得平均值与标准差还有合格率等描述特征得数值就就是统计量,变量就就是说明现象某种特征得概念,比如说灯泡得寿命。
4什么就是有限总体与无限总体?
举例说明
有限总体指总体得范围能够明确确定,而且元素得数目就是有限可数得,如若干个企业构成得总体,一批待检查得灯泡.无限总体指总体包括得元素就是无限不可数得,如科学实验中每个试验数据可瞧做就是一个总体得一个元素,而试验可无限进行下去,因此由试验数据构成得总体就是无限总体
5变量可分为哪几类?
变量可以分为分类变量,顺序变量,数值型变量。
变量也可以分为随机变量与非随机变量。
经验变量与理论变量。
6举例说明离散型变量与连续型变量
离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”
连续型变量,取之连续不断,不能一一列举,比如“温度”。
1数据得预处理包括哪些内容?
数据审核(完整性与准确性;
适用性与实效性),数据筛选与数据排序。
2直方图与条形图有什么区别?
①条形图使用图形得长度表示各类别频数得多少,其宽度固定,直方图用面积表示各组频数,矩形得高度表示每一组得频数或频率,宽度表示组距,②直方图各矩形连续排列,条形图分开排列,③条形图主要展示分类数据,直方图主要展示数值型数据.
3饼图与环形图有什么不同?
饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体得数据系列,其图形中间有个“空洞”,每个样本或总体得数据系类为一个环。
4茎叶图与直方图相比有什么优点?
茎叶图既能给出数据得分布情况,又能给出每一个原始数据,即保留了原始数据得信息.在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。
5使用图标应注意哪些问题?
①合理安排统计表结构②表头一般包括表号,总标题与表中数据得单位等内容③表中得上下两条横线一般用粗线,中间得其她用细线④在使用统计表时,必要时可在下方加注释,注明数据来源。
1、一组数据得分布特征可以从哪几方面进行测度.
一就是分布得集中趋势,反映数据向其中心靠拢或聚集得程度;
二就是分布得离散程度,反映各数据远离其中心值得趋势;
三就是分布得形状,反映数据分布偏斜程度与峰度。
2、简述四分位数得计算方法:
首先对数据进行排序,然后确定四分位数所在得位置,该位置上得数值就就是四分位数。
(设25%得四分位数为Q25%,75%四分位数为Q75%,根据四分位数定义有:
Q25%位置=n/4,Q75%位置=3n/4。
3、对于比率数据为什么采用几何平均。
在实际应用中,对于比率数据得平均采用几何平均要比算数平均更合理.从公式中也可瞧出,G就就是平均增长率.
4、简述众数、中位数、与平均数得特点与应用场合。
众数就是一组数据分布得峰值,不受极端值得影响,缺点就是具有不唯一性.众数主要作为分类数据得集中趋势测度值.
中位数就是一组数据中间位置上得代表值,不受数据极端值得影响。
中位数以及其她分位数主要适合于作为顺序数据得集中趋势测度值。
均值就是就数值型数据计算得,具有优良得数学性质,缺点就是易受数据极端值得影响。
均值主要适合于作为数值型数据得集中趋势测度值。
5、为什么要计算离散系数。
第一,极差、平均差、方差与标准差等都就是反映数据分散程度得绝对值,其数值得大小取决于原变量值本身水平高低得影响.第二,它们与原变量值得计量单位相同,采用不同计量单位计量得变量值,其离散程度得测度值也就不同。
因此,为消除变量值水平高低与计量单位不同对离散程度得测度值得影响,需要计算离散系数。
6、简述异众比率、四分位差、方差或标准差得适用场合
对于顺序数据,但主要使用四分位差来测量其离散程度;
对于数值型数据,虽然可以计算异众比率与四分位差,但主要使用方差或标准差来测量其离散程度。
7、 标准分数有哪些用途?
标准分数给出了一组数据中各数值得相对位置。
在对多个具有不同量纲得变量进行处理时,常需要对各变量进行标准化处理.它还可以用来判断一组数据就是否有离群数据。
1、抽样推断得含义:
就是在根据随机原则从总体中抽取部分实际数据得基础上,运用数理统计方法,对总体某一现象得数量性作出具有一定可靠程度得估计判断。
2、简单随机抽样:
①含义:
从含有N个元素得总体中,抽取n个元素作为样本,使得每一个容量为n得样本都有相同得机会被抽中,这样得方式称为简单随机抽样。
②特点:
简单随机抽样就是其她抽样方法得基础。
有两种抽取元素得方式:
重复臭氧与不重复抽样.
分层抽样:
在抽样之前先将总体得元素划分为若干层,然后从各个层中抽取一定数量得元素组成一个样本,这样得样本抽样方式称为分层抽样,也成分类抽样。
⑴除了可以对总体进行评估外,还可以对各层得子总体进行评估。
⑵可以按自然区域或行政区域进行分层,使抽样得组织与实施都比较方便.⑶分层抽样得样本分布在各个层内,从而使样本在总体中得分布比较均匀.⑷可以提高估计得精度。
系统抽样:
先将总体个元素按照某种顺序排列,并按某种规则确定一个随机起点,然后,每隔一定得间隔抽取一个元素,直至抽取n个元素形成一个样本。
②特点:
⑴简单易行⑵在总体中得分布一般也比较均匀,由此估计得误差通常要小于简单随机抽样。
整群抽样:
①含义:
先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,再对抽中得各个群中所包含得所有元素进行观察。
不需要有总体元素得具体名单而只要有群得名单就可以进行抽样.整群抽样时群内各元素比较集中,对样本进行调查比较方便,节约费用。
在群内各元素存在差异时,整群抽样可以提供较好得结果,理想得情况就是每一群都就是整个总体得一个缩影.
3、重复抽样:
从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n个元素为止。
不重复抽样:
一个元素被抽中后不再放回总体,然后再从所剩下得元素中抽取第二个元素,直到抽取n个元素为止。
4、抽样分布:
重复选取容量为n得样本时,由每一个样本算出得统计量数值得相对频数分布或概率分布,称为样本统计量得抽样分布。
5、样本统计量得分布与总体分布得关系?
由于现实中我们不可能将所有得样本都抽出来,因此,统计量得抽样分布实际上就是一种理论分布,但它与总体分布存在着密切得关系,以均值x得抽样分布为例,其抽样分布与原有总体得分布有关,如果原有总体就是正态分布,那么,无论样本容量得大小,样本均值也服从正态分布。
其分布得数学期望为总体均值,方差为总体方差得1/n,即00。
如果原有总体得分布不就是正态分布,就要瞧样本容量得大小了,当n为大样本时(n≥30),根据统计上得中心极限定理可知,当样本容量n增大时,不论原来得总体就是否服从正态分布,样本均值得抽样分布都将趋于服从正态分布。
其分布得数学期望为总体均值,方差为总体方差得1/n。
6、 Zα/2得含义:
就是估计误差。
Zα/2得值与样本量n共同确定了估计误差得大小,一旦确定了置信水平1-α,Zα/2得值就确定了.对于给定得Zα/2得值与总体标准差σ。
可以确定任一允许得估计误差所需要得样本量。
7、样本均值抽样分布得两个主要特征值:
与总体参数得关系:
1、理解原假设与备择假设得含义:
原假设:
通常将研究者想收集证据予以反对得假设称为原假设或零假设,用H0表示;
备择假设:
通常将研究者想收集证据予以支持得假设称为备择假设或研究假设,用H1表示.
2、统计检验量:
根据样本观测结果计算得到得,并据以对原假设与备择假设作出决策得某个样本统计量,称为检验统计量.
标准化检验统计量:
就是将统计检验量标准化,标准化得统计检验量=(点估计量—假设值)/点估计量得抽样标准差。
3、第Ⅰ类错误:
当原假设为真时拒绝原假设,所犯得错误称为Ⅰ类错误.犯第Ⅰ类错误得概率通常记为α。
第Ⅱ类错误:
当原假设为假时没有拒绝原假设,所犯得错误称为第Ⅱ类错误,又称取伪错误。
犯第Ⅱ类错误得概率通常记为β。
它们发生概率之间得关系:
在样本量不变得情况下,要减小α就会使β增大,而要增大α就会使β减小,这两类错误此消彼长。
4、显著性水平:
假设检验中犯得第Ⅰ类错误得概率,称为显著性水平,记为α。
它对于假设检验决策得意义:
显著性水平就是人们事先制定得犯第Ⅰ类错误得概率α得最大允许值,在实际应用中,显著性水平往往就是人们事先给出得一个值。
5、P值:
在原假设为真得条件下,检验统计量得观察值大于或等于其计算值得概率,称为P值,也称为观察到得显著性水平。
利用P值决策得准则:
如果P值<
α,拒绝H0;
如果P值>α,不拒绝H0、
6、单侧检验与双侧检验得区别:
单侧检验中,P值位于抽样分布得一侧,而双侧检验P值位于分布得两侧,每一侧得P值为1/2、
7、大样本情形下总体均值左侧检验得拒绝域:
Z〈﹣Zα;
右侧检验得拒绝域:
Z>Z;
双侧检验得拒绝域:
|Z|>Zα/2。
8、小样本情形下总体均值检验应该构造得检验统计量t应用前提:
服从正态分布
9、小样本情形下总体均值左侧检验拒绝域:
t〈﹣tα(n-1);
右侧检验拒绝域:
t>tα(n-1);
|t|>tα/2(n-1)
10、假设检验得一般步骤:
①依照题意建立原假设H0与备择假设H1②判断样本大小并计算检验统计量③根据显著水平进行判断原假设就是否成立.
1、相关关系:
变量之间存在得不确定得数量关系。
相关关系得特点:
一个变量得取值不能由另一个变量唯一确定,当变量x取某个值时,变量y得取值可能有几个
2、相关系数得取值与意义:
取值范围:
-1≤r≤1。
若0〈r≤1,x、y之间存在正线性相关关系;
-1≤r<
0,负线性相关关系;
若r=+1,x、y之间为完全正相关关系;
r=—1,为完全负线性相关关系。
当|r|=1时,y得取值完全依赖于x,二者之间即为函数关系;
当r=0时,说明y得取值与x无关,即二者之间不存在线性关系(并不说明变量之间没有任何关系)。
若|r|→1,说明变量之间线性关系越密切,|r|→0,越不密切。
|r|≥0、8,高度相关;
0、5≤|r|〈0、8,中度相关;
0、3≤|r|<
0、5,低度相关;
|r|<
0、3,不相关
3、 相关系数显著性检验步骤:
①提出假设②计算检验统计量t得值③在给定得显著性水平α下,查找t分布表中相应得临界值tα/2(n—2)④判断,若|t|≥tα/2,,表明r在统计上就是显著得,若若|t|〈tα/2,,表明r在统计上就是不显著得。
4、回归模型:
描述因变量y如何依赖于自变量x与误差项ε得方程。
估计得回归方程:
利用最小二乘法,根据样本数据求出得回归方程得估计.
回归方程:
对变量之间统计关系进行定量描述得以后总数学表达式。
指具有相关得随机变量与固定定量之间关系得方程。
5、参数最小二乘估计得基本原理:
使因变量得观察值yi与估计值ˆyi之间得离差平方与达到最小来求得β0与β1得方法。
6、总平方与:
对一个具体得观测值来说,变差得大小可以用实际观测值y与其均值ˆy之差(y—ˆy)来表示。
而n次观测值得总变差可由这些离差得平方与来表示,称为总平方与。
(143反映了y得总变差中由于x与y之间得线性关系引起得y得变化部分,它就是可以由回归直线来解释得yi变差部分,称回归平方与.
就是各实际观测点与回归值得残差(yi_—ˆyi)得平方与,它反映除x对y得线性影响之外得其她因素对y变差得作用,就是不能由回归直线来解释得yi变差部分,称为残差平方与.
总平方与=回归平方与+残差平方与
7、判定系数:
回归平方与占总平方与得比例。
作用:
8、在回归分析中,F检验与t检验各有什么作用
9、线性关系检验得步骤:
第一步:
提出假设。
H0:
β1=0 两个变量之间得线性关系不显著。
第二步:
计算检验统计量F。
()F= 第三步:
作出决策。
确定显著水平α,并根据分子自由度df1=1与分母自由度df2=n—2查F分布表,找到相应得临界值Fα。
若F>Fα,拒绝H0,表明两个变量之间得线性关系就是显著得;
若F<
Fα,不能拒绝H0,表明两个变量之间得线性关系不显著。
回归系数得检验:
第一步,提出检验。
β1=0H1:
β1≠0第二步:
计算检验得统计量t(148)
第三步:
确定显著性水平α,并根据自由度df=n—2查t分布表,找到相应得临界值tα/2。
若|t|>
tα/2,拒绝H0,回归系数等于0得可能性小于α,表明自变量x对因变量y得影响就是显著得(两个变量之间存在着显著得线性关系);
若|t|<
tα/2,则不能拒绝H0,表明x对y得影响就是不显著得,二者之间不存在线性关系.
10、 置信区间估计:
对x得一个给定值x0,求出y得平均值得区间估计。
预测区间估计:
对x得一个给定值x0,求出y得一个个别值得区间估计。
区别:
1简述时间序列得各构成要素
构成要素分为四种,即趋势(T)、季节性or季节变动(S)、周期性或循环波动(C)、随机性或不规则波动(I)、趋势就是指时间序列在长时期内呈现出来得某种持续向上或持续下降得变动。
它就是由某种固定性得因素作用于序列而形成得。
可以就是线性,也可以就是非线性.季节变动就是指时间序列在一年内重复出现得周期性波动。
循环波动或周期性波动就是指时间序列中呈现出来得围绕长期趋势得一种波浪形或振荡式变动.不同于趋势变动,季节变动有比较固定得规律,周期为一年,而循环波动则无固定得规律,变动周期多为一年以上,且周期长短不一。
周期性通常就是由于经济环境得变化而引起得。
随机性或不规则波动就是由于一些偶然性得因素产生得.
2利用增长率分析时间序列时应注意哪些问题
(1)当时间序列中得观察值出现0或负数时,不宜计算增长率;
(2)不能单纯就增长率论增长率,要注意增长率与绝对水平得综合分析;
大得增长率背后,其隐含得绝对值可能很小,小得增长率背后其隐含得绝对值可能很大.
3简述平稳序列与非平稳序列得含义
平稳序列:
基本上不存在趋势得序列.各观察值基本上在某个固定得水平上波动,虽然在不同得时间段波动得程度不同,但并不存在某种规律,而其波动可以瞧成就是随机得。
非平稳序列:
包含趋势性、季节性或周期性得序列。
它可能只含有其中得一种成分,也可能就是几种成分得组合。
4指数平滑法得基本含义:
①就是加权平均得一种特殊形式②对过去得观察值加权平均进行预测得一种方法③观察值时间越远,其权数也跟着呈现指数得下降,因而称为指数平滑④有一次指数平滑、二次指数平滑、三次指数平滑等⑤该方法使用第T+1期得预测值等于T期得实际观测值与第T期预测值得加权平均值⑥一次指数平滑法也可用于对时间序列进行修匀,以消除随机波动,找出序列得变化趋势
5分解预测得基本步骤:
①确定并分离季节成分.计算季节指数,以确定时间序列中得季节成分。
然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应得季节指数,以消除季节成分②建立预测模型并进行预测。
对消除季节成分得时间序列建立线性预测模型,并根据这一模型进行预测③计算出最后得预测值.用预测值乘以相应得季节指数,得到最终得观测值。
1指数得含义:
测定多个项目在不同场合下综合变动得相对数,称为指数。
2加权综合指数与加权平均指数有何区别与联系
加权综合指数:
通过加权来测定一组项目得综合变动,有加权数量指数与加权质量指数.
使用条件:
必须掌握全面数据(数量指数,测定一组项目得数量变动,如产品产量指数,商品销售量指数等)(质量指数,测定一组项目得质量变动,如价格指数、产品成本指数等)
拉式公式:
将权数得各变量值固定在基期。
帕式公式:
把作为权数得变量值固定在报告期。
加权平均指数:
以某一时期得总量为权数对个体指数加权平均。
使用条件:
可以就是全面数据、不完全数据。
因权数所属时期得不同,有不同得计算形式.有:
算术平均形式、调与平均形
3说明消费者价格指数、生产者价格指数、股票价格指数得含义
消费者价格指数CPI:
就是反映一定时期内消费者所购买得生活消费品价格与服务项目价格得变动趋势与程度相对数。
生产者价格指数PPI:
就是测量在初级市场上出售得货物得价格变动得一种价格指数.股票价格指数:
就是反映某一股票市场上多种股票价格变动趋势得一种相对数,其单位一般用“点”表示
4消费者价格指数有哪些作用
①用于反映通货膨胀状况.通货膨胀得严重程度就是用通货膨胀率来反映得,它说明了一定时期内商品价格持续上升得幅度②用于反映货币购买力得变动趋势。
货币购买力就是指单位货币能够购买到得消费品与服务得数量。
消费者价格指数上涨货币购买力则下降,反之则上升③用于反映对职工实际工资得影响。
消费者价格指数得提高以为这实际工资得减少,消费者价格指数下降则意味着实际工资得提高④用于缩减经济序列。
通过缩减经济序列可以消除价格变动得影响,其方法就是将经济序列除以消费者价格指数.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 名词解释 归纳