统计学基础考试重点保你不挂科.docx
- 文档编号:8325576
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:23
- 大小:225.21KB
统计学基础考试重点保你不挂科.docx
《统计学基础考试重点保你不挂科.docx》由会员分享,可在线阅读,更多相关《统计学基础考试重点保你不挂科.docx(23页珍藏版)》请在冰豆网上搜索。
统计学基础考试重点保你不挂科
基础知识
第一章:
导论1、什么是统计学?
统计方法可以分为哪两大类?
统计学是收集、分析、表述和解释数据的科学。
统计方法可分为描述统计方法和推断统计方法。
2、统计数据可分为哪几种类型?
不同类型的数据各有什么特点?
按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。
按计量尺度分时:
分数数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。
按收集方法分时:
观测数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。
按被描述的对象与时间关系分时:
截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。
3、举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含研究的全部个体的集合。
比如要检验一批灯泡的使用寿命,这一批灯泡构成的集合就是总体。
样本是从总体中抽取的一部分元素的集合。
比如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。
参数是用来描述总体特征的概括性数字度量。
比如要调查一个地区所有人口的平均年龄,“平均年龄”即为一个参数。
统计量是用来描述样本特征的概括性数字度量。
比如要抽样调查一个地区所有人口的平均年龄,样本中的“平均年龄”即为一个统计量。
变量是说明现象某种特征的概念。
比如商品的销售额是不确定的,这销售额就是变量。
第二章:
数据的收集1、调查方案包括哪几个方面的内容?
调查目的,是调查所要达到的具体目标。
调查对象和调查单位,是根据调查目的确定的调查研究的总体或调查范围。
调查项目和调查表,要解决的是调查的内容。
2、数据的间接来源(二手数据)主要是公开出版或公开报道的数据;数据的直接来源一是调查或观察,二是实验。
3、统计调查方式:
抽样调查、普查、统计报表等。
抽样调查是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种数据收集方法。
特点:
经济性,时效性强,适应面广,准确性高。
普查是为某一特定目的而专门组织一次性全面调查。
我国进行的普查主要有人中普查、工业普查、农业普查等。
统计报表是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。
除此之外,还有重点调查和典型调查。
4、统计数据的误差通常是指统计数据与客观现实之间的差距,误差的主要类型有抽样误差和非抽样误差两类。
抽样误差主要是指在样本数据进行推断时所产生的随机误差(无法消除);非抽样误差是人为因素造成的(理论上可以消除)
5、统计数据的质量评价标准:
精度,即最低的抽样误差或随机误差;准确性,即最小的非抽样误差或偏差;关联性,即满足用户决策、管理和研究的需要;及时性,即在最短的时间里取得并公布数据;一致性,即保持时间序列的可比性;最低成本,即在满足以上标准的前提下,以最经济的方式取得数据。
6、数据的收集方法分为询问调查与观察实验。
7、统计调查方案包括哪些内容?
调查目的即调查所要达到的具体目标;调查对象和调查单位,调查对象是根据调查目的确定的调查研究的总体或调查范围,调查单位是构成调查对象中的每一个单位;调查项目和调查表,就是调查的具体内容;其它问题,即明确调查所采用的方式和方法、调查时间及调查组织和实施细则。
第三章:
数据整理与展示
1、对于通过调查取得的原始数据,应主要从完整性和准确性两个方面去审核。
2、对分类数据和顺序数据主要是做分类整理,对数值型数据则主要是做分组整理。
3、数据分组的步骤:
确定组数、组距,最后制成频数分布表
统计分组时“上组限不在内”,相邻两组组限间断,上限值采用小数点。
组中值=(下限值+上限值)/2
4、频数:
落在各类别中的数据个数;频数分布指把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来;比例:
某一类别数据占全部数据的比值;百分比:
将对比的基数作为100而计算的比值;比率:
不同类别数值的比值;分类数据的图示包括条形图和饼图。
5、直方图与条形图的差别:
条形图是用条形的长度表示各类别频数的多少,宽度则是固定的,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。
其次,直方图的各矩形通常是连续排列,而条形图则是分开排列。
最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
第四章:
数据分布特征的测度
1、一组数据的分布特征可以从哪几个方面进行测度?
一是分布的集中趋势反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。
2、简述众数、中位数和均值的特点和应用场合及关系。
众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。
众数主要作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的代表值,不受数据极端值的影响。
中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。
均值是就数值型数据计算的,具有优良的数学性质,缺点是易受数据极端值的影响。
均值主要适合于作为数值型数据的集中趋势测度值。
关系:
如果数据的分布是对称的,众数、中位数和均值必定相等,即Mo=Me=xbar;如果数据是左偏分布,说明数据存在极小值,三者之间的关系表现为:
xbar<Me<Mo;如果数据是右偏公布,说明数据存在极大值,必然拉动均值向极大值一方靠,则Mo<Me<xbar(图)
3、为什么要计算离散系数?
第一,极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小取决于原变量值本身水平高低的影响。
第二,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。
因此,为消除变量值水平高低和计量单位不同对离散程度的测度值的影响,需要计算离散系数。
4、均值是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。
5、四分位差主要用于测度顺序数据的离散程度,数值型数据也可以计算四分位差,但不适合于分类数据。
6、方差是各变量值与其均值离差平方的平均数。
方差的平方根是标准差。
方差、标准差计算公式(分组数据、未分组数据两种,自己写)
样本方差和标准差计算公式(同上)
7、对于分类数据,主要用异众比率来测度其离散程度;对于顺序数据,主要用四分位差来测度其离散程度;对于数值型数据,主要用方差或标准差来测度其离散程度。
8、经验法则:
68%-1;95%-2;99%-3
第五章:
抽样与参数估计
1、常用的概率抽样方法主要有:
简单随机抽样,分层抽样,系统抽样,整群抽样
2、置信水平(P115)
第七章:
相关与回归分析
1、解释相关关系的含义,并说明其特点。
相关关系是变量与变量之间存在的不确定的数量关系。
特点是:
一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。
2、简述相关系数的取值及其意义,并说明相关程度的几种情况。
相关系数-1≤r≤1。
若0≤r≤1,表明x与y之间存在正线性相关关系;若-1≤r<0,表明x与y之间存在负线性相关关系;若r=1,表明x与y之间为完全正线性相关关系;若r=-1,表明x与y之间为完全负线性相关关系。
|r|≥0.8时,可视为高度相关;0.5≤|r|<0.8时,可视为中度相关;0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱。
3、解释回归模型、回归方程、估计的回归方程的含义
回归模型是描述因变量y如何依赖于自变量x和误差项的方程。
回归方程是描述因变量y的期望值如何依赖于自变量x的方程。
估计的回归方程是利用最小二乘法,根据样本数据求出的回归方程的估计。
4、简述参数最小二乘估计的基本原理。
这一公式的x和y的n对观察值,用于描述其关系的直线有多条,用距离观测点最近的一条直线,用它来表示x与y之间的关系与实际数据的误差比其它任何直线都小。
根据这一思想确定直线中未知常数
和
的方法称为最小二乘法,即:
5、简述判定系数的含义和作用
回归平方和占总平方和的比例,称为判定系数。
它测度了回归直线对观测数据的拟合程度,它反映了在因变量y的总变量差中由于x与y之间的线性关系所解释的比例。
第八章:
时间序列分析和预测
1、利用增长率分析时间序列时应注意哪些问题?
首先,当时间序列中的观察值出现0或负数时,不宜计算增长率;其次,在有些情况下,不能单纯就增长率论增长率,要注意增长率与绝对水平的结合分析。
第九章:
指数
1、什么是指数?
它有哪些性质?
反映复杂现象在不同场合下综合变动的一种特殊相对数,称为指数。
性质:
相对性;综合性;平均性;动态和静态兼有的特性。
2、指数有哪些类型?
根据对比场合不同,分为动态指数和静态指数;根据指数研究对象的范围不同,分为个体指数和总指数。
;根据编制方法的不同,总指数分为综合指数和平均指数;根据指数反映的性质不同,分为质量指数、数量指数;根据比较时所采用的基期不同,分为定基指数和环比指数;根据计算采用权数与否,分为简单指数和加权指数。
计算题
1.某单位40名职工业务考核成绩分别为:
68898884868775737268
75829758815479769576
71609065767276858992
64578381787772617081
单位规定:
60分以下为不及格,60─70分为及格,70─80分为中,80─90
分为良,90─100分为优。
要求:
(1)将参加考试的职工按考核成绩分为不及格、及格、中、良、优五组并
编制一张考核成绩次数分配表;
(2)指出分组标志及类型及采用的分组方法;
(3)计算本单位职工业务考核平均成绩
(4)分析本单位职工业务考核情况。
解:
(1)
成绩
职工人数
频率(%)
60分以下
60-70
70-80
80-90
90-100
3
6
15
12
4
7.5
15
37.5
30
10
合计
40
100
(2)分组标志为"成绩",其类型为"数量标志";分组方法为:
变量分组中的开放组距式分组,组限表示方法是重叠组限;
(3)本单位职工业务考核平均成绩
(4)本单位的职工考核成绩的分布呈两头小,中间大的"正态分布"的形态,说明大多数职工对业务知识的掌握达到了该单位的要求。
2.2004年某月份甲、乙两农贸市场农产品价格和成交量、成交额资料如下:
品种
价格(元/斤)
甲市场成交额(万元)
乙市场成交量(万斤)
甲
乙
丙
1.2
1.4
1.5
1.2
2.8
1.5
2
1
1
合计
—
5.5
4
试问哪一个市场农产品的平均价格较高?
并说明原因。
解:
品种
价格(元)
X
甲市场
乙市场
成交额
成交量
成交量
成交额
m
m/x
f
xf
甲
乙
丙
1.2
1.4
1.5
1.2
2.8
1.5
1
2
1
2
1
1
2.4
1.4
1.5
合计
—
5.5
4
4
5.3
解:
先分别计算两个市场的平均价格如下:
甲市场平均价格
(元/斤)
乙市场平均价格
(元/斤)
说明:
两个市场销售单价是相同的,销售总量也是相同的,影响到两个市场
平均价格高低不同的原因就在于各种价格的农产品在两个市场的成交量不同。
3.某车间有甲、乙两个生产组,甲组平均每个工人的日产量为36件,
标准差为9.6件;乙组工人日产量资料如下:
日产量(件)
工人数(人)
15
25
35
45
15
38
34
13
要求:
⑴计算乙组平均每个工人的日产量和标准差;
⑵比较甲、乙两生产小组哪个组的日产量更有代表性?
解:
(1)
(件)
(件)
(2)利用标准差系数进行判断:
因为0.305>0.267
故甲组工人的平均日产量更有代表性。
4.某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其月平均产量水平,得每人平均产量560件,标准差32.45
要求:
(1)计算抽样平均误差(重复与不重复);
(2)以95%的概率(z=1.96)估计该厂工人的月平均产量的区间;
(3)以同样的概率估计该厂工人总产量的区间。
解:
(1)
重复抽样:
不重复抽样:
(2)抽样极限误差
=1.96×4.59=9件
月平均产量的区间:
下限:
△
=560-9=551件
上限:
△
=560+9=569件
(3)总产量的区间:
(551×1500826500件;569×1500853500件)
5.采用简单随机重复抽样的方法,在2000件产品中抽查200件,其中合格品190件.
要求:
(1)计算合格品率及其抽样平均误差
(2)以95.45%的概率保证程度(z=2)对合格品率和合格品数量进行区间估计。
(3)如果极限误差为2.31%,则其概率保证程度是多少?
解:
(1)样本合格率
p=n1/n=190/200=95%
抽样平均误差
=1.54%
(2)抽样极限误差Δp=zμp=2×1.54%=3.08%
下限:
△p=95%-3.08%=91.92%
上限:
△p=95%+3.08%=98.08%
则:
总体合格品率区间:
(91.92%98.08%)
总体合格品数量区间(91.92%×2000=1838件98.08%×2000=1962件)
(3)当极限误差为2.31%时,则概率保证程度为86.64%(z=Δ/μ)
6.某企业上半年产品产量与单位成本资料如下:
月 份
产量(千件)
单位成本(元)
1
2
3
4
5
6
2
3
4
3
4
5
73
72
71
73
69
68
要求:
(1)计算相关系数,说明两个变量相关的密切程度。
(2)配合回归方程,指出产量每增加1000件时,单位成本平均变动多少?
(3)假定产量为6000件时,单位成本为多少元?
解:
计算相关系数时,两个变量都是随机变量,
不须区分自变量和因变量。
考虑到要配和合回归方程,
所以这里设产量为自变量(x),单位成本为因变量(y)
月 份
n
产量(千件)
x
单位成本(元)
y
xy
1
2
3
4
5
6
2
3
4
3
4
5
73
72
71
73
69
68
4
9
16
9
16
25
5329
5184
5041
5329
4761
4624
146
216
284
219
276
340
合计
21
426
79
30268
1481
(1)计算相关系数:
说明产量和单位成本之间存在高度负相关。
(2)配合回归方程 y=a+bx
=-1.82
=77.37
回归方程为:
y=77.37-1.82x
产量每增加1000件时,单位成本平均减少1.82元
(3)当产量为6000件时,即x=6,代入回归方程:
y=77.37-1.82×6=66.45(元)
7.根据企业产品销售额(万元)和销售利润率(%)资料计算出如下数据:
n=7
=1890
=31.1
2=535500
2=174.15
=9318
要求:
(1)确定以利润率为因变量的直线回归方程.
(2)解释式中回归系数的经济含义.
(3)当销售额为500万元时,利润率为多少?
解:
(1)配合直线回归方程:
y=a+bx
b=
=
=0.0365
a=
=
=-5.41
则回归直线方程为:
yc=-5.41+0.0365x
(2)回归系数b的经济意义:
当销售额每增加一万元,销售利润率增加0.0365%
(3)计算预测值:
当x=500万元时yc=-5.41+0.0365
=12.8%
8.某商店两种商品的销售资料如下:
商品
单位
销售量
单价(元)
基期
计算期
基期
计算期
甲
乙
件
公斤
50
150
60
160
8
12
10
14
要求:
(1)计算两种商品销售额指数及销售额变动的绝对额;
(2)计算两种商品销售量总指数及由于销售量变动影响销售额的绝对额;
(3)计算两种商品销售价格总指数及由于价格变动影响销售额的绝对额。
解:
(1)商品销售额指数=
销售额变动的绝对额:
元
(2)两种商品销售量总指数=
销售量变动影响销售额的绝对额
元
(3)商品销售价格总指数=
价格变动影响销售额的绝对额:
元
9.某商店两种商品的销售额和销售价格的变化情况如下:
商品
单位
销售额(万元)
1996年比1995年
销售价格提高(%)
1995年
1996年
甲
乙
米
件
120
40
130
36
10
12
要求:
(1)计算两种商品销售价格总指数和由于价格变动对销售额的影响绝对额。
(2)计算销售量总指数,计算由于销售量变动,消费者增加(减少)的支
出金额。
解:
(1)商品销售价格总指数=
由于价格变动对销售额的影响绝对额:
万元
(2))计算销售量总指数:
商品销售价格总指数=
而从资料和前面的计算中得知:
所以:
商品销售量总指数=
,
由于销售量变动,消费者增加减少的支出金额:
-
10.某地区1984年平均人口数为150万人,1995年人口变动情况如下:
月份
1
3
6
9
次年1月
月初人数
102
185
190
192
184
计算:
(1)1995年平均人口数;
(2)1984-1995年该地区人口的平均增长速度.
解:
(1)1995年平均人口数
=181.38万人
(2)1984-1995年该地区人口的平均增长速度:
11.某地区1995—1999年粮食产量资料如下:
年份
1995年
1996年
1997年
1998年
1999年
粮食产量(万斤)
434
472
516
584
618
要求:
(1)计算各年的逐期增长量、累积增长量、环比发展速度、定基发展速度;
(2)计算1995年-1999年该地区粮食产量的年平均增长量和粮食产量
的年平均发展速度;
(3)如果从1999年以后该地区的粮食产量按8%的增长速度发展,
2005年该地区的粮食产量将达到什么水平?
解:
(1)
年份
1995年
1996年
1997年
1998年
1999年
粮食产量(万斤)
环比发展速度
定基发展速度
逐期增长量
累积增长量
434
-
-
-
-
472
108.76
108.76
38
38
516
109.32
118.89
44
82
584
113.18
134.56
68
150
618
105.82
142.40
34
184
平均增长量=
(万斤)
(万斤)
(2)平均发展速度
(3)
=980.69(万斤)
12.
年份
1995年
1996年
1997年
1998年
1999年
粮食产量(万斤)
环比发展速度
逐期增长量
434
-
-
-
108.76
44
68
105.82
要求:
(1)计算各年的逐期增长量、累积增长量、环比发展速度、定基发展速度;
(2)计算1995年-1999年该地区粮食产量的年平均增长量和粮食产量
的年平均发展速度;
(3)如果从1999年以后该地区的粮食产量按8%的增长速度发展,2005年该地区的粮食产量将达到什么水平?
(做法见上题)
例题1:
某工厂有1500个工人,用简单随机重复抽样的方法抽
出50个工人作为样本,调查其月平均产量水平,资料如下:
日产量(件)
524
534
540
550
560
580
600
660
工人数(0人)
4
6
9
10
8
6
4
3
要求:
(1)计算样本平均数和抽样平均误差。
(2)以95.45%(t=2)的可靠性,估计该厂工人的月平均产量
和总产量的区间。
解答:
n=50,N=1500,t=2
(1)计算样本平均数和抽样平均误差
计算重复抽样的抽样平均误差:
(2)以95.45%的可靠性估计该厂工人的月平均产量和总产量的区间。
计算重复抽样的抽样极限误差:
该厂工人的月平均产量重复抽样的区间范围是:
则,该厂工人的月平均产量区间范围是在550.82件至569.18件之间。
总产量为:
550.82*1500=826230件
569.18*1500=853770件
该厂工人的总产量的区间范围是在826230件至853770件之间。
例题2:
采用简单随机重复抽样的方法,在2000件产品中抽查200件,
其中合格品190件.
要求:
(1)计算合格品率及其抽样平均误差
(2)以95.45%的概率保证程度(t=2)对合格品率和合格品数量进
行区间估计。
解答:
已知:
n=200 N=2000 F(t)=95.45% t=2
(1)合格品率:
p=
=95%
合格品率的抽样平均误差:
(2)合格品率的区间范围:
下限=
上限=
即合格品率的区间范围为:
91.92%--98.08%
合格品数量的区间范围为:
91.92%*2000----98.08%*2000
1838.4件~1961.6件之间.
类似例题讲解:
某企业生产三种产品的资料如下:
产品
单位
产量
单位成本(元)
基期
计算期
基期
计算期
甲
乙
丙
件
公斤
台
100
500
150
120
500
200
15
45
9
10
55
7
要求:
(1)计算三种产品单位成本总指数及由于单位成本影响总成本的绝对额。
(2)计算三种产品产量总指数及由于产量变动影响总成本的绝对额;
(3)计算三种产品总成本指数及总成本变动的绝对额;
解答:
(1)三种产
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 基础 考试 重点 不挂科