数据统计方法.docx
- 文档编号:5779990
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:21
- 大小:215.63KB
数据统计方法.docx
《数据统计方法.docx》由会员分享,可在线阅读,更多相关《数据统计方法.docx(21页珍藏版)》请在冰豆网上搜索。
数据统计方法
第一节统计数据的位置特征
统计数据的位置特征是对一组统计数据集中趋势和平均水平的度量,通常将位置特征的度量称为平均指标。
常用来表述统计数据位置特征的平均指标有两类:
数值平均数和位置平均数。
数值平均数主要有算数平均数、调和平均数和几何平均数。
位置平均数主要有中位数和众数。
分析、研究一组统计数据的集中趋势,就是寻找该组数据一般水平的代表值。
一、数值平均数
数值平均数是全部数据的平均值。
主要有三种形式:
算术平均数、调和平均数和几何平均
数。
(一)算术平均数
算术平均数是对一组数据中心位置的度量。
可分为简单算术平均数和加权算术平均数两种。
1.简单算术平均数
适用未分组数据,计算公式为:
(3.1)
式中,(或)—简单算数平均数;
—第项的数据值;
—数据的项数。
例3.1假设某商场200名职工月销售额的统计资料如表3.1所示,试求该商场
200名职工月平均销售额。
解根据表中资料,200名职工月平均销售额为:
(3.2)
式中,
(或
)—加权算术平均数;
—第
组的数据值或组中值;
—第
组的数据值或组中值出现的次数;
解根据表3.2中资料,按分组资料估计200名职工月平均销售额应采用加权算术平均数方法,计算过程列表如下:
单位:
万元
于是,200名职工月平均销售额为:
(二)调和平均数
调和平均数又称“倒数平均数”,它是数据倒数的算术平均数的倒数。
当在实际工作中所采集的数据不能直接应用算术平均数的计算公式时,可利用调和平均数来度量一组数据的中心位置。
1.简单调和平均数
适用未分组数据,计算公式为:
例3.4假设某企业某月按工人劳动生产率分组的统计资料如表3.3所示,试求该企业工人平均劳动生产率。
按工人劳动生产率分组
(件/人)
表3.3
按工人劳动生产率分组
生产班组
各组产量(件)
50-60
10
82500
60-70
8
65000
70-80
5
52500
80-90
2
25500
90-100
1
15200
解首先求出各组的组中值,然后求出各组工人数,采用加权调和平均数方法计算平均水平。
计算过程列表如下:
注意,生产班组数虽然是不同的劳动生产率各个组的次数,但它和分组的组中值相乘无任何实际意义,因此它不能做权数。
(三)几何平均数
主要用于计算比率或者速度的平均,用表示。
1.简单几何平均数
适用未分组数据,计算公式为:
例3.5假设某工厂生产的产品要经过3道连续作业的工序,每道工序的合格率依次为
95%、90%和98%,试求3道工序的平均合格率。
解因为产品的总合格率是各道工序合格率的连乘积,所以计算3道工序的平均合格率应采用几何平均数方法。
2.加权几何平均数
适用分组数据,计算公式为:
例4.6假设某投资银行10年期的投资年利率是按复利计算的,年利率的分配情况
为:
第1、2年为3%,第3至第5年为5%,第6至第10年为8%。
求平均年利率。
解首先采用加权几何平均数方法计算平均年本利率。
于是,得平均年利率为。
二、位置平均数
位置平均数是根据其在全部数据中所处的位置确定的平均值。
主要有二种形式:
中位数和众数。
(一)中位数
中位数是将全部数据项按从小到大顺序排列后,处于中间位置的数据值,用表示。
1.未分组数据
计算步骤为:
第一步,将一组数据,,,按从小到大的顺序排列后,不妨表示为,,,
;
第二步,确定中位数的位次。
式中,为数据的项数;
第三步,确定中位数的数值,计算公式为
(3.7)
例3.7根据表3.1的未分组数据,计算200名职工月销售额的中位数。
解首先将全部数据项按从小到大顺序排列后,得表3.4。
表3.4200名职工月销售额按从小到大顺序排列
单位:
万元
56
98
126
140
154
168
175
189
210
238
56
98
126
140
154
168
175
189
210
238
63
101.5
126
140
157.5
171.5
175
192.5
210
241
66.5
101.5
126
140
157.5
171.5
175
192.5
210
241
70
105
126
140
157.5
171.5
175
196
210
241.5
70
105
129.5
140
161
171.5
175
196
210
245
70
105
133
140
161
175
182
196
210
245
70
105
133
140
161
175
182
196
210
245
77
105
133
140
161
175
182
196
210
245
80.5
105
133
140
164.5
175
182
196
217
245
81
105
133
143.5
168
175
182
203
217
252
84
112
133
147
168
175
182
203
217
259
84
112
136.5
147
168
175
182
203
217
273
87.5
112
136.5
147
168
175
182
203
224
273
87.5
112
136.5
147
168
175
182
206.5
224
273
91
112
136.5
154
168
175
182
206.5
224
280
91
119
136.5
154
168
175
182
206.5
224
280
98
119
136.5
154
168
175
185.5
206.5
224
280
98
122.5
140
154
168
175
189
210
224
308
98
122.5
140
154
168
175
189
210
231
315
因为n=200为偶数,根据公式(3.7),中位数为第100项和第101项数据的算数平均数,
2.分组数据
计算步骤为:
第一步,确定中位数的位次。
式中,各组次数总和;
第二步,确定中位数所在组。
从第一组开始计算累计次数,当累计次数大于时,该组即为中位数所在组;
第三步,确定中位数的数值,计算公式为
(3.8)
式中,—中位数所在组的下限值;
—中位数所在组的次数;
—各组次数总和;
—中位数所在组以前各组的次数之和;
—中位数所在组的组距。
例3.8根据表3.2的分组数据,计算200名职工月销售额的中位数。
解
从第一组开始累计到第4组时,累计职工人数为142人,所以第4组为中位数所在组。
于是中位数为
(二)众数
众数是一组数据中出现次数最多的数据值,用表示。
1.未分组数据
对于未分组数据,直接找出出现次数最多的数据值即可。
例3.9根据表3.1的未分组数据,计算200名职工月销售额的众数。
解首先将全部数据项按从小到大顺序排列后,得表3.4。
从表3.4可以看出,在200名职工中,有20名职工的月销售额为168万元,次数最多,因此这组数据的众数为:
(万元)。
2.分组数据
计算步骤为:
第一步,确定众数所在的组,即在分组数据中出现次数最多的一组为众数组;
第二步,确定众数的数值,计算公式为:
(3.9)
式中,—众数组的下限值;
—众数组的次数与下一组的次数之差;
—众数组的次数与上一组的次数之差;
—众数组的组距。
例3.10根据表3.2的分组数据,计算200名职工月销售额的众数。
解因为第4组的职工人数最多,为60人,所以第4组为众数组。
将有关数据代入
公式
(3.9)中,得到众数为
第二节统计数据的散布特征
统计数据的散布特征是对一组数据变异程度和离散趋势的度量,它反映了各数据值远离其中心位置的程度,通常称散布特征的度量为标志变异指标。
常用来表述一组统计数据散布特征的变异指标有:
全距、平均差、方差、标准差和变异系数等。
分析、研究一组统计数据的离散趋势,是衡量一组数据平均指标代表性的重要方法。
一、全距
例3.11根据表3.4,计算200名职工月销售额的全距。
解因为表3.4是职工月销售额按从小到大顺序排列的数据,所以直接得全距为
(万元)。
二、平均差
平均差,也称平均离差,是各个数据值与其平均值的离差绝对值的平均数,用A.D.
表示。
未分组数据
(3.11)
式中,—简单平均差;
—第项的数据值;
—全部数据的算数平均数;
—数据的项数。
例3.12根据表3.1的未分组数据,计算200名职工月销售额的平均差。
解由例3.1得知,
于是200名职工月销售额的平均差为:
(二)分组数据
计算公式为:
(3.12)
式中,—加权平均差;
—第组的数据值或组中值;
—全部数据的算数平均数;
—第组的数据值或组中值出现的次数;
—分组的组数。
例3.13根据表3.2的分组数据,计算200名职工月销售额的平均差。
解按分组数据估计200名职工月销售额的平均差,应采用加权平均差方法,计算过程列表如下:
于是,200名职工月销售额的平均差为:
三、方差和标准差
方差是各个数据值与其平均值离差的平方的平均数;用表示。
标准差是方差的平方根,用表示。
(一)未分组数据
组数据,方差、标准差的计算公式分别为:
(3.13)
和
(3.14)
式中,和—分别为方差和标准差;
—第项的数据值;
—全部数据的算数平均数;
—数据的项数。
方差的性质
(3.15)
即,方差等于数据平方的平均值减去数据平均值的平方,这一性质常用于简化方差的计算。
例3.14根据表3.1的未分组数据,计算200名职工月销售额的方差和标准差。
解由例3.1得知,,,于是200名职工月销售额的方差为:
(二)分组数据
对于分组数据,方差、标准差的计算公式分别为:
和
(3.17)
式中,和—分别为方差和标准差;
—第项的数据值或组中值;
—全部数据的算数平均数;
—第组的数据值或组中值出现的次数;
—分组的组数。
例3.15根据表3.2的分组数据,估算200名职工月销售额的方差和标准差。
解按分组数据估计200名职工月销售额的方差和标准差,应采用加权的计算方法,计算过程列表如下:
200名职工月销售额的方差为:
四、标准差系数
全距、平均差、方差和标准差都是反映一组数据变异程度的绝对指标,其数值的大小不仅与这组数据本身水平高低有关,而且还取决于数据的计量单位。
为了对比分析不同平均水平和不同计量单位的数据组之间的变异程度,不宜直接通过上述变异指标来比较其变异程度。
为消除平均水平高低和计量单位不同的影响,需要计算变异系数。
变异系数是一组数据的变异指标与其平均指标之比,它是一个相对变异指标。
变异系数有全距系数、平均差系数和标准差系数等。
常用的是标准差系数,用表示,计算公式为:
(3.18)
例如,根据表3.1的未分组数据,计算的标准差系数为
根据表3.2的分组数据,计算的标准差系数为
例3.16某县2个乡的小麦产量的有关数据如下表所示:
试比较2个乡小麦产量的变异程度。
解甲乡的标准差系数为:
乙乡的标准差系数为:
,似乎甲乡的变异程度较小,其平均指标的代表性高于乙乡;但从变异系数看,,所以乙乡的变异程度低于甲乡,说明乙乡的小麦平均亩产量具有较大的代表性。
第三节统计数据的形态特征
统计数据的形态特征是对一组统计数据分布的对称(或偏斜)程度和陡峭(或扁平)程度的度量,是反映一组统计数据分布形状的重要指标。
常用来表述一组统计数据形态特征的指标有:
偏度和峰度。
偏度和峰度是通过矩来定义的。
一、矩
在力学和物理学中,矩用来描述质量的分布;在统计学中,矩用来描述统计数据的分布。
例如,算术平均数、方差、标准差和平均差等都是矩,变异系数也是通过矩来计算的。
因此,矩是描述统计数据分布特征的一类数字特征。
常用的矩有两大类:
原点矩和中心矩。
(一)原点矩
1.未分组数据,阶原点矩的计算公式为:
(3.19)
式中,—阶原点矩;
—第项的数据值;
—任意实数,原点矩的阶数;
—数据的项数。
2.分组数据,阶原点矩的计算公式为:
(3.20)
式中,—阶原点矩;
—第组的数据值或组中值;
—第组的数据值或组中值出现的次数;
—任意实数,原点矩的阶数;
—分组的组数。
显然,,即算数平均数是1阶原点矩。
(二)中心矩
1.未分组数据,阶中心矩的计算公式为:
(3.21)
式中,—阶中心矩;
—第项的数据值;
—全部数据的算数平均数;
—任意实数,中心矩的阶数;
—数据的项数。
2.分组数据,阶中心矩的计算公式为:
(3.22)
其中,—阶中心矩;
—第组的数据值或组中值;
—全部数据的算数平均数;
—第组的数据值或组中值出现的次数;
—任意实数,中心矩的阶数;
—分组的组数。
显然,,即方差是2阶中心矩。
3.原点矩与中心矩的换算公式
常用的前4阶矩的换算公式如下:
二、偏度
偏度,亦称偏态、偏态系数等,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
偏度是利用3阶矩定义的,偏度的计算公式为:
(3.23)
式中,—偏度;
—3阶中心矩;
—标准差。
在一般情形下,当统计数据为右偏分布时,,且值越大,右偏程度越高;当统计数据为左偏分布时,,且值越小,左偏程度越高。
当统计数据为对称分布时,显然有。
例3.17根据表3.1的未分组数据,计算200名职工月销售额的偏度。
于是有
最后得偏度为
三、峰度
4阶
矩定义的,
峰度的计算公式为:
(3.24)
式中,—峰度;
—4阶中心矩;
—标准差。
将统计数据的分布形态与正态分布加以比较,在一般情形下,如果统计数据的分布较正态分布更加陡峭时,则,称为尖顶(尖峰)分布,且值越大,分布的形状越
陡峭;如果统计数据的分布较正态分布更加平坦时,则,称为平顶(平峰)分布,且值越小,分布的形状越平坦;当统计数据为正态分布时,显然有。
例3.18根据表3.1的未分组数据,计算200名职工月销售额的峰度。
附录:
用Excel计算描述统计量
通过本附录的学习,我们将学会利用Excel提供的各种统计函数和“数据分析”宏程序中的“描述统计”过程,计算描述统计量的方法。
一、利用“描述统计”过程计算
例1某电脑公司四月份电脑销售量数据(单位:
台)如下:
257
271
272
276
292
284
297
261
268
252
281
304
237
300
272
311
275
262
240
265
311
235
280
250
261
291
270
278
260
297
步骤一:
输入数据。
打开Excel工作簿,分别在A1至A30这30个单元格内输入上述数据。
步骤二:
利用“描述统计”过程计算。
1.选择“工具”下拉菜单。
2.选择“数据分析”选项。
(如无此选项,可利用第二章附录中介绍的“加载宏”的方法予以加载。
)
3.在数据分析工具中选择“描述统计”。
出现描述统计对话框,如下图:
⑴在“输入区域”方框中键入A1:
A30;
⑵在“输出区域”方框中键入输出区域第一个起始单元格的地址B1;
⑶选择“汇总统计”、“平均数置信度”;
⑷在“第K个最大值”和“第K个最小值”中,选择系统默认值“1”(表示选择输出第1个最大值和第1个最小值);
⑸单击“确定”按钮。
计算结果如下:
Excel计算的月销售额的描述统计量
二、利用统计函数完成描述统计
(一)一般统计
1.求和。
格式如下:
。
例2以上题为例,求A1:
A30的和。
解
⑴打开存储上例数据的Excel文件;
⑵单击任意一个单元格(本例中为E1);
⑶输入公式“”,回车确定即可,结果为8210。
2.求最大值。
格式如下:
。
3.求最小值。
格式如下:
。
(二)集中趋势统计
1.求算术平均值。
格式如下:
。
例3计算1,2,3,4,5,6,7,8,9的平均值。
解在Excel中单击任意单元格,输入公式:
“”,结果为5。
2.求中位数。
格式如下:
。
3.求众数。
格式如下:
。
其他的集中趋势函数还有几何平均数,调和平均数,其格式同上。
4.求四分位数。
格式如下:
数组,分位点。
其中:
数组可为数值数组或单元格范围;分位点为计算四分位数的分割点数字。
分位点作用与意义
1得到最小值
2计算第一四分位数(即第25百分位数)
3计算中位数(即第50百分位数)
4计算第三四分位数(即第75百分位数)
5得到最大值
例4求数组{5,2,4,9,7,15,12,8,6}的第三四分位数。
解在Excel中单击任意单元格,输入公式:
“5,2,4,9,7,15,12,8,6,3”,结果为9。
5.求百分位数。
格式如下:
数组,K百分位数点。
表示求一个数组的第K个百分位数的值,其中:
数组可为数值数组或单元格范围;K
百分位数点以百分比值表示,它介于0至1之间。
例5求数组{6,7,3,9,5,1,12,8,15}的第八十个百分位数。
解在Excel中单击任意单元格,输入公式:
“6,7,3,9,5,1,12,8,15,”,结果为9.6。
9.6
即为数组的第八十个百分位数的值。
(三)离散程度统计
1.求平均差。
格式如下:
2.求方差。
格式如下:
3.求峰度。
格式如下:
4.求偏度。
格式如下:
WelcomeToDownload!
!
!
欢迎您的下载,资料仅供参考!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计 方法