第二章 数据分布特征的测度.docx
- 文档编号:12065178
- 上传时间:2023-04-16
- 格式:DOCX
- 页数:16
- 大小:192.52KB
第二章 数据分布特征的测度.docx
《第二章 数据分布特征的测度.docx》由会员分享,可在线阅读,更多相关《第二章 数据分布特征的测度.docx(16页珍藏版)》请在冰豆网上搜索。
第二章数据分布特征的测度
第二章数据分布特征的测度
对数据分布特征主要从三个方面进行测度和描述:
一是分布的集中趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏斜程度和峰度。
本章主要介绍如何使用函数以及“数据分析”工具对数据分布特征进行测度和描述。
第一节函数的介绍
本节主要介绍在统计分析中需要用到的一些函数,其中包括我们本章(描述统计)中以及在概率分布、参数估计与假设检验、方差分析、相关与回归等分析中涉及到的函数,读者在后面章节的学习中可以参阅本节的内容。
一、统计计算中经常用到的函数(函数列表)★
Excel为用户提供了数学、三角函数、统计函数、数据库函数、财务函数、工程函数、逻辑函数、文本函数、时间和日期函数、信息函数、查找和引用函数等10类300多种,可以满足多方面的需要。
其中,统计函数最多达78种;此外还有14种数据库函数,以及在统计中经常使用的数学函数20种,合计112种。
下面将这些函数名称及功能列表显示。
表2-1可用于统计分析的函数
函数名称
函数功能介绍
一、统计函数
1、用于数据整理的函数
FREQUENCY
2、用于描述统计的函数
MODE
MEDIAN
AVERAGE
AVERAGEA
HARMEAN
GEOMEAN
TRIMMEAN
MAX
MAXA
MIN
MINA
LARGE
SMALL
QUARTILE
AVEDEV
DEVSQ
STDEV
STDEVA
STDEVP
求分组数据的频数
求一组数据的众数
求一组数据的中位数
求一组数据的均值
求数据清单中数据的均值
求调和平均数
求几何平均数
求去掉最大值和最小值的平均数
求一组数据中的最大值
求数据清单中包含逻辑值和字符串的最大值
求一组数据中的最小值
求数据清单中包含逻辑值和字符串的最小值
求一组数据中第K个最大值
求一组数据中第K个最小值
求一组数据中的四分位数
求样本数据与其均值的平均离差
求样本数据与其均值离差的平方和
求样本标准差
求包含逻辑值和字符串的样本标准差
求总体标准差
表2-1可用于统计分析的函数(续1)
函数名称
函数功能介绍
STDEVPA
VAR
VARA
VARP
VARPA
KURT
SKEW
3、用于概率分布的函数
BINOMDIST
NEGBINOMDIST
CRITBINOM
PISSON
NORMDIST
NORMINV
NORMSDIST
NORMSINV
STANDARDIZE
LOGNORMDIST
LOGINV
HYPGEOMDIST
BETADIST
BETAINV
GAMMADIST
GAMMAINV
GAMMALN
EXPONDIST
WEIBULL
PROB
PERMUT
4、用于区间估计的函数
CONFIDENCE
5、用于假设检验的函数
CHIDIST
CHIINV
CHITEST
ZTEST
TDIST
TINV
TTEST
FDIST
FINV
FTEST
求包含逻辑值和字符串的总体标准差
求样本方差
求包含逻辑值和字符串的样本方差
求总体方差
求包含逻辑值和字符串的总体方差
求一组数据的峰度
求一组数据的偏度
求二项分布的概率
求负二项分布的函数值
求累积二项分布大于或等于临界值的最小值
求泊松分布的概率
求非标准正态分布的累积函数
求非标准正态分布累积函数的逆函数
求标准正态分布的累积函数
求标准正态分布累积函数的逆函数
求Z分布的正态化数值
求对数正态分布的累积函数
求对数正态分布累积函数的逆函数
求超几何分布的概率
求
分布的累积函数
求
分布累积函数的逆函数
求
分布的累积函数
求
分布累积函数的逆函数
求
分布累积函数的自然对数
求指数分布
求韦伯分布
求指定区域内事件对应概率之和
求从数据集合中选取若干对象的排列数
求总体均值的置信区间
求
分布的单尾概率
求
分布单尾概率的逆函数
求
分布的统计量和相应的自由度
求Z检验的双尾概率
求t分布
求t分布的逆函数
求t检验的概率值
求F分布
求F分布的逆函数
求F检验的单尾概率
表2-1可用于统计分析的函数(续2)
函数名称
函数功能介绍
6、用于方差分析的函数
COVRB
7、用于相关和回归的函数
CORREL
PEARSON
RSQ
FISHER
FISHERIVE
LINEST
INTERCEPT
SLOPE
FORECAST
TREND
STEYX
LOGEST
GROWTH
8、其他统计函数
COUNT
COUNTA
RANK
PERCENTRANK
PERCENTILE
二、数据库函数
DCOUNT
DCOUNTA
DGET
SUBTOTAL
DSUM
DPRODUCT
DAVERAGE
DMAX
DMIN
DSTDEV
DSTDEVP
DVAR
DVARP
SOLREQUEST
三、统计中常用的数学函数
SUM
SUMIF
PRODUCT
QUOTIENT
求协方差
求相关系数
求皮尔逊乘积矩相关系数
求皮尔逊乘积矩相关系数的平方
求费雪变换值(用于相关系数的假设检验)
求费雪变换的逆函数
建立直线方程
求直线方程的截距
求直线方程的斜率
求线性趋势值(预测值)
求线性趋势值(预测值)
求趋势值的标准误差
建立指数曲线方程
求指数曲线趋势值(预测值)
求数组中数据的个数(只计算数字型数据)
求数组中数据的个数(包含逻辑值、文本值等)
求某一数值在一组数据中的排位
求某一数值在一组数据中的百分比排位
求数组的K百分比数值点
计算数据库中符合指定条件并含有数字的单元格数
计算数据库中符合指定条件的非空单元格数
从数据库中抽取一个符合指定条件的记录
将数据清单、数据序列和数据库中的数据分类汇总
计算数据库中符合指定条件的记录字段数值之和
计算数据库中符合指定条件的记录字段数值的乘积
计算数据库中指定项目的平均数
从数据库指定项目中求最大值
从数据库指定项目中求最小值
从数据库中指定项目求样本标准差
从数据库中指定项目求总体标准差
从数据库中指定项目求样本方差
从数据库中指定项目求总体方差
链接外部数据,从中查找数据,以数组形式求结果
对一组数据求和
将符合条件的数据求和
参数相乘
求两数相除的整数部分
表2-1可用于统计分析的函数(续3)
函数名称
函数功能介绍
MOD
POWER
SQRT
RAND
RANDBETWEEN
COMBIN
COUNTIF
FACT
LN
LOG
LOG10
SUMPRODUCT
SUMSQ
SUMXMY2
SUMX2MYS
SUMX2PY2
求两数相除的余数
求数值的乘幂
求数值的平方根
求0~1之间的随机数
求指定两数之间的随机数
求指定对象数目的组合数
求符合指定条件区域的非空单元格数
求某数的阶乘
求某数的自然对数
求某数以指定底数为底的对数
求某数以10为底的对数
求两组对应元素乘积之和
求参数的平方和
求两数组对应值之差的平方和
求两数组对应值平方差之和
求两数组对应值平方和之和
二、函数的使用
1、函数的语法
工作表函数包括两个部分:
函数名和紧跟的一个或多个参数。
函数名,例如SUM和
AVERAGE,表明函数要执行的操作;参数则指定函数所使用的值或单元格。
例如,在公式“=SUM(C3:
C5)”中,SUM为函数名,C3:
C5为参数。
此函数计算单元格C3、C4和C5中值的总和。
函数的参数可以为数值类型。
例如,公式“=SUM(327,209,176)”中的SUM函数将数字327、209和176求和。
不过通常的做法是,先在工作表的单元格中输入使用的数字,然后将这些单元格作为函数的参数使用。
请注意函数参数两端的括号:
开括号表示参数的开始,必须紧跟在函数名后。
如果在函数名和括号之间输入了空格或其他字符,那么Excel会显示错误信息“MicrosoftExcel在公式中发现了错误。
建议更正如下:
是否接受建议的修改?
”如果单击【是】按钮,则Excel会自动更新公式;如果单击【否】按钮,则单元格中将显示错误值﹟NAME?
。
如果在函数中使用多个参数,则要用逗号将参数隔开。
例如,公式“=PRODUCT(C1,C2,C5)”告诉Excel将单元格C1,C2,和C5的数值相乘。
函数中可使用的参数多达30个,但公式的长度不能超过1024个字符。
参数可以是工作表中包括任意数目单元格的区域。
例如,函数“=SUM(A1:
A5,C2:
C10,D3:
D7)”只有3个参数,但对29个单元格的数据进行求和运算(第一个参数A1:
A5,指从A1到A5的所有单元格,依此类推)。
反过来,引用的单元格中也可以包括公式,这些公式引用更多的单元格或单元格区域。
使用这些参数,就可以轻松地创建复杂的公式来执行功能强大的各种操作。
2、函数的输入
对一些单变量和比较简单的函数,可用键盘直接输入。
其方法与在单元格中输入公式相同,首先输入一个“=”号,然后将函数的正确形式输入即可。
例如:
“=SUM(B2:
B5)”等。
对于一些复杂或参数较多的函数,其形式难以记忆,可用“粘贴函数”对话框。
其步骤如下:
第一步:
选中某个单元格并选择“插入”菜单中的“函数”命令,或者单击“常用”工具栏上的“粘贴函数”按钮
,来显示对话框(见图2.1)。
第二步:
从对话框左侧的“函数分类”列表中选择所需要的函数类别(表中除前述10类函数外,还有“常用”和“全部”两项);从对话框右侧的“函数名”列表中选择所需要的函数,单击确定或回车确认,屏幕上出现该函数的对话框。
本例从“统计”函数分类中,选择AVERAGE(平均数函数),如图2.2所示。
图2.1粘贴函数对话框
图2.2AVERAGE函数对话框
图2.2AVERAGE函数对话框包括两个参数,即等价于公式“=AVERAGE(A1:
A5,C2:
C5)”,对9个单元格的数据进行求平均数。
在此对话框中,所选函数的每个参数均有相应的编辑框。
如果函数参数较多,对话框会在输入可选参数时自动进行扩展。
对话框底部会显示对编辑框中当前所包含插入符的参数描述。
每个参数编辑框右边的显示区域将显示参数的当前值。
对话框底部会显示函数的当前值,如本例计算结果为8。
需要说明的是参数多少的选择要根据情况而定,本例使用了两个参数(A1:
A5,C2:
C5),原因是这两个数据区域不相连,如果将这两组数据放在一列,则只需一个参数。
当然,由于不同的函数功能不同,所以在使用中参数的形式可能也不同,这里就不逐一列举。
读者在具体的使用中也可以借助Excel的帮助功能。
第二节数据分布特征测度函数的使用
本节就描述统计中对数据分布特征的测度,所用到的函数做具体的说明。
本节以某电脑公司2002年前4个月各天的销售量数据(单位:
台)为例,见表2-2。
表2-2某电脑公司2002年前4个月各天的销售量
一、集中趋势的测度
集中趋势的测度值有:
众数、中位数、简单均值、调和平均数与几何平均数。
在Excel中用函数求这些测度值,可以打开函数的对话框操作,也可以直接输入包含函数的公式。
1、众数
众数是一组数据中出现次数最多的变量值,用M0表示。
具体做法如前所述:
选中某个单元格并选择“插入”菜单中的“函数”命令,或者单击“常用”工具栏上的“粘贴函数”按钮
,从弹出的对话框左侧“函数分类”列表中选择“统计”,从右侧“函数名”列表中选择MODE函数,回车进入MODE函数对话框(如图2.3所示)。
图2.3MODE函数对话框
在对话框的“Number1”框中输入原始数据所在的单元格区域,本例为A1:
J12;完成以上操作后在对话框底部给出计算结果,本例为172(台);单击“确定”按钮,计算结果自动计入指定位置。
如采取直接输入带函数的公式计算,可单击任一空单元格,输入“=MODE(A1:
J12)”回车确认,可得出同样的结果。
2、中位数
中位数是一组数据排序后,处于中间位置上的变量值,用Me表示。
采取直接输入带函数的公式计算,单击任一单元格,输入“=MEDIAN(A1:
J12)”,回车确认,即得出结果182(台)。
3、均值
(1)简单均值
对于简单均值,单击任一空格,输入“=AVERAGE(A1:
J12)”,回车确认,即可得出结果184.56。
(2)调和平均数
各变量值倒数的平均倒数,称为调和平均数,用Hm表示。
在Excel中,调和平均数也可以用函数求得,但只适用于简单的计算。
例如:
有甲、乙、丙三种蔬菜,每种蔬菜的价格分别为每斤0.5、0.8和0.9元,现在各买1元钱的每种蔬菜,计算平均价格,就是一个求调和平均数的问题。
用求调和平均数函数HARMEAN计算,单击任一单元格,输入“=HARMEAN(0.5,0.8,0.9)”,回车确认,结果为0.688(元)。
(3)几何平均数
n个变量值乘积的n次方根,称为几何平均数,用Gm表示。
几何平均数的计算公式为:
Gm=
式中,∏为连乘符号。
几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率的平均。
当我们所掌握的变量值本身是比率的形式,这时就应采用几何平均数计算平均比率。
在实际应用中,几何平均数主要用于计算社会经济现象的年平均增长率。
例:
某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比为20%。
求各年的平均增长率。
在Excel中求几何平均数,非常简单,单击任一单元格,输入“=GEOMEAN(0.09,0.16,0.20)”,回车确认,其结果为14.2%。
二、离散程度的测度
离散程度的测度值主要有:
异众比率、极值、四分位差、标准差、方差。
这里就数值型数据离散程度的函数测度做简单介绍。
1、极值
在Excel中求极值可用MAX和MIN函数求最大值和最小值,然后求其差值。
单击任一单元格,输入“=MAX(A1:
J12)-MIN(A1:
J12)”,即得出其值为96。
2、四分位差
上四分位数与下四分位数之差,称为四分位差,也称为内距或四分间距,用
表示。
四分位差的计算公式为:
其中,
表示上四分位数,
表示下四分位数。
四分位差反映了中间50%数据的离散程度,其值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。
四分位差不受极值的影响,一定程度反映了中位数对一组数据的代表程度。
在Excel中求四分位差,可用QUARTILE函数。
按前面所述的步骤,打开QUARTILE函数对话框,如图2.4所示。
图2.4QUARTILE函数对话框
其中,“Array”框要求输入数据所在的区域,“Quart”框决定返回那一个四分位值。
Quart的取值范围为[0,4],具体来讲:
◆值为0,表示最小值;
◆值为1,下四分位数;
◆值为2,中位数;
◆值为3,上四分位数;
◆值为4,最大值
◆值不为整数,将被截尾取整。
所以,要计算四分位差,可分别在Quart对话框中输入3、1,然后将返回的上、下四分位数作差。
本例也可以单击任一单元格,输入“=QUARTILE(A1:
J12,3)-QUARTILE(A1:
J12,1)”,即可得到结果为43.25(台)。
3、标准差和方差
方差和标准差是数值型数据测度离散程度的最主要测度值。
各变量值与其均值离差平方和的平均数,称为方差。
方差的平方根,称为标准差。
通常情况下,总体方差用
表示,函数形式为VARP;总体标准差用
表示,其函数形式为STDEVP;样本方差用S2表示,函数形式为VAR;样本标准差用S表示,其函数形式为STDEV。
本例如果要求样本方差和样本标准差,可单击单元格在其中输入“=VAR(A1:
J12)”或输入“=STDEV(A1:
J12)”,即可得到样本方差或样本标准差,分别为470.05,21.68(台)(注意标准差有量纲)。
三、偏态与峰态的测度
集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。
偏态和峰态就是对分布形状的测度。
“偏态”一词是由统计学家Pearson于1895年首次提出的,是对数据分布对称性的测度,其测度值称为偏态系数(SK),测度函数为SKEW。
如果一组数据的分布是对称的,则偏态系数等于零;偏态系数大于零,为右偏分布;偏态系数小于零,为左偏分布。
本例在任一单元格输入“=SKEW(A1:
J12)”,可得到偏态系数为0.41,为右偏分布。
“峰态”一词是由统计学家Pearson于1905年提出的,是对数据分布平峰和尖峰程度的测度,其测度值称为峰态系数(K),测度函数为KURT。
峰态系数是通过与标准正态分布的峰态系数比较而言的。
由于标准正态分布的峰态系数为0,当K>0时为尖峰分布;当K<0时为扁平分布。
需要注意的是,有的教课书中其峰态系数计算公式没有减3,所以把标准正态分布的峰态系数作为3,当K>3时为尖峰分布;K<3时为扁平分布。
在Excel计算过程中,以零为比较对象。
本例在任一单元格输入“=KURT(A1:
J12)”可得到峰态系数为-0.22,为扁平分布。
第三节描述统计工具的使用
上面介绍了数据分布特征的各种函数测度值,其中多数可以通过Excel“数据分析”选项中的“描述统计”命令得出计算结果。
仍以表2-2为例,其步骤如下:
一、将数据输入到A1:
A120区域中,在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析工具”列表中选择“描述统计”,回车进入“描述统计”对话框。
如图2.5所示。
图2.5“描述统计”对话框
二、在“输入区域(I)”框中输入“A1:
A120”,如果需要指出输入区域的数据是按行或按列排列的,可在“分组方式”后面单击“逐行”或“逐列”选项。
选择“逐列”后,如果第一行为标题行,则要单击“标志位于第一行(L)”的复选框。
在输出选项中,本例选择“输出区域(O)”,输入“C2”;选择“汇总统计(S)”,可给出一系列描述统计测度值;选择“第K个大值(A)”或“第K个小值(M)”,其右侧框中将显示默认值“1”,即要求给出数据中第1个最大值或最小值。
如输入“2”,则要求给出数据中2个最大值或最小值;选择“平均数置信度(N)”是指用样本平均数估计总体平均数的可信程度。
如选择此复选框,则其右侧框中将显示默认值95%,如认为不合适,可自己调整。
以上各项选定后,回车确认,即可在指定输出区域得到描述统计各测度值的结果,见表2-3。
表2-3“描述统计”输出结果
最后对表2-3的输出结果做部分解释:
◆“平均”指样本均值。
◆“标准误差”指样本平均数的“抽样误差”,即样本标准差除以样本单位数的均方。
◆“中值”即中位数。
◆“模式”即众数。
◆“标准偏差”即样本标准差。
◆“区域”即极差,最大值减最小值。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二章 数据分布特征的测度 第二 数据 分布 特征 测度