第5章 统计数据代表值计算Word格式文档下载.docx
- 文档编号:20428449
- 上传时间:2023-01-22
- 格式:DOCX
- 页数:21
- 大小:66.74KB
第5章 统计数据代表值计算Word格式文档下载.docx
《第5章 统计数据代表值计算Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《第5章 统计数据代表值计算Word格式文档下载.docx(21页珍藏版)》请在冰豆网上搜索。
□PROGRAM解释
①PROCUNIVARIATE;
SASforWindows统计分析PROCUNIVARIATE命令是最常用的命令,也是最重要的命令之一,用来分析各种各样的描述性统计量。
PROCUNIVARIATE命令不仅具有统计量分析功能,还具有打印功能等。
option1
-DATA=dsn:
指定分析资料名dsn。
-PLOT:
探索性分析,作茎叶图和箱线图。
在SASforWindows,根据观测值个数的多少,茎叶图和箱线图的形状有所不同。
下面的图(a)是观测值个数n=30的情况,图(b)是观测值个数n=32的情况。
由此可知,当观测值的个数n
30时,茎叶图的同一个级别的树茎不分杈,当n>
30时,茎叶图的同一个水准的树茎分杈,比如70级别的树茎,分成70~74和75~79级别的两个树茎,这等于把原来的茎叶图和箱线图拉长了一倍。
图(a)观测值n≤30图(b)观测值n>
30
StemLeaf#BoxplotStemLeaf#Boxplot
951|95673|(右)
802334567+-----+9|
71223455678811*-----*8562|
6352|+|8223345+-----+
513694+-----+75567886||
40463|7122345*--+--*
391|651||
221|631||
----+----+----+----+5692+-----+
MultiplyStem.Leafby10**+15132|
461|
4042|
391|
3|
2|
221|(左)
(图5-7)茎叶图和箱线图与观测值
-FREQ:
作频数分析表(频数也称作次数)。
-NORMAL:
正态分布分析。
计算有关检验正态分布的统计量p-值。
-NOPRINT:
不打印分析结果。
以上的Option,可以在一个PROCUNIVARIATE命令中重复使用。
比如,
…………;
PROCUNIVARIATEDATA=onePLOTFREQ;
RUN;
②VAR变量名1变量名2……;
指定描述性统计分析的变量。
SAS程序中只有一个变量时不需要指定VAR变量。
但在SAS程序中有两个以上变量时,需要指定VAR变量。
如果不指定,则对所有的变量都作统计分析。
比如,
INPUTxyz;
←SAS程序中有3个变量。
PROCUNIVARIATEPLOT;
←作描述性统计分析。
VARxy;
←只作xy变量的探索性统计分析。
③BY变量1变量2…;
以BY指定的变量为基准,对VAR变量进行统计分析。
④FREQ变量名:
该语句指定一个数值型的变量,它的值表示输入数据集中相应的观测出现的频数。
⑤WEIGHT变量名:
该语句规定一个变量,它的值表示相应观测的权数。
⑥OUTPUTOUT=dsnoption2;
OUTPUT语句要求把计算的描述性统计量输出到新的SAS数据集中。
新数据集名字的定义用OUT=DSN来命名,OPTION2是对输出的描述性统计量进行选择和规定统计量在输出列表中的变量名。
一般格式为:
OUTPUTOUT=新dsn统计量代号=新变量名1新变量名2…;
例如,OUTPUTOUT=EXAMPLEMEAN=MEANXMEANYSTD=STDXSTDY;
option2
-N:
资料个数-MEDIAN:
中位数
-VAR:
样本方差-SUM:
观测值的总和(
)
-Q1:
第一四分位数(上位四分位数)(25%)-Q3:
第三四分位数(75%)
-P1:
第一百分位数(1%)-P10:
第十百分位数(10%)
-P90:
第九十百分位数(90%)-P95:
第九十五百分位数(95%)
-P99:
第九十九百分位数(99%)-USS:
观测值的平方之和(
-STDERR:
平均数的标准误差(
)-KURTOSIS:
峰度(系数)
-PRT:
T-统计量的p-值-NMISS:
缺省值的个数
-MODE:
众数-MIN:
最小值
-RANGE:
范围(MAX-MIN)-QRANGE:
四分位数范围
-CSS:
离差的平方之和
-T:
T-统计量
-MEAN:
平均数-MAX:
最大值
-CV:
离散系数(变动系数)-SKEWNESS:
偏度系数
例5-11:
在A,B两个会社的男女营业员中各抽出4名,对他们的去年和今年的营业(销售)额进行了调查。
去年和今年的营业额分别用slast和snow表示。
利用此调查资料作PROCUNIVARIATE统计分析。
(把资料直接编入SAS程序)
SASPROGRAM:
OPTIONPS=60NODATE;
DATAexample;
INPUTcompany$gender$slastsnew@@;
CARDS;
AM7072AM6567AF5754AF6063AM6465AM5051AF3040AF3534
BM3335BM4244BF3130BF5552BM6668BM4751BF6670BF5452
PROCUNIVARIATEDATA=examplePLOTNORMAL;
VARslastsnew;
←②
TITLE'
RESULTSOFPROCEDURESUNIVARIATE'
;
□PROGRAM解释
①不打印日期(NODATE),每页打印60行(PS=60)。
②对两个变量slast和snow分别进行UNIVARIATE分析,并利用PLOT和NORMAL两个选择事项。
□运行结果及解释
RESULTSOFPROCEDURESUNIVARIATE
UnivariateProcedure
Variable=SLAST
①Moments
ⅠN16SumWgts16
ⅡMean51.5625Sum825
ⅢStdDev13.7403Variance188.7958
ⅣSkewness-0.38707Kurtosis-1.29697
ⅤUSS45371CSS2831.938
ⅥCV26.64785StdMean3.435075
ⅦT:
Mean=015.01059Pr>
|T|0.0001
ⅧNum^=016Num>
016
ⅨSgnRank68Pr>
=|S|0.0001
ⅩW:
Normal0.913294Pr<
W0.1332
①因为slast变量分布的情报和snow变量分布的情报可以作相同的解释,因此,在此省略有关snow变量分布情报的解释。
Ⅰ.N是观测值的个数,SumWgts是观测值个数的权重之和(16个)。
Ⅱ.Mean是算术平均数,Sum是观测值的总和。
Ⅲ.StdDev(standarddeviation)是标准差,Variance是方差。
Ⅳ.Skewness是分布的偏度系数,Kurtosis是峰度系数。
因为偏度系数=-0.38707<
0,所以分布左偏,又因为峰度系数=-1.29697<
3,所以该分布属于平顶分布。
Ⅴ.USS是观测值(未校正)的平方和(
),CSS是观测值减去平均数的平方和(校正的平方和(
)。
Ⅵ.CV是偏离系数(变异系数或变动系数),它一般用标准差系数和平均差系数来表示。
StdMean样本平均数的标准误差。
Ⅶ.T:
Mean=0:
是为了检验平均数为零的假设,计算其分布的T值。
“Pr>
|T|0.0001”是T值所对应的概率p(pr)值=0.0001,并且Pr>
|T|成立。
本题中,因为T=15.101,p值(0.0001)>
|T(15.101)|的假设不成立,所以,平均数为零的假设不成立。
Ⅷ.“Num^=016Num>
016”:
表示观测值不是零个,而是16个。
ⅨSgnRank是对平均数为零的假设,检验其分布的符号秩(SignedRankTest)。
Ⅶ是检验总体服从正态分布的假设,符号秩次检验是对总体不作任何假设。
所以,资料不服从正态分布时,要作符号秩次检验。
本题的符号秩次检验结果,平均数为零的假设不成立。
因为Pr(0.0001)
|S(68)|不成立。
Ⅹ.“W:
Normal表示W统计量,Pr<
W0.1332”表示正态性检验概率;
因为观测值数小于50,所以,作了Shapiro-Wilk检验。
因为Shapiro-Wilk的p值比通常使用的显著性水准0.05大,因此,采用服从正态分布的假设(和Ⅶ矛盾)。
即Pr(0.1332)<
W(0.913294)成立。
②Quantiles(Def=5)
ⅠⅡ
100%Max7099%70
75%Q364.595%70
50%Med54.590%66
25%Q138.510%31
0%Min305%30
ⅢRange40
ⅣQ3-Q126
ⅤMode66
②分析资料的百分率,范围,频数等情报。
Ⅰ.Max-最大值,Q3-第3四分位数,Med-中位数,Q1-上位四分位数,Min-最小值。
Ⅱ.表示百分位数。
Ⅲ.Range-范围:
最大值-最小值。
Ⅳ.Q3-Q1:
第3四分位数-第1四分位数。
Ⅴ.Mode:
频数(出现次数最多的观测值)。
③提供极值情报。
左侧的30,31,33,35,42是DATAset中的5个极小值,7,11,9,8,10代表这些极小值在DATAset中的位置(序号)。
右侧的64,65,66,66,67是DATAset中的5个极大值。
③Extremes
LowestObsHighestObs
30(7)64(5)
31(11)65
(2)
33(9)66(13)
35(8)66(15)
42(10)70
(1)
④StemLeaf#⑤Boxplot
701|
65663|
6042+-----+←Q3
5572||
5042*--+--*
471||
421||
351+-----+←Q1
30133|
MultiplyStem。
Leafby10**+1
⑥NormalProbabilityPlot
72.5+++++*
|**+++
|**++++
52.5+**+++
|*++
|++*+
|++++*
32.5+*++**
+----+----+----+----+----+----+----+----+----+----+
-2-10+1+2
图④⑤⑥是检验变量slast是否服从正态分布的结果。
④茎叶图(Stem-Leaf):
它是利用实际观测值来表示分布的形态。
⑤箱线图(Boxplot):
在箱线图中,由第1四分位数和第3四分位数来决定其箱子两端,中位数所在的位置用水平线“---”表示。
以“+”符号表示其平均数的位置。
箱子两端的垂直中心线的范围(长度)等于1.5*四分位数。
在1.5*四分位数~3*四分位数范围是观测值用“0”表示,超过该范围(超过3*四分位数范围)的观测值用“*”表示。
⑥正态概率散点图(NormalProbabilityPlot):
正态概率散点图的基准线由“+”表示,观测值(点)由“*”表示。
如果基准线“+”和观测值“*”越一致(在同一条水平线上),则越接近正态分布。
本例中的基准线“+”和观测值“*”基本一致,所以分布近似正态分布。
例5-13:
天津市某机关拟从30名科级干部中选拔40%提拔为处级干部,为了选拔处级干部,对30名科级干部进行了业务考试。
其业务考核成绩资料如表5-8。
(表5-8)考核成绩资料
22
39
40
44
46
51
53
56
59
63
65
71
72
73
74
75
76
77
78
80
82
83
84
85
86
95
试求:
1)资料的平均数,中位数,众数及四分位数;
2)方差和标准差;
3)分析分布的偏度和对称性;
4)箱线图;
5)考核成绩属于前40%的成绩是多少。
DATAONE;
INPUTX@@;
………资料省略………;
PROCUNIVARIATEPLOTNORMAL;
VARX;
RUN;
□运行结果及解释:
TheSASSystemUnivariateProcedure
Variable=X
RESULTSOFPROCEDURESUNIVARIATE
UnivariateProcedure
①MomentsQuantiles(Def=5)
N30SumWgts30100%Max9599%95
Mean67.9Sum203775%Q38095%86
StdDev17.12701Variance293.334550%Med73.590%84.5
Skewness-0.92899Kurtosis0.34058225%Q15610%42
USS146819CSS8506.70%Min225%39
CV25.22387StdMean3.126951%22
T:
Mean=021.71445Pr>
|T|0.0001Range73
Num^=030Num>
030Q3-Q124
M(Sign)15Pr>
=|M|0.0001Mode72
SgnRank232.5Pr>
W:
Normal0.918571Pr<
W0.0277
Extremes
LowestObsHighestObs
22
(1)83(26)
39
(2)84(27)
40(3)85(28)
44(4)86(29)
46(5)95(30)
②StemLeaf#③Boxplot
951|
802334567+-----+
71223455678811*-----*
6352|+|
513694+-----+
40463|
221|
NormalProbabilityPlot
95+++++++*
|***++***
|****+***++
|**+++++
|+****+
|++*+*+*
|++++++*
25++++*
①有关考核资料的主要统计数值如下:
平均数(Mean)=67.9;
中位数(Med)=73.5;
众数(Mode)=72;
方差(Variance)=293.3;
标准差(StdDev)=17.12701;
偏度系数(Skewness)=-0.92899;
最大值=95;
最小值=22;
范围(Range)=95-22=73;
第一四分位数(Q1)=56;
第三四分位数(Q3)=80;
四分位数(Q3-Q1)=24;
第90百分位数=84.5;
第95百分位数=86;
因为偏度系数SK<
0,所以平均数小于中位数。
又因为偏度系数SK=-0.92899小于零,所以资料的分布偏向左侧。
②在茎叶图(StemLeaf)中可以看到,最高分数为95分,最低分数为22分。
从茎叶图树页中可以知道,答90分以上的只有1人,答80~89分的有7人,答70~79分的人最多,有11人。
③由箱线图(Boxplot)可知,观测值中不存在异常值。
由于中央线略偏向第2四分位数Q3,所以分布左偏。
④Shapiro-Wilk(观测值数小于50)检验结果。
检验统计量W:
Normal=0.91857。
p-值(Pr<
W)=0.0227,比显著性水准0.05小,所以分布服从正态分布的假设不成立,也就是说考核成绩分布不服从正态分布。
假设属于前40%的考核成绩为
,则可按下面方法近似(当作正态分布计算)。
=67.5+(0.25×
17.09756)=72.2
因此,业务考核至少打72.2分,才有可能被提拔为处级干部。
5.4.2PROCMEANS
利用SASforWindowsPROCUNIVARIATE命令,可以计算和分析分布的平均数,标准偏差,离散系数,茎叶图,箱线图,百分位数,四分位数等描述性统计量和探索性统计量,但是PROCUNIVARIATE命令所分析的统计量项目过多,在实际统计分析工作中往往有些统计量不需要分析,这就要求我们有选择性的统计分析。
下面介绍PROCMEANS命令。
PROCMEANS命令,主要是以提供分布的平均数,
-值和显著型概率为核心的,最基本的描述性统计量计算和分析方法。
PROCUNIVARIATE命令所提供的统计量和PROCMEANS命令所分析的统计量有许多重复的地方,PROCMEANS命令相对来说比较简单。
PROCMEANS命令的基本形式为:
①PROCMEANSDATA=dsn1option;
②VAR变量名1变量名2…;
③FREQ变量名;
④WEIGHT变量名;
⑤OUTPUTOUT=新dsn关键词=新变量名1新变量名2…;
⑥BY变量名1变量名2…;
①PROCMEANSDATA=dsn1option;
分析option所指定的统计量。
DATA=dsn1中,dsn1表示需要分析的SASDATAset名。
如果把DATAset直接编入到程序,则可以省略此命令。
Option是统计分析的选择事项,可以指定如下的SAS命令)
-MAXDEC=n:
n=0~8之间的整数。
n是对计算结果(数字)允许的最大小数点后位数。
比如MAXDEC=3,则小数点后只能保留3位数。
-ALPHA=n:
设置计算置信区间的置信水平。
若缺省,系统默认ALPHA=0.05。
-NOPRINT:
不打印其分析结果。
-N:
打印观测值数,如果在DATAset中有缺省值,则只打印没有缺省值的观测值数。
-NMISS:
打印各变量的缺省值数(missingvalue)。
-MEAN:
计算分布的平均数。
-VAR:
计算方差(variance)。
-STD:
计算标准差(Standarddeviation)。
-MAX:
计算最大值。
-MIN:
计算最小值。
-RANGE:
范围(max-min)。
-SUM:
计算观测值(Observation)的总和。
-USS(UncorrectedSumofSquares):
-CSS(CorrectedSumofSquares):
观测值减去平均数的平方之和(
-STDERR:
标准误差(Standarderror)是关于平均的标准偏差)
=(
-CV(Co
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章 统计数据代表值计算 统计数据 代表 计算