生物统计题解及练习附盘Word下载.docx
- 文档编号:19312504
- 上传时间:2023-01-05
- 格式:DOCX
- 页数:72
- 大小:132.88KB
生物统计题解及练习附盘Word下载.docx
《生物统计题解及练习附盘Word下载.docx》由会员分享,可在线阅读,更多相关《生物统计题解及练习附盘Word下载.docx(72页珍藏版)》请在冰豆网上搜索。
提交SAS运行后,所得结果如下:
表2-1:
例2.1输出的结果
TheSASSystem
AnalysisVariable:
X
N
Mean
StdDev
Minimum
Maximum
250
63.2760000
3.0139941
55.0000000
70.0000000
打印的结果中包括:
数据个数,平均数,标准差,最小值和最大值。
这是MEANS语句在缺省时得到的基本结果。
若需要对数据作更详细的描述,则要指明所需的统计量(关于统计量的概念见课本2.2.4)。
用MEANS过程所计算的统计量,在这里也一并列出。
下面还会反复提到“变量”这一名词,关于变量的概念见课本2.2.1。
MEANS过程所计算的统计量是用关键词表示,这些关键词及其含义如下:
N:
输入的观测值(观测值的概念见课本2.2.1)个数
NMISS:
每个变量所含缺失值的个数
MEAN:
变量的平均数
STD:
变量的标准差
MIN:
变量的最小值
MAX:
变量的最大值
RANGE:
变量的极差
SUM:
变量所有值的和
VAR:
变量的方差
USS:
每一变量原始数据的平方和(未校正平方和)
CSS:
每一变量的离均差平方和(校正平方和)
CV:
变异系数
STDERR:
每一变量的标准误差(平均数的标准差)
T:
在H0:
μ=0时的t值(见课本5.1.4)
PRT:
μ=0的假设下,统计量t大于t临界值绝对值的概率(见课本4.1.1)
SKEWNESS:
偏斜度
KURTOSIS:
峭度
CLM:
置信区间的上限和下限(见课本6.2.1)
LCLM:
置信区间的下限
UCLM:
置信区间的上限
另外,在PROCMEANS语句中还有12个选项,其中几个主要选项如下:
DATA=(SAS数据集):
指出SAS数据集的名称,若省略,则使用最近产生的数据集
MAXDEC=(数字):
指出所输出的结果中,小数部分的最大位数(0-8),缺省时为8位
FW=(域宽):
指出打印的结果中每个统计量的域宽,缺省时为12
VARDEF=(DF/N):
VARDEF=DF为缺省值,表示计算方差时,使用n-1作分母,
VARDEF=N表示计算方差时,使用观测值个数n作分母
ALPHA=(α值):
指出在计算置信区间时,选用的显著水平
例2.2计算课本上习题1.2的离均差平方和,方差,偏斜度和平均数的0.95置信区间。
解仍然使用2-1data.dat外部数据文件。
MEANS过程如下:
infile‘a:
inputx;
procmeansdata=abcmaxdec=4fw=8alpha=0.05
cssvarskewnessclm;
运行的结果如下:
表2-2:
例2.2输出的结果
CSS
Variance
Skewness
Kurtosis
Lower95.0%CLM
Upper95.0%CLM
2261.96
9.0842
-0.1548
-0.1894
62.9006
63.6514
在PROCMEANS语句中,data=abc选项是可以省略的,因为PROCMEANS语句所分析的正是最近的SAS数据集,若需从SAS数据库中调用某一数据集时,则DATA选项不可省略。
在建立外部数据文件时,应每个数据占一行,250个数据占250行(只占一列)。
这样输入数据太麻烦,核对起来也不方便。
如果想连续输入数据,则应在INPUT语句的变量后加上@@,即“inpetx@@;
”,具体说明见例2.4。
在进行科学研究时,需要处理的变量数目往往很多,而且变量之间还存在一定关系,经常要计算在某一变量特定水平下,其它变量的一些特征数。
例如,在做人群健康情况调查时,涉及的变量多达十几个甚至几十个。
如,性别、年龄、身高、体重、吸烟程度、饮酒程度、视力、听力、血压、脉搏、血黏度、胆固醇含量……。
如果要计算不同程度吸烟者或不同性别受检者的各项指标或其中若干项指标的某些统计量,只需加上VAR语句和CLASS语句,便能很容易完成此项工作。
VAR语句指明所需描述的变量,CLASS语句可以按观测值的不同类别分类计算指定的统计量。
例2.3在做小麦育种时,调查了杂交后代的若干性状,选取其中一部分列在下表中(表2-3)。
在表2-3中共列举了四个变量,即:
株高、穗长、穗粒数和成熟早晚。
分别用hop、loe、nog和fas代表上述四个变量,以成熟的早(e)、中(m)、晚(l)分类,分别计算株高与穗长的平均数、标准差和标准误差以及穗粒数的范围和变异系数。
表2-3
608.060m618.050m618.561l617.554e657.550l636.546e627.048l637.545m668.054m617.050e637.048e678.050l668.054l707.044e628.054e
658.055l
639.056e
679.052m
647.046e
628.056e
659.058m
688.548e
646.544m
637.052e
628.048e
637.050l
698.052l
637.552m
687.046e
617.552e
657.548e
668.048l
668.554e
708.046e
688.048m
628.562m
658.566m
609.064e
697.548e
668.046e
687.542m
709.046m
697.042l
728.052e
667.552m
708.050m
697.550l
718.050e
676.038l
677.548e
解先建立一个称之为2-2data.dat的外部数据文件,外部数据文件的格式如表2-3所示。
PROCMEANS程序如下:
datawheat;
\2-2data.dat’;
inputhoploenogfas$;
procmeansmaxdec=2fw=8maxminmeanstdstderr;
varhoploe;
classfas;
procmeansdata=wheatrangecv;
varnog;
classfas;
run;
打印结果见表2-4。
表2-4例2.3输出的结果
FAS
NObs
Variable
StdError
e
23
HOP
72.00
60.00
65.09
3.64
0.76
LOE
9.00
6.50
7.70
0.67
0.14
l
12
69.00
61.00
65.75
2.70
0.78
8.50
6.00
7.54
0.69
0.20
m
15
70.00
65.20
3.08
0.79
8.03
0.18
TheSASSystem
AnalysisVariable:
NOG
Range
CV
20.0000000
9.1612372
23.0000000
11.8202275
24.0000000
13.3156456
除MEANS过程外,还可以使用SUMMARY过程和UNIVERIATE过程描述数据。
其中SUMMARY过程与MEANS过程类似,对初学SAS软件的读者来说,能够使用MEANS过程已经够用了。
可以利用PROCFREQ过程编制频数分布表。
例2.4利用PROCFREQ过程,编制课本上例1.1原始数据的频数分布表。
解将120天中每天新生儿体重超过3公斤的人数,建成一个名为2-3data.dat的外部数据文件,存储在A盘中。
编制频数分布表的程序如下:
datababy;
\2-3data.dat’;
inputnumber@@;
procfreq;
INPUT语句中的@@称为双尾符,它的作用是在SAS从数据文件中读取数据时,读完一个数据行的第一个观测后指针并不移到下一行,而停留在观测后的第二列,接着读这一行的第二个观测,在指针移过数据行末尾时,自动为该行解固。
因此,在建立数据文件时,每一个数据行可以输入几个观测。
如建立2-2data.dat数据集时,每一个数据行就不仅是一个观测的四个值,而可以是几个观测,譬如
608.060m618.050m618.561l617.554e657.550l636.546e:
:
上述程序输出的结果如表2-5:
表2-5例2.4输出的结果
Cumulative
NUMBER
Frequency
Percent
3
1
0.8
4
2
1.7
2.5
5
10.0
12.5
6
19
15.8
34
28.3
7
39
32.5
73
60.8
8
107
89.2
9
10
8.3
117
97.5
120
100.0
可以用同样的方法编制非数值型变量的频数分布表。
例2.5编制表2-3中“成熟早晚”的频数表。
解datawheat;
inputhoploenogmature$;
procfreq;
tablemature;
所得结果如下:
表2-6例2.5输出的结果
MATURE
46.0
24.0
35
70.0
30.0
50
对于连续型数据,也可以用PROCFREQ过程编制频数分布表。
例2.6编制课本上表1-2高粱三尺三株高的频数分布表。
解先建立一个名为a:
\2-4data.dat的外部数据文件。
SAS程序如下:
procformat;
valuehfmt
141-143=’141-143’144-146=’144-146’147-149=’147-149’
150-152=’150-152’153-155=’153-155’156-158=’156-158’
159-161=’159-161’162-164=’162-164’165-167=’165-167’
168-170=’168-170’;
datasorghum;
\2-4data.dat’;
inputhight@@;
tablehight;
formathighthfmt.;
这里使用PROCFORMAT过程的目的是将数据按使用者的要求格式化。
VALUE语句中要给出被定义的输出格式名,在这里称为hfmt。
若以组界分组,还需加上“<
”或“>
”号,如143.5-<
146.5=’144-146’等。
在PROCFREQ过程的FORMAT语句中一定要在hfmt之后加上一个“.”。
输出结果如下:
表2-7例2.6输出的结果
HIGHT
141-143
1.0
144-146
2.0
3.0
147-149
4.0
7.0
150-152
13
13.0
20
20.0
153-155
23.0
43
43.0
156-158
28
28.0
71
71.0
159-161
15.0
86
86.0
162-164
96
96.0
165-167
99
99.0
168-170
100
绘制离散型数据的柱状图,可以用GCHART过程。
以课本上例1.1的数据为例,程序如下:
\2-3data.dat’;
procgchart;
vbarnumber;
如果需要水平条状图,只需将vbar改为hbar即可。
执行上述程序的结果如下图:
图2-1离散型数据的柱形图
用CAPABILITY过程绘制连续型数据的频率直方图是很方便的。
最简单的程序如下:
datasorghum;
inputhight@@;
proccapabilitygraphicsnoprint;
varhight;
histogram;
上述的GRAPHICS和NOPRINT的含义分别是,打出高分辨率的图象和不打出概括性统计量表。
执行上述程序的结果如下;
图2-2频率直方图
直方图的组距是程序自动选定的,组距的大小可以通过改变中值来调整。
若组距定为3厘米,可以加进选项“midpoint=142to169by3”。
图2-2是频率直方图,若要得到频数直方图,还需加入选项“vscale=count”。
PROCCAPABILITY过程为:
proccapabilitygraphicsnoprint;
varhight;
histogram/midpoint=142to169by3
vscale=count;
run;
所得直方图如图2-3所示。
图2-3改变中值后所绘出的频数直方图
在阅读以下内容之前,请先阅读第一章“SAS软件基本操作”。
对于课本5.1.4所介绍的单个样本t检验,可以使用PROCMEANS过程计算。
PROCMEANS过程在2.1.1中已经做过介绍。
这里只以课本中例5.5的数据为例,说明如何使用PROCMEANS过程进行检验。
在这里数据采用在作业流中输入,因此不必建立外部数据文件。
datamaize;
inputweight@@;
diff=weight-300;
cards;
308305311298315300321294320
procmeansntprt;
vardiff;
run;
在PROCMEANS语句中的t是在H0:
μ=0假设下所得到的统计量,在这里H0:
μ=300,因此在INPUT语句后,用赋值语句建立一个新变量diff,diff是每一观测值与300之差,检验这个差值的期望是否为0,输出结果如下:
表2-8单个样本t检验的输出结果
DIFF
T
Prob>
|T|
2.4954012
0.0372
配对数据t检验的SAS程序与2.2.1节中的程序基本相同,不同点只是在INPUT语句中包含三个变量,在赋值语句中的新变量是两个变量的差而不是变量与一个常量的差。
以课本中表5-3的数据为例,SAS程序如下:
datamatdat;
inputidprepropostpro@@;
diff=prepro-postpro;
procmeansnmeanstderrtprt;
vardiff;
输出结果见表2-9
表2-9配对数据t检验的输出结果
8.478
7.994
7.512
7.141
7.222
8.267
8.053
8.280
7.689
6.740
8.528
7.632
6.972
5.913
7.371
8.169
5.760
7.570
7.930
7.569
11
7.255
6.322
6.795
6.417
0.1292500
0.2639513
0.4896736
0.6340
2.2.3成组数据t检验
可以使用PROCTTEST过程做成组数据t检验。
以课本中例5.9的数据为例,说明成组数据t检验的SAS程序。
inputstraindays@@;
procttest;
classstrain;
vardays;
上述的CLASS语句称为分类语句,在t检验中的分类变量(品种),应在CLASS语句中给予说明,以便PROCTTEST过程按不同类别(品种)进行检验。
输出结果见表2-10。
101
98
表2-10成组数据t检验的输出结果
TTESTPROCEDURE
Variable:
DAYS
STRAIN
99.20000000
0.91893658
0.29059326
98.90000000
0.87559504
0.27688746
Variances
DF
Unequal
0.7474
18.0
0.4645
Equal
ForH0:
Variancesareequal,F'
=1.10DF
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 统计 题解 练习