《林业试验设计及数据分析》讲义.docx
- 文档编号:4889618
- 上传时间:2022-12-11
- 格式:DOCX
- 页数:31
- 大小:95.37KB
《林业试验设计及数据分析》讲义.docx
《《林业试验设计及数据分析》讲义.docx》由会员分享,可在线阅读,更多相关《《林业试验设计及数据分析》讲义.docx(31页珍藏版)》请在冰豆网上搜索。
《林业试验设计及数据分析》讲义
林业试验设计与数据分析
绪论
一、科学试验与试验统计
⒈科学试验(实验)是一种计划好的调查研究,是以获得新的事实、证实或否定以前的实验结论为基本目的。
⒉试验统计是认识事物本质的工具
⒊统计分析是研究事物间关系的手段
⒋试验要讲科学性
①试验思想的先进性
②试验条件的典型性
③试验数据的准确性
④试验结果的重演性
二、试验设计的意义与作用
⒈田间试验是林业科研活动的重要内容,科学合理的实验设计,是获得有价值的数据,进而取得正确研究结果与结论的基础。
⒉林业试验用地地形复杂,面积大,立地条件变化大。
在林业田间试验中,科学地控制环境,具有极大的重要性。
⒊林业生产周期长,不正确的试验设计,将浪费大量宝贵的时间,造成无可挽回的损失。
三、林业试验数据处理的若干问题
⒈从观测数据中提取尽可能多的有价值的信息,得出正确的结论,是一项专业性很强的工作。
⒉林业试验往往规模大,数据多,借助电子计算机和先进的统计软件及其它应用软件,可提高工作效率。
⒊试验统计的理论和方法正在发展中。
第一章林业试验方法
第一节田间试验的概念
田间试验的主要内容是讨论如何合理地安排试验以及处理分析试验结果,它是生物统计学的重要方面。
田间试验是农林学科中重要的实验环节,是计划好的调查研究和实践运筹,它不仅能评审试材的优劣,试验条件的好坏,而且能回答试验的精确度、可靠性及资料量。
田间试验的创始人,英国的费舍(R.A.Fisher,1890--1962),其试验理论的主要观点:
①试验要有明确的目的,其目的必须建立在经济效益方面;②为减少试验中各种误差,应采用随机化原理;③为了提高试验精度,应该有充分的重复次数,选择最有效的实验配置和最可靠的分析方法,等。
从林木遗传改良为例,可以看出正确的田间试验十分必要。
要将选出的或创造出来的优良遗传材料放到最合适的环境条件中去,必须进行适应性试验。
这里存在着三大因素:
遗传组成,环境条件和基因型与环境的互作反应。
由于林木个体大,个体发育周期长,材料占地面积大,变化着的立体空间生态因子复杂,就带来林木育种工作中鉴定、选择和各种田间评审的困难性。
G(遗传组成)→G1(群体)+G2(家系)+G3(个体)
E(环境条件)→E1(地理位置)+E2(海拔)+E3(生态)+E4(立地类型)
P(表现型值)=G(基因型值)+E(环境误差)
假设有两个不同的表现型,它们的组成分别为:
P1=G1+E1和P2=G2+E2,如果E1和E2不同的话,就很难估测G1和G2的差异及其程度。
如果E1和E2相同或相似,其间的误差可以估算,则G1和G2的差异就容易估算出来。
第二节田间试验三原则
一、试验误差
例:
某树种的一批种子进行千粒重检验,用两种方法:
①抽样四次,各称一次,千粒重为5.29克,5.36克,5.38克,5.31克,平均5.34克。
②抽样一次,称四次,千粒重:
5.49克,5.47克,5.48克,5.49克,平均重5.48克。
评价:
①法:
存在抽样误差和操作误差,可靠性(accuracy)较高,有一定的精确度;
②法:
存在称重操作误差,精确度(precision)较高,可靠性低。
试验误差的分类:
⒈系统误差,或称片面误差:
是指试材差异,观测误差,技术与操作的不一致等原因造成的误差。
这类误差只要严格按试验操作要求统一尺度,是比较容易克服的。
⒉偶然误差∶是由试验地的差异造成的,包括土壤差异,病虫害差异以及其他微生境的差异,是较难消除的一类差异。
它是衡量试验精度的误差。
只要找到误差的起因,就可分成条件误差和随机误差。
试验中最难克服的是土壤,为了提高试验的可靠性(准确性)和精度,理解必须选择好试验地,正确理解并执行田间试验的原则。
条件误差──由试验或生产条件所造成的误差。
随机误差──受偶然因素影响与测量不准确所造成的误差叫随机误差。
二、田间试验三原则
⒈重复
⒉随机化
⒊局部控制
重复∶在一个试验中每种处理(品种或措施)共同出现的次数。
重复的作用在于降低试验误差,提高试验的准确性(可靠性),估算试验误差。
试验误差的大小与重复次数的平方根成反比。
重复的次数必须根据试验要求的精度,条件差异,试验地面积,小区面积等多方面来考虑。
严格来讲,重复次数的多少,应该由试验材料差异,精度和准确性等试验因子来决定。
随机化∶是指处理的重复与小区的排列次序随机化。
这样的排列使试验中的数据和统计值都建立在公平无偏的基础上,使试验误差的计算量可靠可信。
从一个总体中随机地抽取样本,对每样本随机地施以不同的处理,把每个处理随机地设置在试验单元或小区,这样就可以认为是满足了观测值及误差独立分布的前提,使差异显著性的检验有效。
实现随机化的方法∶查随机数表,计算器或计算机产生随机数,抽签(抓阄)等。
局部控制是在重复或区组里力求使条件一致起来。
同一重复内的条件尽可能一致,不同重复间条件允许不一致。
局部控制的关键是土壤差异的控制。
第三节常用的试验设计
本节参考书目∶
北京林学院主编.1980.数理统计,中国林业出版社
丁希泉编著.1986.农业应用回归设计,吉林科学技术出版社
洪伟.1993.林业试验设计与方法,北京科学技术出版社
茆诗松.2003.统计手册,科学出版社
一、有关试验设计的几个概念
⒈处理(treatment)──参试树种、种源、家系、无性系、品种,不同营林措施等。
⒉重复(replication)──在一个试验中每种处理共同出现的次数。
⒊区组(block)──局部控制的地块。
完全区组∶区组内包含所有的处理。
区组数=重复数
不完全区组∶区组内只包含部分处理。
区组数>重复数
⒋小区(plot)──某个处理在区组内占据的一个小地块。
是实施试验的最小单位。
二、常用的试验设计方法
(一)、完全随机设计(TheCompleteRandomizationDesign)
把试验处理包括重复数混合在一起,完全随机地设置小区。
每个试验处理的重复数可以相同,也可以不同。
例如,有A、B、C、D四个处理,三次重复的完全随机设计。
做法∶
⒈将处理连同重复顺序排列,编成4×3=12个序号∶
〖小区代号〗
A1
A2
A3
B1
B2
B3
C1
C2
C3
D1
D2
D3
〖序号〗
1
2
3
4
5
6
7
8
9
10
11
12
⒉用随机数表等方法产生12个随机数,并将随机数由小到大排号∶
〖随机号数字〗
30
06
64
99
33
89
27
84
65
47
28
11
〖排列号〗
4
1
7
12
5
11
3
10
8
6
9
2
⒊将处理重复序号排入相应的“排列号”之中,即完成了完全随机设计的排号工作,依次安排试验。
完全随机设计可避免某些处理经常相邻而带来的系统误差。
它适用于处理数较少,试验地整齐均一的情况,这在林业上很难满足。
许多学者认为随机区组设计优于完全随机设计。
(二)、随机区组设计(随机完全区组设计∶TheRandomizedCompleteBlockDesign)
每一重复组成一个区组,重复与区组同义,每个区组包括所有处理(是谓完全区组),每个处理在一个区组内只占有一个小区,各区组以及每个区组内各小区均随机排列。
这是最常用的田间试验设计。
步骤∶
⒈确定试验处理数和重复(区组)数;
⒉将处理排号,抽取相同数量的随机号作一次重复的排序,有多少次重复就要抽多少组随机号,组成相应的小区排列次序;
⒊将所有重复的位次按随机办法编号,就成为区组号,记Ⅰ区组、Ⅱ区组等;
⒋制成试验方案,包括设计图;
⒌将设计方案落实到试验现场。
以10个处理三个重复的试验为例,在课堂上完成设计。
RCB设计的变化:
不连续单株小区,随机轮换区组等。
(三)、拉丁方设计(TheLatinSquareDesign)
利用拉丁方安排试验的试验设计。
拉丁方设计也是完全区组设计,是对随机区组设计的一种改进。
在一个拉丁方中,将处理从两个方向排列成区组,k个处理排成k行k列,每个处理在各行各列中只出现一次。
拉丁方设计的特点是处理数、重复数、横行数和直行数都相同,即直行、横行都可构成一个区组,可以实行两个方向的条件控制。
优点∶对土壤差异实行双重控制,准确性较高。
缺点∶横、直区组小区数必须相等,伸缩性较小,缺乏随机区组设计的灵活性,且要求条件一致。
只应用于规模较小,试验地条件较一致的试验。
做法∶
⒈确定一个标准方,即横行和直行均为顺序排列的拉丁方。
⒉随机调换标准方各横行位置。
⒊随机决定各直行位置。
例∶一个5×5的拉丁方设计,标准方为∶
A
B
C
D
E
B
C
D
E
A
C
D
E
A
B
D
E
A
B
C
E
A
B
C
D
(在课堂上完成横行、直行的随机排列)
(四)、正交拉丁方设计(TheCrossedLatinSquareDesign)
利用正交拉丁方安排试验的试验设计。
若要考察的因素不是一个而是两个、三个甚至更多,但供试单元并不能增加或增加很少,这时可利用正交拉丁方,在拉丁方设计的基础上不增加试验次数的条件下引进另一个或一些因素,仍能作出相应分析。
所谓正交拉丁方是指两个或几个阶数相同的拉丁方之间呈正交关系。
任意两个互相正交的拉丁方,一个用希腊字母表示,一个用拉丁字母表示,当两个拉丁方重叠起来时,任一希腊字母与每一拉丁字母均只相遇一次。
如下图∶
A
B
C
D
E
+
Ⅰ
Ⅱ
Ⅲ
Ⅳ
Ⅴ
=>
ⅠA
ⅡB
ⅢC
ⅣD
ⅤE
B
C
D
E
A
Ⅴ
Ⅰ
Ⅱ
Ⅲ
Ⅳ
ⅤB
ⅠC
ⅡD
ⅢE
ⅣA
C
D
E
A
B
Ⅳ
Ⅴ
Ⅰ
Ⅱ
Ⅲ
ⅣC
ⅤD
ⅠE
ⅡA
ⅢB
D
E
A
B
C
Ⅲ
Ⅳ
Ⅴ
Ⅰ
Ⅱ
ⅢD
ⅣE
ⅤA
ⅠB
ⅡC
E
A
B
C
D
Ⅱ
Ⅲ
Ⅳ
Ⅴ
Ⅰ
ⅡE
ⅢA
ⅣA
ⅤC
ⅠD
说明∶①n个处理就有n-1个正交拉丁方;②不是任何拉丁方都有与之正交的拉丁方,如6×6的拉丁方则不存在与之正交的拉丁方;③各阶拉丁方所具有的正交拉丁方可以《数理统计》(北京林学院主编)附表19上查得;④从附表19上查得的号码应与试验各因素的处理号随机对应,即必须进行随机化处理。
另外,正交拉丁方一般用于两个因素的试验,若安排三个或三个以上的因素,则不仅设计复杂,而且在作方差分析时,随因素增加剩余项自由度减少很多,使得分析可靠度减少很快。
同时安排三个或三个以上因素的试验可采用正交设计。
(五)、平衡不完全区组设计(TheBalancedIncompleteBlockDesign,简称BIB设计)
在随机区组设计中,当处理数较多时常常会出现一个区组不能容纳全部处理的情形,这是可以用平衡不完全区组(BIB)设计。
BIB设计各区组内的小区数小于试验的处理数,即每个区组不能包含所有的处理(不完全区组),每种处理在同一区组内最多只出现一次,而且在整个试验中有相同的被测次数,此外,任意一对处理都有在同一区组内相遇的机会,而且在整个试验中,相遇的次数相等(平衡)。
BIB设计需要满足的条件∶
设处理数为v,每区组内小区数为k,每处理重复数为r,区组数为b,则整个试验总的小区数n=vr=bk,每对处理在同一区组内同时出现的次数为∶
=
综合起来,BIB设计的必要条件是b,k,v,r,
这五个参数都必须是正整数,并且满足∶
⑴vr=bk⑵
(v-1)=r(k-1) 上述几个条件, (2)中的v≤b在林木田间试验中很难得到满足,故(3)也难以得到满足。 标准的平衡不完全区组设计方案可查数理统计(北京林学院主编)附表20。 设计步骤∶ 1.确定v,r,k,计算出b。 2.查“平衡不完全区组设计表”确定各区组内处理的组成。 3.对各区组内处理做随机排列。 4.对各区组进行随机排列。 ##当处理数为某数的平方,即v=p2,b=p(p+1),k=p= ,r=k+1=p+1时,称为平衡格子设计。 (六)、裂区设计(TheSplit-PlotDesign) 裂区设计适用于参试因素需区别对待时的多因素试验。 如有两个因素要区别对待,可先将第一级因素(A)的各处理(主处理A1,A2,A3)按随机区组设计安排于各小区,称主区;然后把各主区看作第二级因素的区组,每个主区划分成若干个小小区,也按随机区组设计安排第二级因素(B)的各处理(副处理B1,B2,B3,B4)。 如下图∶ B2 B1 B3 B2 B4 B3 Ⅰ ---------- ----A1--- ---------- ---------- ---A2--- ---------- ---------- ---A3--- ---------- B3 B4 B4 B1 B1 B2 B1 B3 B4 B3 B2 B3 Ⅱ ---------- ----A2--- ---------- ---------- ---A3--- ---------- ---------- ---A1--- ---------- B4 B2 B2 B1 B4 B1 B4 B3 B2 B4 B1 B2 Ⅱ ---------- ----A1--- ---------- ---------- ---A3--- ---------- ---------- ---A2--- ---------- B2 B1 B1 B3 B3 B4 (七)、正交设计(TheCrossoverDesign) 在试验实践中,有时需要同时考察多个(三个或以上)因素,有时还需要了解这些因素中哪个主要哪个次要,各因素之间有没有互作,或了解在多个因素同时使用情况下什么样的试验条件组合结果最佳,正交设计可有效地解决这些问题。 如N、P、K各种肥料单独使用效果不理想,若混合使用,就有必要了解什么样的配比效果最佳,即需要找出最优配比,这时可用正交设计。 正交设计利用人工编制的一套试验用表,即正交表来安排试验。 与正交拉丁方设计、裂区设计等相比,正交设计的优点是可不受很多条件的限制(如不能有因素间的交互作用,各因素处理必须相等且等于拉丁方阶数,裂区设计则要求事先了解那个因素为主因素等)。 多因素全面试验时,试验次数随因素的增加而增加很快,如有A、B、C三个因素,每因素两个处理,全面试验需进行2×2×2=8次此试验,如下图∶ 有5个因素,每因素4个处理,就需要进行45=1024次试验,这在林业上是很难完成的。 采用正交设计,分别只需进行4次和16次试验。 ⒈正交设计的基本思想(以23的试验为例)∶全面试验需进行8次试验,正交设计是从全面试验中挑选部分试验点进行试验。 试验点的挑选有两个特点,即“均匀分散,整齐可比”。 “均匀分散”使试验点具有代表性,“整齐可比”便于试验的数据分析。 本例总共只需4次试验(如下图)。 B 2C 2 12A 由上图可以看出,选取的试验点均匀、对称地落在立方体各平面上,每个平面两个试验点。 再看33的试验,如下图: B 3 3C 2 2 1A 23 ⒉正交表(北京林学院主编《数理统计》附表21)的使用 LN(ms)表示试验次数为N,每因素m个水平,共s列。 [例]L8(27),表示7列(最多可安排7个因素),每因素2个水平,需进行8次试验。 L9(34)表示4列,每因素3个水平,9次试验。 此外还有复合型的正交表,即因素水平不等的正交表,参阅《常用数理统计表》。 正交表的特点: (1)任一列中各水平出现的次数相等。 (2)任两列间各水平相遇的次数相等。 这两个特点体现了正交设计在试验安排上的均衡性。 采用正交设计,通过方差分析可了解哪些因素是主要因素,因素间交互作用的大小,因素间水平的最佳组合,各因素的与目的指标的回归关系等。 正交设计与回归分析相结合,还可以找出试验因素水平之外的最优组合。 (八)、回归正交设计 一般称为回归设计,又称响应曲面设计,它是把试验的安排、数据的处理和建立有效的回归模型统一起来加以研究的一种试验统计分析方法。 具体做法,是在正交表的基础上增加试验点: ①坐标平移,两水平正交表的2变成-1,1和-1分别为“上水平”和“下水平”;②在每个试验因子的上水平和下水平的外头分别增加两个星号点;③在中心点重复若干试验。 如下图所示。 x2x2 (0,r)(0,r) (-1,1)(1,1)(-1,1)(1,1) (-r,0)(0,0)(r,0)x1(-r,0)(0,0)(r,0)x1 (-1,-1)(1,-1)(-1,-1)(1,-1) (0,-r)(0,-r) 回归正交设计一般分为一次回归正交设计和二次回归正交设计。 一次回归设计具有正交性和旋转性。 常用的是二次回归设计,这种设计要具有正交性、旋转性和通用性,必须满足一定的条件,关键是适当选择星号点和中心点重复次数,如下表,具体可参阅(茆诗松.2003.统计手册,科学出版社,p711,表13.5.15),满足这些条件的二次回归设计称为二次回归通用旋转设计。 三次回归旋转设计较少使用。 二次回归通用旋转设计参数表 p mc r m0 N 2 4 1.414 5 13 3 8 1.682 6 20 4 16 2.000 7 31 5( 实施) 16 2.000 6 32 6( 实施) 32 2.378 9 53 7( 实施) 64 2.828 14 92 注: p—试验因子数,mc—二水平正交表上的试验点数,r—星号臂长度,m0—中心点的重复次数,总试验点数N=mc+2p+m0。 回归正交设计可采用改造后的二水平正交表来安排试验(茆诗松,2003),也可利用SAS系统的“DesignofExperiments”功能来安排试验和分析试验数据(注意: SAS的回归正交试验设计表是将二水平正交表的1变成-1,2变成1),参阅《正交回归设计的SAS解决方案》。 (九)、均匀设计 当试验因子数较多,且每个因子的水平数较多时,运用正交设计需要做的试验次数仍然比较多,难以安排试验。 均匀设计就是在这种背景下,为进一步减少试验次数,而又能保证一定的试验精度而提出的。 均匀设计是我国数学家王元和方开泰于1980年提出的,它特别适用于变量取值范围大,水平数多(不低于5)的试验。 该方法的基本思路是将正交设计“均匀分散,整齐可比”要求中的“整齐可比”去掉,通过提高试验点的“均匀分散”的程度,使试验点具有更好的代表性,能用较少的试验获得较多的信息。 均匀试验是根据均匀设计表来安排试验的。 和正交表相似,均匀设计表也是精心编制的一套试验表,它是用数论方法编制的(方开泰,1994)的,每一个均匀设计表都有一个代号UN(qs)。 其中N表示试验次数,q表示因子的水平数,s表示该表的列数。 通常带“*”的均匀设计表有更好的均匀性,应优先选用。 每张均匀设计表都附有一张使用表,它指示我们如何从均匀设计表中选用适当的列,以及由这些列所组成的试验方案的均匀性。 如: (a)U*6(64)(b)U*6(64)的使用表 试验号 1 2 3 4 s 列号 D 1 1 2 3 6 2 1 3 0.1875 2 2 4 6 5 3 1 2 3 0.2656 3 3 6 2 4 4 1 2 3 4 0.2990 4 4 1 5 3 5 5 3 1 2 6 6 5 4 1 均匀设计表的均匀性用偏差D衡量,D越小,表示均匀性越高。 例如,当只有两个因素时,选用列1和3安排试验偏差最小,均匀性最好。 查均匀设计表可参阅方开泰(1994)和茆诗松(2003)。 均匀设计表的特点: (1)每个因素的每个水平做一次且仅做一次试验。 (2)任两个因素的试验点描在平面的格子上,每行每列有且仅有一个试验点。 如U*6(64)的第1列和第3列描成下图(a)。 性质 (1)和 (2)反映了试验安排的均衡性,即对每个因素的各个水平给予同样的重视。 (3)均匀设计表任两列组成的试验方案一般是不平等的。 例如用U*6(64)的1,3列和1,4列分别作图,得下图(a)和(b)。 显而易见,图(a)的点分布均匀,而图(b)的点分布不均匀。 因此,安排均匀设计表的使用表安排试验是十分重要的。 (a)(b) (4)运用均匀设计法,试验数随水平数的增加而增加。 相比之下,正交设计的试验数随水平数的平方而增加。 第四节试验实施 一、试验方案的制定与落实 确定试验因素,处理数,重复数,区组形状及大小,小区形状与大小等。 小区的形状与大小主要取决于试验材料的类型和试验的目的,也受试验地形状与大小的影响。 单株小区: ①当试验的处理数较多时,单株小区可有效减小区组规模,防止因区组过大,区组内环境条件差异太大,造成过大的试验误差;②有些情况下,例如,需要将子代测定林改造成种子园和采种林分,为了避免近交,必须采用单株小区。 单株小区的主要缺点是,每一株树的位置都必须标注在图纸上,档案管理比较繁琐。 行式小区: 这是应用最多的小区形状。 一般采用4~6株小区。 块状小区: 对于树种和种源试验,由于树种间或种源间生长差异可能很大,若采用单株或行式小区,可能出现早期慢生树种/种源与速生树种/种源相邻排列,因强烈竞争使早期慢生树种/种源受压,得不到表现其生长潜力的机会。 二、试材与试验地准备 (一)处理、区组编号,试验材料力求整齐。 (二)试验地选择 ⒈代表性优良材料的测定林地必须能代表其造林更新的土壤条件。 ⒉
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 林业试验设计及数据分析 林业 试验 设计 数据 分析 讲义