生物数学.docx
- 文档编号:8457855
- 上传时间:2023-01-31
- 格式:DOCX
- 页数:50
- 大小:216.49KB
生物数学.docx
《生物数学.docx》由会员分享,可在线阅读,更多相关《生物数学.docx(50页珍藏版)》请在冰豆网上搜索。
生物数学
第三章生物分类的数学模型
本章开始将讨论生物分类,按照生物分类学家的理解就是指表征分类和分支分类,我们仅研究两种分类概念下的数学理论与方法。
这里的分类也是多元统计关于聚类分析的延续,但是已远远超出统计数学的范围。
表征分类除经典的系统分类以外还包括图论分类、信息分类、模糊分类;分支分类是以抽象代数为基础,研究生物演化规律的分支学科。
因此生物数学中的分类数学模型不能再视作多元统计中的聚类分析,而应称为分类分析。
本章专门讨论分类分析中的表征分类数学模型。
第一节分类的基本概念和原始数据的获得
何谓分类?
有句俗话“物以类聚”,这句话的意思是说,许多事物依据其类别的特征,相似者归为同一种类。
从这个意思去理解,分类有两个要素。
第一个要素是被分类的对象,分类对象是由许多被分类的实体所组成,3个以上的实体构成一个基本分类对象。
被分类的实体,就是被分类的基本单位,在数量分类学中称为运算分类单位(operationaltaxonomicunit)简写作分类单位(OTU)。
全部被分类的分类单位构成的集合称为被分类群。
分类的第二个要素是分类的依据,分类依据取决于被类群中分类单位的性状,所谓性状(character)是一个分类单位区分于其他分类单位的性质、特征或属性。
一个分类单位对某个性状所呈现的状态,称为该性状的性状状态(characterstate),简称状态(state)。
分类就是将被分类群中所有的分类单位,依据它们的性状状态,遵从一定的原则作出划分或聚合,得到一组新的分类单位集合。
通过分类获得的这个分类单位集合称为分类群(taxon)。
世界上一切事物都存在分类的问题。
专门研究生物物种的分类,也就是生物分类学中的分类,有表征与分支两个对立的概念。
依据生物表现性状相似性全面比较而建立的系统分类称为表征分类(pheneticclassification);遵从生物演化的谱系关系而建立的系统分类称为分支分类(cladisticclassification)。
这两个概念在生物分类学和数量分类学中都很重要,相应的也有两种不同的数学方法,本章将要研究表征分类。
分类单位隶属于一个分类群产生分类单位与分类单位之间的联系。
如果A是被考虑的一个分类群,又有分类单位x∈A,且分类单位y∈A,则认为x与y之间建立起同属于一个分类群的联系,称作分类单x与y共分类群,记作
xφy
分类学家在分析比较鉴定被分类对象时,经常要问哪些分类单位属于同一分类群,生物分类工作时时刻刻都在考虑共分类群问题。
显然共分类群这个联系成为分类学理论上最基本的概念之一。
分类单位共分类群关系φ具有以下性质:
性质1自反性(reflexivity),即xφx;
性质2对称性(symmetry),若xφy,则yφx;
性质3传递性(transitivity),若xφy且yφz,则xφz。
共分类群,就分类单位的隶属性关系来说,以上3条性质是十分必要的,3条性质正是数学中的所谓等价关系(equivalencerelation)。
具有等价关系的集合,可以依据等价关系将集合分类,得等价集合类。
这是集合论中的一个重要结论。
数量分类学中的定量分类方法正是依靠数学中的这个结论去解决分类问题。
等价关系下的等价集合类成为表征分类方法的理论根据。
下面我们将开始讨论在表征分类观点下的数量分类方法。
当被分类群一经确定,合适的性状也被挑选出来,生物学工作者就要对调查、观察、测量、实验得到的数据进行整理,获得有关分类单位和性状的原始记录。
这些记录收集了来自各方面的信息,是从事分类工作的第一手资料。
原始记录的形式尚不能直接进行数学运算。
为了能够利用数学工具来从事分类学的研究,必须将所有这些记录改变成适合于数学运算的形式。
在数量分类学中这项工作叫做性状编码。
性状编码的一般方法随性状的各种类型分别处理,现叙述如下:
1.数值性状
以整数或实数所表示的性状称为数值性状(numericalcharacter)。
例如生物形态的各种度量、长度、面积、体积、角度和重量等;生物组织器官各部分构成的数量;各种实验数据;各种仪器测量的数据以及基于上述性状而获得的导出性状。
这些都是数值性状。
数值性状本身已经是数值,它是天然的最适合于进行数量分类的性状,一般分类方法无须编码处理,就可以转入下一步进行数学运算。
需要注意的是有些性状虽然以数值表示,但实质上不属于数值性状。
2.二元性状
表现为对立面二种状态的性状称为二元性状(binarycharacter)。
例如动物是脊椎动物还是无脊椎动物,脊椎动物中是胎生还是卵生,冷血还是温血;有花植物的花冠是合瓣还是离瓣,子房是分离心皮还是合生心皮,果实开裂与否;在微生物学中二元性状尤其多,各种生理、生化、营养性状几乎都出现二元性状;生物地理学的调查资料中,生物种类在指定区域内的有或无也是二元性状。
二元性状的编码很简单,将两个状态分别以“0”和“1”表示,通常肯定的状态为1,否定的性状为0。
3.有序多态性状
表现为三个状态以上,能排列成一定次序,次序具有分类意义的性状称为有序多态性状(orderedmultistatecharacter)。
例如对器官某部分长度的描述是短、略长、长、极长;植物体表无毛、微具毛、具毛、多毛、密毛;植物地理学中某植物在某地区的分布调查是无、有、较多、极多。
有序多态性状的状态个数一般都是有限的,由于是有序的,可以将其排列为一定的等级。
编码时可以取连续排列的非负整数0,1,2,3,…,n,它们分别表示n+1个有序多态性状状态。
例如被毛的性状可编码如下:
性状状态:
无毛微具毛具毛多毛密毛
编码:
01234
性状状态在不同方向上各自排列为有序的多态性状,不能按上面的编码方法处理。
例如关于被毛的性状,如果毛有短毛、长毛,硬毛、柔毛,单一毛、二歧分支毛和多歧星状毛。
这种情形属于无序多态性状,可采取分解的方法编码。
4.无序多态性状
表现在三个状态以上,不能排列成具有分类意义的一条序列的性状称为无序多态性状(disorderedmultistatecharacter)。
例如种子植物的花序有总状、头状、伞形、伞房、穗状……;花冠的类型有唇形、蝶形、钟形、舌形……;昆虫的口器有咀嚼式、针吸式、虹吸式、舐吸式……;生物分布的地理区域也是无序多态性状。
在微观世界蛋白质的氨基酸组成和核酸中的核苷酸构成都是无序多态性状。
无序多态性状的编码比较复杂,有以下三种方法,叙述如下:
4.1分解法
分解法就是将原性状分成多个新性状,再进行编码。
有时候无序多态性状包含了多种互相独立的意义,实际上这种性状不符合单位性状的要求,分解成多个相应的单位性状是应该的。
例如植物被毛的种类,有短毛、长毛、硬毛、软毛、单一毛、二歧分支毛、多歧星状毛和腺毛等。
这一无序多态性状具有多方面的意义,即毛的长短、毛的硬软、毛的分枝状况和毛端是否形成腺状小点。
据此,该性状可以分解为4个性状,分别编码如下:
毛的长短性,二元性状。
短,0;长,1。
毛的质地,二元性状。
软,0;硬,1。
毛的分枝程度,有序多态性状。
单一毛,0;二歧分枝毛,1;星状毛,2。
毛端是否具腺状点,二元性状。
非腺毛,0;腺毛,1。
4.2综合评分法
这种方法正好像竞技比赛的记分一样,容易为一般读者所理解。
为了尽可能避免主观性,必须在编码之前先确定评分的标准,规定合适的综合计算方法,并且要求评分者深明性状的分类学意义。
具体方法随性状的要求而异,现举例说明。
例1猪品种的分类研究中,猪耳的形态学性状在育种学和生态学方面具有重要意义。
采取综合评分法编码,将该性状纳入猪品种的定量分类研究中。
根据猪耳的形态学特征及其生物学意义,先确定耳的大小和下垂程度是评分的两个主要依据,再规定评分标准:
耳大小:
耳小,0;一般,1;耳大,2;特大,3;特大遮眼,4。
耳下垂:
耳直立,0;耳平伸,1;耳下垂,2。
从这两个方面评出分数,再将两分数相加得综合评分编码。
譬如焦溪猪,耳特大遮眼、下垂,评分编码值6=4+2。
例2小麦抗锈性是小麦育种学重要特征,根据已有的记录将抗锈性分为五个评分等级。
发病特别严重、孢子堆大而普遍,0;有较大孢子堆、发病较普遍,1;有较小孢子堆、发病较轻,2;有抗性斑点,3;从未见发病,4。
小麦的抗锈性又有抗条锈、抗杆锈和抗叶锈三种不同的区别。
小麦的育种工作抗条锈品种容易获得,抗秆锈品种较少不易获得,抗叶锈品种很难得到。
因此,对三种不同的抗锈性分别给予不同的权重系数,0.091(抗条锈)、0.435(抗秆锈)、0.474(抗叶锈)。
譬如小麦“农大16”品种,对条、秆、叶的抗锈性等级评分分别是4、1、2。
该小麦总的综合评分编码为
(0.091×4+0.435+0.474×2)=1.747
4.3演化分析法
生物分类的某些无序多态性状,性状自身呈现出树状的演化过程,可画出其演化关系——树(tree)。
树是图的一种,这里涉及图论的一些基本概念。
考虑到演化的特点,有向树图中连接两顶点之间的弧是有方向的,于是图中存在一个顶点,可以它为起点连通到所有其他状态顶点,称为演化起源,而且这样顶点只有一个。
除代表演化起源的顶点外,一个顶点,没有一条弧以它为起点,称为演化终点。
每一个演化终点代表一个演化方向,把这个演化方向定为新的性状。
新性状的编码规定如下,演化起源的顶点编码为0。
连接起源顶点到该性状的演化终点的通路称为主通路。
从起源顶点开始沿主通路,每经过一条边增加一个单位编码值,于是主通路上所有顶点的状态都赋给编码值,演化终点状态达到该性状编码的最大值。
非主通路上顶点状态的编码值这样规定:
取出从起源顶点到该顶点的通路,该通路经过主通路的边数是其状态编码值。
这样一来,所有的状态都赋给了新性状的编码值。
对每一个演化终点照前述方法对所有状态赋给一个新性状编码值,编码工作完成。
举一个例子。
如果在某植物分类研究中,采用花序性状,出现的性状状态有复穗状花序、穗状花序、总状花序、圆锥花序和伞房花序,无疑这个性状属于无序多态。
花序的演化实际过程比较复杂,这里假如按图3-1的方式展开,图中单生叶腋花序是假设状态,也是树图的演化起源。
该树图有3个演化终点状态,分别是复穗状花序、伞房花序和圆锥花序。
3个演化终点状态确定3个新的性状,分别记作性状I、II和III,新性状的编码列于图3-1的表中。
性状状态
新性状编码
I
II
III
总状花序
0
1
1
穗状花序
1
0
0
复穗状花序
2
0
0
圆锥花序
0
1
2
伞房花序
0
2
1
图3-1部分花序的演化分析编码
起源状态是单生叶腋花序,所有性状的编码均为0。
性状I的主通路单生叶腋花序→穗状花序→复穗状花序;
性状II的主通路单生叶腋花序→总状花序→伞房花序;
性状III的主通路单生叶腋花序→总状花序→圆锥花序。
按照前述编码规定,性状I中穗状花序和复穗状花序的编码分别为1和2;总状花序、圆锥花序和伞房花序,因为从起源状态到它们的路径不经过主通路,故编码值均为0。
性状II中总状花序和伞房花序的编码分别为1和2;从起源状态到圆锥花序的通路有一条边通过主通路,故圆锥花序在性状II的编码值为1;从起源状态到穗状花序和复穗状花序的通路不经过主通路,故穗状花序和复穗状花序在性状II的编码为0。
同理可作性状III的编码,不再赘述。
其实,演化分析的编码方法也是性状分解法,它的分解是依据性状的演化关系。
因此,演化分析方法能更好地反映生物演化谱系,对生物分类系统学的研究具有重要价值,在分支分类部分还要详细讨论。
无序多态性状的编码方法介绍到此。
经过编码以后的原始数据,如果有t个分类单位,n个性状,数据可列成表格记录如下:
性状
1
2
…
n
分类单位
1
…
(3.1)
2
…
……………………………………
t
…
其中分类单位和性状都以整数编号表示。
第i个分类单位,第j个性状状态的数据是yij(i=1,2,…,t;j=1,2,…,n)。
第二节数据变换和数据标准化
前一节讨论了性状的编码,经过编码所获得的原始数据如果都是二元数据,没有特殊需要可以直接进行相似性系数运算;如果数据是一般的实数,就必须先进行数据的变换和标准化,然后才能进行相似系数运算。
生物世界种类万千,变化多端,对生命现象的描述和记录十分复杂,数据的来源不同,量纲不同,某些来自专门技术和特殊实验的数据度量标准更复杂。
数据的复杂性最后反映在数值的大小和变化的幅度因不同的性状而各不相同。
性状之间的这种差异仅仅是由于性状各自的特点和度量标准不同而产生的。
这种差异影响分类的结果,有时候甚至大到把具有分类意义的变化完全掩盖下去,使得分类运算看不到有意义的结果。
因此在进行大规模运算之前,需要先进行变换或标准化处理,以便减少和消除这种差异带来的影响。
对原始性状数据进行变换的方法就是将需要变换的数据代入一个事先拟好的函数中,进行计算,得出一组新的数值代替原来的性状数据。
如果某一性状有t个分类单位,数据x1,x2,…,xt进行变换的一般形式是:
……
这里
(i=1,2,…,t)表示变换后的数据,fi(x1,x2,…,xt)(i=1,2,…,t)是原始性状数据的函数,称为该变换的变换函数。
最简单的变换是数据自身减去某一常数:
(3.2)
这个变换的效果是把度量的基准点做一次平移,有时把常数c改换成该性状数据的平均值,这样的变换称为中心化(centralization)。
另一个简单的变换是数据自身乘以非零常数c,
(3.3)
这个变换可以使性状数据均匀地放大(c>1)或者缩小(c<1)。
还有一个基本的变换是m次幂乘方,变换函数是
(3.4)
其中m是非零整数。
如果不是整数也可以表示开方运算。
前面提到的三种变换是性状数据自身最基本的代数变换,部分复杂的变换都可以通过有限次这种变换的组合来实现。
除基本的代数变换以外,还有一些特殊函数的变换。
数学中任何一个函数都可以当作变换函数,常见的变换函数有三角函数与反三角函数、指数函数、对数函数等,例如:
前面所讨论的变换都是个别性状对其自身的变换。
为了消除性状之间数值的大小和变化幅度的差异,常常对所有的性状采取统一的变换,这种变换称为标准化变换(standardizedtransformation)。
对原始数据进行这种变换的运算过程称为原始数据的标准化(standardizationoforiginaldata)。
在主成分分析和许多相似性系数的运算中,原始数据的标准化已成为必不可少的步骤,我们在这一节里详细讨论。
经过性状编码以后获得的原始数据可以看作一个t行n列的矩阵,称为原始数值矩阵(originaldatamatrix):
(3.5)
矩阵中的行向量[yi1yi2…yin](i=1,2,…,t)称为第i个分类单位向量(vectorofoperationaltaxonomicunit);列向量[y1jy2j…ytj](j=1,2,…,n)称为第j个性状向量(vectorofcharater).
最简单的标准化变换称为极差标准化变换。
如果经标准化变换以后的数据记作xij,极差标准化变换的数学公式如下:
(3.6)
其中
表示第j个性状数据y1j,y2j,…,ytj的最大值;
为相应的最小值。
公式中的分母代表第j性状极大状态值和极小状态值之间的差异。
极差标准化的名称由此而得。
不难看出,经极差标准化变换之后的数据xij介于0到1之间(0≤xij≤1),性状之间数据大小和变化幅度不具有分类意义的差异已经消除。
极差标准化变换虽然计算简单,但这种变换设计十分粗糙,特别当个别数据远离其他数据时,较大的极差使变换后的数据取值不甚合理。
下面介绍一种基于统计运算的标准化变换,这种变换比较合理,已成为数量分类运算常规的运算过程。
以至以后再述及标准化时,除非特别说明,一般都指这种基于统计学的标准化方法。
其变换公式表示如下:
(3.7)
其中
(3.8)
(3.9)
和sj分别是第j性状数据的平均值(mean)和标准差(standarddeviation)。
怎样理解上述标准化变换的意义呢?
如果我们把每个性状的数据都看作是平均值为
,标准差为sj的正态分布随机变量。
所谓标准正态分布就是平均值为0,标准差为1的正态分布。
不难验证变换以后每一个性状的数据组x1j,x2j,…,xtj其平均值为0,标准差为1。
变换之前,每一个性状各有自己的平均值和标准差;变换之后,所有的性状都服从标准正态分布,因而性状之间因数值大小和变化幅度不同而产生的不具有分类意义的差异就不复存在了。
也可以从另一个角度理解标准化的意义。
变换以后的第j个性状向量以大写字母Xj表示,有趣的是,变换后性状向量的模都相同,并且有等式
(3.10)
其中Xj=[x1j,x2j,…,xtj]
向量的模可以理解为向量的长度。
经过标准化变换,性状向量长度都一致,说明因性状之间大小和变化幅度的不同而产生的不具有分类意义的差异已经消除。
原始数值矩阵(3.5)经过标准化变换之后获得已标准化原始数值矩阵
(3.11)
该矩阵仍然与原始数值矩阵一样,t行代表分类单位,n列代表性状。
矩阵在标准化过程中排除了不具有分类意义的数量关系,因而能正确地反映分类单位之间的相亲性。
以后的分类运算分析将在这个矩阵上进行。
本书为了说明数量分类每一步的具体运算方法,选取植物桔梗科(Campanulaceae)中的部分种(6个种,8个形态学性状)和五加科人参属(Panax)部分种(7个种,13个性状)作为具体例子。
此两例经过性状编码获得的原始数据将在以后各章中多次采用。
取用时,对数据的来源每次不再作具体介绍。
为了使举例简单易算,尽量把数据的规模缩小,当然,在实际工作中,分类单位和性状的个数都远比此例多,不会如此简单。
举例的桔梗科6个种,学名和种的形态描述如下:
党参[Codonopsispilosula(French.)Nannf.]
多年生草本。
茎缠绕附它物而蔓生,茎长约3~10米。
叶对生,有长柄,卵圆形,叶全缘或具波状边缘。
花单生枝顶或生叶腋;萼片5,宽披针形;花冠钟状,浅绿色,5浅裂;雄蕊5;柱头3~5裂;子房下位,3~5室。
蒴果圆锥形,成熟时顶部萼片间室背开裂。
种子长椭圆形、褐色、无翼。
桔梗[Platycodongrandiflorus(Jacq.)A.DC.]
多年生直立草本,株高60厘米。
叶互生,有时对生或轮生;叶无柄或短柄;叶缘有锐锯齿。
花单生或数朵生枝顶;萼5裂;花冠阔钟状,蓝紫色,5裂,花径4~5厘米;雄蕊5;子房下位,5室,柱头5裂。
蒴果倒卵形,成熟时顶部瓣裂;种子扁平、无翼。
轮叶沙参[Adenophorapereskiifolia(Fisch.exRoem.etSchult.)G.Don.]
多年生直立草本,株高50厘米。
茎生叶3~4叶轮生;叶卵圆状披针形;叶缘有锐粗锯齿。
圆锥花序或总状花序;萼片5、披针形;花冠钟形、蓝紫色,花盘短筒状;花柱长,伸出花冠外,柱头膨大、3瓣裂;子房下位、3室,果沿侧壁开裂;种子卵圆形、无翼。
荠苨[Adenophoraremotiflora(Sieb.etZucc.)Miq.]
多年生直立草本,株高70厘米。
上部茎生叶互生、有柄、卵形、长椭圆状卵形至广披针形;叶缘有锐重锯齿。
总状花序或疏圆锥花序;花冠宽钟形、白色或淡青色;花柱伸出花冠外;柱头3浅裂;子房下位,3室;花盘短筒状。
蒴果侧壁开裂;种子卵形、无翼。
羊乳[Codonopsislanceolata(Sieb.etZucc.)Trautv.]
多年生草本,茎缠绕,长2~3米。
叶有短柄、对生,叶狭卵形,叶全缘,或微具波状疏齿。
花单生;花冠钟状、5浅裂,淡绿色,内面具有紫褐色斑;雄蕊5,柱头3~5;子房3~5。
果短圆锥形,顶部萼片间室背开裂;种子淡褐色、卵圆形、扁而具翼。
石沙参(AdenophorapolyanthaNakai)
多年生直立草本,高65厘米左右。
叶互生、近无柄,叶椭圆状披针形,叶缘具粗锯齿。
圆锥花序或总状花序;萼片线状披针形;花冠钟形,边缘裂片外翻卷,花蓝紫色;花柱略伸出花冠外;子房3室。
蒴果侧壁开裂;种子无翼。
选取8个性状,性状的编码方法如下:
(1)茎是否缠绕,二元性状。
茎缠绕,1;直立,0。
(2)株高,数值性状。
取株高或茎的长度(米)
(3)叶的着生方式,有序多态性状。
叶互生,0;对生,1;轮生,2。
(4)叶缘,有序多态性状。
叶全缘或波状疏齿,0;锯齿,1;重锯齿,2。
(5)花序,有序多态性状。
单生花序,或整个生枝顶,0;总状花序或疏圆锥花序,1;圆锥花序或总状花序,2。
(6)子房室数,数值性状。
取子房室数。
(7)果开裂方式,有序多态性状。
果侧壁开裂,0;果顶部5瓣裂,1;果顶部萼片间室背开裂,2。
(8)种子是否具翼,二元性状。
果不具翼,0;具翼,1。
对6个种的8个性状,按照上述原则进行编码,编码结果列于表3-1中。
标准化数据在表3-2中。
表3-1桔梗科试验数据
性状
分类单位
茎缠绕否
1
株高
2
叶序
3
叶缘
4
花序
5
子房室数
6
果裂方式
7
种具翼否
8
1党参
1
5.5
1
0
0
4
2
0
2桔梗
0
0.6
0
1
0
5
1
0
续表3-1
性状
分类单位
茎缠绕否
1
株高
2
叶序
3
叶缘
4
花序
5
子房室数
6
果裂方式
7
种具翼否
8
3轮叶沙参
0
0.5
2
1
2
3
0
0
4荠苨
0
0.7
0
2
1
3
0
0
5羊乳
1
2.5
1
0
0
4
2
1
6石沙参
0
0.65
0
1
2
3
0
0
表3-2桔梗科试验数据的标准化
性状
分类单位
茎缠
绕否
株高
叶序
叶缘
花序
子房
室数
果裂
方式
种具
翼否
党参
1.2910
1.8876
0.4082
-1.1070
-0.8476
0.4082
1.1866
-0.4082
桔梗
-0.6455
-0.5734
-0.8165
0.2214
-0.8476
1.6330
0.1695
-0.4082
轮叶沙参
-0.6455
-0.6236
1.6330
0.2214
1.1866
-0.8165
-0.8476
-0.4082
荠苨
-0.6455
-0.5232
-0.8165
1.5498
0.1695
-0.8165
-0.8476
-0.4082
羊乳
1.2910
0.3809
0.4082
-1.1070
-0.8476
0.4082
1.1866
2.0412
石沙参
-0.6455
-0.5483
-0.8165
0.2214
1.1866
-0.8165
-0.8476
-0.4082
平均值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 数学
![提示](https://static.bdocx.com/images/bang_tan.gif)