生物间相似性的多样性指标.docx
- 文档编号:8235250
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:26
- 大小:250.34KB
生物间相似性的多样性指标.docx
《生物间相似性的多样性指标.docx》由会员分享,可在线阅读,更多相关《生物间相似性的多样性指标.docx(26页珍藏版)》请在冰豆网上搜索。
生物间相似性的多样性指标
第四届“互动出版杯”数学中国
数学建模网络挑战赛
承诺书
我们仔细阅读了第四届“互动出版杯”数学中国数学建模网络挑战赛的竞赛规则。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们允许数学中国网站()公布论文,以供网友之间学习交流,数学中国网站以非商业目的的论文交流不需要提前取得我们的同意。
我们的参赛队号为:
1007
参赛队员(签名):
队员1:
刘路
队员2:
于涛
队员3:
戴超逸
参赛队教练员(签名):
参赛队伍组别:
本科组
第四届“互动出版杯”数学中国
数学建模网络挑战赛
编号专用页
参赛队伍的参赛队号:
(请各个参赛队提前填写好):
1007(本科组)
竞赛统一编号(由竞赛组委会送至评委团前编号):
竞赛评阅编号(由竞赛评委团评阅前进行编号):
2011年第四届“互动出版杯”数学中国
数学建模网络挑战赛
题目基于生物间相似性的多样性指标
关键词物种分类、熵、基因、多样性、相似性、
摘要:
目前的物种多样性测量方法绝大部分是依据物种丰富度或者平均度建立的。
这些指标虽然能很好的反映物种种类总数和个体在各个物种间分布的均匀水平,但它们丢失了一个重要的信息,即没有考虑不同物种间相似性的程度,这将使生物多样性的本质含义不完整。
本文针对这一缺陷给出两个模型,树模型和统计熵模型。
树模型中我们参照了生物学中的经典分类理论(按界、门、纲、目、科、属、种划分),给树形分类目录中不同等级的子节点定义一个权重,根据两种物种在分类树中对应的“路径”来计算每两种生物的差异程度;根据一种物种与其他物种差异程度的均值算出它与生物群落中的其他所有物种间的平均差异程度;最后对样本中所有物种的平均差异程度求和,作为该生物群落的多样性指标。
文章中还验证了树模型具有计算简洁、易扩展(可推广)等良好的性质,例如还可以容易地将各物种所占比重也考虑进去。
统计熵模型借鉴了物理学中形容事物分布无序程度的熵概念,将生物的多样与其分布的无序类比,这一模型中体现了对生物间相似程度的比较。
对于两个模型我们都给出具体的检验数据并通过计算结果说明这两种指标在一定程度上优于传统及现存的测量方法,例如当某几种生物的比重占主导时,现存的测量方式使得新增物种对生物多样性的贡献甚微,而我们设定的新模型却在这种情况下对检测物种增减具有更强的灵敏性。
参赛队号1007
所选题目B
Abstract
Presently,mostofbiodiversityindicesrelyoneitherrichnessorevenness.Althoughtheseindicesmoreorlessreflectthetotalnumberofspeciesandthehomogeneityofdistributionofeachspecies,buttheyallignoreonething,i.ethedegreeofdifferenceorsimilarityamongspecies.Thisconsiderablydrovetheseindicesapartfromthedefinitionofbiodiversity.Inthisarticle,weaimatthisdefect,andgivetwomodels,treemodelandstatisticentropymodel.
Intreemodel,werefertotheclassicalclassificationtheory(i.eclassifyspeciesbyseverallevelsincludingphylum,class,order,family,genus,species),andweassignaweighttoeachnodeinthetaxonomictree.Wecalculatethedifferencedegreebetweentwospeciesaccordingtotheircorrespondingpath(andtheweightofeachnodeinthispath)inthetaxonomictree.Wedefinethedifferencebetweenonespecieandasetofspeciestobetheaveragedifferencedegreebetweenthisspecieandeachspeciewithintheset.Finally,wedefinethebiodiversitydegreeofthissetofspeciestobethesumoftheaveragedifference(withrespecttothisset)ofeachspecieintheset.Wearguedthattreemodelindexhasrelativelowcomplexity(notasitseemstobe),highflexibility(generalizable)etc.Forexample,onecouldeasilyaddtothemodeltheweightofeachspecies.
Thestatisticentropymodelborrowsideafromwhatisusedtodescribe“disorder”ofthedistributionofasetofobjectinstatisticalphysics,i.eentropy.Wemakeanalogybetweenbiodiversityandthedisorderofthedistributionofasetofspecies.Thismodelalsoreflectsthedegreeofsimilarityamongspecies.
Wetestourmodelsandshowedthatthesetwomodels,tosomeextent,aremoreorlesssuperiortothetraditionalandpresentmeasurements.Forexample,whenseveralspeciesdominatesthewholesetofspecies,presentmeasurements(i.eShannonindex,Simpsonindex)variedfairlyfractional,whiletreemodelindexdoesnotsufferthis.
目录
一.问题重述6页
二.目前广泛使用的指数6页
(一)、丰富度指数6页
(二)、均匀度指数7页
(三)、优势度指数7页
三.传统统计方式的弊端7页四.树模型8页
(一)、生物相异程度的定义8页
1、算法的两点说明9页
2、上述方法定义相异程度的适宜性9页
3、权值9页
(二)、算法及时间复杂度10页
(三)、测试与比较10页
测试1——树模型有效性检验10页
测试2——树模型与其他传统方法比较11页
(四)、考虑模型的推广性12页
五.基于层次分析法的统计熵模型13页
(一)、模型介绍13页
1.物种熵13页
2.信息熵13页
3.关联熵13页
(二)、层次分析法15页
(三)、模型分析17页
附录A——参考文献17页
附录B——matlab程序代码18页
一.问题重述
生物的多样性,一直是生态学和遗传学关注的重要课题。
无论是对于整个生物圈,还是一片森林或者河流,生物多样性都明显的标志性这片地区是否有较强的抵御外界压力冲击的能力。
因为如果生物多样性层次很低,当有物种出现大量减少甚至灭绝的情况时,其他物种的营养结构或者其他生活习性更容易遭到这种濒危物种的影响;只有生物多样性达到较高的水平时,当环境遭受一定破坏或者改变时,这个区域内的大部分生物才有抵御变化和保持长期稳定生存的能力。
而且保持生物多样性的意义不仅仅停留在维护生态平衡的意义上,对于物种基因的完整性也具有相当大的意义,几乎现在所有物种的基因都是经过上亿年进化而来的,它们是独特的环境变化和自身突变共同的产物,任何一种物种的基因都是研究地球和生物的发展演化活生生的证据,如今,世界上平均每天都有十几种物种在消失,这对于所有生物基因库的完整性是一个巨大的损失。
在如此环境下应运而生的是一系列生物多样性的检测指标。
主要包括三个层次[1]:
生物系统多样性、物种多样性和遗传基因多样性。
生物系统多样性衡量的是不同的生物系统的种类数量和交替出现的频率,物种多样性衡量的是物种的种类丰富程度和种间相似度,遗传基因多样性衡量的是所有生物基因的差异性和种类数量。
由于遗传基因多样性和生物系统多样性指标的建立涉及到相当深入的生物学知识,所以在此我们主要为测定物种多样性的建立指标。
二.目前广泛使用的物种多样性指数[2][3][4]
(一)丰富度指数(richness)[5]
最具标志性的种丰富度指数是便是S——生态系统中物种的个数。
这个指数无法表示相对丰度。
实际上,除了一些非常贫瘠的系统以外,记录一个生态系统真是的种丰富度是不可能的。
系统中的物种的观察值是其真实物种丰富度的有偏估计。
并且观察值会随着取样的增加非线性的增长。
1.Margalef指数
S表示在样方中观察到的物种种类数,N代表所有个体总数。
2.Shannon-wiener指数
代表的是第i种物种的个体数,N代表所测量的区域内的个体总数。
物种种类越丰富,个体数量在各种间分配得越均匀,指数的绝对值越大。
当只有一个种群时,指数值为0.当群落中有两个以上的居群存在,且每个居群仅有一个成员时,香农指数达到最大值lnk。
3.OTU指数
K和
是经过代入后反复调整得到的使结果最接近现实的的常数
(2)平均度指数(evenness)
物种平均度用来描述物种中的个体的相对丰富或所占比例。
Pielous指数
S为样方中观察到的物种数,这个指数用来估计群落分配的均匀程度。
(三)优势度指数(dominance)
Simpson指数
(
=
)
代表的是两个个体同属i物种的联合概率,这个指数同时体现物种的丰富度和均匀度。
当所出现的物种都为不同种时,多样性最大。
三.传统统计方式的弊端
最传统的计量生物多样性的方式是通过单纯的统计某一地区的生物的数目来判断该地区的生物多样性,这种统计方式有明显的缺陷。
例如考虑一下两组动物,A:
灰犀牛、白犀牛、猎豹、金钱豹;B:
非洲象、狮子、羚羊、斑马。
B组动物的多样性显然大于A组,然而按传统的统计方式二者都是4种动物的集合,有相同程度的多样性。
之所以A组多样性应小于B组,显然是因为A组中有两对是同属的。
这一例子启发我们将生物间的相似程度体现在生物多样性的指标中。
现存体系中的指标大多只依赖于各个物种所占得比重,然而这种做法仍有缺陷,甚至有时会得出荒谬的结论。
例如,弱某次统计的到A1,A2……An,n种微生物以及B1,B2……Bm,m种其他生物(哺乳动物或植物)。
通常微生物的数目远超植物或哺乳动物从而依现存体系所计算的生物多样性指标将几乎完全由该地区微生物的多样性所觉定。
因此,现存体系中的算法只宜比较分布均匀的生物集合中的物种在某一地区是否多样。
一个容易的推广是将各生物依其在自然节中的“通常”比重对个生物赋予权值。
但这样一个“通常”的比重几乎不存在且极难统计。
不同地区相同的两种生物的数目比例可能想去甚远。
四.树模型[6]
(一)、生物相异程度的定义[7]
描述生物特征的方式自古以来都是生物学中的核心课题之一,对生物外表的宏观描述所产生的经典理论便是生物的分类理论,即包含7个级别,种、属、科、目、纲、门、界的分类方式。
我们的第一个算法中,对生物相异程度的定义完全以这一理论为依据。
以以下三种植物为例说明我们的比较方式。
1.星舌紫菀:
被子植物门,双子叶植物纲,菊目,菊科,星舌紫菀属
2.大丽花:
被子植物门,双子叶植物纲,菊目,菊科,大丽属
3.美人蕉:
被子植物门,单子叶植物纲,姜目,美人蕉科,美人蕉属
星舌紫苑vs美人蕉:
其中weight是相应级别的权重,weight(1,1)=weight(3,1)是被子植物门的权,weight(1,3)是菊目得权等等(第一个标号表示该植物的编号)。
星舌紫菀vs大丽花:
一般地:
其中,对生物A与B,m(A,B)是其在分类中的第一个分歧级别的编号,例如上述中,星舌紫苑与美人蕉在纲级分歧,于是m=2。
而星舌紫苑和大丽花仅在属级分歧,于是m=5
图1.物种相异程度定义——权重分配示意图
1、算法的两点说明
上述比较指标有两点需要说明,一是权值的设定,二是计算方式。
门、纲、目、科、属赋不同的权值,但不同的级别有时被赋不同的权重。
例如,珍贵的水杉其属下几乎只有一种植物,水杉。
而杜鹃花属下则有n多种植物。
显然,一个级别下所含的物种越丰富,则其权值应越高,这一原则也导致高级别的权大于底层级别的权。
一个级别下所含的次级多,说明标准级别所考虑的那些形状没有将其下属的生物分类充分,亦即其下属的生物间有较多的不同之处。
为什么要选上述计算方式,即为什么要将权值相乘再求和。
对于一种属性的不同值,可以用该属性的取值范围作为该属性不同之间的相异程度的均值,即一属性取值范围越大其各个值的间的相异程度越高,而
X,Y两个属性的共同取值个数=X的取值个数*Y的取值个数Weight(spieces,k)大约的表该级别所涉及的属性的取值范围广泛程度的指标。
2、上述方法定义相异程度的适宜性
依据这一理论测量生物间相异程度,省去了具体考量两种生物不同属性的繁重工作。
虽然即使是在理论上,也无法说明这一理论用于比较生物的相似程度是适宜或满足需要的,但生物多样性本身就是难以衡量的,难以明确的标准。
亦即,在没有证据说明这一理论不合适的情况下,它几乎是最佳的也是唯一的依据。
3、权值
在我们的算法中,门权值=1,纲权值=,0.8,对于其他三个级别一般来说,目权值=0.6,科权值=0.4,属权值=0.2,但若其下有相应多的次级则其权值在上述基础上增加0.1。
(二)、算法及其时间复杂度
我们的算法是将每一种生物与统计到的其他各生物比较其差异,并将所得的相异程度指标求平均值作为该生物与所统计的生物集合的整体的相异指标,然后对所统计到的所有生物的该指标求和。
亦即:
该指标显然兼顾了生物间的相似性也没有忽略生物种类数。
算法的时间消耗约为
其中N是某次统计的样本总量,a是对没一物种查找其在分类树中各个节点的权值的时间消耗,b是计算乘法的时间。
在实际计算中,aN占主导(因计算乘法的时间消耗远小于“字典搜索”)。
当N较大时时间消耗约为
。
(三)测试与比较
测试1.——树模型有效性检验
这节中将我们的算法与传统的数种数的测量方法进行比较。
对以下两组数据进行多样性检测。
(sample中的各级别的权值见源代码中的sample.m)
表一.Sample1中的物种分类
物种
属
科
目
纲
门
红豆杉
红豆杉属
红豆杉科
松柏目
松柏刚
松柏门
水杉
水杉属
松伯科
松柏目
松柏刚
松柏门
杜鹃花
杜鹃花属
杜鹃花科
杜鹃花目
双子叶
被子植物
星舌紫菀
星舌属
菊科
菊目
双子叶
被子植物
大丽花
大丽花属
菊科
菊目
双子叶
被子植物
美人蕉
美人蕉属
美人蕉科
姜目
单子叶
被子植物
台湾桤木
桤木属
桦木科
壳斗目
单子叶
被子植物
盐桦
桦木属
桦木科
壳斗目
单子叶
被子植物
石竹
石竹属
石竹科
石竹目
双子叶
被子植物
龙牙草
龙牙草属
蔷薇科
蔷薇目
双子叶
被子植物
毛叶樟
樟属
樟科
樟目
双子叶
被子植物
灰白杜鹃
杜鹃属
杜鹃花科
杜鹃花目
双子叶
被子植物
表二.Sample2中的物种分类
物种
属
科
目
纲
门
长果车前
车前属
车前科
唇形目
双子叶
被子植物
芒苞车前
车前属
车前科
唇形目
双子叶
被子植物
龙胆状车前
车前属
车前科
唇形目
双子叶
被子植物
大红柳
柳属
杨柳科
金虎尾目
双子叶
被子植物
藏南柳
柳属
杨柳科
金虎尾目
双子叶
被子植物
野核桃
核桃属
胡桃科
壳斗目
单子叶
被子植物
阿尔泰山楂
山楂属
蔷薇科
蔷薇目
双子叶
被子植物
雪莲花
风毛菊属
菊科
菊目
双子叶
被子植物
唐古特雪莲
风毛菊属
菊科
菊目
双子叶
被子植物
球花雪莲
风毛菊属
菊科
菊目
双子叶
被子植物
肿柄雪莲
风毛菊属
菊科
菊目
双子叶
被子植物
火桐
火桐属
梧桐科
锦葵目
双子叶
被子植物
刺果藤
刺果藤属
梧桐科
锦葵目
双子叶
被子植物
乌恰贝母
贝母组
百合科
百合目
单子叶
被子植物
梭砂贝母
贝母组
百合科
百合目
单子叶
被子植物
光药芨芨草
芨芨草属
禾本科
禾本目
单子叶
被子植物
羽茅
芨芨草属
禾本科
禾本目
单子叶
被子植物
分类来源:
中国植物物种信息数据库[8]
注意到sample2虽然总量多于sample1,但sample1所涉及的门、纲、目、科、属皆多于sample2。
直观上看,sample2的多样性小于sample1。
因此传统算法所给出的结论明显不符合事实。
我们的算法给出:
Biodiversityindexofsample1=14.42
Biodiversityindexofsample2=12.98
即sample2的多样性弱于sample1。
测试2.——树模型与其他传统方法比较
这组测试中,我们说明,当某些物种所占比重较大时,若按Shannon指标或Simpson指标等现行指标,其他物种将对生物多样性的“贡献”将非常不明显。
测试方式如下:
随机生成1000个生物样本,每个物种对应于一个五元组sample(i)=(a,b,c,d,e),各字母代表其在分类树中的类别,其中a<6,b<8,c<10,d<10,e<13。
此外为每一物种生成一个(0,1)的随机数z(i)。
我们假定某一百种生物所占比重超过0.9。
我们针对生物数目从N=800到N=1000分别计算三种指标,树模型指标、Shannon指标、Simpson指标的测量值。
(注意到不同的N值下,同一生物所对应的权值不同)并将N=800是的指标作为单位1,并计算各N值所得的三个指标的增量(依各自的单位1单位化后)。
结果如下图所示:
物种数量
指标变化率
图二.物种从800种增加到1000种时各指标变化率
树模型指标的变化率大于物种数目变化率。
而另外两个指标的变化率均不显著,原因是所变化(增加)的生物所占得比重较小。
(四)、考虑模型的推广性
树模型中的算法可以明显地推广以考虑各生物所占比重对生物多样性的影响。
只需令
其中Pi是各生物种所占得比重(替代了原来的1/N)。
五.基于层次分析法的统计熵模型[9]
群落多样性则指群落中包含的物种数目和个体在种间的分布特征,这导致了多样性的含义比较模糊:
一个物种少而均匀度高的群落其多样性可能与另一个物种多而均匀度低的群落相等。
这是因为群落没有考虑个体与个体之间的差异,也没有考虑不同物种之间具有的亲近关系。
针对这一缺陷,我们建立了统计熵的模型,本质上讲是从基因的共性和差异入手,分析每个物种具有的基因库的丰富程度。
但是因为我们没有办法确切知道每个物种的基因数目以及种类,所以我们根据物种从低级到高级的方法,运用层次分析的方法解决了这一问题。
(一)、模型介绍
1、物种熵:
物种熵定义为由基因数目产生的熵。
熵是热力学的概念,是讲一个体系具有的微观状态的数目不同而引起的体系的混乱程度不同。
设基因数目为
,该熵定义是运用热力学上玻尔兹曼熵为:
。
为玻尔兹曼常数。
2、信息熵:
信息熵的定义为所有物种包含的总的基因信息量。
信息熵的计算方法为为每个物种分配一个特征权重,来表征该物种所具有的丰富度。
权重因子可以用下述方法求得:
物种
的基因数目
占整个系统所有物种基因总数
的比例。
信息理论的鼻祖之一ClaudeE.Shannon把信息(熵)定义为离散随机事件的出现概率。
所谓信息熵,是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率。
所以信息熵为
3、关联熵:
关联熵是为了减少因为相近物种之间有部分基因相似这一问题产生的基因重复统计问题,是一种修正的办法。
图三.是从低等到高等的
个物种的层次图
我们用下图表示不同物种基因库的交集,为了简化问题,只考虑第一种情形,即不会出现多个基因库交叉的情形。
图四.模型中基因交叉的情况
假设一个生态系统有
个物种,
物种与
物种的关联程度记做
(由基因相似性决定),归一化
。
为了清楚起见,我们举一个例子,
表示第
个物种与第
个物种的关联程度,微观上表明具有物种
所有个体具有的相同的基因占该物种总基因数目(相同基因加上变异产生的众多基因)的比例。
表示
物种与
物种相同的基因占据
物种总基因数目的比例。
如下图示意地绘出这种分配方法。
图五.
若我们不考虑三个以及三个以上的物种具有相同基因的情形,我们用一个矩阵来表示所有物种之间的关联程度,则这一矩阵可以写为:
由于
,所以上面的矩阵是对称的,并且每行、每列相加为1。
我们称上述矩阵为关联矩阵。
我们定义联合熵为:
(二)、层次分析法
在模糊决策、排序问题中常常运用层次分析法。
虽然在模型中我们能够从基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 相似性 多样性 指标
![提示](https://static.bdocx.com/images/bang_tan.gif)