微生物群落多样性测序及功能分析.docx
- 文档编号:5542313
- 上传时间:2022-12-19
- 格式:DOCX
- 页数:24
- 大小:1.66MB
微生物群落多样性测序及功能分析.docx
《微生物群落多样性测序及功能分析.docx》由会员分享,可在线阅读,更多相关《微生物群落多样性测序及功能分析.docx(24页珍藏版)》请在冰豆网上搜索。
微生物群落多样性测序及功能分析
微生物群落多样性测序与功能分析
微生物群落测序是指对微生物群体进展高通量测序,通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。
借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定功能的基因。
对微生物群落进展测序包括两类,一类是通过16srDNA,18srDNA,ITS区域进展扩增测序分析微生物的群体构成和多样性;还有一类是XX因组测序,是不经过别离培养微生物,而对所有微生物DNA进展测序,从而分析微生物群落构成,基因构成,挖掘有应用价值的基因资源。
以16srDNA扩增进展测序分析主要用于微生物群落多样性和构成的分析,目前的生物信息学分析也可以基于16srDNA的测序对微生物群落的基因构成和代谢途径进展预测分析,大大拓展了我们对于环境微生物的微生态认知。
目前我们根据16s的测序数据可以将微生物群落分类到种〔species〕〔一般只能对局部菌进展种的鉴定〕,甚至对亚种级别进展分析,
几个概念:
16SrDNA〔或16SrRNA〕:
16SrRNA基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。
16SrRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系,而可变区序列那么能表达物种间的差异。
16SrRNA基因测序以细菌16SrRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。
OTU:
operationaltaxonomicunits(OTUs)在微生物的免培养分析中经常用到,通过提取样品的总基因组DNA,利用16SrRNA或ITS的通用引物进展PCR扩增,通过测序以后就可以分析样品中的微生物多样性,那怎么区分这些不同的序列呢,这个时候就需要引入operationaltaxonomicunits,一般情况下,如果序列之间,比方不同的16SrRNA序列的相似性高于97%就可以把它定义为一个OTU,每个OTU对应于一个不同的16SrRNA序列,也就是每个OTU对应于一个不同的细菌〔微生物〕种。
通过OTU分析,就可以知道样品中的微生物多样性和不同微生物的丰度。
测序区段:
由于16srDNA较长〔1.5kb〕,我们只能对其中经常变化的区域也就是可变区进展测序。
16srDNA包含有9个可变区,分别是v1-v9。
一般我们对v3-v4双可变区域进展扩增和测序,也有对v1-v3区进展扩增测序。
工具/原料
∙16srDNA测序首先需要提取环境样品的DNA,这些DNA可以来自土壤、粪便、空气或水体等任何来源。
∙提取DNA后需要经过质检和纯化,一般16srDNA测序扩增对DNA的总量要求并不高,总量大于100ng,浓度大于10ng/ul一般都可以满足要求。
如果是来自和寄主共生的环境如昆虫的肠道微生物,提取时可能包括了寄主本身的大量DNA,对DNA的总量要求会提高。
微生物菌群多样性测序受DNA提取和扩增影响很大,不同的扩增区段和扩增引物甚至PCR循环数的差异都会对结果有所影响。
因而建议同一工程不同样品的都采用一样的条件和测序方法,这样相互之间才存在可比性。
∙完成PCR之后的产物一般可以直接上测序仪测序,在上机测序前我们需要对所有样本进展定量和均一化,通常要进展荧光定量PCR。
完成定量的样品混合后就可以上机测序。
∙16srDNA测序目前可以采用多种不同的测序仪进展测序,包括罗氏的454,Illumina的MiSeq,Life的PGM或Pacbio的RSII三代测序仪。
不同的仪器各有优缺点,目前最主流的是Illumina公司的MiSeq,因为其在通量、长度和价格三者之间最为平衡。
MiSeq测序仪可以产生2x300bp的测序读长,一次可以产生15Gb的测序数据远远大于其他测序仪的测序通量。
方法/步骤
1.1
16srDNA分析根本流程:
2.2
原始数据处理:
原始测序数据需要去除接头序列,并将双端测序序列进展拼接成单条序列。
根据测序barcode序列区分不同的样本序列。
过滤低质量序列和无法比对到16srDNA数据库的序列。
3.3
OTU分类和统计:
OTU(operationaltaxonomicunits)是在系统发生学研究或群体遗传学研究中,为了便于进展分析,人为给某一个分类单元〔品系,种,属,分组等〕设置的同一标志。
通常按照97%的相似性阈值将序列划分为不同的OTU,每一个OTU通常被视为一个微生物物种。
相似性小于97%就可以认为属于不同的种,相似性小于93%-95%,可以认为属于不同的属。
样品中的微生物多样性和不同微生物的丰度都是基于对OTU的分析。
使用QIIME〔version1.8.0〕工具包进展统计注释。
使用QIIME〔version1.9.0,bio.cug.edu./qiime/〕的ucluster方法根据97%的序列相似度将所有序列进展同源比对并聚类成operationaltaxonomicunits(OTUs)。
然后与数据库GreenGenes〔versiongg_13_8,greengenes.lbl.gov/cgi-bin/JD_Tutorial/nph-16S.cgi〕进展比对,比对方法uclust,identity0.9。
然后对每个OTUs进展reads数目统计。
下面的2个表,其中一个表是对每个样本的测序数量和OTU数目进展统计,并且在表栺中列出了测序覆盖的完整度〔显示前10个样本〕。
另一个表是对每个样本在分类字水平上的数量进展统计,并且在表栺中列出了在每个分类字水平上的物种数目〔显示前10个样本〕。
可以看到绝大局部的OTU都分类到了属〔Genus〕,也有很多分类到了种〔Species〕。
但是仍然有很多无法完全分类到种一级,这是由于环境微生物本身存在非常丰富的多样性,还有大量的菌仍然没有被测序和发现。
测序数目统计表主要是对每个样本的测序数量和OTU数目进展统计,并且在表格中列出了测序覆盖的完整度〔显示前10个样本,如果样本超过10个,请查看结果中otu_stat.txt文件〕
其中SampleName表示样本名称;SampleSize表示样本序列总数;OTUsNumber表示注释上的OTU数目;OTUsSeq表示注释上OTU的样本序列总数。
Coverage是指各样品文库的覆盖率,其数值越高,那么样本中序列没有被测出的概率越低。
该指数实际反映了本次测序结果是否代表样本的真实情况。
计算公式为:
C=1-n1/N 其中n1=只含有一条序列的OTU的数目;N=抽样中出现的总的序列数目。
分类水平统计表主要是对每个样本在分类学水平上的数量进展统计,并且在表格中列出了在每个分类学水平上的物种数目〔只显示前10个样本,如果样本超过10个,请查看结果中taxon_all.txt文件〕
其中SampleName表示样本名称;Phylum表示分类到门的OTU数量;Class表示分类到纲的OTU数量;Order表示分类到目的OTU数量;Family表示分类到科的OTU数量;Genus表示分类到属的OTU数量;Species表示分类到种的OTU数量。
4.4
我们还可以对这些种属的构成进展柱状图显示:
横坐标中每一个条形图代表一个样本,纵坐标代表该分类层级的序列数目或比例。
同一种颜色代表一样的分类级别。
图中的每根柱子中的颜色表示该样本在不同级别〔门、纲、目等〕的序列数目,序列数目只计算级别最低的分类,例如在属中计算过了,那么在科中那么不重复计算。
Q:
为什么要选择V3-V4区的测序长度?
为什么有些文献是V6区,有什么区别?
A:
16SrRNA总长约1540bp,包含9个可变区。
由于高通量测序的测序长度的限制,不可能将16SrRNA的9个可变区全部测序,所以在PCR扩增时往往只能选择1-3个可变区作为扩增片段。
Kozich等评估了Miseq测序仪分析的不同16SrRNA可变区的准确性发现,测定V4区效果最正确。
根据我们的测序长度,v3-v4区是最正确选择。
5.5
我们还需要对样本之间或分组之间的OTU进展比拟获得韦恩图:
注意,韦恩图目前一般最多只能显示5个样本或分组,过多的样本无法无法进展韦恩图绘制
6.6
样品构成丰度:
稀释曲线
微生物多样性分析中需要验证测序数据量是否足以反映样品中的物种多样性,稀释曲线〔丰富度曲线〕可以用来检验这一指标。
稀释曲线是用来评价测序量是否足以覆盖所有类群,并间接反映样品中物种的丰富程度。
稀释曲线是利用已测得16SrDNA序列中的各种OTU的相比照例,来计算抽取n个〔n小于测得reads序列总数〕reads时出现OTU数量的期望值,然后根据一组n值〔一般为一组小于总序列数的等差数列〕与其相对应的OTU数量的期望值做出曲线来。
当曲线趋于平缓或者到达平台期时也就可以认为测序深度已经根本覆盖到样品中所有的物种;反之,那么表示样品中物种多样性较高,还存在较多未被测序检测到的物种。
下列图中的稀释曲线
横坐标代表随机抽取的序列数量;纵坐标代表观测到的OTU数量。
样本曲线的延伸终点的横坐标位置为该样本的测序数量,如果曲线趋于平坦说明测序已趋于饱和,增加测序数据无法再找到更多的OTU;反之说明不饱和,增加数据量可以发现更多OTU。
7.7
Shannon-Winner曲线
Shannon-Wiener曲线,是利用shannon指数来进展绘制的,反映样品中微生物多样性的指数,利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性。
当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物物种信息。
与上图一样,横坐标代表随机抽取的序列数量;纵坐标代表的是反映物种多样性的Shannon指数。
样本曲线的延伸终点的横坐标位置为该样本的测序数量,如果曲线趋于平坦说明测序已趋于饱和,增加测序数据无法再找到更多的OTU;反之说明不饱和,增加数据量可以发现更多OTU。
其中曲线的最高点也就是该样本的Shannon指数,指数越高说明样品的物种多样性越高。
Q:
Shannon指数怎么算的?
A:
Shannon指数公式:
其中,Sobs= 实际测量出的OTU数目;ni= 含有i条序列的OTU数目;N = 所有的序列数。
8.8
Rank-Abundance曲线
用于同时解释样品多样性的两个方面,即样品所含物种的丰富程度和均匀程度。
物种的丰富程度由曲线在横轴上的长度来反映,曲线越宽,表示物种的组成越丰富;
物种组成的均匀程度由曲线的形状来反映,曲线越平坦,表示物种组成的均匀程度越高。
一般超过20个样本图就会变得非常复杂而且不美观,所以一般20个样本以下会做该图,图片保存为结果目录中rank.pdf。
横坐标代表物种排序的数量;纵坐标代表观测到的相对丰度。
样本曲线的延伸终点的横坐标位置为该样本的物种数量,如果曲线越平滑下降说明样本的物种多样性越高,而曲线快速陡然下降说明样本中的优势菌群所占比例很高,多样性较低。
9.9
Alpha多样性〔样本内多样性〕
Alpha多样性是指一个特定区域或者生态系统内的多样性,常用的度量指标有Chao1丰富度估计量〔Chao1richnessestimator〕、香农-威纳多样性指数〔Shannon-wienerdiversityindex〕、辛普森多样性指数〔Simpsondiversityindex〕等。
计算菌群丰度:
Chao、ace;
计算菌群多样性:
Shannon、Simpson。
Simpson指数值越大,说明群落多样性越高;Shannon指数越大,说明群落多样性越高。
表中显示前10个样本,如果样本大于10个,详见结果目录中的alpha_div.txt。
Q:
能不能解释下每个指数〔如chao1、shannon〕?
A:
Chao1:
是用chao1算法估计群落中含OTU数目的指数,chao1在生态学中常用来估计物种总数,由Chao(1984)最早提出。
Chao1值越大代表物种总数越多。
Schao1=Sobs+n1(n1-1)/2(n2+1)
其中Schao1为估计的OTU数,Sobs为观测到的OTU数,n1为只有一条序列的OTU数目,n2为只有两条序列的OTU数目。
Shannon:
用来估算样品中微生物的多样性指数之一。
它与Simpson多样性指数均为常用的反映alpha多样性的指数。
Shannon值越大,说明群落多样性越高。
Ace:
用来估计群落中含有OTU数目的指数,由Chao提出,是生态学中估计物种总数的常用指数之一,与Chao1的算法不同。
Simpson:
用来估算样品中微生物的多样性指数之一,由EdwardHughSimpson(1949)提出,在生态学中常用来定量的描述一个区域的生物多样性。
Simpson指数值越大,说明群落多样性越高。
辛普森多样性指数=随机取样的两个个体属于不同种的概率
=1-随机取样的两个个体属于同种的概率
10.10
Beta多样性分析〔样品间差异分析〕
Beta多样性度量时空尺度上物种组成的变化, 是生物多样性的重要组成局部, 与许多生态学和进化生物学问题密切相关, 因此在最近10年间成为生物多样性研究的热点问题之一。
PCoA分析
PCoA〔principalco-ordinatesanalysis〕是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进展排序后,选择主要排在前几位的特征值,PCoA可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。
通过PCoA可以观察个体或群体间的差异。
每一个点代表一个样本,一样颜色的点来自同一个分组,两点之间距离越近说明两者的群落构成差异越小。
PCoA有多X图,分别代表的PCoA1-2,2-3,3-1。
11.11
NMDS分析〔非度量多维尺度分析〕
NMDS〔NonmetricMultidimensionalScaling〕常用于比对样本组之间的差异,可以基于进化关系或数量距离矩阵。
横轴和纵轴:
表示基于进化或者数量距离矩阵的数值在二维表中成图。
与PCA分析的主要差异在于考量了进化上的信息。
每一个点代表一个样本,一样颜色的点来自同一个分组,两点之间距离越近说明两者的群落构成差异越小。
12.12
PCA分析
主成分分析PCA〔Principalponentanalysis〕是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进展排序后,选择主要的前几位特征值,采取降维的思想,PCA可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。
详细关于主成分分析的解释推荐大家看一篇文章,。
通过PCA可以观察个体或群体间的差异。
每一个点代表一个样本,一样颜色的点来自同一个分组,两点之间距离越近说明两者的群落构成差异越小。
以上三个图可能遇到的问题:
1:
PCA,PcoA,NMDS分析分别是基于什么数据画的?
答复:
PCA,PcoA,NMDS分析均是基于OTU分类taxon数据所画,用的是R语言Vegan包中的相关函数画成,其中PcoA与NMDS还要基于样本之间的距离矩阵才能画成。
2:
PCA分析如果图中大局部点集中在一起,少数点在很远的外围,是什么原因造成的?
答复:
是因为样本OTU分类时候,少数样本某些菌含量特别高所造成,导致这些样本偏离正常X围,建议单独拿出这些样本观察,看是否是实验错误。
3:
PCA分析时,不是有PC1,PC2,PC3三个坐标吗?
是给出三X图吗?
还是三维立体图?
答复:
PCA作图时,会得出PC1,PC2,PC3三个坐标,可以根据PC12,PC13,PC23分别作图,一般给出的是PC12的图,当PC12图质量不好,看不出明显的样本分类效果时,可以看PC13或PC23的图分类是否清晰,也可以用R语言rgl包做出PC123三维图。
QIIME本身结果中有提供PCA的三维图结果,可以通过网页翻开。
13.13
LDA差异奉献分析
PCA和LDA的差异在于,PCA,它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上,映射时没有利用任何数据内部的分类信息,是无监视的,而LDA是由监视的,增加了种属之间的信息关系后,结合显著性差异标准测试(克鲁斯卡尔-沃利斯检验和两两Wilcoxon测试)和线性判别分析的方法进展特征选择。
除了可以检测重要特征,他还可以根据效应值进展功能特性排序,这些功能特性可以解释顶部的大局部生物学差异。
详细说明可以参考这篇文章。
不同颜色代表不同样本或组之间的显著差异物种。
使用LefSe软件分析获得,其中显著差异的logarithmicLDAscore设为2。
问题:
LDA分析有什么用?
答复:
组间差异显著物种又可以称作生物标记物〔biomarkers〕,该分析主要是想找到组间在丰度上有显著差异的物种。
14.物种进化树的样本群落分布图
是将不同样本的群落构成及分布以物种分类树的形式在一个环图中展示。
数据经过分析后,将物种分类树和分类丰度信息通过软件GraPhlAn(huttenhower.sph.harvard.edu/GraPhlAn)进展绘制。
其目的是将物种之间的进化关系以及不同样本的物种分布丰度和最高分布样本的信息在一个视觉集中的环图中一次展示,其提供的信息量较其他图最为丰富。
中间为物种进化分类树,不同颜色的分支代表不同的纲〔具体的代表颜色见右上角的图例〕,之后外圈的灰色标示字母的环表示的是本次研究中比例最高的15个科〔字母代表的科参见左上角的图例〕。
之后的外圈提供的是热力图,如果样本数<=10个那么绘制样本,如果样本数超过10个那么按照分组绘制,每一环为一个样本,根据其丰度绘制的热力图。
最外圈为柱状图,绘制的是该属所占比例最高的样本的丰度和样本颜色〔样本颜色见环最下方的样本名字的颜色〕。
其中热力图和柱状图取值均为原比例值x10000后进展log2转换后的值
参考文献:
1.Vazquez-BaezaY,PirrungM,GonzalezA,KnightR.2013.Emperor:
Atoolforvisualizinghigh-throughputmicrobialmunitydata.Gigascience2
(1):
16.
2.Legendre,P.andLegendre,L.1998.NumericalEcology.SecondEnglishEdition.DevelopmentsinEnvironmentalModelling20.Elsevier,Amsterdam.
3.SegataN,IzardJ,WaldronL,etal.Metagenomicbiomarkerdiscoveryandexplanation[J].GenomeBiol,2011,12(6):
R60.
4.LangilleMGI,ZaneveldJ,CaporasoJG,McDonaldD,KnightsD,ReyesJAetal.(2013).Predictivefunctionalprofilingofmicrobialmunitiesusing16SrRNAmarkergenesequences.NatBiotechnol31:
814–821.
15.物种相关性分析
根据各个物种在各个样品中的丰度以及变化情况,计算物种之间的相关性,包括正相关和负相关。
相关性分析使用CCREPE算法,首先对原始16s测序数据的种属数量进展标准化,然后进展Spearman和Pearson秩相关分析并进展统计检验,计算出各个物种之间的相关性,之后在所有物种中根据simscore绝对值的大小,挑选出相关性最高的前100组数据,基于Cytoscap绘制共表达分析网络图,网络图采用两种不同的形式表现出来。
物种相关性网络图A:
图中每一个点代表一个物种,存在相关性的物种用连线连接,其中,红色的连线代表负相关,绿色的先代表正相关,连线颜色的深浅代表相关性的上下。
物种相关性网络图B:
图中每一个点代表一个物种,点的大小表示与其他物种的关联关系的多少,其中与之有相关性的物种数越多,点的半径和字体越大,连线的粗细代表两物种之间相关性的大小,连线越粗,相关性越高。
参考文献:
SchwagerE,WeingartG,BielskiC,etal.CCREPE:
positionalityCorrectedbyPermutationandRenormalization[J].2014.
16.聚类分析
根据OUT数据进展标准化处理〔1wlog10〕之后,选取数目最多的前60个物种,基于Rheatmap进展作图,热图中的每一个色块代表一个样品的一个属的丰度,样品横向排列,属纵向排列,两个热图,差异是是否对样品进展聚类,从聚类中可以了解样品之间的相似性以及属水平上的群落构成相似性。
如果聚类结果中出现大面积的白或黑是因为大量的菌含量非常低,导致都没有数值,可以在绘制之前进展标准化操作,对每一类菌单单独身进展Z标准化。
17.群落功能差异分析
通过对已有测序微生物基因组的基因功能的构成进展分析后,我们可以通过16s测序获得的物种构成推测样本中的功能基因的构成,从而分析不同样本和分组之间在功能上的差异〔PICRUStNatureBiotechnology,1-10.82013〕。
通过对XX因组测序数据功能分析和对应16s预测功能分析结果的比拟发现,此方法的准确性在84%-95%,对肠道微生物菌群和土壤菌群的功能分析接近95%,能非常好的反映样品中的功能基因构成。
为了能够通过16s测序数据来准确的预测出功能构成,首先需要对原始16s测序数据的种属数量进展标准化,因为不同的种属菌包含的16s拷贝数不一样。
然后将16s的种属构成信息通过构建好的已测序基因组的种属功能基因构成表映射获得预测的功能结果。
〔根据属这个水平,对不同样本间的物种丰度进展显著性差异两两检验,我们这里的检验方法使用STAMP中的two-sample中T-TEST方法,Pvalue值过滤为0.05,作Extenterrorbar图。
〕
此处提供COG,KO基因预测以及KEGG代谢途径预测。
用户也可自行使用我们提供的文件和软件〔STAMP〕对不同层级以及不同分组之间进展统计分析和制图,以及选择不同的统计方法和显著性水平。
参考文献:
DonovanH.Parks1,GeneW.Tyson,STAMP:
statisticalanalysisoftaxonomicandfunctionalprofiles,Bioinformatics(2014)30(21):
3123-3124.doi:
10.1093
18.COG构成差异分析图
图中不同颜色代表不同的分组,列出了COG构成在组间存在显著差异
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 微生物 群落 多样性 功能分析