Mega软件的使用.docx
- 文档编号:29947816
- 上传时间:2023-08-03
- 格式:DOCX
- 页数:72
- 大小:4.23MB
Mega软件的使用.docx
《Mega软件的使用.docx》由会员分享,可在线阅读,更多相关《Mega软件的使用.docx(72页珍藏版)》请在冰豆网上搜索。
Mega软件的使用
MEGA软件的使用
引言
现代分子生物学所积累的数据库(如美国国家生物信息中心建立的GeneBank等)隐含着大量的生物系统学和生物进化的有用信息。
计算机软件是挖掘这些知识宝藏的最有效的工具,而且这些数据库不断快速扩展,信息量十分庞大。
因此,如果没有计算机软件的帮助,我们简直无法开战分子系统学和分子进化方面的研究工作。
同样,这些数据分析方法和软件在古DNA研究中是必不可少的。
因为有着坚实的分子进化和人类遗传学基础,序列比对分析已经成为重构物种和基因家族进化历史,估算分子进化速率、推断基因和基因组进化过程中自然选择力量的强度等的必不可少的方法和手段。
计算机的应用和统计学的介入大大简化这些工作。
在这些背景下,SudhirKumar、KoichiroTamura和MasatonshiNei和在上世纪九十年代初就发展了Mega遗传分析软件,并不断改进。
现在公布了3.0版,增添很多新功能,并使软件使用者能在线取得帮助。
Mega(MolecularEvolutionaryGeneticsAnalysis)是一个界面友好、操作简便、功能强大的分子进化遗传分析软件,也是文献中经常用到的分析软件。
尤其是,Mega的新版本对使用界面做了优化,并有改进了许多统计学和遗传学算法,其支持的文件格式很多,而且可以直接从测序图谱中读取序列。
另外,Mega软件还内嵌了一个Web浏览器,能直接登录NCBI网站。
Mega软件操作起来很方便,其界面与传统的Windows程序界面很像,即使初学者也很易上手。
Mega软件功能十分强大,尤其在计算遗传距离、构建分子系统树方面。
Mega软件提供多种计算距离的模型,包括Jukes-Cantor距离模型、Kimura距离模型、Equal-input距离模型、Tamura距离模型、HEY距离模型、Tamura-Nei距离模型、Generalreversible距离模型、无限制距离模型等。
Mega软件可以计算个体之间的遗传距离,还可估算群体间的遗传差异,及群体间的净遗传距离;而其还可以估算一个群体或整个样本的基因分歧度的大小。
另外Mega还提供了多种构建分子系统树的方法,包括算术平均的不加权对群法(UPGMA,unweightedpairgroupmethodwitharithmeticmean),邻接法(NJ,Neighbor-Joining),最大简约法(MP,MaximumParsimony)、最小进化法(ME,MinimumEvolution)等。
在此基础上,Mega软件还提供了对已构建系统树的检验,包括自展法(BootstrapMethod)检验和内部分支检验等。
在对于自然选择方面,Mega软件提供了Codon-BasedZ检验、Codon-BasedFisher`s原样检验t和Tajima中性检验三种方法。
总之,Mega软件提供了构建分子系统树,进行系统发育分析各个方面的计算和分析。
本章将以古DNA数据分析为例,介绍Mega软件的基本原理和方法、使用和操作、以及相关结果的分析。
Mega软件包的下载网址为:
Mega软件输入数据的格式
Mega软件输入数据的格式比较简单,在众多遗传学分析软件中是比较容易制作的一种。
首先,如果输入数据是一般的DNA或RNA序列,则有如下要求:
1)文件扩展名以*.meg或*.txt结尾都行;2)输入数据文件,第一行必须有Mega程序所需的特殊标记“#MEGA”;3)“TITLE”位于输入文件的第二行,后边可以跟上一些说明性字符,这些字符在输出结果中会显示出来。
在与“Title”同一行上的字符才有效,而且字符总数不能超过128,超过的也会被忽略。
4)在“#MEGA”和“TITLE”之后,在分析数据之前可以一行或多行的说明性文字。
这些文字可用来说明诸如作者、分析日期、分析目的等信息。
5)在每个数据(或每条序列)的名字之前应该有一个“#”,名字的下一行是具体的序列。
在同一个数据文件里,不能出现数据名相同的序列。
在数据名及具体序列中,空格和TAB是被忽略的。
6)在同一数据文件内,所有序列的长度应该保持一致,否则,程序不能执行。
7)对于DNA或RNA序列,Mega软件能够识别A、T、C、G、U五种字符,缺失字符可以用“?
”表示,比对时的空缺位点可以用“—”表示。
下边是一个数据文件示例:
Fig
其次,如果输入数据是遗传距离矩阵,则要求如下:
1)前4点要求同对上述DNA序列的要求相同;2)在每个距离矩阵的名字之前应该有一个“#”,每个名字占一行;先列出距离矩阵的名字,然后再给出距离矩阵;3)距离矩阵有两种形式,下三角和上三角。
下边是一个数据文件示例:
Fig
下图是距离矩阵的示意图,左边是下三角矩阵,右边是上三角矩阵。
Fig
再次,如果数据是测序图谱的形式,直接导入即可。
下图是测序图谱示例:
Fig
MEGA界面及操作
Mega是一款操作十分简便的遗传学分析软件,其界面十分友好,即使初学者也很易上手。
1、数据的录入及编辑
Mega软件能够接受多种数据格式,如FASTA格式、Phylip格式、PAUP数据格式等等。
而且Mega软件专门提供了把其他格式的数据转换位Mega数据格式的程序。
首先,打开Mega程序,有如下图所示的操作界面:
Fig
单击工具栏中的“File”按钮,会出现如下图所示的菜单:
Fig
从上图可以看出,下拉菜单有“OpenData”(打开数据)、“ReopenData”(打开曾经打开的数据,一般会保留新近打开的几个数据)、“CloseData”(关闭数据)、“ExportData”(导出数据)、“ConverToMEGAFormat”(将数据转化为MEGA格式)、“TextEditor”(数据文本编辑)、“PrinterSetup”(启动打印)、“Exit”(退出MEGA程序)。
单击“OpenData”选项,会弹出如下菜单:
Fig
浏览文件,选择要分析的数据打开,单击“打开”按钮,会弹出如下操作界面:
Fig
此程序操作界面,提供了三种选择数据选择:
NucleotideSequences(核苷酸序列)、ProteinSequences(蛋白质序列)、PairwiseDistance(遗传距离矩阵)。
根据输入数据的类型,选择一种,点击“OK”即可。
如果选择“PairwiseDistance”,则操作界面有所不同;如下图所示:
Fig
根据遗传距离矩阵的类型,如果是下三角矩阵,选择“LowerLeftMatrix”即可;如果是上三角矩阵,选择“UpperRightMatrix”即可。
点击“OK”按钮,即可导入数据。
如果是核苷酸数据,则读完之后,会弹出如下对话框:
Fig
如上图,如果是编码蛋白质的核苷酸序列,则选择“Yes”按钮;如果是不编码蛋白质的核苷酸序列,则点击“No”按钮。
之后,会弹出如下操作窗口:
Fig
此作界面的名称是“SequenceDataExplorer”,在其最上方是工具栏“Data”、“Display”、“Highlight”等,然后是一些数据处理方式的快捷按钮,在操作界面的左下方是每个序列的名称。
显示序列占了操作界面的绝大部分,与第一个序列相同的核苷酸用“.”表示,发生变异的序列则直接显示。
如果在弹出的对话框中,点击“OK”,即选择输入的数据是编码蛋白质的DNA序列。
那么会再弹出如下对话框:
Fig
此操作界面提供了多种生物的遗传密码方式的选择,如VertebrateMitochondrial(脊椎动物线粒体)、InvertebrateMitochondrial(非脊椎动物线粒体)、YeastMitochondrial(酵母线粒体)等等。
点击此操作界面的“Add”按钮,可以添加密码子表格,其编辑界面如下图所示:
Fig
通过此操作界面可以创建、修改密码子表格。
点击“OK”按钮可以返回“SelectGeneticCode”操作界面。
点击“SelectGeneticCode”操作界面的“Delect”按钮,可以删除一个密码子表。
点击“SelectGeneticCode”操作界面的“Edit”按钮,可以对已经存在的密码子表格。
其操作界面与“GeneticCodeTable”相同。
点击“SelectGeneticCode”操作界面的“View”按钮,可以浏览选中的密码子表格。
点击“SelectGeneticCode”操作界面的“Statistics”按钮,可以统计密码子表格的一些信息,如每种密码子的频率、同义位点数、非同义位点数等。
点击点击“SelectGeneticCode”操作界面的“OK”按钮,会弹出如上图所示的“SequenceDataExplorer”操作界面。
如果点击“Cancel”按钮,也会弹出此操作界面,但是此时会把数据默认为非编码的DNA序列。
单击“SequenceDataExplorer”操作界面工具栏的“Data”按钮,有如下图所示的下拉菜单:
Fig
下拉菜单有六个选项:
“WriteDataToFile”(将数据转到文件中,利用此选项可以把Mega数据格式的数据转化成其它格式)、“Translate/Untranslate”(是否翻译,这个选项只有所分析的DNA序列是编码序列时才被激活)、“SelcetGeneticCodeTable”(选择遗传密码表,这个选项只有所分析的DNA序列是编码序列时才被激活)、“Setup/SelcetGenes&Domains”(选择或设置基因或结构域)、“Setup/SelectTaxa&Group”(对数据进行分组)、“QuitDataViewer”(退出此浏览框)。
单击“WriteDataToFile”选项,会弹出如下对话框:
Fig
Title框显示的内容是数据文件中“TITLE”之后的内容。
Description框显示的内容是数据文件中对整体数据描述的内容。
Format选项提供一个下来菜单,通过此下拉菜单可以把数据转化为MEGA格式、Nexus(PAUP4.0)格式,PHYLIP3.0格式、Nexus(PAUP3.0/MacClade)格式。
Writingsitenumbers选项也提供一个下拉菜单,通过此下来菜单可以把给每个核苷酸标序号,“None”为不显示序号,“Foreachsite”为每个位点显示序号,“Attheendofline”在每一行行末显示序号。
MissingDataandalignmentgaps选项也提供了一个下拉式菜单,这个菜单包括:
“Includesiteswithmiss/ambiguousdatagaps”(显示缺失位点及模糊位点以及空缺)、“Excludesiteswithmiss/ambiguousdatagaps”(不显示缺失位点及模糊位点以及空缺)、“Excludesiteswithmiss/ambiguousdataonly”(仅不显示缺失位点及模糊位点)、“Excludesiteswithalignmentgapsonly”(仅不显示比对是的空缺部分)。
如上述操作界面中的选项,点击“OK”按钮,会弹出如下界面:
Fig
此操作界面中的文字可以拷贝到文本文档中。
如果在“SquenceDataExplorer”操作界面的工具栏中选择“Highlight”中的“Variblesites”选项,则单击“WriteDataToFile”选项,会弹出如下对话框:
Fig
我们会发现与上述“ExportingSequenceData”操作界面相比,在最下方增加了一个“SelcetedsitestoInclude”下拉菜单框,此框包含:
Allsites(所有位点)、“Onlyhighlightedsites”(只显示相互之间有变异的位点)、“Onlyunhighlightedsites”(只显示相互之间无变异的位点)三个选项。
如上图中的操作界面中的选项,点击“OK”按钮,则会弹出如下对话框:
Fig
可以看出,在此操作界面中,仅显示了有变异的位点。
这样的数据形式在转化成“NetWork”遗传分析软件所需的数据格式时很方便。
单击“SequenceDataExplorer”操作界面的工具栏中“Data”中的“Setup/SelcetGenes&Domains”选项,会弹出如下对话框:
Fig
通过此操作界面可以检测、确定、选择结构域,为某些位点添加标签等。
这个操作界面包括两大部分:
“Define/Edit/Select”和“SiteLabels”。
通过操作界面中“Genes/Domain”的子菜单“Data”可以设置,起始位点和末位点。
通过“CodonStart”选项,可以选择编码的起始位置。
在操作界面下端有一排按钮:
“AddGene”、“AddDomain”、“Delete/Edit”、“Expand”。
通过“AddGene”按钮可以添加或插入一个新的基因,通过“AddDomain”按钮可以添加或插入一个新的结构域,通过“Delete/Edit”按钮可以对数据进行编辑和删除,通过“Expand”可以展开数据,或仅显示第一水平的数据。
点击“SiteLabels”按钮,上述操作界面变为如下图所示:
Fig
点击上述操作界面中的“Close”按钮,返回“SequenceDataExplorer”操作界面。
选择工具栏“Data”下拉菜单中的“Setup/SelectTaxa&Groups”选项,弹出如下图所示操作界面:
Fig
如上图操作界面,点击“NewGroup”按钮可以创建一个新的组,点击“DeleteGroup”按钮可以删除一个已经存在的组,在操作界面的中间竖排有五个按钮,同最上端两个按钮可以把数据移入或移出一个选定的组,点击第三个按钮可以对选定的组进行重新命名,点击“+”按钮可以创建一个新的组,点击“—”按钮可以删除一个已经存在的组。
注意,组的名字不能与任何一个样本重名。
点击“Close”按钮,“SequenceDataExplorer”操作界面。
点击此操作界面中的“Display”按钮,会弹出如下操作菜单:
Fig
从上述操作界面图看,下拉菜单共有:
“ShowOnlySelectedSequences”(仅显示选中的序列)、“UseIdenticalSymbol”(利用同一标记符号)、“ColorCells”(色彩单元)、“SortSequences”(序列分类)、“RestoreInputOrder”(恢复输入序列的顺序)、“ShowSequenceNames”(显示序列名字)、“ShowGroupNames”(显示序列所在的组的名字)和“ChangeFont”(改变字体)八个选项。
选择“ShowOnlySelectedSequences”选项,只有被选中的序列才会在界面中显示,不过软件默认的是所有输入的序列都是被选中的,不过软件使用者是可以修改哪些序列被选中。
选择“UseIdenticalSymbol”选项,那么与第一个序列相同的核苷酸将用“.”显示,与之相比,发生变异的核苷酸才以“A、T、C、G”的形式显示。
选择“ColorCells”选项,不同的核苷酸将用不同的颜色显示,如下图所示。
“SortSequences”选项有四个子选项:
“BySequenceName”(通过序列名字排列)、“ByGroupName”(通过组的名字排列)、“ByGroup&SequenceName”(通过组和序列的名字排列)、“AsperTaxa&GroupOrganizer”()。
选择“RestoreInputOrder”选项,则序列排列顺序恢复到与输入数据文件中的顺序一样。
选择“ShowSequenceNames”选项,则每个序列的名字被显示。
选择“ShowGroupNames”,则每个序列所在的组的名字将被显示。
选择“ChangeFont”选项,可以改变序列名字、组名及其序列本身的字体大小及颜色,默认的字体大小是“小五”,默认的字体颜色是黑色,默认的字型是常规,无下划线、删除线。
Fig
点击“SequenceDataExplorer”操作界面的“Highlight”选项,会有如下图所示的下拉菜单选项:
Fig
由上图可以看出,“Highlight”的下拉菜单共有七个选项:
“ConservedSites”(C,保守位点)、“Variablesites”(V,变异位点)、“Parsim-Infosites”(P,简约信息位点)、“Singletonsites”(S,单独位点)、“0-foldDegeneratesites”(0,未简并位点)、“2-foldDegeneratesites”(2,2倍简并位点)、“4-foldDegeneratesites”(4,4倍简并位点);其中后三个选项,只有在输入的序列是编码序码时才被激活。
选择“ConservedSites”选项,所有的保守位点,即没有发生变异的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。
选择“Variablesites”选项,所有的变异位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。
选择“Parsim-Infosites”选项,所有简约变异位点(即变异至少包括两种类型的核苷酸或氨基酸)将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。
选择“Singletonsites”选项,单突变(变异至少包括两种类型的核苷酸或氨基酸,而且在所有样本中仅发生一次)的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。
选择“0-foldDegeneratesites”选项,那些所有突变都是非同义突变的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。
此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。
选择“2-foldDegeneratesites”选项,那些在所有突变中同义突变占1/3的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。
此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。
选择“4-foldDegeneratesites”选项,那些所有突变全部是同义突变的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。
此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。
点击“SequenceDataExplorer”操作界面的“Statistics”选项,会有如下图所示的下拉菜单选项:
Fig
从上图可以看出,此下拉菜单总共有六个选项:
“NucleotideComposition”(核苷酸组成)、“NucleotidePairFrequence”(核苷酸配对频率)、“CodonUsage”(密码子使用)、“AminoAcidComposition”(氨基酸组成)、“UseAllSelectedSites”(利用所有选择的位点)、“UseOnlyHighlightedSites”(仅利用突出显示的位点)。
选择“NucleotideComposition”选项,可以计算得到,每条序列中A、T、C、G及U的百分含量,以及总的核苷酸个数,还可以得到整个数据中A、T、C、G及U的百分含量。
如果数据是编码蛋白质的DNA序列,那么还可以得到每种核苷酸在密码子各个位置的比例。
选择“NucleotidePairFrequence”选项,可以计算DNA序列中核苷酸配对的频率。
这个选项有两个子菜单:
“Directional(16Pairs)”和“Undirectional(10Pairs)”。
一个是有方向性的,一个是没有的。
选择“CodonUsage”选项,能够统计出每种密码子的使用频率。
选择“AminoAcidComposition”选项,能够统计出每条序列中各种氨基酸的组成百分含量,以及总的氨基酸个数。
还可以计算出整个数据中每种氨基酸的组成百分含量。
此选项只有在输入数据是氨基酸的条件下才被激活。
选择“UseAllSelectedSites”选项,在计算统计时,可以利用所有被选中的位点。
选择“UseOnlyHighlightedSites”选项,在计算分析时,仅利用那些被突出显示的位点进行计算。
在菜单栏的下方是一些常用的快捷方式,如下图示:
Fig
上图图标中,所对应的操作从左到右依次是:
“WriteDataToFile”(将数据转到文件中)、“Setup/SelectTaxa&Group”(对数据进行分组)、“Setup/SelcetGenes&Domains”(选择或设置基因或结构域)、“UseIdenticalSymbol”(利用同一标记符号)、“Color”(进行色彩设置)、“ConservedSites”(C,保守位点)、“Variablesites”(V,变异位点)、“Parsim-Infosites”(P,简约信息位点)、“Singletonsites”(S,单独位点)、“0-foldDegeneratesites”(0,未简并位点)、“2-foldDegeneratesites”(2,2倍简并位点)、“4-foldDegeneratesites”(4,4倍简并位点)、将核苷酸序列翻译为蛋白质序列。
点击“SequenceDataExplorer”界面的“Data”下拉菜单中的“QuitDataViewer”选项,即可关闭此操作界面,返回到Mega操作的主界面。
2、遗传距离的计算
2.1遗传距离模型的选择
点击Mega操作主界面的“Distances”按钮,会弹出一个下拉菜单。
如下图所示:
Fig
从上图易知,此菜单包括如下选项:
“ChooseModel”(选择模型,即选择计算遗传距离的模型)、“ComputePairwise”(计算遗传配对差异)、“ComputeOverallMean”(计算包括所有样本在内的平均遗传距离)、“ComputeWithGroupMeans”(计算组内平均遗传距离)、“ComputeBetweenGroupsMeans”(计算组间平均遗传距离)、“ComputeNetBetweenGroupsMeans”(计算组间平均净遗传距离)、“ComputeSequenceDiversity”(计算序列分歧度)。
“ComputeSequenceDiversity”选项包括四个子菜单:
“MeanDiversityWithinSubpopulations”(亚群体内部平均序列多态性)、“MeanDiversityforEntirePopulation”(整个人群平均序列多态性)、“MeanInterpopulaionalDiversity”(群体内部平均序列多态性)、“CoefficientofDifferentiation”(遗传变异系数)。
点击“ChooseModel”选项,会弹出如下操作界面:
Fig
从上述操作界面可以看出,通过此对话框可以选择计算遗传距离的模型等。
“DataType”显示数据的类型:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Mega 软件 使用