构建系统进化树的详细步骤.docx
- 文档编号:7810601
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:11
- 大小:23.73KB
构建系统进化树的详细步骤.docx
《构建系统进化树的详细步骤.docx》由会员分享,可在线阅读,更多相关《构建系统进化树的详细步骤.docx(11页珍藏版)》请在冰豆网上搜索。
构建系统进化树的详细步骤
构建系统进化树的详细步骤
1.建树前的准备工作
1.1相似序列的获得——BLAST
BLAST是目前常用的数据库搜索程序,它是BasicLocalAlignmentSearchTool的缩写,意矚慫润厲钐瘗睞枥庑赖賃軔朧。
为“基本局部相似性比对搜索工具”(Altschuletal.,1990[62];1997[63])。
国际著名生物信息中心聞創沟燴鐺險爱氇谴净祸測樅。
都提供基于Web的BLAST服务器。
BLAST算法的基本思路是首先找出检测序列和目标序
列之间相似性程度最高的片段,并作为核向两端延伸,以找出尽可能长的相似序列片段。
首先登录到提供BLAST服务的常用,比如国的CBI、美国的NCBI、欧洲的EBI和
日本的DDBJ。
这些提供的BLAST服务在界面上差不多,但所用的程序有所差异。
它
们都有一个大的文本框,用于粘贴需要搜索的序列。
把序列以FASTA格式(即第一行为说明
行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是
任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就
可以开始搜索了。
如果是DNA序列,一般选择BLASTN搜索DNA数据库。
这里以NCBI为例。
登录NCBI主页-点击BLAST-点击Nucleotide-nucleotideBLAST(blastn)-在Search文本框中粘贴检测序列-点击BLAST!
-点击Format-得到resultofBLAST。
残骛楼諍锩瀨濟溆塹籟婭骒東。
BLASTN结果如何分析(参数意义):
>gi|28171832|gb|AY155203.1|Nocardiasp.ATCC4987216SribosomalRNAgene,complete酽锕极額閉镇桧猪訣锥顧荭钯。
sequence
Score=2020bits(1019),Expect=0.0
Identities=1382/1497(92%),Gaps=8/1497(0%)Strand=Plus/Plus彈贸摄尔霁毙攬砖卤庑诒尔肤。
Query:
1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt60謀荞抟箧飆鐸怼类薔點鉍杂。
||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct:
1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt58厦礴恳蹒骈時盡继價骚卺癩龔。
Query:
61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc120茕桢广鳓鯡选块网羈泪镀齐鈞。
|||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct:
59acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc118鹅娅尽損鹌惨歷茏鴛賴縈诘聾。
Score:
指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;
Expect:
比对的期望值。
比对越好,expect越小,一般在核酸层次的比对,expect小于1e-10,籟丛妈羥为贍偾蛏练淨槠挞曉。
就比对很好了,多数情况下为0;
Identities:
提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相
同;
Gaps:
一般翻译成空位,指的是对不上的碱基数目;
Strand:
链的方向,Plus/Minus意味着提交的序列和参比序列是反向互补的,如果是Plus/預頌圣鉉儐歲龈讶骅籴買闥龅。
Plus则二者皆为正向。
1.2序列格式:
FASTA格式
由于EMBL和GenBank数据格式较为复杂,所以为了分析方便也出现了十分简单的FASTA
数据格式。
FASTA格式又称为Pearson格式,该种序列格式要求序列的标题行以大于号“>”
开头,下一行起为具体的序列。
一般建议每行的字符数不超过60或80个,以方便程序处理。
多条核酸和蛋白质序列格式即将该格式连续列出即可,如下所示:
>E.coli
1aaattgaagagtttgatcatggctcagattgaacgctggcggcaggcctaacacatgcaa渗釤呛俨匀谔鱉调硯錦鋇絨钞。
61gtcgaacggtaacaggaagaagcttgcttctttgctgacgagtggcggac……铙誅卧泻噦圣骋贶頂廡缝勵罴。
>AY631071JiangellagansuensisYIM0021gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt擁締凤袜备訊顎轮烂蔷報赢无。
61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc贓熱俣阃歲匱阊邺镓騷鯛汉鼉。
……
其中的„>‟为ClustalX默认的序列输入格式,必不可少。
其后可以是种属名称,也可以是序列在Genbank中的登录号(AccessionNo.),自编号也可以,不过需要注意名字不能太长,一般由英文字母和数字组成,开首几个字母最好不要相同,因为有时ClustalX程序只默认前几位为该序列名称。
回车换行后是序列。
将检测序列和搜索到的同源序列以FASTA格式编辑成为一个文本文件(例:
C:
\temp\jc.txt),即可导入ClustalX等程序进行比对建树。
2.构建系统树的相关软件和操作步骤坛摶乡囂忏蒌鍥铃氈淚跻馱釣。
构建进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。
鉴于以上对于构建系统树的评价,结合本实验室实际情况,以下主要介绍N-JTree构建的相关软件和操作步骤。
蜡變黲癟報伥铉锚鈰赘籜葦繯。
2.1用ClustalX构建N-J系统树的过程
(1)打开ClustalX程序,载入源文件.
File-Loadsequences-C:
\temp\jc.txt.
(2)序列比对
Alignment-Outputformatoptions-?
Clustalformat;CLUSTALWsequencenumbers:
ON買鲷鴯譖昙膚遙闫撷凄届嬌擻。
Alignment-Docompletealignment(OutputGuideTreefile,C:
\temp\jc.dnd;OutputAlignmentfile,C:
\temp\jc.aln;)Align?
waiting……綾镝鯛駕櫬鹕踪韦辚糴飙钪麦。
等待时间与序列长度、数量以及计算机配置有关。
(3)掐头去尾
File-SaveSequenceas…
Format:
?
CLUSTAL
GDEoutputcase:
Lower
CLUSTALWsequencenumbers:
ON
Savefromresidue:
39to1504(以前后最短序列为准)
Savesequenceas:
C:
\temp\jc-a.alnOK
将开始和末尾处长短不同的序列剪切整齐。
这里,因为测序引物不尽相同,所以比对后序列参差不齐。
一般来说,要“掐头去尾”,以避免因序列前后参差不齐而增加序列间的差异。
剪切后的文件存为ALN格式。
驅踬髏彦浃绥譎饴憂锦諑琼针。
(4)File-Loadsequences-Replaceexistingsequences?
-Yes-C:
\temp\jc-a.aln猫虿驢绘燈鮒诛髅貺庑献鵬缩。
重新载入剪切后的序列。
(5)Trees-OutputFormatOptionsOutputFiles:
?
CLUSTALformattree?
Phylipformattree?
PhylipdistancematrixBootstraplabelson:
NODE锹籁饗迳琐筆襖鸥娅薔嗚訝摈。
CLOSE
Trees-ExcludepositionswithgapsTrees-BootstrapN-JTree:
構氽頑黉碩饨荠龈话骛門戲鷯。
Randomnumbergeneratorseed(1-1000):
111Numberofbootstraptrails(1-1000):
1000SAVECLUSTALTREEAS:
C:
\temp\jc-a.njbSAVEPHYLIPTREEAS:
C:
\temp\jc-a.njbphbOK?
waiting……輒峄陽檉簖疖網儂號泶蛴镧釃。
等待时间与序列长度、数量以及计算机配置有关。
在此过程中,生成进化树文件*.njbphb,可以用TreeView打开查看。
尧侧閆繭絳闕绚勵蜆贅瀝纰縭。
(6)Trees-DrawN-JTrees
SAVECLUSTALTREEAS:
C:
\temp\jc-a.njSAVEPHYLIPTREEAS:
C:
\temp\jc-a.njphSAVEDISTANCEMATRIXAS:
C:
\temp\jc-a.njphdstOK识饒鎂錕缢灩筧嚌俨淒侬减攙。
此过程中生成的报告文件*.nj比较有用,里面列出了比对序列两两之间的相似度,以及转换和颠换分别各占多少。
凍鈹鋨劳臘锴痫婦胫籴铍賄鹗。
(7)TreeView
File-Open-C:
\temp\jc-a.njbphb
Tree-phylogram(unrooted,slantedcladogram,Rectangularcladogram多种树型)Tree-Showinternaledgelabels(Bootstrapvalue)(显示数值)恥諤銪灭萦欢煬鞏鹜錦聰櫻郐。
Tree-Defineoutgroup…?
ingroup>>outgroup?
OK(定义外群)鯊腎鑰诎褳鉀沩懼統庫摇饬缗。
Tree-Rootwithoutgroup
通常需要对进化树进行编辑,这时首先要Edit-Copy至PowerPoint上,然后Copy至Word上,再进行图片编辑。
如果直接Copy至Word则显示乱码,而进化树不能正确显示。
2.2Mega建树硕癘鄴颃诌攆檸攜驤蔹鸶胶据。
虽然ClustalX可以构建系统树,但是结果比较粗放,现在一般很少用它构树,Mega因为操作简单,结果美观,很多研究者选择用它来建树。
阌擻輳嬪諫迁择楨秘騖輛埙鵜。
(1)首先用ClustalX进行序列比对,剪切后生成C:
\temp\jc-a.aln文件;(同上)
(2)打开BioEdit程序,将目标文件格式转化为FASTA格式,氬嚕躑竄贸恳彈瀘颔澩纷釓鄧。
File-Open-C:
\temp\jc-a.aln,
File-SaveAs-C:
\temp\jc-b.fas;
(3)打开Mega程序,转化为mega格式并激活目标文件,
File-ConvertToMEGAFormat-C:
\temp\jc-b.fas?
C:
\temp\jc-b.meg,釷鹆資贏車贖滅獅赘慶獷緞。
关闭TextEditor窗口-(Doyouwanttosaveyourchangesbeforeclosing?
-Yes);Clickmetoactivateadatafile-C:
\temp\jc-b.meg-OK-怂阐譜鯪迳導嘯畫長凉馴鸨撟。
(Protein-codingnucleotidesequencedata?
-No);
Phylogeny-Neighbor-Joining(NJ)
DistanceOptions-Models-Nucleotide:
Kimura2-parameter;谚辞調担鈧谄动禪泻類谨觋鸾。
?
d:
Transitions+Transversions;
IncludeSites-?
PairwiseDeletion
TestofPhylogeny-?
Bootstrap;Replications1000;RandomSeed64238嘰觐詿缧铴嗫偽純铪锩癱恳迹。
OK;开始计算,得到结果;
(4)Image-CopytoClipboard-粘贴至Word文档进行编辑。
此外,Subtree中提供了多个命令可以对生成的进化树进行编辑,Mega窗口左侧提供了很多快捷键方便使用;View中则给出了多个树型的模式。
下面只介绍几种最常用的:
Subtree-Swap:
任意相邻两个分支互换位置;熒绐譏钲鏌觶鷹緇機库圆鍰缄。
-Flip:
所选分支翻转180度;
-Compress/Expand:
合并/展开多个分支;
-Root:
定义外群;
View-Topology:
只显示树的拓扑结构;
-Tree/BranchStyle:
多种树型转换;
-Options:
关于树的诸多方面的改动。
2.3TREECON
打开ClustalX,File-Loadsequences-jc-a.aln,File-SaveSequenceas…(Format-PHYLIP;Savefromresidue-1to末尾;Savesequenceas:
C:
\temp\jc.phy);鶼渍螻偉阅劍鲰腎邏蘞阕簣择。
打开TREECON程序,
(1)Distanceestimation
点击Distanceestimation-Startdistanceestimation,打开上面保存的jc.phy文件,SequenceType-NuleicAcidSequence,Sequenceformat-PHYLIPinterleaved,SelectALL,OK;DistanceEstimation-Jukes&Cantor(orKimura),Alignmentpositions-All,Bootstrapanalysis-Yes,Insertions&Deletions-Nottakenintoaccount,OK;纣忧蔣氳頑莶驅藥悯骛覲僨鴛。
Bootstrapsamples-1000,OK;运算,等待……
Finished-OK。
(2)Infertreetopology
点击Infertreetopology-Startinferringtreetopology,Method-Neighbor-joining,Bootstrap颖刍莖蛺饽亿顿裊赔泷涨负這。
analysis-Yes,OK.;运算,等待……
Finished-OK。
(3)Rootunrootedtrees
点击Rootunrootedtrees-Startrootingunrootedtrees,Outgroupopition-singlesequence(forced),Bootstrapanalysis-Yes,OK;濫驂膽閉驟羥闈詔寢賻減栖綜。
SelectRoot-X89947,OK;运算,等待……
Finished-OK。
(4)Drawphylogenetictree
点击Drawphylogenetictree,File-Open-(new)tree,Show-Bootstrapvalues/Distancescale。
File-Copy,粘贴至Word文档,编辑。
銚銻縵哜鳗鸿锓謎諏涼鏗穎報。
TREECON的操作过程看起来似乎较MEGA烦琐,且运算速度明显不及MEGA,如果参数选择一样,用它构建出来的系统树几乎和MEGA构建的完全一样,只在细节上,比如Bootstrap值二者在某些分支稍有不同。
在参数选择方面,TREECON和MEGA也有些不同,但总体上相差不大。
挤貼綬电麥结鈺贖哓类芈罷鸨。
2.4PHYLIP
PHYLIP是多个软件的压缩包,下载后双击则自动解压。
当你解压后就会发现PHYLIP的功能极其强大,主要包括五个方面的功能软件:
i,DNA和蛋白质序列数据的分析软件。
ii,序列数据转变成距离数据后,对距离数据分析的软件。
iii,对基因频率和连续的元素分析的软件。
iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。
v,按照DOLLO简约性算法对序列进行分析的软件。
vi,绘制和修改进化树的软件。
在此,主要对DNA序列分析和构建系统树的功能软件进行说明。
(1)生成PHY格式文件赔荊紳谘侖驟辽輩袜錈極嚕辫。
首先用ClustalX等软件打开剪切后的序列文件C:
\temp\jc-a.aln另存为C:
\temp\jc.phy(使用File-SaveSequencesAs命令,Format项选“PHY”)。
用BioEdit或记事本打开
(2)打开Phylip软件包里的SEQBOOT塤礙籟馐决穩賽釙冊庫麩适绲。
seqboot.exe:
can'tfindinputfile"infile"Pleaseenteranewfilename>C:
\temp\jc.phy按路径输入刚才生成的*.PHY文件,显示如下:
裊樣祕廬廂颤谚鍘羋蔺递灿扰。
Bootstrappingalgorithm,version3.6a3
Settingsforthisrun:
DSequence,Morph,Rest.,GeneFreqs?
MolecularsequencesJBootstrap,Jackknife,Permute,Rewrite?
BootstrapBBlocksizeforblock-bootstrapping?
1RHowmanyreplicates?
100仓嫗盤紲嘱珑詁鍬齊驁絛鯛鱧。
WReadweightsofcharacters?
No
CReadcategoriesofsites?
No
FWriteoutdatasetsorjustweights?
DatasetsIInputsequencesinterleaved?
Yes绽萬璉轆娛閬蛏鬮绾瀧恒蟬轅。
0Terminaltypenone
1PrintoutthedataatstartofrunNo
2PrintindicationsofprogressofrunYes
Ytoaccepttheseoftypetheletterforonetochange骁顾燁鶚巯瀆蕪領鲡赙骠弒綈。
R
Numberofreplicates?
1000
0
Settingsforthisrun:
DSequence,Morph,Rest.,GeneFreqs?
MolecularsequencesJBootstrap,Jackknife,Permute,Rewrite?
BootstrapBBlocksizeforblock-bootstrapping?
1RHowmanyreplicates?
1000瑣钋濺暧惲锟缟馭篩凉貿锕戧。
WReadweightsofcharacters?
No
CReadcategoriesofsites?
No
FWriteoutdatasetsorjustweights?
DatasetsIInputsequencesinterleaved?
Yes鎦诗涇艳损楼紲鯗餳類碍穑鳓。
0TerminaltypeIBMPC1PrintoutthedataatstartofrunNo栉缏歐锄棗鈕种鵑瑶锬奧伛辊。
2PrintindicationsofprogressofrunYes
Ytoaccepttheseoftypetheletterforonetochange辔烨棟剛殓攬瑤丽阄应頁諳绞。
Y
Randomnumberseed(mustbeodd)?
5(anyoddnumber)
completedreplicatenumber100
completedreplicatenumber200
completedreplicatenumber300
completedreplicatenumber400
completedreplicatenumber500
completedreplicatenumber600
completedreplicatenumber700
completedreplicatenumber800
completedreplicatenumber900
completedreplicatenumber1000
上面的D、J、R、I、O、1、2代表可选择的选项,键入这些字母后敲回车键,程序的条件就会发生改变。
D选项无须改变。
J选项有三种条件可以选择,分别是Bootstrap、Jackknife和Permute。
R选项让使用者输入republicate的数目。
所谓republicate就是用Bootstrap法生成的一个多序列组。
根据多序列中所含的序列的数目的不同可以选取不同的republicate。
当我们设置好条件后,键入Y按回车。
得到一个文件outfile:
C:
\ProgramFiles\Phylip\exe\outfile.峴扬斕滾澗辐滠兴渙藺诈機愦。
重命名outfile?
infile。
(3)打开dnadist.exe
NucleicacidsequenceDistanceMatrixprogram,version3.6a3詩叁撻訥烬忧毀厉鋨骜靈韬鰍。
Settingsforthisrun:
DDistance?
F84GGammadistributedratesacrosssites?
NoTTransition/transversionratio?
2.0COnecategoryofsubstitutionrates?
YesWUseweightsforsites?
No则鯤愜韋瘓賈晖园栋泷华缙輅。
FUseempericalbasefrequencies?
YesLFormofdistancematrix?
Square胀鏝彈奥秘孫戶孪钇賻锵咏繞。
MAnalyzemultipledatasets?
No
IInputsequencesinterleaved?
Yes
0Terminalt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 构建 系统 进化 详细 步骤