书签分享收藏举报版权申诉 / 11

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 基础医学 > 构建系统进化树的详细步骤.docx

构建系统进化树的详细步骤.docx

文档编号：7810601
上传时间：2023-01-26
格式：DOCX
页数：11
大小：23.73KB

构建系统进化树的详细步骤.docx

《构建系统进化树的详细步骤.docx》由会员分享，可在线阅读，更多相关《构建系统进化树的详细步骤.docx（11页珍藏版）》请在冰豆网上搜索。

构建系统进化树的详细步骤.docx

构建系统进化树的详细步骤

1.建树前的准备工作

1.1相似序列的获得——BLAST

BLAST是目前常用的数据库搜索程序，它是BasicLocalAlignmentSearchTool的缩写，意矚慫润厲钐瘗睞枥庑赖賃軔朧。

为“基本局部相似性比对搜索工具”（Altschuletal.,1990[62];1997[63]）。

国际著名生物信息中心聞創沟燴鐺險爱氇谴净祸測樅。

都提供基于Web的BLAST服务器。

BLAST算法的基本思路是首先找出检测序列和目标序

列之间相似性程度最高的片段，并作为核向两端延伸，以找出尽可能长的相似序列片段。

首先登录到提供BLAST服务的常用，比如国的CBI、美国的NCBI、欧洲的EBI和

日本的DDBJ。

这些提供的BLAST服务在界面上差不多，但所用的程序有所差异。

它

们都有一个大的文本框，用于粘贴需要搜索的序列。

把序列以FASTA格式（即第一行为说明

行，以“>”符号开始，后面是序列的名称、说明等，其中“>”是必需的，名称及说明等可以是

任意形式，换行之后是序列）粘贴到那个大的文本框，选择合适的BLAST程序和数据库，就

可以开始搜索了。

如果是DNA序列，一般选择BLASTN搜索DNA数据库。

这里以NCBI为例。

登录NCBI主页-点击BLAST-点击Nucleotide-nucleotideBLAST（blastn）-在Search文本框中粘贴检测序列-点击BLAST!

-点击Format-得到resultofBLAST。

残骛楼諍锩瀨濟溆塹籟婭骒東。

BLASTN结果如何分析（参数意义）:

>gi|28171832|gb|AY155203.1|Nocardiasp.ATCC4987216SribosomalRNAgene,complete酽锕极額閉镇桧猪訣锥顧荭钯。

sequence

Score=2020bits（1019）,Expect=0.0

Identities=1382/1497（92%）,Gaps=8/1497（0%）Strand=Plus/Plus彈贸摄尔霁毙攬砖卤庑诒尔肤。

Query:

1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt60謀荞抟箧飆鐸怼类薔點鉍杂。

||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct:

1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt58厦礴恳蹒骈時盡继價骚卺癩龔。

Query:

61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc120茕桢广鳓鯡选块网羈泪镀齐鈞。

|||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct:

59acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc118鹅娅尽損鹌惨歷茏鴛賴縈诘聾。

Score:

指的是提交的序列和搜索出的序列之间的分值，越高说明越相似;

Expect:

比对的期望值。

比对越好，expect越小,一般在核酸层次的比对，expect小于1e-10，籟丛妈羥为贍偾蛏练淨槠挞曉。

就比对很好了，多数情况下为0;

Identities:

提交的序列和参比序列的相似性，如上所指为1497个核苷酸中二者有1382个相

同;

Gaps:

一般翻译成空位，指的是对不上的碱基数目;

Strand:

链的方向，Plus/Minus意味着提交的序列和参比序列是反向互补的，如果是Plus/預頌圣鉉儐歲龈讶骅籴買闥龅。

Plus则二者皆为正向。

1.2序列格式:

FASTA格式

由于EMBL和GenBank数据格式较为复杂，所以为了分析方便也出现了十分简单的FASTA

数据格式。

FASTA格式又称为Pearson格式，该种序列格式要求序列的标题行以大于号“>”

开头，下一行起为具体的序列。

一般建议每行的字符数不超过60或80个，以方便程序处理。

多条核酸和蛋白质序列格式即将该格式连续列出即可，如下所示:

>E.coli

1aaattgaagagtttgatcatggctcagattgaacgctggcggcaggcctaacacatgcaa渗釤呛俨匀谔鱉调硯錦鋇絨钞。

61gtcgaacggtaacaggaagaagcttgcttctttgctgacgagtggcggac……铙誅卧泻噦圣骋贶頂廡缝勵罴。

>AY631071JiangellagansuensisYIM0021gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt擁締凤袜备訊顎轮烂蔷報赢无。

61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc贓熱俣阃歲匱阊邺镓騷鯛汉鼉。

……

其中的„>‟为ClustalX默认的序列输入格式，必不可少。

其后可以是种属名称，也可以是序列在Genbank中的登录号（AccessionNo.），自编号也可以，不过需要注意名字不能太长，一般由英文字母和数字组成，开首几个字母最好不要相同，因为有时ClustalX程序只默认前几位为该序列名称。

回车换行后是序列。

将检测序列和搜索到的同源序列以FASTA格式编辑成为一个文本文件（例:

C:

\temp\jc.txt），即可导入ClustalX等程序进行比对建树。

2.构建系统树的相关软件和操作步骤坛摶乡囂忏蒌鍥铃氈淚跻馱釣。

构建进化树的主要步骤是比对，建立取代模型，建立进化树以及进化树评估。

鉴于以上对于构建系统树的评价，结合本实验室实际情况，以下主要介绍N-JTree构建的相关软件和操作步骤。

蜡變黲癟報伥铉锚鈰赘籜葦繯。

2.1用ClustalX构建N-J系统树的过程

（1）打开ClustalX程序，载入源文件.

File-Loadsequences-C:

\temp\jc.txt.

（2）序列比对

Alignment-Outputformatoptions-?

Clustalformat;CLUSTALWsequencenumbers:

ON買鲷鴯譖昙膚遙闫撷凄届嬌擻。

Alignment-Docompletealignment（OutputGuideTreefile,C:

\temp\jc.dnd;OutputAlignmentfile,C:

\temp\jc.aln;）Align?

waiting……綾镝鯛駕櫬鹕踪韦辚糴飙钪麦。

等待时间与序列长度、数量以及计算机配置有关。

（3）掐头去尾

File-SaveSequenceas…

Format:

?

CLUSTAL

GDEoutputcase:

Lower

CLUSTALWsequencenumbers:

ON

Savefromresidue:

39to1504（以前后最短序列为准）

Savesequenceas:

C:

\temp\jc-a.alnOK

将开始和末尾处长短不同的序列剪切整齐。

这里，因为测序引物不尽相同，所以比对后序列参差不齐。

一般来说，要“掐头去尾”，以避免因序列前后参差不齐而增加序列间的差异。

剪切后的文件存为ALN格式。

驅踬髏彦浃绥譎饴憂锦諑琼针。

（4）File-Loadsequences-Replaceexistingsequences?

-Yes-C:

\temp\jc-a.aln猫虿驢绘燈鮒诛髅貺庑献鵬缩。

重新载入剪切后的序列。

（5）Trees-OutputFormatOptionsOutputFiles:

?

CLUSTALformattree?

Phylipformattree?

PhylipdistancematrixBootstraplabelson:

NODE锹籁饗迳琐筆襖鸥娅薔嗚訝摈。

CLOSE

Trees-ExcludepositionswithgapsTrees-BootstrapN-JTree:

構氽頑黉碩饨荠龈话骛門戲鷯。

Randomnumbergeneratorseed（1-1000）:

111Numberofbootstraptrails（1-1000）:

1000SAVECLUSTALTREEAS:

C:

\temp\jc-a.njbSAVEPHYLIPTREEAS:

C:

\temp\jc-a.njbphbOK?

waiting……輒峄陽檉簖疖網儂號泶蛴镧釃。

等待时间与序列长度、数量以及计算机配置有关。

在此过程中，生成进化树文件*.njbphb，可以用TreeView打开查看。

尧侧閆繭絳闕绚勵蜆贅瀝纰縭。

（6）Trees-DrawN-JTrees

SAVECLUSTALTREEAS:

C:

\temp\jc-a.njSAVEPHYLIPTREEAS:

C:

\temp\jc-a.njphSAVEDISTANCEMATRIXAS:

C:

\temp\jc-a.njphdstOK识饒鎂錕缢灩筧嚌俨淒侬减攙。

此过程中生成的报告文件*.nj比较有用，里面列出了比对序列两两之间的相似度，以及转换和颠换分别各占多少。

凍鈹鋨劳臘锴痫婦胫籴铍賄鹗。

（7）TreeView

File-Open-C:

\temp\jc-a.njbphb

Tree-phylogram（unrooted,slantedcladogram，Rectangularcladogram多种树型）Tree-Showinternaledgelabels（Bootstrapvalue）（显示数值）恥諤銪灭萦欢煬鞏鹜錦聰櫻郐。

Tree-Defineoutgroup…?

ingroup>>outgroup?

OK（定义外群）鯊腎鑰诎褳鉀沩懼統庫摇饬缗。

Tree-Rootwithoutgroup

通常需要对进化树进行编辑，这时首先要Edit-Copy至PowerPoint上，然后Copy至Word上，再进行图片编辑。

如果直接Copy至Word则显示乱码，而进化树不能正确显示。

2.2Mega建树硕癘鄴颃诌攆檸攜驤蔹鸶胶据。

虽然ClustalX可以构建系统树，但是结果比较粗放，现在一般很少用它构树，Mega因为操作简单，结果美观，很多研究者选择用它来建树。

阌擻輳嬪諫迁择楨秘騖輛埙鵜。

（1）首先用ClustalX进行序列比对，剪切后生成C:

\temp\jc-a.aln文件;（同上）

（2）打开BioEdit程序，将目标文件格式转化为FASTA格式，氬嚕躑竄贸恳彈瀘颔澩纷釓鄧。

File-Open-C:

\temp\jc-a.aln，

File-SaveAs-C:

\temp\jc-b.fas;

（3）打开Mega程序，转化为mega格式并激活目标文件，

File-ConvertToMEGAFormat-C:

\temp\jc-b.fas?

C:

\temp\jc-b.meg，釷鹆資贏車贖滅獅赘慶獷緞。

关闭TextEditor窗口-（Doyouwanttosaveyourchangesbeforeclosing?

-Yes）;Clickmetoactivateadatafile-C:

\temp\jc-b.meg-OK-怂阐譜鯪迳導嘯畫長凉馴鸨撟。

（Protein-codingnucleotidesequencedata?

-No）;

Phylogeny-Neighbor-Joining（NJ）

DistanceOptions-Models-Nucleotide:

Kimura2-parameter;谚辞調担鈧谄动禪泻類谨觋鸾。

?

d:

Transitions+Transversions;

IncludeSites-?

PairwiseDeletion

TestofPhylogeny-?

Bootstrap;Replications1000;RandomSeed64238嘰觐詿缧铴嗫偽純铪锩癱恳迹。

OK;开始计算,得到结果;

（4）Image-CopytoClipboard-粘贴至Word文档进行编辑。

此外，Subtree中提供了多个命令可以对生成的进化树进行编辑，Mega窗口左侧提供了很多快捷键方便使用;View中则给出了多个树型的模式。

下面只介绍几种最常用的:

Subtree-Swap:

任意相邻两个分支互换位置;熒绐譏钲鏌觶鷹緇機库圆鍰缄。

-Flip:

所选分支翻转180度;

-Compress/Expand:

合并/展开多个分支;

-Root:

定义外群;

View-Topology:

只显示树的拓扑结构;

-Tree/BranchStyle:

多种树型转换;

-Options:

关于树的诸多方面的改动。

2.3TREECON

打开ClustalX，File-Loadsequences-jc-a.aln，File-SaveSequenceas…（Format-PHYLIP;Savefromresidue-1to末尾;Savesequenceas:

C:

\temp\jc.phy）;鶼渍螻偉阅劍鲰腎邏蘞阕簣择。

打开TREECON程序，

（1）Distanceestimation

点击Distanceestimation-Startdistanceestimation，打开上面保存的jc.phy文件，SequenceType-NuleicAcidSequence，Sequenceformat-PHYLIPinterleaved，SelectALL，OK;DistanceEstimation-Jukes&Cantor（orKimura），Alignmentpositions-All，Bootstrapanalysis-Yes，Insertions&Deletions-Nottakenintoaccount，OK;纣忧蔣氳頑莶驅藥悯骛覲僨鴛。

Bootstrapsamples-1000，OK;运算，等待……

Finished-OK。

（2）Infertreetopology

点击Infertreetopology-Startinferringtreetopology，Method-Neighbor-joining,Bootstrap颖刍莖蛺饽亿顿裊赔泷涨负這。

analysis-Yes，OK.;运算，等待……

Finished-OK。

（3）Rootunrootedtrees

点击Rootunrootedtrees-Startrootingunrootedtrees，Outgroupopition-singlesequence（forced），Bootstrapanalysis-Yes，OK;濫驂膽閉驟羥闈詔寢賻減栖綜。

SelectRoot-X89947，OK;运算，等待……

Finished-OK。

（4）Drawphylogenetictree

点击Drawphylogenetictree，File-Open-（new）tree，Show-Bootstrapvalues/Distancescale。

File-Copy，粘贴至Word文档，编辑。

銚銻縵哜鳗鸿锓謎諏涼鏗穎報。

TREECON的操作过程看起来似乎较MEGA烦琐，且运算速度明显不及MEGA，如果参数选择一样，用它构建出来的系统树几乎和MEGA构建的完全一样，只在细节上，比如Bootstrap值二者在某些分支稍有不同。

在参数选择方面，TREECON和MEGA也有些不同，但总体上相差不大。

挤貼綬电麥结鈺贖哓类芈罷鸨。

2.4PHYLIP

PHYLIP是多个软件的压缩包，下载后双击则自动解压。

当你解压后就会发现PHYLIP的功能极其强大，主要包括五个方面的功能软件:

i，DNA和蛋白质序列数据的分析软件。

ii，序列数据转变成距离数据后，对距离数据分析的软件。

iii，对基因频率和连续的元素分析的软件。

iv，把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有0和1的状态）时，对序列进行分析的软件。

v，按照DOLLO简约性算法对序列进行分析的软件。

vi，绘制和修改进化树的软件。

在此，主要对DNA序列分析和构建系统树的功能软件进行说明。

（1）生成PHY格式文件赔荊紳谘侖驟辽輩袜錈極嚕辫。

首先用ClustalX等软件打开剪切后的序列文件C:

\temp\jc-a.aln另存为C:

\temp\jc.phy（使用File-SaveSequencesAs命令，Format项选“PHY”）。

用BioEdit或记事本打开

（2）打开Phylip软件包里的SEQBOOT塤礙籟馐决穩賽釙冊庫麩适绲。

seqboot.exe:

can'tfindinputfile"infile"Pleaseenteranewfilename>C:

\temp\jc.phy按路径输入刚才生成的*.PHY文件，显示如下:

裊樣祕廬廂颤谚鍘羋蔺递灿扰。

Bootstrappingalgorithm,version3.6a3

Settingsforthisrun:

DSequence,Morph,Rest.,GeneFreqs?

MolecularsequencesJBootstrap,Jackknife,Permute,Rewrite?

BootstrapBBlocksizeforblock-bootstrapping?

1RHowmanyreplicates?

100仓嫗盤紲嘱珑詁鍬齊驁絛鯛鱧。

WReadweightsofcharacters?

No

CReadcategoriesofsites?

No

FWriteoutdatasetsorjustweights?

DatasetsIInputsequencesinterleaved?

Yes绽萬璉轆娛閬蛏鬮绾瀧恒蟬轅。

0Terminaltypenone

1PrintoutthedataatstartofrunNo

2PrintindicationsofprogressofrunYes

Ytoaccepttheseoftypetheletterforonetochange骁顾燁鶚巯瀆蕪領鲡赙骠弒綈。

R

Numberofreplicates?

1000

0

Settingsforthisrun:

DSequence,Morph,Rest.,GeneFreqs?

MolecularsequencesJBootstrap,Jackknife,Permute,Rewrite?

BootstrapBBlocksizeforblock-bootstrapping?

1RHowmanyreplicates?

1000瑣钋濺暧惲锟缟馭篩凉貿锕戧。

WReadweightsofcharacters?

No

CReadcategoriesofsites?

No

FWriteoutdatasetsorjustweights?

DatasetsIInputsequencesinterleaved?

Yes鎦诗涇艳损楼紲鯗餳類碍穑鳓。

0TerminaltypeIBMPC1PrintoutthedataatstartofrunNo栉缏歐锄棗鈕种鵑瑶锬奧伛辊。

2PrintindicationsofprogressofrunYes

Ytoaccepttheseoftypetheletterforonetochange辔烨棟剛殓攬瑤丽阄应頁諳绞。

Y

Randomnumberseed（mustbeodd）?

5（anyoddnumber）

completedreplicatenumber100

completedreplicatenumber200

completedreplicatenumber300

completedreplicatenumber400

completedreplicatenumber500

completedreplicatenumber600

completedreplicatenumber700

completedreplicatenumber800

completedreplicatenumber900

completedreplicatenumber1000

上面的D、J、R、I、O、1、2代表可选择的选项，键入这些字母后敲回车键，程序的条件就会发生改变。

D选项无须改变。

J选项有三种条件可以选择，分别是Bootstrap、Jackknife和Permute。

R选项让使用者输入republicate的数目。

所谓republicate就是用Bootstrap法生成的一个多序列组。

根据多序列中所含的序列的数目的不同可以选取不同的republicate。

当我们设置好条件后，键入Y按回车。

得到一个文件outfile:

C:

\ProgramFiles\Phylip\exe\outfile.峴扬斕滾澗辐滠兴渙藺诈機愦。

重命名outfile?

infile。

（3）打开dnadist.exe

NucleicacidsequenceDistanceMatrixprogram,version3.6a3詩叁撻訥烬忧毀厉鋨骜靈韬鰍。

Settingsforthisrun:

DDistance?

F84GGammadistributedratesacrosssites?

NoTTransition/transversionratio?

2.0COnecategoryofsubstitutionrates?

YesWUseweightsforsites?

No则鯤愜韋瘓賈晖园栋泷华缙輅。

FUseempericalbasefrequencies?

YesLFormofdistancematrix?

Square胀鏝彈奥秘孫戶孪钇賻锵咏繞。

MAnalyzemultipledatasets?

No

IInputsequencesinterleaved?

Yes

0Terminalt

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 构建系统进化详细步骤

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：构建系统进化树的详细步骤.docx
链接地址：https://www.bdocx.com/doc/7810601.html

构建系统进化树的详细步骤.docx

热门标签