多重序列比对及系统发生树构建Word文档下载推荐.docx
- 文档编号:14529940
- 上传时间:2022-10-23
- 格式:DOCX
- 页数:10
- 大小:350.50KB
多重序列比对及系统发生树构建Word文档下载推荐.docx
《多重序列比对及系统发生树构建Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《多重序列比对及系统发生树构建Word文档下载推荐.docx(10页珍藏版)》请在冰豆网上搜索。
构建进化树的算法要紧分为两类:
独立元素法(discretecharactermethods)和距离依托法(distancemethods)。
所谓独立元素法是指进化树的拓扑形状是由序列上的每一个碱基/氨基酸的状态决定的(例如:
一个序列上可能包括很多的酶切位点,而每一个酶切位点的存在与否是由几个碱基的状态决定的,也确实是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。
而距离依托法是指进化树的拓扑形状由两两序列的进化距离决定的。
进化树枝条的长度代表着进化距离。
独立元素法包括最大简约性法(MaximumParsimonymethods)和最大可能性法(MaximumLikelihoodmethods);
距离依托法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
⑶对进化树进行评估,要紧采纳Bootstraping法。
进化树的构建是一个统计学问题,咱们所构建出来的进化树只是对真实的进化关系的评估或模拟。
若是咱们采纳了一个适当的方式,那么所构建的进化树就会接近真实的"
进化树"
。
模拟的进化树需要一种数学方式来对其进行评估。
不同的算法有不同的适用目标。
一样来讲,最大简约性法适用于符合以下条件的多序列:
i所要比较的序列的碱基不同小,ii关于序列上的每一个碱基有近似相等的变异率,iii没有过量的颠换/转换的偏向,iv所查验的序列的碱基数量较多(大于几千个碱基);
用最大可能性法分析序列那么不需以上的诸多条件,可是此种方式计算极为耗时。
若是分析的序列较多,有可能要花上几天的时刻才能计算完毕。
UPGMAM(Unweightedpairgroupmethodwitharithmeticmean)假设在进化进程中所有核苷酸/氨基酸都有相同的变异率,也确实是存在着一个分子钟。
这种算法取得的进化树相对来讲不是很准确,此刻已经很少利用。
邻位相连法是一个常常被利用的算法,它构建的进化树相对准确,而且计算快捷。
其缺点是序列上的所有位点都被一样对待,而且,所分析的序列的进化距离不能太大。
另外,需要专门指出的是关于一些特定多序列对象来讲可能没有任何一个现存算法超级适合它。
CLUSTALX和PHYLIP软件能够实现上述的建树步骤。
CLUSTALX是Windows界面下的多重序列比对软件。
PHYLIP是多个软件的紧缩包,功能极为壮大,要紧包括五个方面的功能软件:
i,DNA和蛋白质序列数据的分析软件。
ii,序列数据转变成距离数据后,对距离数据分析的软件。
iii,对基因频率和持续的元素分析的软件。
iv,把序列的每一个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。
v,依照DOLLO简约性算法对序列进行分析的软件。
vi,绘制和修改良化树的软件。
【实验内容】
一、利用CLUSTALX软件对已知八条DNA序列(如下)进行多重序列比对;
AAGCTTTTCTGGCGCAACCATCCTCATGATTGCTCACGGACTCACCTCTT
AAGCTTCTCCGGCGCAACCACCCTTATAATCGCCCACGGGCTCACCTCTT
AAGCTTCTCCGGTGCAACTATCCTTATAGTTGCCCATGGACTCACCTCTT
Homo_sapie
AAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCT
Gorilla
AAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCAT
Pongo
AAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCT
Saimiri_sc
AAGCTTCACCGGCGCAATGATCCTAATAATCGCTCACGGGTTTACTTCGT
Lemur_catt
AAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCAT
二、利用PHYLIP软件包构建上述DNA分子系统发生树。
【实验方式】
一、用CLUSTALX软件对已知DNA序列做多序列比对。
操作步骤:
一、以FASTA格式预备8个DNA序列(或txt)文件。
二、双击进入CLUSTALX程序,点FILE进入LOADSEQUENCE,打开(或txt)文件。
3、点ALIGNMENT,在默许alignmentparameters下,点击DocompleteAlignment。
在新显现的窗口中点击ALIGN进行比对,这时输出两个文件(默许输出文件格式为Clustal格式):
比对文件和向导树文件。
4、点FILE进入Savesequenceas,在format框当选PHYLIP,文件在PHYLIP软件目录下以存在,点击OK。
五、将PHYLIP软件目录下的文件拷贝到EXE文件夹中。
用计事本方式打开的文件的部份序列如下:
图中的8和50别离表示8个序列和每一个序列有50个碱基。
二、用PHYLIP软件推导进化树。
一、进入EXE文件夹,点击SEQBOOT软件输入文件名,回车。
图中的D、J、R、I、O、一、2代表可选择的选项,键入这些字母,程序的条件就会发生改变。
D选项不必改变。
J选项有三种条件能够选择,别离是Bootstrap、Jackknife和Permute。
文章上面提到用Bootstraping法对进化树进行评估,所谓Bootstraping法确实是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。
如此,一个序列就能够够变成了许多序列。
一个多序列组也就能够够变成许多个多序列组。
依照某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每一个多序列组都能够生成一个进化树。
将生成的许多进化树进行比较,依照多数规那么(majority-rule)咱们就会取得一个最"
传神"
的进化树。
Jackknife那么是另外一种随机选取序列的方式。
它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。
Permute是另外一种取样方式,其目的与Bootstrap和Jackknife法不同,那个地址再也不介绍。
R选项让利用者输入republicate的数量。
所谓republicate确实是用Bootstrap法生成的一个多序列组。
依照多序列中所含的序列的数量的不同能够选取不同的republicate,此处选200,输入Y确认参数并在Randomnumberseed(mustbeodd)?
的下面输入一个奇数(比如3)。
当咱们设置好条件后按回车,程序开始运行,并在EXE文件夹中产生一个文件outfile,Outfile用记事本打开如下:
那个文件包括了200个republicate。
二、
文件outfile改成infile。
点击DNADIST程序。
选项M是输入适才设置的republicate的数量,输入D选择datasets,输入200。
设置好条件后,输入Y确认参数。
程序开始运行,并在EXE文件夹中产生outfile,部份内容如下:
将outfile文件名改成infile,为幸免与原先infile文件重复,将原先文件名改成infile1。
3、EXE文件夹当选择通过距离矩阵推测进化树的算法,点击NEIGHBOR程序。
输入M更改参数,输入D选择datasets。
输入200。
输入奇数种子3。
输Y确认参数。
程序开始运行,并在EXE文件夹中产生outfile和outtree两个结果输出。
outtree文件是一个树文件,能够用treeview等软件打开。
outfile是一个分析结果的输出报告,包括了树和其他一些分析报告,能够用记事本直接打开。
部份内容如下:
4、将outtree文件名改成intree,点击DRAWTREE程序,输入font1文件名,作为参数。
程序开始运行,并显现TreePreview图。
五、点击DRAWGRAM程序,输入font1文件名,作为参数。
六、将EXE文件夹中的outfile文件名改成outfile1,以幸免被新生成的outfile文件覆盖。
点击CONSENSE程序。
输入Y确认设置。
EXE文件夹中新生成outfile和outtree。
Outfile文件用记事本打开,内容如下:
7、将EXE文件夹中的intree文件名改成intree1,将outtree改intree。
点击DRAWTREE程序,输入font1文件名,作为参数。
八、点击DRAWGRAM程序,输入font1文件名,作为参数。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多重 序列 系统 发生 构建