生物信息学实验指导Word格式.docx
- 文档编号:18976702
- 上传时间:2023-01-02
- 格式:DOCX
- 页数:22
- 大小:794.19KB
生物信息学实验指导Word格式.docx
《生物信息学实验指导Word格式.docx》由会员分享,可在线阅读,更多相关《生物信息学实验指导Word格式.docx(22页珍藏版)》请在冰豆网上搜索。
在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。
但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。
因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。
通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。
早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。
通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。
因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了Smith-Waterman算法和SIM算法。
在FASTA程序包中可以找到用动态规划算法进行序列比对的工具LALIGN,它能给出多个不相互交叉的最佳比对结果。
在进行序列两两比对时,有两方面问题直接影响相似性分值:
取代矩阵和空位罚分。
粗糙的比对方法仅仅用相同/不同来描述两个残基的关系,显然这种方法无法描述残基取代对结构和功能的不同影响效果,缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予不同的打分。
因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。
虽然针对不同的研究目标和对象应该构建适宜的取代矩阵,但国际上常用的取代矩阵有PAM和BLOSUM等,它们来源于不同的构建方法和不同的参数选择,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。
对于不同的对象可以采用不同的取代矩阵以获得更多信息,例如对同源性较高的序列可以采用BLOSUM90矩阵,而对同源性较低的序列可采用BLOSUM30矩阵。
空位罚分是为了补偿插入和缺失对序列相似性的影响,由于没有什么合适的理论模型能很好地描述空位问题,因此空位罚分缺乏理论依据而更多的带有主观特色。
一般的处理方法是用两个罚分值,一个对插入的第一个空位罚分,如10-15;
另一个对空位的延伸罚分,如1-2。
对于具体的比对问题,采用不同的罚分方法会取得不同的效果。
对于比对计算产生的分值,到底多大才能说明两个序列是同源的,对此有统计学方法加以说明,主要的思想是把具有相同长度的随机序列进行比对,把分值与最初的比对分值相比,看看比对结果是否具有显著性。
相关的参数E代表随机比对分值不低于实际比对分值的概率。
对于严格的比对,必须E值低于一定阈值才能说明比对的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生高比对得分的可能。
Genbank、SWISS-PROT等序列数据库提供的序列搜索服务都是以序列两两比对为基础的。
不同之处在于为了提高搜索的速度和效率,通常的序列搜索算法都进行了一定程度的优化,如最常见的FASTA工具和BLAST工具。
FASTA是第一个被广泛应用的序列比对和搜索工具包,包含若干个独立的程序。
FASTA为了提供序列搜索的速度,会先建立序列片段的“字典”,查询序列先会在字典里搜索可能的匹配序列,字典中的序列长度由ktup参数控制,缺省的ktup=2。
FASTA的结果报告中会给出每个搜索到的序列与查询序列的最佳比对结果,以及这个比对的统计学显著性评估E值。
FASTA工具包可以在大多提供下载服务的生物信息学站点上找到。
BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快,并建立在严格的统计学基础之上。
NCBI提供了基于Web的BLAST服务,用户可以把序列填入网页上的表单里,选择相应的参数后提交到数据服务器上进行搜索,从电子邮件中获得序列搜索的结果。
BLAST包含五个程序和若干个相应的数据库,分别针对不同的查询序列和要搜索的数据库类型。
其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序列。
BLAST对序列格式的要求是常见的FASTA格式。
FASTA格式第一行是描述行,第一个字符必须是“>
”字符;
随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。
序列由标准的IUB/IUPAC氨基酸和核酸代码代表;
小写字符会全部转换成大写;
单个“-”号代表不明长度的空位;
在氨基酸序列里允许出现“U”和“*”号;
任何数字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用“X”)。
此外,对于核酸序列,除了A、C、G、T、U分别代表各种核酸之外,R代表G或A(嘌呤);
Y代表T或C(嘧啶);
K代表G或T(带酮基);
M代表A或C(带氨基);
S代表G或C(强);
W代表A或T(弱);
B代表G、T或C;
D代表G、A或T;
H代表A、C或T;
V代表G、C或A;
N代表A、G、C、T中任意一种。
对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表Asp或Asn;
U代表硒代半胱氨酸;
Z代表Glu或Gln;
X代表任意氨基酸;
“*”代表翻译结束标志。
NCBI提供的在线BLAST工具,包括:
BLASTP:
用蛋白质序列搜索蛋白质序列库
BLASTN:
用核酸序列搜索核酸库
BLASTX:
核酸序列对蛋白质库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列
TBLASTN:
蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索
TBLASTX:
核酸序列对核酸库在蛋白质质级别的比对,两者都在搜索之前翻译成为蛋白质质进行比对
图1-1NCBI首页
图1-2NCBI在线BLAST页面
三、实验内容(步骤)
本实验在NCBI核算和蛋白质库中查找拟南芥(Arabidopsisthaliana)LEC1(LeafyCotyledon1)基因的同源基因,LEC1基因属于HAP3基因家族。
步骤包括:
1.查找拟南芥LEC基因的核酸和蛋白质序列。
图1-2在NCBI核算库中查找序列
2.BLASTN
图1-3利用BLASTN查找同源基因
3.BLASTP
图1-4利用BLASTP查找同源蛋白
四、实验报告
1.使用的软件/工具,实验步骤,结果文件记录/截图;
2.实验中遇到的问题,如何解决的。
五、参考文献
AltschulSF,MaddenTL,Schä
fferAA,ZhangJ,ZhangZ,MillerW,LipmanDJ.1997.GappedBLASTandPSI-BLAST:
anewgenerationofproteindatabasesearchprograms.NucleicAcidsRes.25(17):
3389-402.
实验2本地BLAST同源序列查询
1.掌握本地版BLAST软件的使用方法。
NCBI提供了在线的BLAST服务,但有时需要对某个基因组做BLAST,这就需要在本地建自己的BLAST库,并在本地做BLAST。
NCBI提供BLAST的本地版,当前最新版本是2.2.28+,包括源代码和多个平台的编译好的软件包,可以在ftp:
//ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/下载。
Windows下可下载win32版本,安装完后,打开“开始”→“运行”,输入“cmd”,点“确定”(图2-1)。
图2-1运行命令行窗口
这时,便可以输入DOS命令
图2-2DOS界面
常用DOS命令有:
cd(改变当前目录)、mkdir(新建目录)、dir(列出当前目录内容)等、del(删除文件)、copy(复制文件)、ren(更改文件名)等。
在做本地BLAST前需要先构建本地BLAST库:
makeblastdb-inschpomb.pep.fa-dbtypeprot-outschpomb
其中,-in是指定用来建库的文件,-dbtype指定库的类型(prot是蛋白质、nucl是核酸),-out指定建好的库的名字。
更多的选项可以用makeblastdb-h查看。
使用以下命令可以在建好的库中查找一个蛋白的同源蛋白:
blastp-queryyeast_cytochromeC.fa-dbschpomb-outout.txt
其中,-query指定包含用来查找的序列的文件,-db指定在哪个库里查找,-out指定结果输出到哪个文件。
更多的选项可以用blastp-h查看。
运行完后,生成一个名为out.txt的输出文件,即为BLAST结果。
除了blastp外,还有blastn、blastx、tblastn、tblastx等。
1.从NCBI下载本地版BLAST,并安装;
2.在D盘新建目录blast,从TAIR(TheArabidopsisInformationResource)网站上下载拟南芥基因组(全基因组CDS和蛋白质)数据到该目录;
3.构建本地BLAST库(CDS和蛋白质两种库);
4.从NCBI下载拟南芥LEC1基因的CDS和蛋白质序列,分别做BLASTP、BLASTN、BLASTX、TBLASTN和TBLASTX。
实验3利用ClustalX和MEGA软件进行多序列比对与分子系统发生树构建
1.了解多序列比对的原理和用途;
了解系统发育分析、分子进化分析的原理和方法;
2.掌握ClustalX和MEGA软件的使用方法。
1.多序列比对与Clustal
多序列比对(MultipleSequenceAlignment,MSA)就是把两条以上可能有系统进化关系的序列进行比对的方法,它能识别具有功能、结构重要性的局部保守区,同时还可以辅助检查一个序列家族中的全局相似性和进化亲缘关系。
因此多序列比对是对遗传和进化研究具有重要意义的生物信息学序列分析方法。
多序列比对的应用:
①用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找序列模式(motif),保守区域等;
②用于描述同源基因之间的亲缘关系的远近,应用到分子进化分析中;
③其他应用,如构建profile,打分矩阵等。
根据比对原理,多序列比对分全局比对和局部比对两种。
全局比对常用的工具有Clustal系列软件等,局部比对常用工具如T-coffee等。
Clustal是一个单机版的基于渐进比对的多序列比对工具,由HigginsD.G.等开发。
有应用于多种操作系统平台的版本,包括linux和DOS版的clustlw,Windows版的clustalx等,当前的最新版本是ClustalW(X)2。
图5-1ClustalX的界面
Clustal是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;
然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;
然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。
Clustal的工作原理是:
输入多个序列,首先进行快速的序列两两比对,计算序列间的距离,获得一个距离矩阵;
然后用邻接法(NeighborJoining,NJ)构建一个引导树;
最后根据引导树,渐进比对多个序列。
Clustal的输入输出格式:
输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。
输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。
2.分子进化分析与MEGA软件
生物进化分析是生物信息学的一个重要分支。
它通过对生物序列的研究推测基因或物种的进化历史。
主要方法包括通过DNA序列,蛋白质序列,蛋白质结构等来构建分子进化树或者种系发生树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。
分子进化分析的主要内容有:
1)直系/旁系同源基因的判定;
2)估计分歧时间;
3)重建祖先序列/性状;
4)发现生物序列上自然选择影响较大的重要位点;
5)确定基因重组的发生位点;
6)识别和疾病关联的突变;
7)确定病原体的分类;
8)基因的演化历史……
分子进化分析的第一步是多序列比对。
然后再用距离法、最大似然法、最大简约法或贝叶斯方法等建立序列之间的关系(基因树),了解基因的起源或演化历史,或根据基因树推测物种树(系统发育分析)。
目前有系统发育分析软件有很多,比较有名的有PAUP、PHYLIP、MEGA、PAML、MrBayes等。
本实验学习使用MEGA进行HAP3基因家族的分子进化分析。
随着不同物种基因组测序的快速发展,产生了大量的DNA序列信息,这时就需要一种简便而快速的统计分析工具来对这些数据进行有效的分析,以提取其中包含的大量信息。
MEGA就是基于这种需求开发的。
MEGA软件的目的就是提供一个以进化的角度从DNA和蛋白序列中提取有用的信息的工具,并且,此软件可以免费下载使用。
MEGA因为界面简单易用,近年使用的人越来越多。
MEGA的最新版本是MEGA4。
它主要集中于进化分析获得的综合的序列信息。
使用它我们可以编辑序列数据、序列比对、构建系统发育树、推测物种间的进化距离等。
此软件的输出结果资源管理器允许用户浏览、编辑、打印输入所得到的结果而且所得到的结果具有不同形式的可视化效果。
此外,该软件还能够得出不同序列间的距离矩阵,这是他不同与其他分析软件的地方。
在计算矩阵方面有一些自己的特点:
①推测序列或者物种间的进化距离
②根据MCL(MaximumCompositeLikelioodmethod)的方法构建系统发育树
③考虑到了不同碱基替换的不同的比率,考虑到了碱基转换和颠换的差别。
④随时可以使用标注:
所以的结果输入都可以使用标注,而且标注的内容可以被保存,复制。
图6-1MEGA界面
1.ClustalX
(1)运行ClustalX;
(2)Ctrl+O打开包含fasta格式的序列文件at_hap3_cds.fa;
(3)在菜单中选取Alignment–>
OutputFormatOptions设置输出文件格式;
(4)在菜单中选取Alignment–>
AlignmentParameters–>
MultipleAlignmentParameters设置序列比对参数;
(5)在菜单中选取Alignment–>
Docompletealignment,弹出对话框中设定好输出文件名后,点击OK按钮开始多序列比对。
2.MEGA
(1)运行MEGA;
(2)将.aln文件转换成.meg文件:
file->
ConverttoMEGAFormat,对话框中打开clustal比对好的序列,转换完成后,保存退出;
(3)打开.meg文件:
File->
OpenData,找到刚才保存的.meg文件,选择是核酸序列还是蛋白序列;
(4)构建系统发生树:
菜单Phylogeny->
ConstructPhylogeny,然后可以选邻接法(NJ)、最小进化法(ME)、最大简约法(MP)或UPGMA法,在对话框中可以选择不同的模型,构建系统发生树。
(5)构建带检验值的系统发生树:
Phylogeny->
BootstrapTestofPhylogeny,再选上面四种方法。
LarkinM.A.,BlackshieldsG.,BrownN.P.,ChennaR.,McGettiganP.A.,McWilliamH.,ValentinF.,WallaceI.M.,WilmA.,LopezR.,ThompsonJ.D.,GibsonT.J.andHigginsD.G.(2007)ClustalWandClustalXversion2.Bioinformatics23(21):
2947-2948.
KumarS,DudleyJ,NeiM&
TamuraK(2008)MEGA:
Abiologist-centricsoftwareforevolutionaryanalysisofDNAandproteinsequences.BriefingsinBioinformatics9:
299-306.
实验4利用RNAfold预测RNA二级结构
1.了解RNA二级结构的概念;
2.掌握用RNAfold预测RNA二级结构的方法。
就核酸分子结构而言,DNA具有双螺旋结构,而RNA是单链结构。
单链RNA的三维结构是由它的核苷酸序列决定的,这与蛋白质的结构由蛋白质的序列决定相类似。
但是,RNA的结构并没有蛋白质的结构那么复杂。
RNA的结构可以分为三个层次,即一级结构、二级结构和空间结构。
一级结构就是RNA的序列。
二级结构是通过碱基互补配对而形成的,碱基对之间的氢键以及它们形成的螺旋堆积力起着稳定结构的作用,降低自由能。
RNA的二级结构单元与蛋白质的二级结构单元很不一样。
但在单链RNA中,由于配对的碱基出现在单个RNA分子中,因此就会形成碱基配对的茎区(stemregion)。
在RNA链中,为了形成这种碱基配对,需要反转链的方向,于是在反转处就会形成一个发夹环。
如果RNA链上有很少的碱基没有相对应的互补碱基,那么就会形成一个小的突出部分或者形成一个较大的环状区(loop),即内环或者膨胀环。
发夹环一般位于茎的末端,而内环或膨胀环使茎中断。
图7.6是一个RNA的二级结构示意图,其中包括茎、发夹环、内环、膨胀环连续碱基配对等。
当RNA分子折叠时,有些碱基相互配对,形成螺旋区域或茎,这部分碱基具有负的自由能;
而其它非互补的碱基处于自由态,形成单链或环,这部分碱基的自由能为正值。
环区的存在使RNA分子的自由能升高,结构的稳定性减弱。
因此,预测RNA二级结构的一种直接的方法是寻找最大数目的碱基配对。
通过确定常见RNA二级结构单元的位置,我们能够比较好地预测出RNA的结构。
但是,伪结(pseudoknot)是RNA二级结构预测中最难预测的一种二级结构。
在形成伪结的地方,环状区域内的碱基与环状区域外的碱基相互配对。
由于伪结的预测比较困难,因此,许多早期的二级结构预测算法完全不考虑伪结,这些算法是在忽略伪结区域存在的前提下预测其它二级结构单元的。
可以用点矩阵作图的方法来寻找最大配对。
将RNA的碱基序列顺序地排布在X轴上,对于配对的碱基在Y轴相同的位置打上点标记。
设RNA序列的长度为n,根据序列建立一个n×
n的矩阵R,如果第i个碱基与第j个碱基配对(如A⇔U、G⇔C),则R[i,j]=1,否则为0。
根据所得到的点矩阵图,可以找出最大配对。
当然,这是一种非常简单粗糙的方法。
目前RNA二级结构预测有两种主要的方法,一是基于序列比较的方法,另一种方法是能量最小化方法。
基于序列比较的方法主要是通过多重序列比对,根据相似序列具有相似结构的原理进行二级结构预测。
能量最小化方法在预测RNA分子二级结构时,试图对RNA折叠的自由能进行最小化,进而搜索最稳定的结构。
该方法通过各种能量优化方法或者分子动力学计算评价所有可能配对的能量,进而发现具有最小能量的结构。
Zuker的Mfold程序是使用较多的程序包之一,它就是通过一系列的最近邻能量规则(nearestneighborenergyrules)来计算一个结构的能量。
由于在这种方法中RNA结构被分成了许多相互作用的区域来进行评估,而能量计算时仅仅计算那些被认为有可能产生相互作用的“邻居”碱基对之间的能量,因此这些规则被称为“最近邻”规则。
最近邻能量规则认为:
在标为环区的区域内的所有碱基都有相互作用的可能,因此在计算这个结构的能量时就必须考虑这一环区内的所有的碱基对的能量。
但在不考虑会出现伪结时,由于环区外的碱基与环区内的任一碱基都不会构成碱基对,因此在最近邻规则下就不考虑外区内的碱基和环区内的碱基之间的碱基对作用。
由于不需要考虑位于不同区的碱基间的相互作用,计算的速度就得到了比较大的提高。
由于不考虑伪结,可以假设RNA二级结构总的自由能是所有结构元素(配对碱基、环)的自由能的总和,并且各个结构元素的自由能相互独立。
这意味着在计算RNA二级结构自由能的时候,只要分别计算各个结构元素的自由能,然后加和,形成总的自由能。
通过实验可以确定各结构元素的自由能函数。
典型的自由能函数包括两个连续碱基对si与sj、si+1与sj-1所形成的自由能,由碱基si和sj界定的发夹环的自由能,由两对碱基si与sj、si’与sj’所界定内环的自由能。
基于自由能的二级结构预测的目标就是搜索一个合适的构象,使得在这种构象下总的自由能最小。
这是一个优化问题,对于这个问题
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 实验 指导