BLAST专题.docx
- 文档编号:23345040
- 上传时间:2023-05-16
- 格式:DOCX
- 页数:26
- 大小:399.12KB
BLAST专题.docx
《BLAST专题.docx》由会员分享,可在线阅读,更多相关《BLAST专题.docx(26页珍藏版)》请在冰豆网上搜索。
BLAST专题
NCBI在线Blast的图文说明
Blast(BasicLocalAlignmentSearchTool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLAST结果中的得分是对一种对相似性的统计说明。
BLAST采用一种局部的算法获得两个序列中具有相似性的序列。
Blast中常用的程序介绍:
1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
NCBI的在线blast:
http:
//blast.ncbi.nlm.nih.gov/Blast.cgi
1,进入在线blast界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。
不同的blast程序上面已经有了介绍。
这里以常用的核酸库作为例子。
2,粘贴fasta格式的序列。
选择一个要比对的数据库。
关于数据库的说明请看NCBI在线blast数据库的简要说明。
一般的话参数默认。
3,blast参数的设置。
注意显示的最大的结果数跟E值,E值是比较重要的。
筛选的标准。
最后会说明一下。
4,注意一下你输入的序列长度。
注意一下比对的数据库的说明。
5,blast结果的图形显示。
没啥好说的。
6,blast结果的描述区域。
注意分值与E值。
分值越大越靠前了,E值越小也是这样。
7,blast结果的详细比对结果。
注意比对到的序列长度。
评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。
加上长度的话,就有四个标准了。
如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp(看上面的图),就说明比对到的序列要长一点。
由Qurey(起始1)和Sbjct(起始35)的起始位置可知,5'端是是多了一段的。
有时也要注意3'端的。
附:
E值(Expect):
表示随机匹配的可能性,E值越大,随机匹配的可能性也越大。
E值接近零或为零时,具本上就是完全匹配了。
一致性(Identities):
或相似性。
匹配上的碱基数占总序列长的百分数。
缺失或插入(Gaps):
插入或缺失。
用"—"来表示。
NCBI在线blast数据库的简要说明
Postedon14五月2009by柳城,阅读2,408
PeptideSequenceDatabases蛋白序列的数据库
nr
Allnon-redundantGenBankCDStranslations+ RefSeq Proteins+PDB+SwissProt+PIR+PRF
所有非冗余的的GenBankCDS区的翻译序列+参考序列的蛋白+PDB数据库+SwissProt蛋白数据库+PRF蛋白数据库
refseq
RefSeqproteinsequencesfrom NCBI'sReferenceSequenceProject.
所有NCBI的参考序列
swissprot
LastmajorreleaseoftheSWISS-PROTproteinsequencedatabase(noupdates).
swissprot的蛋白数据库
pat
ProteinsfromthePatentdivisionofGenPept.
专利的蛋白数据库
pdb
Sequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank.
PDB数据库
month
AllneworrevisedGenBankCDStranslation+PDB+SwissProt+PIR+PRFreleasedinthelast30days.
一个月内新增加的蛋白序列
env_nr
Proteinsequencesfromenvironmentalsamples.
来自environmentalsamples的蛋白序列
NucleotideSequenceDatabases核酸数据库
nr
AllGenBank+RefSeqNucleotides+EMBL+DDBJ+PDBsequences(excludingHTGS0,1,2,EST,GSS,STS,PAT,WGS).Nolonger"non-redundant".
所有GenBank的核酸序列+参考序列中的核酸序列+EMBL+DDBJ+PDB核酸序列(但不包括HTG,EST,GSS等序列)
refseq_rna
RNAentriesfromNCBI'sReferenceSequenceproject
NCBI参考序列中的核酸序列
refseq_genomic
GenomicentriesfromNCBI'sReferenceSequenceproject
NCBI参考序列中的基因组序列
est
DatabaseofGenBank+EMBL+DDBJsequencesfromESTDivisions
来自GenBank+EMBL+DDBJ的EST序列
est_human
Humansubsetofest.
人的EST序列
est_mouse
Mousesubset.
小鼠的EST序列
est_others
Non-Mouse,non-Humansubsetofest.、
除了人与小鼠之外的EST序列
gss
GenomeSurveySequence,includessingle-passgenomicdata,exon-trappedsequences,andAluPCRsequences.
htgs
UnfinishedHighThroughputGenomicSequences:
phases0,1and2(finished,phase3HTGsequencesareinnr)
未发布的高通量的基因组测序
pat
NucleotidesfromthePatentdivisionofGenBank.
专利的核酸序列
pdb
Sequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank
PDB核酸序列
month
AllneworrevisedGenBank+EMBL+DDBJ+PDBsequencesreleasedinthelast30days.
一个月内新增的核酸序列
dbsts
DatabaseofGenBank+EMBL+DDBJsequencesfromSTSDivisions.
STS数据库
chromosome
AdatabasewithcompletegenomesandchromosomesfromtheNCBIReferenceSequenceproject..
NCBI参考序列计划中所有的完整基因组和染色体序列
wgs
Adatabaseforwholegenomeshotgunsequenceentries.
基因组鸟枪法测序得到的序列
env_nt
Nucleotidesequencesfromenvironmentalsamples,includingthosefromSargassoSeaandMineDrainage
projects.
来自environmentalsamples的核酸序列。
NCBI工具:
BLAST2Sequences的用法
Postedon13七月2009by柳城,阅读1,001
Blast 2Sequences,在很早前NCBI就有提供这种工具的了。
最近在2008年底又重新改版了,改版后的功能更加强大。
有许多非常实用,但你可能不是太清楚的功能。
这里大概提一下,具体的详细用法,还是要靠你自己慢慢摸索。
功能介绍:
∙1,两个序列之间的比对(BLAST2Sequences),这是最初的功能
∙2,BLAST多个序列。
∙3,BLAST2Sequences时,还能用点矩阵图(DotMatrix)查看
∙4,BLAST多个序列时,还能进一步做进化树分析。
BLAST主页:
http:
//blast.ncbi.nlm.nih.gov/
现在在任何一个Blast界面都可以直接切换到BLAST2Sequences,只要把Aligntwoormoresequences的选项勾上就可以了。
看下图。
1,2个序列的比对
下图是NP_000680.2和NP_004170.1的2个序列比对。
结果看DotMatrixView。
但这两个序列有匹配到时,在图中用线条表示。
标示各自起始和终止的位置,匹配的长度中。
就在图中一目了然。
如下图,仅有两个小片段blast上。
2,多个序列的比对
看第一张图,可以直接输入多个Accession Number,或是直接输入多个FASTA格式的序列。
或是用本地的文件上传也行。
有时需要对一个未知的序列在一些目标序列里作一些比较。
这个方法很有用。
如下图,用人苯丙氨酸羟化酶(NP_000680)与其它不同物种的羟化酶进行多个BLAST,最后看它们的进化树。
详细如下:
humanphenylalaninehydroxylase(accessionNP_000680)withasetof34othervertebratearomaticaminoacidhydroxylases.Theportionshownherecontainsthetryptophanhydroxlase1homologsfromhuman(Homosapiens), NP_004170;rabbit(Oryctolaguscuniculus), NP_001093425 and NP_001075741;mouse(Musmusculus), NP_033440;rat(Rattusnorvegicus), NP_001094104;chicken(Gallusgallus), NP_990287;Xenopuslaevis, NP_001080923;zebrafish(Daniorerio), NP_001001843 and NP_840091;andpufferfish(Takifugurubripes), NP_001027848.
本地blast的详细用法
Postedon03四月2009by柳城,阅读2,982
本地Blast的详细使用方法
blastall-pblastn-imyRNA.fasta-dhumanRNA.fasta-omyresult.blastout-a2-FF-TT-e1e-10
解释如下:
blastall:
这是本地化/命令行执行blast时的程序名字!
(Tips:
blastall直接回车就会给出你所有的参数帮助,但是英文的)
-p:
p是program的简写,program在计算机领域中是程序的意思。
此参数是指定要使用何种子程序,所谓子程序,就是针对不同的需要,如核酸序列和核酸序列进行比对、蛋白质序列和蛋白质序列进行比对、假设翻译后核酸序列于蛋白质序列进行比对,选择相应的子程序:
blastn是用于核酸对核酸blastp是蛋白质对蛋白质序列等等,一共5个自程序。
-i:
i是input的简写,意思是输入文件,就是你自己的要进行比对的序列文件(fasta格式)
-d:
d是database的简写,意思是要比对的目标数据库,在例子中就是humanRNA.fasta(别忘了要formatdb)
-o:
o是output的简写,意思是结果文件名字,这个根据你自己的习惯起名字,可以带路径,(上边两个参数-i-d也都可以带路径)
*注意以上4个参数是必须的,缺一不可,下面的参数是为了得到更好的结果自己可调的参数,如果你不加也没有关系,blastall程序本身会给一个默认值!
-a:
是指计算时要用的CPU个数,我的机器有两个CPU,所以用-a2,这样可以并行化进行计算,提高速度,当然你的计算机就一个CPU,可以不用这个参数,系统默认值为1,就是一个CPU
-F:
是filter的简写,blastall程序中有对简单的重复序列和低复杂度的一些repeats过滤调,默认是T(注意以后的有几种参数就两个选项,T/FT就是ture,真,你可以理解为打开该功能;F就是false,假,理解为关闭该功能)
-T:
是HTML的简写,是指blast结果文件是否用HTML格式,默认是F!
如果你想用IE看,我建议用-TT
-e:
是Expectationvalue,期望值,默认是10,我用的10-10!
BLASTALL用法
a.格式化序列数据库
格式化序列数据库——formatdb
formatdb简单介绍:
formatdb处理的都是格式为ASN.1和 FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall,还是Blastpgp,MegaBlast应用程序,这一步都是不可少的。
formatdb命令行参数:
formatdb- 得到formatdb所有的参数显示(见附录二)和介绍,
主要参数的说明:
-i输入需要格式化的源数据库名称Optional
-p文件类型,是核苷酸序列数据库,还是蛋白质序列数据库
T–protein F-nucleotide[T/F]Optionaldefault=T
-a输入数据库的格式是ASN.1(否则是FASTA)
T-True, F-False. [T/F]Optionaldefault=F
-o解析选项
T-True:
解析序列标识并且建立目录
F-False:
与上相反
[T/F]Optionaldefault=F
命令示例:
formatdb-iecoli.nt-pF-oT
运行此命令就会在当前目录下产生用于BLAST搜索的7个文件,一旦如上的formatdb命令执行完毕,就不再需要ecoli.nt,可以移除。
此时,blastall可以直接使用。
b.Blastall常用参数简析
-pProgramName[String]
所用程序名称[String],用户可以根据需要从blastn,blastp,blastx,tblastn,tblastx中任选一程序。
-dDatabase[String]default=nr
所用序列数据库的名称[String],默认为:
nr
-iQueryFile[FileIn]default=stdin
所用查询序列文件[FileIn],默认为:
stdin,本文例为test.txt
-eExpectationvalue(E)[Real] default=10.0
期望值[Real] 默认为10.0描述搜索某一特定数据库时,随机出现的匹配序列数目。
-malignmentviewoptions:
比对显示选项,其具体的说明可以用以下的比对实例说明
0=pairwise,显示具体匹配信息(缺省)
1=query-anchoredshowingidentities,查询-比上区域,显示一致性
2=query-anchorednoidentities,查询-比上区域,不显示一致性
3=flatquery-anchored,showidentities,查询-比上区域的屏文形式,显示一致性
4=flatquery-anchored,noidentities,查询-比上区域的屏文形式,不显示一致性
5=query-anchorednoidentitiesandbluntends,查询-比上区域,不显示一致性,无突然的结束
6=flatquery-anchored,noidentitiesandbluntends,查询-比上区域的屏文形式,不显示一致性
7=XMLBlastoutput,XML格式的输出
8=tabular,TAB格式的输出
9=tabularwithcommentlines,带注释行的TAB格式的输出
10=ASN,text,文本方式的ASN格式输出
11=ASN,binary[Integer]default=0,二进制方式的ASN格式输出
-m8用法举例说明如下:
A_query B_Sbjct 97.61 585 3 3 309 886 94498 95078 0.0 1017
A_query B_Sbjct 100.00 303 0 0 913 1215 95092 95394 2e-172 601
A_query B_Sbjct 100.00 209 0 0 1 209 94196 94404 3e-116 414
A_query B_Sbjct 100.00 123 0 0 1234 1356 95413 95535 6e-65 244
A_query B_Sbjct 100.00 41 0 0 210 250 94096 94136 5e-16 81.8
A_query B_Sbjct 100.00 35 0 0 251 285 94440 94474 2e-12 69.9
A_query B_Sbjct 100.00 29 0 0 885 913 95747 95775 7e-09 58.0
A_query A_query 97.61 585 3 3 309 886 403 983 0.0 1017
A_query A_query 100.00 303 0 0 913 1215 997 1299 2e-172 601
A_query A_query 100.00 209 0 0 1 209 101 309 3e-116 414
A_query A_query 100.00 123 0 0 1234 1356 1318 1440 6e-65 244
A_query A_query 100.00 41 0 0 210 250 1 41 5e-16 81.8
A_query A_query 100.00 35 0 0 251 285 345 379 2e-12 69.9
A_query A_query 100.00 29 0 0 885 913 1652 1680 7e-09 58.0
结果12列
Queryid,Subjectid,%identity,alignmentlength,mismatches,gapopenings,q.start,q.end,s.start,s.end,e-value,bitscore
-------------------------------------------------------------------------------------------------------------
-oBLASTreportOutputFile[FileOut]Optionaldefault=stdout,BLAST报告的输出文件[FileOut]默认为:
stdout
-FFilterquerysequence(DUSTwithblastn,SEGwithothers)[String]default=T
查询序列过滤,将那些给出影响比对结果的低复杂度区域过滤掉。
用blastn进行查询的序列用DUST程序过滤,其他的用SEG过滤。
对DUST和SEG的详细情况,用户可以自己查询资料。
-GCosttoopenagap(zeroinvokesdefaultbehavior)[Integer] default=0
空位开放罚分[Integer](设为0则调用默认行为) 默认为0分
-ECosttoextendagap(zeroinvokesdefaultbehavior)[Integer]default=0
空位扩展罚分[Integer](设为0则调用默认行为)默认为0分
-TProduceHTMLoutput[T/F]default=F
以网页形式打印
-XXdropoffvalueforgappedalignment(inbits)(zeroinvokesdefaultbehavior)
blastn30,megablast20,tblastx0,allothers15[Integer],default=0
-IShow
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- BLAST 专题