FASTA序列查询方法文档格式.docx
- 文档编号:21773290
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:19
- 大小:2.17MB
FASTA序列查询方法文档格式.docx
《FASTA序列查询方法文档格式.docx》由会员分享,可在线阅读,更多相关《FASTA序列查询方法文档格式.docx(19页珍藏版)》请在冰豆网上搜索。
点击FASTA,得到FASTA序列
FASTA格式是指序列文件的第一行是由大于符号打头,之后跟随文字说明,第二行是序列本身,使用标准的核苷酸或蛋白质单字母符号,每行通常为60个字符(不超过80个字符)。
对于核酸序列,除了为大家所熟知的A、G、C、T、U外,R代表C或A(嘌呤);
Y代表T或C(嘧啶);
K代表G或T(带酮基);
M代表A或C(带氨基);
S代表G或C(强);
W代表A或T(弱)B代表G、T或C;
D代表G、A或T;
H代表A、C或T;
V代表G、C或A;
N代表A、G、C、T中任意一种。
2.编码的氨基酸序列
在核酸序列界面的右下角有Protein选项,点击后即可进入氨基酸序列
得到的序列依然是使用FASTA格式的。
3.蛋白质功能域
在蛋白质FASTA格式界面点击RUNBLAST,相当于BlASTp,能与蛋白质数据库进行比对,得到其功能域结果
4.在基因组上的位置
在核酸FASTA格式界面上,在其右下角的Relatedinformation一栏中点击mapviewer,即可得到该基因在基因组上的位置。
上图所示,即为该基因在基因组中的定位(小鼠CD40基因位于二号染色体165,053,700-165,073,600bp处)
5.ORF(开放度码框)
ORFFinder是指基因的开放度码框
进入http:
//www.ncbi.nlm.nih.gov/gorf/gorf.html将FASTA格式文本添加到序列区或者直接输入该基因的编码
6.GpC岛的预测
GpC岛是指基因组中富含双碱基的序列。
//www.ebi.ac.uk/Tools/seqstats/
右侧Cpgplot(EMBOSS)一栏中选择LaunchCpgplot选项。
将FASTA格式文本加到序列区或直接导入该基因文本。
点击左下角的Submit选项。
7.转录终止信号预测(polyA)
polyA是基因转录的末端。
进入
8.启动子序列
//www-bimas.cit.nih.gov/molbio/proscan/
将FASTA格式文本加到序列区。
9.基因功能
//www.uniprot.org/
Uniprot中查找你所要寻找的基因
找到你所做的物种的那一项,比如本篇中就是mouse
点击你所要查找的物种该蛋白的名称,得到图中的结果,即能得到基因功能结果
在图中继续向下拉滚动条,能找到亚细胞定位
在Ontologies栏目最下方有GO分类链接
能得到具体的GO分类信息
10.进化树分析
进化树我用的是MEGA5,网页那个没有听。
MEGA5,可以到官网下载,这已是最新的5.22版本。
操作过程如下
(1)检索数据库,如下图
(2)检索数据库时会在软件中进入NCBI中,查找你所做的基因
(3)接下来是添加基因,好像只能一个一个地添加,点击进入,得到genebank结果
(4)接下来就可以直接添加序列信息了,如下图中,在右上角的添加按钮,点击就可以直接把序列信息添加到MEGA5中进行操作
(5)依次添加多个序列。
然后点击最上边的序列,按住Shift在点击最下边的序列,选定全部序列
(6)导出序列,以便下一步构建进化树,导出为MEGA格式吧,其他的没有时间尝试
(7)导出完成后在你所导出的目录下会有一个MEGA格式的文件,在MEGA5主目录中用上述导出的文件构建进化树。
(8)选择你的文件然后点击下图中的Compute,等待几秒钟,进化树就构建成功了
11.蛋白质相互作用
http:
//string-db.org/
搜索基因,例如CD40
选择你所对应的物种,点击Continue
然后蛋白质相互作用的关系就能得到了,点击对应的蛋白还能得到详细的信息
12.可变剪切
把序列粘贴到对应位置,点击Submit即可得到可变剪接的分析结果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- FASTA 序列 查询 方法