基因组学数据分析_精品文档.ppt
- 文档编号:2575171
- 上传时间:2022-11-02
- 格式:PPT
- 页数:73
- 大小:3.21MB
基因组学数据分析_精品文档.ppt
《基因组学数据分析_精品文档.ppt》由会员分享,可在线阅读,更多相关《基因组学数据分析_精品文档.ppt(73页珍藏版)》请在冰豆网上搜索。
实习一基因组数据注释和功能分析,陈启昀陈辰丁文超张增明,浙江加州国际纳米技术研究院(ZCNI),课程内容,基因组学,转录物组学,蛋白质组学,系统生物学,通过序列比对工具BLAST学习,了解蛋白编码基因的功能注释原理介绍多序列联配工具ClustalX分子进化分析软件MEGA4的基本知识,掌握系统发生树绘制的基本方法,课程提纲,序列比对的进化基础,什么是序列比对:
将两个或多个序列按照最佳匹配方式排列在一起。
对应的相同或相似的符号排列在同一列上。
错配与突变相应,空位与插入或缺失对应。
序列比对的目的:
从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系通过判断两个序列之间的相似性来判定两者是否具有同源性相似性:
可以被数量化,如:
序列之间相似部分的百分比同源性:
质的判断,两个基因在进化上是否曾有共同祖先的推断,BLAST,基本局部比对搜索工具(BasicLocalAlignmentSearchTool)NCBI上BLAST服务的网址:
http:
/www.ncbi.nlm.nih.gov/blast/NCBI上BLAST程序的下载:
ftp:
/ftp.ncbi.nlm.nih.gov/blast/executables/release/NCBI的BLAST数据库下载网址:
ftp:
/ftp.ncbi.nlm.nih.gov/blast/db/,选择物种,选择blast程序,QuerySequence,AminoacidSequence,DNASequence,tBLASTx,BLASTx,BLASTn,tBLASTn,BLASTp,NucleotideDatabase,ProteinDatabase,NucleotideDatabase,NucleotideDatabase,ProteinDatabase,Translated,Translated,Translated,以Blastx为例:
目标序列为ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC,6个读码框翻译,5端到3端第一位起始:
ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第二位起始:
TGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第三位起始:
GAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC3端到5端第一位起始:
GCGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第二位起始:
CGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第三位起始:
GGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT,与核酸相关的数据库,与蛋白质相关的数据库,选择数据库,序列或目标序列的GI号,以文件格式上传,BlastN,配对与错配,空位罚分,BlastP,打分矩阵:
PAM30PAM70BLOSUM80BLOSUM62BLOSUM45,PAM模型可用于寻找蛋白质的进化起源,而BLOSUM模型则用于发现蛋白质的保守域。
选择打分矩阵(scoringmatrix),ThePAMfamilyBasedonglobalalignmentsThePAM1isthematrixcalculatedfromcomparisonsofsequenceswithnomorethan1%divergence.OtherPAMmatricesareextrapolatedfromPAM1.TheBLOSUMfamilyBasedonlocalalignments.BLOSUM62isamatrixcalculatedfromcomparisonsofsequenceswithnolessthan62%divergence.AllBLOSUMmatricesarebasedonobservedalignments;theyarenotextrapolatedfromcomparisonsofcloselyrelatedproteins.,进行比对的数据库,图形化结果,E值(E-value)表示仅仅因为随机性造成获得这一比对结果的可能性。
这一数值越接近零,发生这一事件的可能性越小。
上机实习1:
网上运行blastx和blastn,(NCBIblast网址:
http:
/www.ncbi.nlm.nih.gov/BLAST/)lesson.seq.screen.Contig34TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC对contig34进行网上blastn(演示),blastx(自行操作)比对,本地运行BLAST,下载NCBI上blast程序:
ftp:
/ftp.ncbi.nlm.nih.gov/blast/executables/release/安装(安装到C:
)数据库的格式化(formatdb)程序运行(blastall),登陆NCBI的FTP下载blast程序,双击安装到C盘产生三个文件夹bindatadoc,将数据库文件(db)及目标序列文件(in)保存在Blast/bin文件夹下,bin含可执行程序(将数据库及需要比对操作的数据放入该文件);data文件夹含打分矩阵及演示例子的序列数据信息;doc文件夹含关于各子程序的说明文档。
本地数据库的构建,查看db文件,由fasta格式的序列组成,数据库的格式化,formatdb命令用于数据库的格式化:
formatdboption1option2option3formatdb常用参数-idatabase_name需要格式化的数据库名称-pTF待格式化数据库的序列类型(核苷酸选F;蛋白质选T;默认值为T)例:
formatdb-idb-pT,对蛋白质数据库“db”进行格式化,程序运行,blastall命令用于运行五个blast子程序:
blastalloption1option2option3*可在dos下输入blastall查看各个参数的意义及使用blastall常用参数四个必需参数-pprogram_name,程序名,根据数据库及搜索文件序列性质进行选择;-ddatabase_name,数据库名称,比对完成格式化的数据库;-iinput_file,搜索文件名称;-ooutput_file,BLAST结果文件名称;两个常用参数-eexpectation,期待值,默认值为10.0,可采用科学计数法来表示,如2e-5;-malignmentviewoptions:
比对显示选项,其具体的说明可以用以下的比对实例说明例:
blastall-pblastx-ddb-iin-oout-e2e-5-m9(表格显示比对结果),采用blastx程序,将in中的序列到数据库bd中进行比对,结果以表格形式输入到out文件,上机实习2:
本地运行blastx,进入DOS命令行提示符状态(“运行”cmd)进入C盘“cd”进入包含序列数据的bin目录下“cdblastbin”察看目录下内容“dir”格式化数据库db“formatdb-idb-pT”运行blastx“blastall-pblastx-iin-ddb-oout-e2e-5-m9”察看结果“moreout”或在windows下双击打开,输入,数据库类型:
F/T,Blast程序序列输入数据库结果输出,输入“cd”-回车回到安装目录C盘,输入“cdblastbin”-回车到达blast程序下bin文件夹,输入“dir”-回车察看bin文件夹下内容,bin文件夹下包含以.exe为后缀的程序文件以及这次实习需要用到的数据可文件“bd”和目标序列文件“in”,输入“moredb”-回车察看db文件内容,空格键翻页输入“q”跳出,输入“formatdb-idb-pT”-回车对db数据库进行格式化,输入“dir”-回车察看bin文件夹下内容,格式化以后产生的文件,输入“blastall-pblastx-iin-ddb-oout-e2e-5-m9”-回车运行blastx程序,产生的结果文件“out”,用”moreout”察看结果文件,不使用-m参数时比对结果显示序列两两比对,用”moreout”察看结果文件,多序列比对的目的,从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。
通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。
多序列比对的应用:
系统发育分析(phylogeneticanalysis)结构预测(structureprediction)序列基序鉴定(sequencemotifidentification)功能预测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 数据 分析 精品 文档