第6讲序列分析实例DOC.docx
- 文档编号:11351620
- 上传时间:2023-02-28
- 格式:DOCX
- 页数:49
- 大小:532.69KB
第6讲序列分析实例DOC.docx
《第6讲序列分析实例DOC.docx》由会员分享,可在线阅读,更多相关《第6讲序列分析实例DOC.docx(49页珍藏版)》请在冰豆网上搜索。
第6讲序列分析实例DOC
对一条新的基因序列进行生物信息学的分析
前言
对从真菌A.tabescens中克隆出一个基因的全长cDNA进行生物信息的分析,预测这个未知cDNA的功能.
目前因特网上有许多生物学信息库,采用不同的算法,对生物学数据进行从序列水平到结构层次,进而到功能的多种分析。
本章的分析主要利用这些数据库和相关软件完成。
材料和仪器
(1)生物技术实验室从一株产ß-甘露聚糖酶的新菌种A.tabescensEJLY2098克隆出一个全长cDNA(命名为man)
(2)可以连接国际互联网的计算机
核酸序列的基本分析
运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。
同时运用BioEdit(版本7.0.5.3)软件对man做酶切谱分析。
碱基同源性分析
运用NCBI信息库的BLAST程序对man进行碱基同源性分析(Translatedqueryvs.protiendatabase(blastx))
网站如下:
http:
//www.ncbi.nlm.nih.gov/BLAST/
参数选择:
Translatedquery-proteindatabase[blastx];nr;stander1
开放性阅读框(ORF)分析
利用NCBI的ORFFinder程序对man做开放性阅读框分析,网址如下:
http:
//www.ncbi.nlm.nih.gov/projects/gorf/orfig.cgi
参数选择:
GeneticCodes:
1Standard
对蛋白质序列的结构功能域分析
运用简单模块构架搜索工具(SimpleModularArchitectureResearchTool,SMART)对manORF出的蛋白质序列进行蛋白质结构功能域分析。
该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。
[12]
网址如下:
http:
//smart.embl-heidelberg.de/
运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析
参数选择:
SearchDatabase:
CDDv2.07-11937PSSMs
Expect:
0.01
Filter:
Lowcomplexity
Searchmode:
multiplehits1-pass
同源物种分析
用DNAMAN软件将蛋白质序列与GHF5的ß-甘露聚糖酶序列和GHF6的ß-甘露聚糖酶序列序列比对,根据结果绘出系统进化树,并进行分析。
蛋白质一级序列的基本分析
运用BioEdit(版本7.0.5.3)软件对manORF翻译的蛋白的一些基本性质,对分子量、等电点、氨基酸组成等作出分析。
二级结构和功能分析
信号肽预测
利用丹麦科技大学(DTU)的CBS服务器蛋白质序列的信号肽(signalpeptide)预测,进入PredictionServes页面。
网址如下:
http:
//www.cbs.dtu.dk/services/SignalP/
参数选择:
Eukaryotes;Both;GIF(inline);Standard;
疏水性分析
利用瑞士生物信息学研究所(SwissInstituteofBioinformatics,SIB)的ExPASy服务器上的ProtScale程序[13]对ORF翻译后的氨基酸序列做疏水性分析
网址如下:
http:
//us.expasy.org/cgi-bin/protscale.pl
参数选择:
蛋白质溶解能力和PROSITEmotifsearch的分析
利用美国哥伦比亚大学(ColumbiaUniversity)的PredictProtein服务器(PHD)[14]对ORF翻译后的氨基酸序列通过发邮件的方式获得蛋白质溶解能力和PROSITEmotifsearch分析的结果。
网址如下:
http:
//cubic.bioc.columbia.edu/pp/submit_def.html
磷酸化位点分析
磷酸化和去磷酸化是细胞内信号传导的重要方式,利用丹麦科技大学(DTU)的CBS服务器上的NetPhos2.0Server程序[15]
做磷酸化位点分析。
NetPhos2.0Server程序是基于神经网络算法,对蛋白序列中的Ser、Thr和Tys三种氨基酸残基可能成为的磷酸化位点作出预测,
网址如下:
http:
//www.cbs.dtu.dk/services/NetPhos/
跨膜区分析
蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。
[12]利用丹麦科技大学(DTU)的CBS服务器上的TMHMMServerv.2.0程序进行蛋白序列跨膜区分析。
网址如下:
http:
//www.cbs.dtu.dk/services/TMHMM/
参数选择:
Extensivewithgraphics
亚细胞定位
通过WoLFPSORT工具基于其氨基酸序列预测蛋白质亚细胞定位点
网址如下:
http:
//wolfpsort.seq.cbrc.jp/
参数选择:
Fungi;FromTextArea
二硫键分析
运用scratchproteinPredictor对蛋白质的二硫键做出分析。
网址如下:
http:
//www.ics.uci.edu/~baldig/scratch/index.html
参数选择:
Dlpro(DisulfideBonds)
二级结构预测
运用PBILLYON-GERLAND信息库对蛋白质序列进行二级结构预测(Secondarystructureprediction),主要用Hopfield神经网络(HNN)预测。
网址如下:
http:
//npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?
page=/NPSA/npsa_hnn.html
结果
从一株产ß-甘露聚糖酶的新菌种A.tabescensEJLY2098获得的全长cDNA序列如下:
ACGCGGGGGAAAGATGCATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGTGCTCTGCGTTCGCTGCTGTTCCTGAGTGGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCACTTGCGTTAGTGGTACAGTATGCGCAGCTCTCAATGACTATTATTCTCAATGTGTGCCTGGAACGGCCACAACAACGGCCGCTCCCACGACTGCTACATCAACAACCATTTCTTCCACTTCTCGCACAACTGCTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTACCTCTGGCACAGAGTTCCGCCTCAACGGTGCCAAATTTACTATCTTCGGCGCCAACTCATACTGGGTCGGGTTGATGGGCTATAGCACTACAGATATGAATAAAGCCTTCGCAGACATCGCGGCTACAGGTGCCACCGTCGTCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGGGATTTATTACCAGAGTTGGTCCGGAAGTACACCAACTATCAACACAGGTTCTACGGGTCTTCAAAACTTTGATGCCGTCGTCGCTGCTGCTGCTGCACATGGCTTGAGGCTTATTGTTGCCATAACGAACAACTGGTCCGACTATGGTGGAATGGATGTATACGTTAACCAAATTGTCGGGTCTGGCTCTGCGCACGATTTATTCTATACCGACTGTGAGGTTATATCTACTTACATGAACTACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCTTGcaaatgaacctagatgcaaggggagtaccgggacgacctctggatcatgcactgcaacgactatcacaaaATGGGCCGCGGCAATTTCAGCGTACATCAAGTCGATCGATCCCAACCATCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCGCACCAACATATCCATATCAAGGTAGCGAAGGTATCGATTTTGATGCAAATttggccattagtagcattgatttcggtacattccattcctatcctatcagctggggtcaaaccactgatcctCAGGGATGGGGTACGCAATGGATCGCTGATCATGCAACGTCAATGACAGCTGCGGGAAAGCCCGTAATCTtagaggagtttggagtcaccactaatcaagcaactgtttatggcgcctggtatcaggaagttgtctcttcgggtcttactggtgctcttatttggcaagctggttcttatttatcatccggagctactccggacgacggatatgcaatttatcctgatgatcctgtatattccctggaaacctcctatgcggttacattgaaagcgcgggcgtaggatagggtacagaataaattttgctccgatgtggtactgtagccgagcggcttgactatgtgaataaaaatagcactgttgtcacgatcgatcaacacctaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
核酸序列的基本分析
核酸序列的基本分析结果如下:
SEQNew:
1483bp;
Composition388A;358C;351G;386T;0OTHER
Percentage:
26.2%A;24.1%C;23.7%G;26.0%T;0.0%OTHER
MolecularWeight(kDa):
ssDNA:
457.73dsDNA:
914.24
ORIGIN
1ACGCGGGGGAAAGATGCATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGTGCTCTGC
61GTTCGCTGCTGTTCCTGAGTGGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCAC
121TTGCGTTAGTGGTACAGTATGCGCAGCTCTCAATGACTATTATTCTCAATGTGTGCCTGG
181AACGGCCACAACAACGGCCGCTCCCACGACTGCTACATCAACAACCATTTCTTCCACTTC
241TCGCACAACTGCTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTAC
301CTCTGGCACAGAGTTCCGCCTCAACGGTGCCAAATTTACTATCTTCGGCGCCAACTCATA
361CTGGGTCGGGTTGATGGGCTATAGCACTACAGATATGAATAAAGCCTTCGCAGACATCGC
421GGCTACAGGTGCCACCGTCGTCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGG
481GATTTATTACCAGAGTTGGTCCGGAAGTACACCAACTATCAACACAGGTTCTACGGGTCT
541TCAAAACTTTGATGCCGTCGTCGCTGCTGCTGCTGCACATGGCTTGAGGCTTATTGTTGC
601CATAACGAACAACTGGTCCGACTATGGTGGAATGGATGTATACGTTAACCAAATTGTCGG
661GTCTGGCTCTGCGCACGATTTATTCTATACCGACTGTGAGGTTATATCTACTTACATGAA
721CTACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCT
781TGCAAATGAACCTAGATGCAAGGGGAGTACCGGGACGACCTCTGGATCATGCACTGCAAC
841GACTATCACAAAATGGGCCGCGGCAATTTCAGCGTACATCAAGTCGATCGATCCCAACCA
901TCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCGCACCAACATATCCATA
961TCAAGGTAGCGAAGGTATCGATTTTGATGCAAATTTGGCCATTAGTAGCATTGATTTCGG
1021TACATTCCATTCCTATCCTATCAGCTGGGGTCAAACCACTGATCCTCAGGGATGGGGTAC
1081GCAATGGATCGCTGATCATGCAACGTCAATGACAGCTGCGGGAAAGCCCGTAATCTTAGA
1141GGAGTTTGGAGTCACCACTAATCAAGCAACTGTTTATGGCGCCTGGTATCAGGAAGTTGT
1201CTCTTCGGGTCTTACTGGTGCTCTTATTTGGCAAGCTGGTTCTTATTTATCATCCGGAGC
1261TACTCCGGACGACGGATATGCAATTTATCCTGATGATCCTGTATATTCCCTGGAAACCTC
1321CTATGCGGTTACATTGAAAGCGCGGGCGTAGGATAGGGTACAGAATAAATTTTGCTCCGA
1381TGTGGTACTGTAGCCGAGCGGCTTGACTATGTGAATAAAAATAGCACTGTTGTCACGATC
1441GATCAACACCTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
对其所做对其所做的酶切谱分析结果如下:
1对DQ286392的酶切图(见附录1)
2单酶切统计,见下表:
Restrictiontable:
EnzymeRecognitionfrequencyPositions
__________________________________________________________________________
AccIGT'mk_AC2258,640
AloIGAACnnnnnnTCCnnnnnnn_nnnnn'1632
AloIGGAnnnnnnGTTCnnnnnnn_nnnnn'1600
AlwIGGATCnnnn'n_5833,885,1056,1095,1290
ApoIr'AATT_y3333,992,1368
BanIG'GyrC_C4327,348,429,1179
BbeIG_GCGC'C2352,1183
BbsIGAAGACnn'nnnn_1531
BbvIGCAGCnnnnnnnn'nnnn_753,156,551,554,557,560,1103
BceAIACGGCnnnnnnnnnnnn'nn_3199,211,540
BcgICGAnnnnnnTGCnnnnnnnnnn_nn'31003,998,1294
BcgIGCAnnnnnnTCGnnnnnnnnnn_nn'3969,1032,1260
BclIT'GATC_A11094
BfrBIATG'CAT117
BglIGCCn_nnn'nGGC191
BmrIACTGGGnnnn_n'1371
BpuEICTTGAGnnnnnnnnnnnnnn_nn'1605
BsaHIGr'CG_yC2349,1180
BsaJIC'CnnG_G2859,1309
BsaWIw'CCGG_w3501,1254,1265
BsaXIACnnnnnCTCCnnnnnnn_nnn'1215
BsaXIGGAGnnnnnGTnnnnnnnnn_nnn'1185
BseMIICTCAGnnnnnnnn_nn'330,67,1080
BseRIGAGGAGnnnnnnnn_nn'11155
BseYIC'CCAG_C11045
BsgIGTGCAGnnnnnnnnnnnnnn_nn'1559
BsiEICG_ry'CG3199,889,1440
BsiHKAIG_wGCw'C257,1223
BslICCnn_nnn'nnGG481,449,963,1272
BsmAIGTCTCn'nnnn_340,743,1205
BsmBICGTCTCn'nnnn_1743
BsmFIGGGACnnnnnnnnnn'nnnn_1827
Bsp1286IG_dGCh'C257,1223
BspCNICTCAGnnnnnnn_nn'331,68,1079
BspEIT'CCGG_A3501,1254,1265
BsrIACTG_Gn'4290,366,618,1220
BsrBICCG'CTC2201,1399
BsrDIGCAATG_nn'11089
BstF5IGGATG_nn'4108,641,1077,1251
BstZ17IGTA'TAC1641
Bsu36ICC'TnA_GG11066
BtgIC'CryG_G1859
BtsIGCAGTG_nn'1832
Cac8IGCn'nGC425,781,1234,1345
ClaIAT'CG_AT3889,979,1440
EaeIy'GGCC_r3184,196,997
EagIC'GGCC_G1196
EarICTCTTCn'nnn_11208
EciIGGCGGAnnnnnnnnn_nn'1306
FauICCCGCnnnn'nn_21112,1336
FokIGGATGnnnnnnnnn'nnnn_4115,648,1084,1238
FspITGC'GCA2143,673
HaeIIr_GCGC'y2352,1183
Hin4IGAynnnnnvTCnnnnnnnn_nnnnn'3690,1079,1111
Hin4IGAbnnnnnrTCnnnnnnnn_nnnnn'3722,1079,1111
HincIIGTy'rAC2259,647
HpaIGTT'AAC1647
HphIGGTGAnnnnnnn_n'11145
Hpy8IGTn'nAC5259,510,641,647,752
Hpy188IIITC'nn_GA1075,502,728,823,908,1191
1255,1266,1290,1435
HpyF10VIGCn_nnnnn'nGC1167,92,418,430,452,562,571
574,871,997,1099
KasIG'GCGC_C2348,1179
MboIIGAAGAnnnnnnn_n'5223,271,335,531,1195
MlyIGAGTCnnnnn'2479,1159
MmeITCCrACnnnnnnnnnnnnnnnnnn_nn'1643
MnlICCTCnnnnnn_n'9311,330,455,580,692,830,1075
1133,1328
MscITGG'CCA1999
MslICAynn'nnrTG150
MspA1ICmG'CkG3861,1045,1116
MwoIGCnn_nnn'nnGC1166,91,417,429,451,561,570
573,870,996,1098
NarIGG'CG_CC2349,1180
NlaIVGGn'nCC584,329,350,431,1181
NsiIA_TGCA'T119
PleIGAGTCnnnn'n_2478,1158
PshAIGACnn'nnGTC1735
PvuICG_AT'CG2889,1440
PvuIICAG'CTG21045,1116
SacIICC_GC'GG1862
SalIG'TCGA_C1257
SfaNIGCATCnnnnn'nnnn_54,26,542,786,977
SfcIC'TryA_G4380,388,424,1389
SfoIGGC'GCC2350,1181
SmlIC'TyrA_G1584
TatIw'GTAC_w242,507
TspDTIATGAAnnnnnnnnn_nn'5411,732,802,934,949
TspGWIACGGAnnnnnnnnn_nn'11288
TspRI_nnCAsTGnn'3839,1064,1432
Enzymesthatcutfiveorfewertimes
EnzymeRecognitionfrequencyPositions
__________________________________________________________________________
AccIGT'mk_AC2258,640
AloIGAACnnnnnnTCCnnnnnnn_nnnnn'1632
AloIGGAnnnnnnGTTCnnnnnnn_nnnnn'1600
AlwIGGATCnnnn'n_5833,885,1056,1095,1290
ApoIr'AATT_y3333,992,1368
BanIG'GyrC_C4327,348,429,1179
BbeIG_GCGC'C2352,1183
BbsIGAAGACnn'nnnn_1531
BceAIACGGCnnnnnnnnnnnn'nn_3199,211,540
BcgICGAnnnnnnTGCnnnnnnnnnn_nn'31003,998,1294
BcgIGCAnnnnnnTCGnnnnnnnnnn_nn'3969,1032,1260
BclIT'GATC_A11094
BfrBIATG'CAT117
BglIGCCn_nnn'nGGC191
BmrIA
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 分析 实例 DOC