生物信息作业.docx
- 文档编号:12095486
- 上传时间:2023-04-17
- 格式:DOCX
- 页数:12
- 大小:163.48KB
生物信息作业.docx
《生物信息作业.docx》由会员分享,可在线阅读,更多相关《生物信息作业.docx(12页珍藏版)》请在冰豆网上搜索。
生物信息作业
1.Aligntheleghemoglobinproteinfromsoybeanandmyoglobinfromhumanwithglobalandlocalalignmentsoftware(ex.needleandwater)respectivelyandinterprettheresults.
比对结果:
2.Evaluatethesignificanceofthelocalproteinalignmentscoreofquestion1withPRSSandinterprettheresult.
#/usr/molbio/bin/prss3-s/usr/molbio/share/fasta3/default.mat-f-12-g-2-w10wwwtmp/PRSS.8615.1.seqwwwtmp/PRSS.8615.2.seq200-q-Owwwtmp/PRSS.8615.out
PRSSevaluatesstatisticalsignficanceusingSmith-Waterman
version3.4t26July7,2006
Pleasecite:
W.R.Pearson(1996)Meth.Enzymol.266:
227-258
wwwtmp/PRSS.8615.1.seq->leghemoglobin144bp144aa
vswwwtmp/PRSS.8615.2.seq-myoglobin154bpshuffledsequence
optE()
<2000:
2200:
one=represents1librarysequences
2400:
2600:
2800:
3000:
3201:
*
3463:
==*===
3676:
=====*=
38710:
=======*
401114:
===========*
423317:
================*================
441718:
=================*
461319:
=============*
481718:
=================*
502016:
===============*====
521214:
============*
54912:
=========*
56510:
=====*
5888:
=======*
6047:
====*
6275:
====*==
64104:
===*======
6613:
=*
6833:
==*
7042:
=*==
7212:
=*
7411:
*
7611:
*
7801:
*
8001:
*
8200:
8400:
8610:
=
8800:
9010:
=
9200:
9400:
9600:
9810:
=
10000:
10200:
10400:
10600:
10800:
11000:
11200:
11400:
11600:
11800:
>12000:
30800residuesin200sequences
(shuffled)MLEstatistics:
Lambda=0.2035;K=0.04058
Kolmogorov-Smirnovstatistic:
0.0679(N=23)at42
3.ObtaintwosequencesfromGenbankwiththeaccessionnumberP0A7G6andP25454.alignthemwithLALIGN(EBIorvirginiauniversitysever).Firsttrygappenaltiesof-12and-2.Notethelengthofthealignment,E-value,thepercentidentity,andthescoreofthealignment,thenrepeatthealignmentwithgappenaltiesof-5and-1andnotethefeaturesofthealignment.Describewhathappenedwhenthegappenaltieswerereduced,andwhy?
gappenaltiesof-12and-2
LALIGNfindsthebestlocalalignmentsbetweentwosequencesversion2.1u09December2006Pleasecite:
X.HuangandW.Miller(1991)Adv.Appl.Math.12:
373-381alignments score: 59(3max) Comparisonof: (A)./wwwtmp/.11127.1.seqP0A7G6354bp-354aa (B)./wwwtmp/.11127.2.seqP25454400bp-400aa usingmatrixfile: BL50(15/-5),gap-open/ext: -12/-2E(limit)0.05 28.7%identityin230aaoverlap(35-242: 153-375);score: 214E(10000): 1.1e-10 4050607080 P0A7G6RSMDVETISTGSLSLDIALGAGGLPMGRIVEIYGPESSGKTTLTLQVIAAAQ-------R : ....: : : .: : : : : : .: : .: ..: .: : .: ...: P25454RRSELICLTTGSKNLDTLLG-GGVETGSITELFGEFRTGKSQLCHTLAVTCQIPLDIGGG 160170180190200210 90100110120130 P0A7G6EGKTCAFIDAEHALDPIY----ARKLGVDIDNLLCS----QPDTGEQALEICDALAR--- : : : : .: : .: ..: .: ...: .: : .: ......: ..: : : . P25454EGK-CLYIDTEGTFRPVRLVSIAQRFGLDPDDALNNVAYARAYNADHQLRLLDAAAQMMS 220230240250260270 140150160170180190 P0A7G6SGAVDVIVVDSVAAL-TPKAEIEGEIGDSHMGLAARMMSQAMRKLAGNLKQSNTLLIFIN ...: : : : : : : : .: : ...: : : : .: ...: : : ....: P25454ESRFSLIVVDSVMALYRTDFSGRGELSARQMHLAKFM--RALQRLAD---QFGVAVVVTN 280290300310320 200210220230240 P0A7G6QIRMKI--GVMFG-NPETTTGGNALKFYASVRLDIRRIGAVKEGENVVGS : ...: .: ..: .: : : ....: : .......: : : P25454QVVAQVDGGMAFNPDPKKPIGGNIMAHSSTTRLGFKKGKGCQRLCKVVDS 330340350360370 -------------------------------------------------------------------------------- 30.3%identityin89aaoverlap(26-112: 178-256);score: 62E(10000): 2.7e+02 304050607080 P0A7G6GSIMRL-GEDRSMDVETISTGSLSLDIALGAGGLPMGRIVEIYGPESSGKTTLTLQVIAA : : : .: : : : ..: ....: : : : : ..: ..: : ..... P25454GSITELFGEFRTGKSQLCHTLAVTCQIPLDIGG-GEGKCLYI---DTEG-TFRPVRLVSI 180190200210220230 90100110 P0A7G6AQREGKTCAFIDAEHALDPI-YARKLGVD : : : : .: .: : ..: : : ..: P25454AQRFG-----LDPDDALNNVAYARAYNAD 240250 -------------------------------------------------------------------------------- gappenaltiesof-5and-1 LALIGNfindsthebestlocalalignmentsbetweentwosequencesversion2.1u09December2006Pleasecite: X.HuangandW.Miller(1991)Adv.Appl.Math.12: 373-381cannotestimatestatisticsfor-f-5-g-1alignments score: 50(3max) Comparisonof: (A)./wwwtmp/.20526.1.seqP0A7G6354bp-354aa (B)./wwwtmp/.20526.2.seqP25454400bp-400aa usingmatrixfile: BL50(15/-5),gap-open/ext: -5/-1E(limit)0.05 31.5%identityin311aaoverlap(3-275: 123-394);score: 402 1020304050 P0A7G6AIDENK-QKAL--AAAL---GQIEK-QFGKGSIMRLGEDRSMDVETI--STGSLSLDIAL .: .: : .: : : : : : ..: : : : : : : .: : : .: : : P25454GISEAKADKLLNEAARLVPMGFVTAADFH----MR----RS---ELICLTTGSKNLDTLL 130140150160170 60708090100 P0A7G6GAGGLPMGRIVEIYGPESSGKTTL--TL----QV---IAAAQREGKTCAFIDAEHALDPI : : : .: : .: ..: .: : .: : : : .: ...: : : : .: : .: ..: . P25454G-GGVETGSITELFGEFRTGKSQLCHTLAVTCQIPLDIGGG--EGK-CLYIDTEGTFRPV 180190200210220 110120130140150 P0A7G6Y----ARKLGVDIDNLLCS----QPDTGEQALEICDALAR--SGA-VDVIVVDSVAALTP : ...: .: : .: ......: ..: : : .: ...: : : : : : : : P25454RLVSIAQRFGLDPDDALNNVAYARAYNADHQLRLLDAAAQMMSESRFSLIVVDSVMALY- 230240250260270280 160170180190200 P0A7G6KAEI--EGEIGDSHMGLAARMMSQAMRKLAGNLKQSNTLLIFINQIRMKI--GVMFG-NP .....: : ...: : : ..: .: ...: : : ....: : ...: .: ..: P25454RTDFSGRGELSARQMHLA-KFM-RALQRLA---DQFGVAVVVTNQVVAQVDGGMAFNPDP 290300310320330340 210220230240250260 P0A7G6ETTTGGNALKFYASVRLDIRRIGAVKEGENVVGSETRV-KVVKNKIAAP-FKQAE--FQI .: : : ....: : : : .: .: .: .: : : .: ..: : : : P25454KKPIGGNIMAHSSTTRL-----G-FKKGK---GCQ-RLCKVVDS----PCLPEAECVFAI 350360370380 270 P0A7G6LYGEGINFYGE : .: .: . P25454-YEDGV---GD 390 -------------------------------------------------------------------------------- 24.7%identityin446aaoverlap(16-353: 1-399);score: 270 20304050 P0A7G6LGQIEKQ--------FGKGSIMR-LGEDRSMDV-ETISTGSLSLDI-AL-GAG---GLP- ..: ...: .: .: : .: .: : ..: ...: : : : : : : .: : : P25454MSQVQEQHISESQLQYGNGSLMSTVPADLSQSVVDGNGNGS-SEDIEATNGSGDGGGLQE 1020304050 60708090100 P0A7G6----MGRIV-EIYGPESS-GK-TTLT-LQV--IAAAQ----RE-G-KTCAFIDAEHALDP .: ..: : : ..: ...: : : : .: .: : : .: : : : . P25454QAEAQGEMEDEAYD-EAALGSFVPIEKLQVNGITMADVKKLRESGLHT-----AE-AV-- 60708090100110 110120130 P0A7G6IYA-RK-L----GVD---IDNLLCSQ-----P-------DTGEQALE-ICDALARSGA-- : : : : : : ..: .: : ..: : .: : : : ..: . P25454AYAPRKDLLEIKGISEAKADKLL-NEAARLVPMGFVTAADFHMRRSELIC--LT-TGSKN 120130140150160 140150160170180190 P0A7G6VDVIV---VDSVAALTPKAEIEGEI--GDSHM--GLAARMMSQAMRKLAGNLKQSNTLLI .: ...: .....: : .: : .: : ..: : .: ..: ....: : P25454LDTLLGGGVET-GSIT---ELFGEFRTGKSQLCHTLA--VTCQIPLDIGGG--EGKCLYI 170180190200210 200210220230 P0A7G6-----FINQIRMKIGVM--FG-NPETTTGGNALKFYASVRL---D--IRRIGAVKEGENV : .: ....: : .: ..: : .: .: : .: .: .. P25454DTEGTF-RPVRL-VSIAQRFGLDPD-----DALNNVAYARAYNADHQLRLLDAAAQ---- 220230240250260 240250260270280 P0A7G6VGSETRVK-VVKNKIAAPFKQAEFQILYGEG---------INFY---GELVD-LGVK--- .: : .: ..: ...: ....: .: .: .: ..: .: .: : P25454MMSESRFSLIVVDSVMALYR-TDFS---GRGELSARQMHLAKFMRALQRLADQFGVAVVV 270280290300310320 290300310320330 P0A7G6-EKLIEKA--GAWYSYKGEK-IGQGKANATAWLKDNPETAKEIEKK---VREL--LLSNP ......: ...: : : : : : .: ..: : ..: ....: P25454TNQVVAQVDGGMAFNPDPKKPIG-G--NIMA----HSSTTRLGFKKGKGCQRLCKVVDSP 330340350360370 340350 P0A7G6NSTPD----FSV-DDSEGVAET-NED : .: ...: : : ...: : P25454-CLPEAECVFAIYED--GVGDPREED 380390 -------------------------------------------------------------------------------- 26.3%identityin388aaoverlap(18-352: 5-326);score: 225 203040506070 P0A7G6QIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIVEIYGPESSGKTTL : : .....: ..: .: ..: ...: : ...: : .: .: ...: : P25454Q-EQHISE-SQLQYGNG-SL-MSTVPA-DLSQSVVDGNGN---GSSEDIEATNGSGDGG- 1020304050 8090100110120130 P0A7G6TLQVIAAAQREGKTCAFIDAEHALD---PIYARKLGVDIDNLLCSQPDTGEQALEICDA- : : : : : : .: .: : : : : : .: : : : : ..: . P25454GLQEQAEAQGEMEDEAY-D-EAALGSFVPI--EKLQV---N--------G---ITMADVK 60708090 140150160170 P0A7G6-LARSGAVDVIVVDSVAALTPKA---EIEG--EI-GDSHMGLAARM--M---SQA---MR : .: : .....: : .: .: : .: : .: ...: : : .: .: : : P25454KLRESG---LHTAEAVA-YAPRKDLLEIKGISEAKADKLLNEAARLVPMGFVTAADFHMR 100110120130140150 180190200210220 P0A7G6K-----LA-GNLKQSNTLL---IFINQIRMKIGVMFGNPETTTGGNAL-KFYA---SVRL .: .: .: ..: : : ...: .: : : : : .: .: ..: P25454RSELICLTTGS-KNLDTLLGGGVETGSITE----LFG--EFRTGKSQLCHTLAVTCQIPL 160170180190200 230240250260270 P0A7G6DIRRIGAVKEGENV-VGSE-T-R-VKVVKNKIAAPF----KQAEFQILYGEGINFYGEL- : : : .: : ....: : : : ..: .: : : .: ..: ...: .: P25454DI---GG-GEGKCLYIDTEGTFRPVRLVS--IAQRFGLDPDDALNNVAYARAYNADHQLR 210220230240250260 280290300310320 P0A7G6-VDLGVK---EK---LI--EKAGAWYSYKGEKIGQGKANATAWLKDNPETAKEIE--KKV .: ...: .: : ...: : ..: .: .: .: ....: . P25454LLDAAAQMMSESRFSLIVVDSVMAL--YRTDFSGRGE------L-----SARQMHLAKFM 270280290300 330340350 P0A7G6RELL-LSNPNSTPDFSVDDSEGVAETNE : : : ...: .: .: .: : . P25454RALQRLAD-----QFGV----AVVVTNQ 310320 -------------------------------------------------------------------------------- 4.AcomplexsamplecontainsDNAfrommanyspeciesofbacteria.(有一份来自很多细菌的DNA样品)Thespeciescanbedividedintotwobroadcategories(可被分为两大类): (a)HighGCcontent,(b)LowGCcontent. In(a)theprobabilitythataGC-richsequencebeobtainedbyrandomlysequencingpartofthegenomeis0.8 In(b),itis0.1.Assumethatthesamplecontainsbothbacterialtypesintheproportionof1: 3(priorknowledge) SupposethatasequenceobtainedrandomlyfromthesampleisobservedGC-rich
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息 作业