《生物信息学》练习题剖析.docx
- 文档编号:29354975
- 上传时间:2023-07-22
- 格式:DOCX
- 页数:13
- 大小:918KB
《生物信息学》练习题剖析.docx
《《生物信息学》练习题剖析.docx》由会员分享,可在线阅读,更多相关《《生物信息学》练习题剖析.docx(13页珍藏版)》请在冰豆网上搜索。
《生物信息学》练习题剖析
1、在Genbank中查找以下6个植物蛋白序列:
protein1:
NP_974673.2;protein2:
NP_187969.1;protein3:
NP_190855.1;protein4:
NP_565618.1;protein5:
NP_200511.1;protein6:
NP_191407.1(以FASTA格式)。
(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。
序列比对结果
比对结果表明:
protein1:
NP_974673.2和protein4:
NP_565618.1的亲缘关系最近。
(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。
1.将蛋白序列保存为FASTA格式,存于txt文档;
2.用Clustalx打开txt文本,保存为*.phy文件;
3.用seqboot程序打开phy文件,输出结果文件*_seqboot
4.用protdist程序打开*_seqboot文件,输出为*_protdist文件
5.用neighbor程序打开*_protdist文件,输出为*_neighbor文件
6.用consense程序打开*_neighbor文件,输出为*_consense文件
7.用dratree程序打开*_consense文件得到进化树。
(注:
由于seqboot软见无法正常运行,因此进化树无法显示)
(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。
选择protein3:
NP_190855.1
一级结构
网址:
http:
//www.expasy.org/tools/protparam.html
Numberofaminoacids:
456氨基酸数目
Molecularweight:
51154.5相对分子质量
TheoreticalpI:
8.69理论pI值
Aminoacidcomposition氨基酸组成
Ala(A)306.6%
Arg(R)286.1%
Asn(N)153.3%
Asp(D)275.9%
Cys(C)51.1%
Gln(Q)183.9%
Glu(E)286.1%
Gly(G)378.1%
His(H)163.5%
Ile(I)163.5%
Leu(L)429.2%
Lys(K)327.0%
Met(M)51.1%
Phe(F)173.7%
Pro(P)163.5%
Ser(S)4610.1%
Thr(T)214.6%
Trp(W)81.8%
Tyr(Y)194.2%
Val(V)306.6%
Pyl(O)00.0%
Sec(U)00.0%
(B)00.0%
(Z)00.0%
(X)00.0%
正/负电荷残基数
Totalnumberofnegativelychargedresidues(Asp+Glu):
55
Totalnumberofpositivelychargedresidues(Arg+Lys):
60
Atomiccomposition:
原子组成
CarbonC2270
HydrogenH3531
NitrogenN645
OxygenO686
SulfurS10
Formula:
C2270H3531N645O686S10分子式
Totalnumberofatoms:
7142总原子数
Extinctioncoefficients:
消光系数
ExtinctioncoefficientsareinunitsofM-1cm-1,at280nmmeasuredinwater.
Ext.coefficient72560
Abs0.1%(=1g/l)1.418,assumingallpairsofCysresiduesformcystines
Ext.coefficient72310
Abs0.1%(=1g/l)1.414,assumingallCysresiduesarereduced
Estimatedhalf-life:
半衰期
TheN-terminalofthesequenceconsideredisM(Met).
Theestimatedhalf-lifeis:
30hours(mammalianreticulocytes,invitro).
>20hours(yeast,invivo).
>10hours(Escherichiacoli,invivo).
Instabilityindex:
不稳定系数
Theinstabilityindex(II)iscomputedtobe48.99
Thisclassifiestheproteinasunstable.
Aliphaticindex:
75.26脂肪系数
Grandaverageofhydropathicity(GRAVY):
-0.554总平均亲水性
http:
//ca.expasy.org/tools/protscale.html
蛋白质亲疏水性分析
所用氨基酸标度信息
Ala:
1.800Arg:
-4.500Asn:
-3.500Asp:
-3.500Cys:
2.500Gln:
-3.500
Glu:
-3.500Gly:
-0.400His:
-3.200Ile:
4.500Leu:
3.800Lys:
-3.900
Met:
1.900Phe:
2.800Pro:
-1.600Ser:
-0.800Thr:
-0.700Trp:
-0.900
Tyr:
-1.300Val:
4.200:
-3.500:
-3.500:
-0.490
分析所用参数信息
Weightsforwindowpositions1,..,9,usinglinearweightvariationmodel:
123456789
1.001.001.001.001.001.001.001.001.00
edgecenteredge
跨膜结构预测结果(没有跨膜结构)
信号肽分析:
二级结构预测
三级结构预测
网站http:
//www.sbg.bio.ic.ac.uk/~phyre
2、在拟南芥基因组数据库中(http:
//www.arabidopsis.org/)查找编号分别为At4G33050,At3G13600,At3G52870或At2G26190基因,针对所查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。
(1)在基因全长序列中标识出5′UTR,exon,intron以及3′UTR等基因特征(具体到碱基数)。
登录网站http:
//www.arabidopsis.org/,输入登录号At3G52870,然后点击Search,结果:
(2)分别利用PLACE和PlantCARE工具对该基因的启动子(假设启动子是ATG上游2000bp)进行分析,试比较分析的结果。
PLACE分析
Place结果有以下3种呈现方式:
①groupedbysignal
该结果没有显示启动子区的碱基序列,结果则是按照名字的首字母排序。
2mappedtosequencescan
③bysequenceorder
同groupedbysignal显示的结果相似,不过FactororSiteName的序号由大到小排列。
等
Plantcare分析
网址http:
//bioinformatics.psb.ugent.be/webtools/plantcare/html/
点击“SearchforCARE”,进入,输入fasta格式的基因序列
PlantCARE不仅列出了“+”链和“-”链,且有颜色标示启动子区的各个顺式作用元件和反式作用因子。
如下:
PlantCARE较PLACE更简洁方便,容易查找。
且有function一项,说明这些元件在其结构中的作用。
如下:
(3)预测该基因的功能,并在PubMed中查找一篇相关文献。
GeneFinding
(Finding工具在Softberry主页选择“GeneFindinginEukaryota”类中的“FGENESH”
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学 生物 信息学 练习题 剖析