生物信息学期末考试答案Word文件下载.docx
- 文档编号:20455285
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:12
- 大小:195.95KB
生物信息学期末考试答案Word文件下载.docx
《生物信息学期末考试答案Word文件下载.docx》由会员分享,可在线阅读,更多相关《生物信息学期末考试答案Word文件下载.docx(12页珍藏版)》请在冰豆网上搜索。
f.全基因组的比较研究;
g.基因功能预测;
h.遗传疾病的研究以及关键基因鉴定;
i.蛋白质组学研究;
j.新药设计和定向化酶;
k.生物芯片.
3、为什么说生物信息学是大规模研究生命科学的利器?
生物信息学主要是一门研究生物学系统和生物学过程中信息流的综合系统学科,是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
目前,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解读。
还包括:
蛋白质空间结构模拟、预测和药物分子设计;
软件开发和方法学研究。
未来,生物信息学将进一步揭示生命系统的复杂性、遗传语言、基因表达谱、基因组、蛋白质组、代谢组、细胞信号组、系统生物学等等。
因此,生物信息学是大规模研究生命科学的利器。
4、生物信息学涉及的生物大分子信息有哪些?
涉及的有:
1)核算序列DNA
包括:
基因组序列、基因序列、cDNA、EST、碱基修饰、DNA功能模块/位点(如启动子、剪接体、表达调控位点等)。
2)蛋白质Protein
氨基酸组成、氨基酸序列、理化性质、原子坐标、二级结构、模体、结构域、功能域/位点、3D结构。
5、在大分子序列分析中,为何局部比对比全局比对更有意义?
全局比对(globalalignment)——指全长序列比对,用于相似性很高的序列间的分析。
局部比对(localalignment)——指生物分子序列常常是局部具有较高的相似性,呈板块分布。
此法用于整体相似性较低的序列分析,灵敏度高。
原因:
1)全局比对是沿整个长度实现序列之间匹配的最大化,尝试对齐整个序列。
而局部比对是对动态规划算法的修改,是给两个序列之间得分最高的地方进行匹配,集中在寻找相似度高的序列的延伸。
因此相比而言,在序列分析中将未知序列同已知序列进行相似性比较,局部比对的准确性比全局比对更高。
因为要实现整个序列长度的相似性匹配,比起局部匹配分析带来的误差更大;
2)另外,与局部序列比对算法相比,全序列比对算法会导致一些局部序列相似性较高而全序列相似性很小,因为全序列的平均效应而将两者的相似性漏检。
一般对于2个未知关系的序列,使用局部序列比对工具要比用全序列比对工具好。
而对于一个较长的序列和一个较短的序列的比对,也应该使用局部序列比对工具。
3)再则全局比对的最高分是最后一个,而局部比对的任何一个地方都可能是最高分,即任何地方都可以是对位起始点,可见局部比对操作更为灵敏。
4)应用范围上,全局比对仅适用于相似性很高的序列间分析,而局部比对一般用于相似性较低的序列分析,但是也可以用于高相似性序列分析,这样的分析结果会更加精准。
所以局部比对比全局比对更加有意义。
6、在大分子序列分析中,为何蛋白质的取代矩阵比核酸的取代矩阵更复杂?
取代矩阵(substitutionmatrix)的规则是“奖励匹配位点,罚扣不匹配位点”,故又称为计分矩阵(scoringmatrix)。
核算序列分析利用碱基取代矩阵,通过相似性比对匹配与否进行打分,便可以分析出其大致的碱基组成,特异位点等。
而蛋白质序列利用其氨基酸残基取代矩阵分析,由于蛋白质的序列组成复制,而且蛋白质的功能是通过其三维高级结构来执行的,该结构又不一定处于静态,在行使功能的过程中,一般会发生相应的改变,所以氨基酸残基的进化取代不能简单地表述各种残基在结构和功能上的关系,所以要对蛋白质序列进一步的分析就需要更加复杂的取代矩阵。
7、多重比对的用途?
BLAST的用途?
多重比对的用途主要用于:
1)系统演化分析,解释物种之间的进化关系;
2)基因预测;
3)蛋白质结构域的三级结构与二级结构,甚至是个别的氨基酸或核苷酸;
4)研究一个家族中的相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。
BLAST是现在应用最广泛的序列相似性搜索工具,主要用于:
1)新DNA序列的发现、定位与分析、结构和功能预测;
2)ESTs的分析;
3)寻找分析远源关系的蛋白质序列;
4)实验设计如PCRPrimer,MutagenesisStudies,构建Profile(--谱)等;
5)揭示相似性和同源性,发现系统发育的信息;
6)寻找数据库中没有标注的编码区、发现保守区域、特定序列框等重要信息。
8、聚类分析的策略?
聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
其策略方法为:
先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;
然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;
然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。
第一步:
点击File→LoadSequences输入序列文件。
第二步:
点击Alignment设定比对的一些参数。
第三步:
点击Alignment→DoCompleteAlignment开始序列比对。
第四步:
点击File→SaveSequenceas...比对完成,选择保存结果文件的格式。
9、电子克隆比传统的实验克隆有何优势?
为何能实现电子克隆?
电子克隆利用种子序列从EST及UniGene数据库中搜索相似性序列,进行拼装、检索、分析等,以此获得目标基因的全长cDNA,在此基础上也能够实现基因作图定位。
其相比实验克隆所具有的优势有:
1)实验进程短、快捷、设备简单;
2)成本低、得率高、针对性强等;
3)对操作人员技术要求不高;
4)另外运用电子克隆的方法延伸得到的cDNA几乎囊括了所有疑似为目的基因的cDNA序列。
能实现电子克隆是因为:
EST数据库的不断完善,使得电子克隆策略已成为克隆新基因的重要方法。
从GenBank的核酸(nr)数据库中检索已测序列生物的目的基因,获得目的基因cDNA序列,以该序列为模板对另一种未测序列生物EST数据库进行BLAST检索,获得与之部分同源的EST群,从中选取一条EST作为种子序列BLAST检索该生物的EST数据库,将检出与种子序列同源性较高或有部分重叠的EST序列拼接组装为重叠群(contig),再以此重叠群序列重复以上BLAST检索过程,反复进行EST重叠群序列的拼接和比对,直至检出所有的重叠EST或重叠群不能继续延伸,最终获得未测序列生物基因的cDNA全序列。
10、蛋白质分子结构的层次?
相应的分析工具?
蛋白质一级结构分析:
1)ProtParam:
蛋白质理化参数检索;
2)ProtScale:
蛋白质亲疏水性分析;
3)coiled-coil卷曲螺旋预测。
蛋白质二级结构预测:
二级结构指α‐helix,β‐sheet,无规则卷曲(coil),motif等组件。
预测方法:
1)神经网络、遗传算法、机器学习等;
2)与已知二级模板建立序列谱矩阵(profilematrix)、PSI‐BLASTP;
3)与同源蛋白多重比对。
模式和序列谱分析:
EBI:
InterProScan
整合出的部分数据库有:
Proside蛋白质结构域、家族和功能位点;
Pfam蛋白质家族比对;
TMHMM跨膜区预测。
蛋白质三级结构预测:
实验测定方法:
X-ray、NMR、Cryo-EM;
理论预测方法:
同源建模、折叠识别、从头计算。
三、综合分析
1、DNA序列的鉴定策略
鉴定三步骤:
1)找到序列中的非编码区
编码区与非编码区显著不同,重复序列和低复杂序列排除基因的可能性,首先屏蔽掉。
屏蔽重复序列的分析程序有:
RepeatMasker,XBLAST,CENSOR等。
此外,确定待检序列是否真实(载体污染,宿主序列污染,纯度因素等),载体序列污染分析程序有:
NCBI/VecScreen;
EMBL/Blast2EVEC。
2)找基因
根据基因特征信号,如保守序列(启动子,CpG岛)、起始和终止密码子、polyA,碱基频率,密码子偏好,EST。
原核生物采用可读框ORF检测基因非常有效。
CpG岛的预测工具:
EMBL-EBIK的在线工具CpGPlot;
转录终止信号的预测方式:
真核生物基因末端有终止子信号,在mRNA终止密码子下游具有polyA加
尾信号AATAAA,可用于基因终止位点的预测。
在线预测工具:
POLYAH;
启动子预测分析工具:
TRES、Neuralnetwork、Dragonpromoterfinder、PromoterScan;
可读框ORF=起始密码子ATG——终止密码子TGA或TAG或TAA。
开放读框的识别分析程序有:
ORFFinder(NCBI),GenScan,GenomeScan。
采用mRNA序列预测基因:
以公共数据库获得mRNA/cDNA,从基因组序列预测基因,在线预测工具(NCBI)Spidey。
3)鉴定找到的基因
建立基因模型以便核对,同源性搜索增加可信度
2、蛋白质结构分析和预测的策略
策略为:
1)在数据库中搜寻与蛋白质序列相似的模板;
2)查询序列和已知三维结构的蛋白质序列的相似性比对;
3)如果符合相似则直接进行结构比较建模;
4)如果不相似则先进行蛋白质家族、功能域、聚类分析,再与已知的蛋白质结构比对,有关系的才进行比较建模;
5)若还是不相关,则对蛋白质序列进行结构分析,对可以预想出其结构的蛋白质预测其三维结构,对无法预想出结构的蛋白质在实验室中进行进一步结构分析。
知识点
生物信息学研究的基本方法
•生物学数据库的建立
•生物学数据的检索
•生物学数据的处理
•生物学数据的利用
生物信息数据的存储格式
一般由两/三部分组成:
纪录信息、特性注释、序列本身
FASTA格式(序列最简单注释)
•序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。
•从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。
通常核苷酸符号
大小写均可,而氨基酸一般用大写字母。
•文件中和每一行都不要超过80个字符(通常60个字符)。
GenBank和EMBL数据库基本数据的格式
序列名称、长度、日期
序列说明、编号、版本号
物种来源、学名、分类学位置
相关文献作者、题目、刊物、日期
序列特征表
碱基组成
序列本身(每行60个碱基)
PDB格式
记录除了原子坐标外,还包括物种来源、化合物名称、结构递交以及有关文献等基本注释信息。
此外,还给出分辨率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。
蛋白质序列的格式
FASTA、序列文件格式、PDB数据格式
一次数据库
直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。
一级核酸数据库:
GenBank数据库、EMBL数据库、DDBJ数据库
一级蛋白质序列数据库:
SWISS-PROT库、PIR库
一级蛋白质结构数据库:
PDB数据库
二次数据库
在一级数据库、实验数据、文献数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。
人类基因组图谱库GDB、转录因子和结合位点库、TRANSFAC、蛋白质序列功能位点数据库Prosite等。
蛋白质数据库
序列数据库(序列及其注释):
SWISS-PROT、PIR(proteininformationresource)、NCBI(其功能和应用范围快速拓展)
模体和结构域数据库(结构域、功能域):
PROSITE、Pfam(proteinfamiliesdatabaseofalignmentsandHMMs)
结构数据库:
PDB(proteindatabank)
蛋白质分类数据库:
SCOP、CATH、FSSP
PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖,以及病毒)三维结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。
NCBI数据库检索系统Entrez
Entrez是NCBI开发的基于WWW的数据库检索工具,它可以用来搜索20多个集成在NCBI中的数据库信息。
数据库搜索:
BLAST&
FASTA
多序列比对工具
ClustalW:
对DNA和蛋白质进行多序列联配并且生成亲缘树的工具。
EMBL:
提供在线的基于万维网界面的ClustalW服务:
对ClustalW的结果进行观察的程序为:
njplotWIN95,treeview,等
构建进化树------基于大分子序列进化
分子系统发育:
DNA在进化过程中积累突变,从而导致不同株系后代的DNA、RNA和蛋白质的分支。
这个原则被用于进化树的构建。
进化树构建的基本步骤
1、多序列比对(自动或手动):
用Clustal,有些软件已整合上Clustal,如MEGA。
2、确定建树方法(取代模型):
距离(UPGMA,NJ,ME)、最大节约(MP)、最大似然(ML),
3、建树;
4、进化树评估。
电子克隆
7.1利用UniGene数据库进行序列电子延伸
7.2从数据库中获取cDNA全长序列
7.3序列拼接
本地拼接软件
Windows:
Sequencher,DNAstar,…
Unix:
CAP3,Phrap,TIGRAssembler,Velvet,…
在线服务:
CAP3网址
7.4基因的电子表达谱分析
7.5核酸序列的电子基因定位分析
蛋白质序列的获取
直接测序:
Edman,蛋白质组技术
翻译编码的DAN序列:
ORF,EBIproteinmachine搜索或检索数据库
同源建模是将目标序列在蛋白质结构数据库(PDB)比对搜索,找出最好的
模板来构建新的结构,再做能量最小化运算,获得接近”真实”的蛋白质结构.
ExPASY提供三种生物信息学蛋白结构预测工具
1Homologymodeling;
同源建模(25%以上一致性被认为有相似的结构)
2Threading;
串线法(一致性低于30%时)
3abinitio从头算(基于能量最低原则,分子力学、分子动力学)
同源建模的基本步骤
1同源的参考蛋白搜索(PDB)
2确定结构保守区:
如果目标蛋白有2个以上已知结构的参考蛋白,可将之叠加确定保守区,若仅一个有空间结构则做多重比对.
3蛋白主链建模:
保守区主链坐标直接来自参考蛋白的,环区可用片段搜索或自动生成.
4侧链安装:
在转子文库中挑选最佳残基侧链构象组合.
5优化处理:
根据分子动力学和分子力学.(能量最小化计算)
6合理性检测:
常用Profiles-3D检测.
PubMed文献检索
PubMed是美国国家医学图书馆下属的国家生物技术信息中心(NCBI)开发的、基于WWW的查询系统:
1.如何理解生物信息语言的复杂性和生物信息学的局限性?
物体或者事物的属性,分为单一或者极度复杂,他们可通过任何方式,比如声音、光波、电波、颜色、行为、温度、气体、形态、能量等,传递到与之关联的事物的外界,却又得到多种应答:
沟通、接纳、排斥、刺激。
2、几种常用的序列格式:
①GenBank序列格式②GCC序列格式③EMBL序列格式④ASN.1序列格式
⑤PIR/CODATA序列格式⑥SwissProt序列格式⑦Plain/ASCII.Staden序列格式
⑧FASTA序列格式⑨NBRF序列格式⑩GDE格式
⑾Intelligenetics序列格式⑿PDB格式
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 期末考试 答案