生物信息学复习题及答案打印.docx
- 文档编号:11284139
- 上传时间:2023-02-26
- 格式:DOCX
- 页数:31
- 大小:49.14KB
生物信息学复习题及答案打印.docx
《生物信息学复习题及答案打印.docx》由会员分享,可在线阅读,更多相关《生物信息学复习题及答案打印.docx(31页珍藏版)》请在冰豆网上搜索。
生物信息学复习题及答案打印
一、名词解释:
1.生物信息学:
研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型;利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:
在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:
是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:
是GenBank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:
第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:
是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:
基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P94
7.查询序列(querysequence):
也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P98
8.打分矩阵(scoringmatrix):
在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29
9.空位(gap):
在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P29
10.空位罚分:
空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
P37
11.E值:
衡量序列之间相似性是否显著的期望值。
E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。
P95
12.低复杂度区域:
BLAST搜索的过滤选项。
指序列中包含的重复度高的区域,如poly(A)。
13.点矩阵(dotmatrix):
构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。
14.多序列比对:
通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。
15.分子钟:
认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。
16.系统发育分析:
通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。
17.进化树的二歧分叉结构:
指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。
系统发育图:
用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。
18.直系同源:
指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。
(书:
在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。
)
19.旁系(并系)同源:
指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。
(书:
由于基因重复事件产生的相似序列。
)
20.外类群:
是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。
21.有根树:
能够确定所有分析物种的共同祖先的进化树。
22.除权配对算法(UPGMA):
最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。
23.邻接法(neighbor-joiningmethod):
是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。
24.最大简约法(MP):
在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。
25.最大似然法(ML):
它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。
最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。
26.一致树(consensustree):
在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。
27.自举法检验(Bootstrap):
放回式抽样统计法。
通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。
28.开放阅读框(ORF):
开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。
29.密码子偏好性(codonbias):
氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。
30.基因预测的从头分析:
依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。
31.结构域(domain):
保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。
相同功能的同源结构域具有序列的相似性。
32.超家族:
进化上相关,功能可能不同的一类蛋白质。
33.模体(motif):
短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
34.序列表谱(profile):
是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分的表格。
35.PAM矩阵:
PAM指可接受突变百分率。
一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。
一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。
36.BLOSUM矩阵:
模块替代矩阵。
矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。
每个矩阵适合特定的进化距离。
例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。
37.PSI-BLAST:
位点特异性迭代比对。
是一种专门化的的比对,通过调节序列打分矩阵(scoringmatrix)探测远缘相关的蛋白。
38.RefSeq:
给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。
39.PDB(ProteinDataBank):
PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。
PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。
40.GenPept:
是由GenBank中的DNA序列翻译得到的蛋白质序列。
数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。
41.折叠子(Fold):
在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。
42.TrEMBL:
是与SWISS-PROT相关的一个数据库。
包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。
43.MMDB(MolecularModelingDatabase):
是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。
与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。
44.SCOP数据库:
提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。
SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:
到PDB的连接,序列,参考文献,结构的图像等。
可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(superfamily)、家族(family)、单个PDB蛋白结构记录。
45.PROSITE:
是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。
46.GeneOntology协会:
编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。
从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。
47.表谱(PSSM):
指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。
48.比较基因组学:
是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。
49.简约信息位点:
指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。
其它位点为都是非简约性信息位点。
4.一致序列:
这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
5.HMM隐马尔可夫模型:
一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。
(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.信息位点:
由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7.非信息位点:
对于最大简约法来说没有意义的点。
8.标度树:
分支长度与相邻节点对的差异程度成正比的树。
9.非标度树:
只表示亲缘关系无差异程度信息。
10.有根树:
单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。
11.无根树:
只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。
18.质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。
质谱分析的两个工具
19.分子途径是指一组连续起作用以达到共同目标的蛋白质。
20.虚拟细胞:
一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。
21.先导化合物:
是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。
就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构
22.权重矩阵(序列轮廓):
它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。
基础上针对特定的应用目标而建立的数据库。
23.系统发育学(phylogenetic):
确定生物体间进化关系的科学分支。
24.系统生物学(systemsbiology):
是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程
25.蛋白质组(proteome):
是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。
26.ESI电喷雾离子化:
一种适合大分子如蛋白质离子化没有明显降解的质谱技术。
1.鸟枪法测序(shotgunmethod)一种测序方法,包括从基因组中获得随机的、已测序的克隆片段,并且对初始基因的位置一无所知。
2.BLAST:
基本局部相似性比对搜索工具。
在序列数据库中快速查找与给定的序列具有最优局部对准结果的序列的一种序列对算法。
3.整体联配(globalalignment):
对两个核苷酸或蛋白质序列的全长所进行的比对。
4.FASTA:
是第一个被广泛使用的数据库相似性搜索算法,这个程序通过扫描序列中“词”的小配对,从而寻找最优局部比对。
5.算法(algorithm):
在计算机程序中包含的一种固定过程。
6.序列比对(alignment):
将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较他们的保守性),这样评估序列间的相似性和同源性。
7.多序列比对(multiplesequencealignment):
三个或多个序列之间的比对,如果序列在同一列有相同结构位置的残基和(或)祖传的残基,则会在该位置插入空位。
8.最佳联配(optimalalignment):
两个序列之间有最高打分值的排列。
9.空位(gap):
在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。
10.模块替换矩阵(BLUSUM)在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的,每个矩阵被修改成一个特殊的进化距离。
11.可接受点突变(PAM)一个用于衡量蛋白质序列的进化突变程度的单位。
12.互补序列(complementarysequence)能够与其他DNA片段根据碱基互补序列(A与T配对,G与C配对)形成两练结构的核苷酸序列。
13.保守序列(conservedsequence)指DNA分子中的一个核苷酸片段或者蛋白质中氨基酸片段,它们在进化过程中基本保持不变。
14.邻接片段(contig)与支架(scaffold)
15.邻接片段:
一组在染色体上有重叠区域的DNA片段的克隆;
16.支架:
由序列重叠群拼接而成。
17.注释(annotation)对数据库中原始的DNA碱基序列添加相关信息(比如编码的基因,氨基酸序列等)或其他的注解。
18.基因预测(geneprediction)用计算机程序对可能的基因所做的预测,它是基于DNA片段与已知基因序列的匹配程度的。
19.直系同源(Orthologous)指不同种类的同源序列,他们是在物种的形成事件中从一个祖先序列独立进化而成的,可能有相似功能,也可能没有。
20.旁系同源(paralogous)是通过类似基因复制的机制产生的同源序列。
21.替换(substitution)在指定的位置不相同的氨基酸进行连配,如果联配的残基有相似的物化性质,那么替换是保守的。
22.表达序列标签(EST)一种短的DNA片段,是cDNA分子的一部分,可用来鉴定基因,通常用于基因定位和基因图谱中。
23.多态性(PolyMorphism)多个个体之间DNA的差异叫多态性。
24.基因预测(GenePrediction)同19
25.序列模式(Motif)蛋白质序列中短的保守区域,它们是结构域中保守性很高的部分。
26.结构域(domain):
蛋白质在折叠时候与其它部分相独立的一个不连续部分,他有自己独特的功能。
27.开放阅读框(ORF)位于DNA或RNA上起始密码子与终止密码子之间的序列。
28.表达谱(profile)一个显示某个同源家族中指定位置打分值和空位罚分的表格,可以用于搜索序列数据库。
29.分子钟(molecularclock)对于每一个给定基因(或蛋白质)其分子进化率大致是恒定的。
30.系统发生(phylogeny)是指生物种族的进化历史,亦即生物体在整个进化谱
31.分子进化树(molecularevolutionarytree)在研究生物进化和系统分类中,常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形成为系统发育树(phylogenetictree)。
二.填空题
1.常用的三种序列格式:
NBRF/PIR,FASTA和GDE
2.初级序列数据库:
GenBank,EMBL和DDBJ
3.蛋白质序列数据库:
SWISS-PROT和TrEMBL
4.提供蛋白质功能注释信息的数据库:
KEGG(京都基因和基因组百科全书)和PIR(蛋白质信息资源)
5.目前由NCBI维护的大型文献资源是PubMed
6.数据库常用的数据检索工具:
Entrez,SRS,DBGET
7.常用的序列搜索方法:
FASTA和BLAST
8.高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)
9.多序列联配的常用软件:
Clustal
10.蛋白质结构域家族的数据库有:
Pfam,SMART
11.系统发育学的研究方法有:
表现型分类法,遗传分类法和进化分类法
12.系统发育树的构建方法:
距离矩阵法,最大简约法和最大似然法
13.常用系统发育分析软件:
PHYLIP
14.检测系统发育树可靠性的技术:
bootstrapping和Jack-knifing
15.原核生物和真核生物基因组中的注释所涉及的问题是不同的
16.检测原核生物ORF的程序:
NCBIORFfinder
17.测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)
18.二级结构的三种状态:
α螺旋,β折叠和β转角
19.用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层
20.通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISS—MODEL网站)
21.蛋白质质谱数据搜索工具:
SEQUEST
22.分子途径最广泛数据库:
KEGG
23.聚类分析方法,分为有监督学习方法,无监督学习方法
24.质谱的两个数据库搜索工具:
SEQEST和Lutkefish
二、问答题
1)生物信息学的发展经历了哪几个阶段
答:
生物信息学的发展经历了3个阶段。
第一个阶段是前基因组时代。
这一阶段主要是以各种算法法则的建立、生物数据库的建立以及DNA和蛋白质序列分析为主要工作;
第二阶段是基因组时代。
这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。
第三阶段是后基因组时代。
这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。
2)生物信息学步入后基因组时代后,其发展方向有哪几个方面。
答:
生物信息学步入后基因组时代后,其发展方向主要有:
①各种生物基因组测序及新基因的发现;②单核苷酸多态性(SNP)分析;③基因组非编码区信息结构与分析;④比较基因组学和生物进化研究;⑤蛋白质结构和功能的研究。
3)美国国家生物技术信息中心(NCBI)的主要工作是什么?
请列举3个以上Entrez系统可以检索的数据库。
(NCBI维护的数据库)NCBI的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物,医学问题。
为科学界开发,维护和分享一系列的生物信息数据库;开发和促进生物信息学数据库,数据的储存,交换以及生物学命名规则的标准化。
维护的主要数据库包括
答:
PubMed、核酸序列数据库GenBank、PROW、三维蛋白质结构分子模型数据库MMDB。
4)序列的相似性与同源性有什么区别与联系?
答:
相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。
P147
5)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?
答:
blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。
P97
6)简述BLAST搜索的算法思想。
答:
BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持了比对的精度。
P95
7)什么是物种的标记序列?
答:
指物种特有的一段核苷酸序列。
可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。
8)什么是多序列全局比对的累进算法?
(三个步骤)
答:
第一,所有的序列之间逐一比对(双重比对);第二,生成一个系统树图,将序列按相似性大致分组;第三,使用系统树图作为引导,产生出最终的多序列比对结果。
P52
9)简述构建进化树的步骤,每一步列举1-2种使用的软件或统计学方法。
答:
(1)多序列比对:
ClustalW
(2)校对比对结果:
BIOEDIT
(3)建树:
MEGA
(4)评估系统发育信号和进化树的牢固度:
自举法(Bootstrap)P114
10)简述除权配对法(UPGMA)的算法思想。
答:
通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。
P119
11)简述邻接法(NJ)构树的算法思想。
答:
邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。
这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。
P117
12)简述最大简约法(MP)的算法思想。
P68
答:
是一种基于离散特征的进化树算法。
生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。
在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。
P120
13)简述最大似然法(ML)的算法思想。
P69
答:
是一种基于离散特征的进化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 复习题 答案 打印