1、空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进展罚分,空位罚分的多少直接影响比照的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如polyA。13.点矩阵dot matrix:构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列一样碱基的对应位置x,y加点,如果两条序列完全一样如此会形成一条主对角线,如果两条序列相似如此会出现一条或者几条直线;如果完全没有相似性如此不能连成直线。14.多序列比对:通过序列的相似性检索得到许多相似性序
2、列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。书:在缺乏任何基因复制证据的情况下,具
3、有共同祖先和一样功能的同源基因。19.旁系并系同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。21.有根树:能够确定所有分析物种的共同祖先的进化树。22.除权配对算法UPGMA:最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被参加,最终产生树根。23.邻接法neighbor-joining method:是一种不仅仅计算两两比对距离,还对整个树的长度进展最小化,从而对树的拓扑结
4、构进展限制,能够克制UPGMA算法要求进化速率保持恒定的缺陷。24.最大简约法MP:在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。25.最大似然法ML:它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进展分析评估,并在此根底上构建系统发育树。26.一致树consensus tree:在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。27.自举法检验Bootstrap:放回式抽样统计法。通过对数据集屡次重复取样,构建多个进化树,用来检查给定树的分枝可信度。28.开放阅读框ORF:开放阅读框是基
5、因序列的一局部,包含一段可以编码蛋白的碱基序列。29.密码子偏性codon bias:氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏性。30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界调控区,预测基因组序列中包含的基因。31.结构域domain:保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。一样功能的同源结构域具有序列的相似性。32.超家族:进化上相关,功能可能不同的一类蛋白质。33.模体motif:短的保守的多肽段,含
6、有一样模体的蛋白质不一定是同源的,一般10-20个残基。34.序列表谱profile:是一种特殊位点或模体序列,在多序列比拟的根底上,氨基酸的权值和空位罚分的表格。35.PAM矩阵:PAM指可承受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。36.BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。37.PSI-B
7、LAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵scoring matrix探测远缘相关的蛋白。38.RefSeq:给出了对应于基因和蛋白质的索引,对应于最稳定、最被人承认的Genbank序列。39.PDBProtein Data Bank:PDB中收录了大量通过实验X射线晶体衍射,核磁共振NMR测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成如,4HHB,同时支持关键词搜索,还可以FASTA程序进展搜索。40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大,且随
8、核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。41.折叠子Fold:在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。42.TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。43.MMDB(Molecular Modeling Database):是NCBI所开发的生物信息数据库集成系统Entrez的一个局部,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一
9、个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比拟工具。44.SCOP数据库:提供关于结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类class、折叠子fold、超家族super family、家族family、单个PDB蛋白结构记录。45.PROS
10、ITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉与的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。46.Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。47.表谱PSSM:指一X基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。48.蛋白质
11、组p179:是指一个基因组中各个基因编码产生的蛋白质的总体,即一个基因组的全部蛋白产物与其表达情况。49.中心法如此是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法如此。50.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释51.基因芯片gene chip,又称DNA微阵列microarray,是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的根本原理是通过杂交检测信息。52.序列比对:为确定两个或多个序列之间的相似性
12、以至于同源性,而将它们按照一定的规律排列。53.数据库查询database query:是指对序列、结构以与各种二次数据中的注释信息进展关键词匹配查找检索。54.数据库搜索database search:在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。55.相似性similarity:数学上,相似性指两个图形的形状完全相似。假如存在两个点的集,其中一个能透过放大缩小、平移或旋转等方式变成另一个,就说它们具有相似性。56.同源性:在进化上或个体发育上的共同来源而呈现的本质上的相似性,但其功能不一定一样。57.同一性
13、:是指两序列在同一位点核苷酸或氨基酸残基完全一样的序列比例。58.一致序列:在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。59.HMM 隐马尔可夫模型:是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。60.简约性信息位点:指基于DNA或蛋白质序列、利用最大简约法构建系统发育树时,在两个与以上分类单元的序列中存在差异,且其中至少有两种变异类型在该位点出现两次与以上,此类位点称为简约性信息位点。61.信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。62.
14、非信息位点:对于最大简约法来说没有意义的点。63.标度树:分支长度与相邻节点对的差异程度成正比的树。64.非标度树:只表示亲缘关系无差异程度信息。65.有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。根树:只明确节点间的关系,无进化发生方向的信息,通过引入外群或外部参考种,可以在无根树中指派根节点。67.注释annotation对数据库中原始的DNA碱基序列添加相关信息比如编码的基因,氨基酸序列等或其他的注解。68.基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进展高通量注释,是当前功能基因组学
15、研究的一个热点。69.虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反响和物质流的集合体。70.质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。71.分子途径是指一组连续起作用以达到共同目标的蛋白质。72.先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。73.权重矩阵序列轮廓:它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法课件定义。74.系统发育学phylogenetic:确定生物体间进化关系的科学分支。75.系统生物
16、学systems biology:是研究一个生物系统中所有组分成分基因、mRNA、蛋白质等的构成以与在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程。76.蛋白质组proteome:是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。77. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。78.微阵列芯片:是指采用光导原位合成或微量点样等方法,将大量生物大分子比如核酸片段、多肽分子甚至组织切片、细胞等生物样品有序地固化于支持物如玻片、尼龙膜等载体的外表,组成密集二维分子排列,然后与已标记的待测生物样品中靶分子反响,通过特定的仪器,
17、比如激光共聚焦扫描仪或电荷偶联摄影像机对反响信号的强度进展快速、并行、高效地检测分析,从而判断样品中靶分子的数量。79.有监视分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。80.聚类分析:指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。81.虚拟消化:针对重要疾病特定靶标生物大分子的三维结构或定量构效关系Quantitative structure-activity relationships,QSAR模型,从现有小分子数据库中,搜寻与靶标生物大分子结合或符合QSAR模型的化合物,进展筛选实验研究。82.无监视分析法:这种方法没有内建的
18、分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。83.GenBank:是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等, 1998)。84. EMBL:欧洲分子生物学实验室The European Molecular Biology Laboratory,于1974年由欧洲14个国家加上亚洲的以色列共同发起建立,包括一个位于德国Heidelberg的核心实验室,与三个位于德国H
19、amburg,法国Grenoble与英国Hinxton的研究分部。85.DDBJ:(DNA Data Bank of Japan),于1984年建立,是世界三大DNA 数据库之一,与NCBI的GenBank,EMBL的EBI数据库共同组成国际DNA数据库,每日都 交换更新数据和信息,并主持两个国际年会国际DNA数据库咨询会议和国际DNA数据 库协作会议,互相交换信息,因此三个库的数据实际上是一样的。86.BLAST:是英语Bell Labs Layered Space-Time 的缩写,是一项新的通信技术,它采用多天线系统利用多径传播效应以达到提高频谱利用率的目的。87.BLASTn:是核酸序
20、列到核酸库中的一种查询。库中存在的每条序列都将同所查序列作一对一地核酸序列比对。88.BLASTp:是蛋白序列到蛋白库中的一种查询。库中存在的每条序列将逐一地同每条所查序列作一对一的序列比对。88.Clustsl X:是一种利用渐近法progressive alignment进展多条序列比对的软件。即从多条序列中最相似距离最近的两条序列开始比对,按照各个序列在进化树上的位置,由近与远的将其它序列依次参加到最终的比对结果。89. Entrez:是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处在一起。 Entrez 是由NCBI主持的一个数据库检索系统。
21、90.Medline文摘数据库:是美国国立医学图书馆(The National Library of Medicine, 简称NLM)生产的国际性综合生物医学信息书目数据库,是当前国际上最权威的生物医学文献数据库。91. SRS(sequence retrieval system): 是欧洲生物信息研究所开发的SRSSequence Retrieval System是以界面运行的数据库检索系统,其主要功能是将所有数据库建立参照(cross-references)索引,用户可通过输入查询代码、编号、物种来源、说明、文献、作者、日期、关键词等信息对所有已建立索引的数据库进展检索,从而得到用户所需的
22、序列或相关内容。92. SWLSSMODEL:是一个自动化的蛋白质比拟建模服务器。93.homology modeling:对于一个未知结构的蛋白质,找到一个结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。94.Ab initio prediction:仅根据序列本身来预测其结构95. molecular phylogenetic tree:又名分子进化树,是生物信息学中描述不同生物之间的相关关系的方法。通过系统学分类分析可以帮助人们了解所有生物的进化历史过程。96. gene tree基因树:是指基于单个同源基因差异构建的系统发生树。96. neighborjoin
23、ing method:97. maximum parsimony method:在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。98. MEGA(Molecular Evolutionary Genetics Analysis):is an integrated tool for automatic and manual sequence alignment, inferring phylogenetic trees, mining web-based databases, estimating rates of molecular evolution, and te
24、sting evolutionary hypotheses.99. BioEdit:是一个序列编辑器与分析工具软件。功能包括:序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、根本序列处理功能、质粒图绘制等等。100. EST:(Expressed Sequence Tag)表达序列标签是从一个随机选择的cDNA 克隆,进展5端和3端单一次测序挑选出来获得的短的cDNA 局部序列。101. GSS:基因组勘测序列,是基因组DNA克隆的一次性局部测序得到的序列。包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exon trapped获得基
25、因组序列、通过Alu PCR获得的序列、以与转座子标记序列等。102. ORF:是基因序列的一局部,包含一段可以编码蛋白的碱基序列,不能被终止子打断。P86,指从5端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。103. promoter启动子:是基因gene的一个组成局部,控制基因表达转录的起始时间和表达的程度。104. 3UTR: 3非翻译区的缩写,真核生物的转录终止信号是在 3非翻译区的 : polyA。105. CpG island: CpG双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG保持或高于正常概率。106. coiled coil:卷曲螺旋,是蛋白质中
26、由27条螺旋链相互缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。107. heptad repeat:七肽重复区是典型的卷曲螺旋结构类型之一,由多个七肽单元连接而成的重复序列。108. structure domain: 结构域,是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。109. motif: 蛋白质序列中较短的保守区域,通常为按一定的模式排列的氨基酸残基也称为指纹figurep
27、rint。110. linux operating system:linux 操作系统,Linux 是一类 Unix 计 算机操作系统的统称。Linux 操作系统也是自由软件和开放源 代码开展中最著名的例子。111. BioPerl: an international association of users & developers of open source Perl tools for bioinformatics, genomics and life science 112. PubMed: 是一个免费的生物医学文摘数据库,提供局部论文的摘要与指向全文的。作为 Entrez 资讯检索
28、系统的一局部。113. HGP(human genome project):是一项规模宏大,跨国跨学科的科学探索工程。114. ncRNA:非编码RNANon-coding RNA是指不编码蛋白质的RNA。115. miRNA:是一类由内源基因编码的长度约为22 个核苷酸的非编码单链RNA 分子,它们在动植物中参与转录后基因表达调控。填空题1. 常用的三种序列格式:NBRF/PIR,FASTA和GDE2. 初级序列数据库:GenBank,EMBL和DDBJ3. 蛋白质序列数据库:SWISS-PROT和TrEMBL4. 提供蛋白质功能注释信息的数据库:KEGG京都基因和基因组百科全书和PIR蛋白
29、质信息资源5. 目前由NCBI维护的大型文献资源是PubMed6. 数据库常用的数据检索工具:Entrez,SRS,DBGET7. 常用的序列搜索方法:FASTA和BLAST8. 高分值局部联配的BLAST参数是HSPs高分值片段对,E期望值9. 多序列联配的常用软件:Clustal10. 蛋白质结构域家族的数据库有:Pfam,SMART11. 系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法12. 系统发育树的构建方法: 距离矩阵法,最大简约法和最大似然法13. 常用系统发育分析软件:PHYLIP14. 检测系统发育树可靠性的技术:bootstrapping和Jack-knifing15. 原核生物和真核生物基因组中的注释所涉与的问题是不同的16. 检测原核生物ORF的程序:NCBI ORF finder