换一换

冰豆网 > 资源分类 > DOCX文档下载

预览

生物信息学复习题Word格式.docx

资源ID：21000215 资源大小：136.49KB 全文页数：36页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

生物信息学复习题Word格式.docx

1、在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37 11.E值：衡量序列之间相似性是否显著的期望值。12.低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly（A）。13.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则

2、会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时

3、间概念的支序图。18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。）19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。由于基因重复事件产生的相似序列。） 20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。21.有根树：能够确定所有分析物种的共同祖先的进化树。22.除权配对算法（UPGMA）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类

4、被加入，最终产生树根。23.邻接法（neighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。24.最大简约法（MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。25.最大似然法（ML）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。26.一致树（consensus tree）：在同一算法中产生多个最优树，合并这些最优树得到的树

5、即一致树。27.自举法检验（Bootstrap）：放回式抽样统计法。通过对数据集多次重复取样，构建多个进化树，用来检查给定树的分枝可信度。28.开放阅读框（ORF）：开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基序列。29.密码子偏性（codon bias）：氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子，这种效应称为密码子偏性。30.基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界调控区，预测基因组序列中包含的基因。31.结构域（domain）：保守的结构单元，包含独特的二级结

6、构组合和疏水内核，可能单独存在，也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。32.超家族：进化上相关，功能可能不同的一类蛋白质。33.模体（motif）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20个残基。34.序列表谱（profile）：是一种特殊位点或模体序列，在多序列比较的基础上，氨基酸的权值和空位罚分的表格。35.PAM矩阵：PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。36.BLOSUM矩阵：

7、模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如，在BLOSUM62矩阵中，比对的分值来自不超过62%一致率的一组序列。37.PSI-BLAST：位点特异性迭代比对。是一种专门化的的比对，通过调节序列打分矩阵（scoring matrix）探测远缘相关的蛋白。38.RefSeq：给出了对应于基因和蛋白质的索引号码，对应于最稳定、最被人承认的Genbank序列。39.PDB（Protein Data Bank）：PDB中收录了大量通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结

8、构的描述等。PDB数据库的访问号由一个数字和三个字母组成（如，4HHB），同时支持关键词搜索，还可以FASTA程序进行搜索。40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大，且随核酸序列数据库的更新而更新，但它们均是由核酸序列翻译得到的序列，未经试验证实，也没有详细的注释。41.折叠子（Fold）：在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有特定的空间取向。42.TrEMBL：是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列（CDS）翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中

9、。43.MMDB（Molecular Modeling Database）：是（NCBI）所开发的生物信息数据库集成系统Entrez的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比，对于数据库中的每一个生物大分子结构，MMDB具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等，还提供生物大分子三维结构模型显示、结构分析和结构比较工具。44.SCOP数据库：提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB的连接，序列

10、，参考文献，结构的图像等。可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次依次是类（class）、折叠子（fold）、超家族（super family）、家族（family）、单个PDB蛋白结构记录。45.PROSITE：是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。46.Gene Ont

11、ology 协会：编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质，即，分子功能，生物过程，细胞区室。47.表谱（PSSM）：指一张基于多序列比对的打分表，表示一个蛋白质家族，可以用来搜索序列数据库。48. 蛋白质组p179：是指一个基因组中各个基因编码产生的蛋白质的总体，即一个基因组的全部蛋白产物及其表达情况。49. 中心法则是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。50.一级数据库：数据库中的数据直接来源于实验获得的

12、原始数据，只经过简单的归类整理和注释51.基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。52.序列比对：为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。53.数据库查询（database query）：是指对序列、结构以及各种二次数据中的注释信息进行关键词匹配查找检索。54.数据库搜索（database search）：在分子生物信息学中有特定含义，它是指通过特定的序列相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。5

13、5.相似性（similarity）：数学上，相似性指两个图形的形状完全相似。若存在两个点的集，其中一个能透过放大缩小、平移或旋转等方式变成另一个，就说它们具有相似性。56.同源性：在进化上或个体发育上的共同来源而呈现的本质上的相似性，但其功能不一定相同。57.同一性：是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例。58.一致序列：在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。59. HMM（隐马尔可夫模型）：是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

14、60.简约性信息位点：指基于DNA或蛋白质序列、利用最大简约法构建系统发育树时，在两个及以上分类单元（的序列）中存在差异，且其中至少有两种变异类型在该位点出现两次及以上，此类位点称为简约性信息位点。61.信息位点：由位点产生的突变数目把其中的一课树与其他树区分开的位点。62.非信息位点：对于最大简约法来说没有意义的点。63.标度树：分支长度与相邻节点对的差异程度成正比的树。64.非标度树：只表示亲缘关系无差异程度信息。65.有根树：单一的节点能指派为共同的祖先，从祖先节点只有唯一的路径历经进化到达其他任何节点。66.无根树：只表明节点间的关系，无进化发生方向的信息，通过引入外群或外部参考种，可

15、以在无根树中指派根节点。67.注释（annotation）对数据库中原始的DNA碱基序列添加相关信息（比如编码的基因，氨基酸序列等）或其他的注解。68.基因组注释（Genome annotation）是利用生物信息学方法和工具，对基因组所有基因的生物学功能进行高通量注释，是当前功能基因组学研究的一个热点。69.虚拟细胞：一种建模手段，把细胞定义为许多结构，分子，反应和物质流的集合体。70.质谱（MS）是一种准确测定真空中离子的分子质量/电荷比（m/z）的方法，从而使分子质量的准确确定成为可能。71.分子途径是指一组连续起作用以达到共同目标的蛋白质。72.先导化合物：是指具有一定药理活性的、可

16、通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。73.权重矩阵（序列轮廓）：它们表示完全结构域序列，多序列联配中每个位点的氨基酸都有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法（课件定义）。74.系统发育学（phylogenetic）：确定生物体间进化关系的科学分支。75.系统生物学（systems biology）：是研究一个生物系统中所有组分成分（基因、mRNA、蛋白质等）的构成以及在特定条件下这些组分间的相互关系，并分析生物系统在一定时间内的动力学过程。76.蛋白质组（proteome）：是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。77. E

17、SI电喷雾离子化：一种适合大分子如蛋白质离子化没有明显降解的质谱技术。78. 微阵列芯片：是指采用光导原位合成或微量点样等方法，将大量生物大分子比如核酸片段、多肽分子甚至组织切片、细胞等生物样品有序地固化于支持物（如玻片、尼龙膜等载体）的表面，组成密集二维分子排列，然后与已标记的待测生物样品中靶分子反应，通过特定的仪器，比如激光共聚焦扫描仪或电荷偶联摄影像机对反应信号的强度进行快速、并行、高效地检测分析，从而判断样品中靶分子的数量。79.有监督分析法：这种方法引入某些形式的分类系统，从而将表达模式分配到一个或多个预定义的类目中。80.聚类分析：指将物理或抽象对象的集合分组为由类似的对象组成的多

18、个类的分析过程。81.虚拟消化：针对重要疾病特定靶标生物大分子的三维结构或定量构效关系（Quantitative structure-activity relationships，QSAR）模型，从现有小分子数据库中，搜寻与靶标生物大分子结合或符合QSAR模型的化合物，进行筛选实验研究。82.无监督分析法：这种方法没有内建的分类标准，组的数目和类型只决定于所使用的算法和数据本身的分析方法。83. GenBank：是美国国家生物技术信息中心（National Center for Biotechnology Information ，NCBI）建立的DNA序列数据库，从公共资源中获取序列数据，主

19、要是科研人员直接提供或来源于大规模基因组测序计划（ Benson等， 1998）。84. EMBL：（欧洲分子生物学实验室）（The European Molecular Biology Laboratory），于1974年由欧洲14个国家加上亚洲的以色列共同发起建立，包括一个位于德国Heidelberg的核心实验室，及三个位于德国Hamburg，法国Grenoble及英国Hinxton的研究分部。85. DDBJ：（DNA Data Bank of Japan），于1984年建立，是世界三大DNA 数据库之一，与NCBI的GenBank，EMBL的EBI数据库共同组成国际DNA数据库，每日都

20、交换更新数据和信息，并主持两个国际年会国际DNA数据库咨询会议和国际DNA数据库协作会议，互相交换信息，因此三个库的数据实际上是相同的。86. BLAST：是英语Bell Labs Layered Space-Time 的缩写，是一项新的通信技术，它采用多天线系统利用多径传播效应以达到提高频谱利用率的目的。87.BLASTn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。88.BLASTp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。88.Clustsl X：是一种利用渐近法（progress

21、ive alignment）进行多条序列比对的软件。即从多条序列中最相似（距离最近）的两条序列开始比对，按照各个序列在进化树上的位置，由近及远的将其它序列依次加入到最终的比对结果。89. Entrez：是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez 是由NCBI主持的一个数据库检索系统。90.Medline文摘数据库：是美国国立医学图书馆（The National Library of Medicine, 简称NLM）生产的国际性综合生物医学信息书目数据库，是当前国际上最权威的生物医学文献数据库。91. SRS（seque

22、nce retrieval system）：是欧洲生物信息研究所开发的SRS（Sequence Retrieval System）是以WWW界面运行的数据库检索系统，其主要功能是将所有数据库建立参照（cross-references）索引，用户可通过输入查询代码、编号、物种来源、说明、文献、作者、日期、关键词等信息对所有已建立索引的数据库进行检索，从而得到用户所需的序列或相关内容。92. SWLSSMODEL：是一个自动化的蛋白质比较建模服务器。93.homology modeling：对于一个未知结构的蛋白质，找到一个已知结构的同源蛋白质，以该蛋白质的结构为模板，为未知结构的蛋白质建立结构

23、模型。94.Ab initio prediction：仅根据序列本身来预测其结构95. molecular phylogenetic tree：又名分子进化树，是生物信息学中描述不同生物之间的相关关系的方法。通过系统学分类分析可以帮助人们了解所有生物的进化历史过程。96. gene tree（基因树）：是指基于单个同源基因差异构建的系统发生树。96. neighborjoining method：97. maximum parsimony method：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。98. MEGA（Molecular Evolutionary Ge

24、netics Analysis）：is an integrated tool for automatic and manual sequence alignment, inferring phylogenetic trees, mining web-based databases, estimating rates of molecular evolution, and testing evolutionary hypotheses.99. BioEdit：是一个序列编辑器与分析工具软件。功能包括：序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列

25、处理功能、质粒图绘制等等。100. EST：（Expressed Sequence Tag）表达序列标签是从一个随机选择的cDNA 克隆，进行5端和3端单一次测序挑选出来获得的短的cDNA 部分序列。101. GSS：基因组勘测序列，是基因组DNA克隆的一次性部分测序得到的序列。包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exon trapped获得基因组序列、通过Alu PCR获得的序列、以及转座子标记序列等。102. ORF：是基因序列的一部分，包含一段可以编码蛋白的碱基序列，不能被终止子打断。（P86，指从5端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。1

26、03. promoter（启动子）：是基因（gene）的一个组成部分，控制基因表达（转录）的起始时间和表达的程度。104. 3UTR： 3非翻译区的缩写，真核生物的转录终止信号是在 3非翻译区的： polyA。105. CpG island： CpG双核苷酸在人类基因组中的分布很不均一，而在基因组的某些区段，CpG保持或高于正常概率。106. coiled coil：卷曲螺旋，是蛋白质中由27条螺旋链相互缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件，在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。107. heptad repeat：七肽重复区是典

27、型的卷曲螺旋结构类型之一，由多个七肽单元连接而成的重复序列。108. structure domain：结构域，是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元，每个结构域自身形成紧实的三维结构，可以独立存在或折叠，但结构域与结构域之间关系较为松散。109. motif：蛋白质序列中较短的保守区域，通常为按一定的模式排列的氨基酸残基也称为指纹（figureprint）。110. linux operating system：linux 操作系统，Linux 是一类 Unix 计算机操作系统的统称。Linux 操作系统也是自由软件和开放源代码发展中最著名的例

28、子。111. BioPerl： an international association of users & developers of open source Perl tools for bioinformatics, genomics and life science 112. PubMed：是一个免费的生物医学文摘数据库，提供部分论文的摘要及指向全文的链接。作为 Entrez 资讯检索系统的一部分。113. HGP（human genome project）：是一项规模宏大，跨国跨学科的科学探索工程。114. ncRNA：非编码RNA（Non-coding RNA）是指不编码蛋白质

29、的RNA。115. miRNA：是一类由内源基因编码的长度约为22 个核苷酸的非编码单链RNA 分子，它们在动植物中参与转录后基因表达调控。填空题1. 常用的三种序列格式：NBRF/PIR,FASTA和GDE2. 初级序列数据库：GenBank，EMBL和DDBJ3. 蛋白质序列数据库：SWISS-PROT和TrEMBL4. 提供蛋白质功能注释信息的数据库：KEGG（京都基因和基因组百科全书）和PIR（蛋白质信息资源）5. 目前由NCBI维护的大型文献资源是PubMed6. 数据库常用的数据检索工具：Entrez，SRS，DBGET7. 常用的序列搜索方法：FASTA和BLAST8. 高分值局部联配的BLAST参数是HSPs（高分值片段对），E（期望值）9. 多序列联配的常用软件：Clustal10. 蛋白质结构域家族的数据库有：Pfam，SMART11. 系统发育学的研究方法有：表现型分类法，遗传分类法和进化分类法12. 系统发育树的构建方法：距离矩阵法，最大简约法和最大似然法13. 常用系统发育分析软件：PHYLIP14. 检测系统发育树可靠性的技术：bootstrapping和Jack-knifing15. 原核生物和真核生物基因组中的注释所涉及的问题是

注意事项

本文（生物信息学复习题Word格式.docx）为本站会员主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。