生物信息学复习题Word格式.docx
- 文档编号:21438974
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:26
- 大小:102.06KB
生物信息学复习题Word格式.docx
《生物信息学复习题Word格式.docx》由会员分享,可在线阅读,更多相关《生物信息学复习题Word格式.docx(26页珍藏版)》请在冰豆网上搜索。
在得到一条未知结构蛋白质的序列时,我们可以采取如下的步骤进行结构预测:
第一步:
应该是判断目标序列中是否包含关键性的特征,如应该检查序列的潜在的跨膜片段;
是否含有那些单氨基酸重复的区域,有则要作特殊处理。
通过用Interpro之类的工具分析序列可以查寻这个蛋白质中可能存在的已知结构域,揭示出蛋白质中所有的结构域组成。
另外,可以用PSI-BLAST寻找和它相关的其它序列或者部分序列(结构域)。
第二步:
如果查询序列与已知结构的序列有较高的相似度,则可以采用比较建模法,由SWISS-MODEL提供的网络服务可以完成这个任务,如果SWISS-MODEL上的搜索是成功的,则可以直接通过它进一步建立完整的结构模型。
第三步:
当不能用比较建模时,下一步则应该是二级结构预测。
二级结构预测可以用于任何蛋白质序列,(球蛋白的结构域的预测要比膜蛋白更加准确)。
将每个残基安排到α螺旋、β折叠或无规卷曲中去。
二级结构预测完成之后则是进行折叠识别,该方法能确定二级结构是如何包裹成三级折叠的,这类方法的预测精度通常也要比标准比较建模法低得多。
蛋白质序列分析
1、名词解释:
同源蛋白、蛋白质同源分析。
同源蛋白:
生物大分子序列是分子进化的产物,从共同祖先序列进化而来的蛋白质通常称为同源蛋白。
蛋白质同源分析:
基于检测的同源蛋白从而外推得到某特定蛋白的某些特性的方法称为蛋白质的同源分析。
常有的软件有:
BLAST等PSI-BLAS迭代搜索)T和隐马尔可夫模型(HMMs。
2、名词解释:
蛋白质二级数据库并说出几个蛋白质二级数据库(至少3个)。
同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基的重要信息。
因此,将蛋白质的多序列联配结果储存在数据库存储就显得尤为重要了,存储这些信息的数据库称为蛋白质二级数据库。
Prosite数据库:
基于多序列比较得到的单一保守序列片段,或称序列模体。
Prints(蛋白质序列指纹图谱数据库)
Blocks(蛋白质序列模块数据库)
Profiles(序列概貌数据库)
Pfam(蛋白质序列家族数据库)采用了隐马尔可夫模型
Identify(蛋白质序列识别数据库)
3、蛋白质结构域的概念及结构域的特点。
蛋白质结构域(proteindomain):
必须是一个独立单元。
是蛋白质中结构紧密(compact)的、半独立的单元(semi-independent)在三维结构上呈现几何独立的部分;
是蛋白质三维结构中可自折叠的稳定单元(stableunit),是可独立于序列的剩余部分而折叠为特定三维结构的那部分序列;
是可重现的功能和进化模块,是可定义单一明确功能的部分蛋白质序列。
保守性。
4、蛋白质序列的理化性质分析包括哪一些?
并举出一种软件。
蛋白质理化性质的分析通常包括:
蛋白质的分子量、等电点(pI)、氨基酸组成、疏水性和亲水性分析等。
ComputepI/Mw、ScansitePI/mw、ANTHEPROT。
5、蛋白质序列的基本性质包括哪一些?
并举出两种软件。
蛋白质序列的基本性质分析,一般包括蛋白质的跨膜螺旋、卷曲螺旋、二硫键位置、翻译后修饰、信号肽与亚细胞定位、磷酸化位点分析等。
PSORTTargetpDASHMMTOPSOSUITMAPTMHMMPredicprotein
6、说明蛋白质功能的三个层次(可能简答)。
分子功能、细胞功能、表型功能等三个层次来描述蛋白质功能。
molecularfunction:
蛋白质的特殊绑定位点、催化活性和构象变化等。
cellularfunction:
一定细胞环境下代谢途径、信号级联的参与情况的。
phonotypicfunction:
生物体内的表型,如是否患有疾病及其疾病病理等。
7、蛋白质功能注释的根本目标是什么?
前蛋白质序列的功能注释方法基本上是经过同源比对进行已知的蛋白质功能注释信息的传递,目前大规模蛋白质功能注释工作主要集中为将单个基因产物划分到一个已知的蛋白质类别中。
蛋白质鉴定与蛋白质相互作用数据分析
1、蛋白质组及蛋白质组学?
蛋白质组(proteome):
是指一个基因、一个细胞或组织所表达的全部蛋白质成分。
蛋白质组学首先利用双向电泳技术分离蛋白质组分,然后利用计算机软件对所得图像进行处理,从胶上回收蛋白质并采用氨基酸成份分析、微量蛋白质序列分析、质谱分析等技术进行鉴定,从而获得蛋白质组分的物理、化学及生物学参数,如分子量等。
将获得的数据与已知蛋白质数据库中的数据进行比较,获得相关信息。
2、蛋白组学的核心技术是什么?
双向电泳作为核心技术。
3、双向电泳的两向分别是什么电泳?
第一向是等电聚焦(isoelectricfocusing,IEF),第二向是SDS-聚丙烯酰胺凝胶电泳(SDS-PAGE)。
4、利用裂解肽段的分子量可产生肽阶梯序列、肽序列标签、肽质指纹等蛋白质属性数据,用于鉴定蛋白质。
5、末端序列标签(Terminalsequencetags)。
末端序列标签(Terminalsequencetags):
可以用来鉴定蛋白质的N端、C端氨基酸序列。
常用的软件是TagIdent。
6、蛋白质相互作用的形式有哪些?
蛋白质分子的聚合,分子杂交,分子自我装配,酶复合体,分子识别。
7、说出三种研究蛋白相互作用的实验方法。
噬菌体展示技术,酵母双杂交方法,串联吸附质谱分析TAP/MS,蛋白质芯片为基础的研究方法。
8蛋白质相互作用组研究以及遇到的问题。
剪不断理还乱的“怪圈”,没有标尺的度量,四维尺度下的研究,永不孤独,技术的烦恼。
基因预测与基因组注释
(1)
1、什么是寡核苷酸,简并寡核苷酸?
寡核苷酸(oligonucleotide):
是一类只有20个以上碱基对的短核苷酸片段的总称(包括DNA和RNA)寡核苷酸可以很容易与它们的互补链链接,所以常用来作为探针(probe)确定DNA和RNA的结构,用作引物来进行聚合酶链式反应。
简并寡核苷酸:
是代表编码单个氨基酸的所有可能组成的不同序列的混合物作为识别、鉴定及扩增序列用的寡核苷酸序列,应该用保守序列来设计如果知道的是氨基酸序列还可能要设计其简并寡核酸算序列。
2、引物设计常用的工具举例、PCR用的引物约多个碱基?
软件举例:
primer3,引物长度一般在15~30碱基之间。
PCR引物的设计原则:
①引物应用核酸系列保守区内设计并具有特异性。
②产物不能形成二级结构,否则引物自身会折叠成发夹状结构。
③引物长度一般在15~30碱基之间。
④G+C含量在40%~60%之间。
⑤碱基要随机分布,不要有聚嘌呤或者有聚嘧啶存在。
⑥引物自身不能有连续4个碱基的互补。
⑦引物之间不能有连续4个碱基的互补。
⑧引物5′端可以修饰。
⑨引物3′端不可修饰。
⑩引物3′端要避开密码子的第3位,因为第三位易发生简并会影响扩增的特异性与效率。
3、基因的概念、简单介绍真核基因的结构?
基因(gene):
具有遗传效应的DNA片段。
真核基因的结构:
4、DNA序列污染的主要来源?
主要的污染源:
a)载体b)接头和PCR引物c)转座子和插入序列d)DNA/RNA纯度不好。
5、ORFS的概念说出一种常用查找软件。
ORF(openreadingframe):
一个起始密码子和终止密码子之间的序列称为一个开放读框,当一个DNA序列被测定以后,它编码的蛋白质未知时通常使用这一术语。
工具:
ORFFinder(NCBI)。
6、CpG岛的概念及其常用查找软件。
CpG岛(CGisland):
也称为HTF岛,是一些富含GC的小区域,定义为Y值(观测到的CpG双碱基数与预期的数目之比)并且含量大于50%的序列区域,它可以有几百bp到几千bp长。
通常出现在管家基因(housekeepinggene)或频繁表达基因的启动子周围。
EMBL提供的工具:
CpGPlot、CpGReport、Isochore。
7、promoter、spliceosome、terminationsignal。
启动子(promoter):
DNA分子上能与RNA聚合酶结合并形成转录起始复合体的区域,在许多情况下,还包括促进这一过程的调节蛋白的结合位点,是一个十分有层次的结构,通常所说的启动子包括:
转录因子结合位点、核心启动序列和上下游相关的调控元件。
剪切体(spliceosome):
在真核RNA的转录过程中,首先转录整个基因,然后切除掉其中的内含子,外显子拼接成RNA这个过程有许多相关因子作用,如:
SnRNP和hnRNP,这些因子所构成的复合体称为spliceosome。
转录终止信号(terminationsignal):
由反向重复序列以及特定5’-AATAAA-3’组成,反向重复序列的转录产物可形成发卡结构,特异性的被RNA聚合酶转录复合体识别,而是转录终止,AATAAA同时是polyA加尾信号。
多腺苷酸化信号的分析可以帮助划定基因的范围。
基因预测与基因组注释
(2)
1、什么叫基因注释?
基因注释(annotation):
指从原始序列工程数据中获得有用的生物学信息。
基因组注释(genomeannotation):
主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
2、基因预测的方法有哪些?
基因预测方法的三种类型:
序列相似性分析方法,从头预测(统计分析)方法,多信息融合的方法。
3、名词解释EST。
EST(expressedsequencetags):
是从实际选择的cDNA克隆中进行5’端或者3’端一次性测序获得的cDNA序列片段,长度一般为400-600bp代表了一个完整基因的一部分。
4、特征级建模常用的信息有哪些?
功能位点信号(起始点、终止点、启动子、终止子、拼接位点……),同义密码子,最优密码子,反密码子,碱基组成偏好性,密码子偏好性。
5、密码子的碱基组成偏好性及密码子的偏好性。
碱基组成偏好性(basecompositionbias):
由于不同氨基酸及其不同的同义密码子使用频率的不同,导致了在编码序列中密码子的三个位置上4种碱基的概率有明显的差别,密码子的三个位置上碱基概率分布特征称为碱基组成偏好性。
密码子偏好性(condonbias):
氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高校表达的基因使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子的偏好性(某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,此现象被称为密码子偏好性(CodonUsagebias)。
6、基因预测的策略。
DNA序列分的总结(基因预测的策略)
当我们拿到一个DNA序列后,我们要对其进行分析,其过程如下:
一、序列相似性分析。
在DNA序列中查找是否有序列污染,若有把污染序列去除。
在序列中搜索重复元件,重复元件会对序列分析造成很大的困扰,若有重复元件要进行屏蔽。
对序列做同源性搜索,如果同源性检测结果提示序列与某功能区域高度同源就可以对基因功能的定位做出非常有力的判断,也可以依据高度同源的蛋白质或EST序列非常准确的重构基因的结构,若没有发现同源序列则要对DNA序列进行基于统计的分析。
二、基于统计的分析方法。
构建基因模型:
特征级模型(可利用的信息包括功能位点信号、密码子偏好性、外显子内含子等构件的长度分布、编码区非编码区GC含量的差异性)、单元级建模、基因级建模、基因组级建模,通过建模构建出目标函数。
7、基于统计分析的基因预测软件有哪些?
(至少举出两例)。
软件有GENEMARK、GENESCAN、GENIE、HMMgene等。
人类遗传病基因和基因芯片
1、人类遗传病有哪些种类?
基因病(单基因遗传病,多基因遗传病),染色体病,线粒体病。
2、什么是遗传度?
遗传度是人体性状或者疾病由基因决定程度,一般用百分比表示。
一个性状的表现是受遗传和环境两方面因素决定的。
遗传度说明了两者作用的相对大小,即从变异的角变,将遗传作用与环境作用的相对重要性给以定量化。
3、说出一种疾病基因相关的生物信息学数据库。
在线人类孟德尔遗传:
OnlineMendelianInheritanceinMan(OMIM)是一个综合的、权威的、不断更新的收集人类基因和遗传疾病相关研究成果的知识库。
4、基因表达数据
反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度,可以用于分析哪些基因的表达发生了改变,基因表达之间存在何种相关性,在不同条件下基因之间如何相互影响,等等。
它们在生物学、药理学、医学等领域有重要的应用。
(填空)
生物信息学在创新药物研究中的应用
1、药物靶标名解
药物靶标(drugtarget):
指导致疾病(DiseaseorDisorder)或与疾病产生密切相关的生物大分子,包括蛋白质(酶、受体、离子通道),核酸(DNA、RNA),糖类等。
药物可与其专一的结合来加强或者阻止它进行正常生理活动。
2、先导化合物名解
先导化合物(leadmolecule):
是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。
3、生物信息学在创新药中研究中发挥作用主要有两个方面
药物靶点发现,药物基本设计
4、主要的药物靶标
主要的药物靶标:
细胞膜受体约占靶标总数的45%,酶占28%,激素和因子类占10%,离子通道占5%,核受体占2%,其它占7%。
5、说出一种分子对接的常用软件
分子对接方法:
主要用来从化合物数据库中搜寻与受体生物大分子有较好亲和力的小分子,从而发现全新的先导化合物。
常用软件有:
Dock和Flex。
分子系统发育分析
1、系统发育学(phylogeny)系统发育树(系统树)名词解释
系统发育学(phylogeny):
生物体间的相似和差异可以用来推断进化关系,确定生物体间进化关系的学科分支,即系统发育学。
系统发育树(系统树):
用来显示进化关系,节点用来表示不同的生物体,链接用来显示不同的遗传路线。
2、有根树和无根树各反映了什么?
Arootedphylogenetictreeisatreewithauniquerootnodecorrespondingtothe(usuallyimputed)mostrecentcommonancestorofalltheentitiesattheleaves(akatips)ofthetree.(反映了树上物种或基因的时间顺序)
Unrootedtreesillustratetherelatednessoftheleafnodeswithoutmakingassumptionsaboutcommonancestry.(只反映分类单元之间的距离,而不涉及祖先问题)
3、什么是特征性数据和距离数据?
构建进化树的数据:
特征性数据:
它提供基因、个体、物种、群体信息。
距离数据:
(相似性数据)提供成对基因、个体、物种、群体间相似性的数据。
4、构建进化树的三种方法?
距离矩阵法(distancematrixmethod)根据物种间的距离。
最大简约法(maximumparsimony)寻找物种间最小的变数。
最大似然法(maximumlikelihood)寻找最大可能性的变化路径。
5、无根树增加根的两种方法?
使用外群(可以使生物物种);
没有明显外群的情况下,可以将最远距离的两个物种的中点作为根。
7、什么叫分子系统发育?
分子系统发育:
生物体不同株系后代的DNA在进化过程中积累突变,并导致大分子序列的分歧(DNA、RNA和蛋白质序列)。
基于大分子序列间差异的系统发育树被称为分子系统发育。
8、研究不同的类群,如何选择大分子序列?
研究进化距离相近的类群,应该选择进化足够快的分子,从而明确区分这些密切相关的物种;
研究分歧大的分子要选用高度保守、突变很少的大分子序列;
选择合适、准确的同源序列(如:
要选择垂直同源而不选择水平同源)。
9、名词解释垂直同源、水平同源。
垂直同源体:
不同生物体中具有相同功能的同源基因。
水平同源体:
具有不同或者相关功能的同源基因。
序列比对与相似性搜索
1、生物最重要思想是什么?
比较:
是重要、常见的科学研究方法,通过将研究对象进行比较来寻找对象可能具有的特征。
2、序列比对的生物学意义?
①通过比较两个序列之间的相似区域和保守位点,寻找二者可能的进化关系;
②将多个蛋白质和核酸同时进行比较,寻找有进化关系的序列之间共同的保守区域、位点和序列特征谱,从而探索导致它们产生共同功能的序列模式;
③蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;
蛋白质序列与具有三维结构的蛋白质相比较,获得蛋白质折叠类型的信息。
3、碱基组成及相邻碱基概率的特点。
碱基组成:
DNA序列由4种碱基组成,碱基以不同的频率分布。
碱基相邻的频率不是独立的,一般不等于单个碱基频率的乘积即。
4、名词解释:
联配、空位、联配分值、空位罚分。
联配(alignment:
[ə‘lainmənt]对齐):
两条序列上下叠放,其中垂直上下放置的相应字母(basesoraminoacids)被联配或等价。
空位(gap):
并非一条特定序列中所有的字母在另一条序列中都有等价字母,有些字母与序列中的任何字母都没有配上。
当这种情况发生时,我们说引入了一个空位。
这里引入空位的目的是为了得到一个更好的两序列联配,使联配中更多相同字母能够配对。
联配分值:
反映联配结果的质量(高分说明好的联配),其中每个匹配的字母给一正分(如1分),该分值是可加和的,再对引入的空位减去其罚分,由此得到简单的联配分值。
复杂的空位罚分:
记为A+Bl。
A应用在任何长度的空位,所以A被称作空位开放罚分。
常数B被称为空位扩展罚分,开放一个空位应该被重罚(罚分=A),但是一旦某个空位被开放,扩展该空位则应该得到较低的罚分(B)。
5、联配算法中最有名的两种算法的名称是什么?
说出它们是整体联配还是局部联配,他们的良好特性是确定了最短距离这一概念。
Needleman-wunsch算法,Smith-waterman算法。
Needleman-wunsch算法:
是一种整体联配算法(globalalignment)最佳联配中包括了全部的最短匹配序列。
Smith-waterman算法:
是在Needleman-wunsch算法基础上发展而来的一种局部联配算法(localalignment)。
它们良好的特性在于它们确定了最短距离这一思想,是一种动态规划的算法(Dynamicprogamming)。
6、相似性和同源性的概念。
相似性(similarity):
是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
同源性(homology):
只有当序列从一个共同的祖先进化分歧而来,才是有同源性。
如果不同物种的两个同源基因有相同的功能,就称它们是垂直同源体(ortholog);
当同一或不同物种的两个基因有不同的功能,就把它们称为是水平同源体(paralogs)。
序列有50%的相似性,有可能是同源,而不能说有50%的同源性。
7、替换矩阵的概念,说出最有名的两种替换矩阵。
替换矩阵(sustitutionmatrics):
包含了在联配中各种匹配方式如何赋分的信息,故替换矩阵又称为计分矩阵。
氨基酸替换矩阵要比碱基替换矩阵复杂的多,最为有名的是PAM和Blosum,它们考虑了一种氨基酸变成另一种氨基酸的概率差距。
8、最常用的两种比对工具是什么?
BLAST和FASTA。
9、解释p值和E值
如何确定所识别的序列是有生物学意义的?
要用到p-值和E值。
已识别的相似度分值S的p值是指:
组成和长度相似的两条不相关序列间随机匹配得到的分值至少是S值(即大于或等于S)的概率,很低的p值有意义。
E(期望)值:
对于某个已识别出的相似度值S,E值是分值大于等于S的期望频率,该值可以被解释为期望随机得到等于S或大于S值的分值的数目,E(期望)值越小匹配越好。
绪论及生物信息学数据库
1、生物信息学的概念及其组成部分
生物信息学(Bioinformatics):
是一门交叉学科,包含了生物信息的获取、处理、储存、分析、解释和应用在内的所有方面,它综合运用了生物学、计算机科学和数学等多方面的知识和方法,来阐述和理解大量生物学数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。
生物信息学的三个组成部分:
1建立可以存放和管理大量生物信息学数据的数据库;
②研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具;
③使用这些工具去分析和解释不同类型的生物学数据。
2、生物信息学的主要研究领域。
①生物数据的建立与搜索;
②序列比较与相似性搜索;
③基因组结构注释;
④蛋白质结构与功能的预测;
⑤基因组数据分析;
⑥比较基因组合系统发生遗传学分析;
⑦功能基因组和蛋白质组学数据分析;
⑧信号传导、代谢和基因调节途径的构建与描述;
3、初级数据库二级数据库的概念,说出几个数据并说明包含什么数据。
一级数据库(primarydatabase):
数据直接来源于实验获得原始数据,只经过简单的归类、整理和注释。
例如GenBank、EMBL、DDBJ、SWISSPORT、PDB。
二级数据库(secondarydatabase):
在一级数据库、实验数据和理解分析的基础上针对特定的目标衍生而来,是对生物学知识和信息的进一步整理。
例如humangenomedatabasesGDB转录因子数据库等。
4、简述核酸序列的测序。
①DNA测序一般原理
DNA测序一般采用全自动的荧光标记链终止反应完成,该法利用了DNA聚合酶能从脱氧核糖核苷酸(dNTP)延伸但不能从双脱氧核
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 复习题