最新中科院生物信息学期末考试复习题资料Word下载.docx
- 文档编号:21905945
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:23
- 大小:1.12MB
最新中科院生物信息学期末考试复习题资料Word下载.docx
《最新中科院生物信息学期末考试复习题资料Word下载.docx》由会员分享,可在线阅读,更多相关《最新中科院生物信息学期末考试复习题资料Word下载.docx(23页珍藏版)》请在冰豆网上搜索。
数据来源于大量的序列小片段,EST较短,故关键在正确拼接。
方法有基因组序列比对、拼接、组装法等。
经常采用SiClone策略。
其主要步骤有:
构建数据库;
将序列纯化格式标准化;
从种子库中取序列和大库序列比对;
延长种子序列,至不能再延长;
放入contig库
①构建若干数据库:
总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库;
②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质;
③用种子和纯化的EST数据库比对
④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸;
⑤判断是否为全长cDNA序列。
(利用EST数据库:
原理:
当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。
根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。
而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。
估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。
3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么?
当前的困难是什么,如何克服?
(核酸或氨基酸序列进行进化研究要进行哪些计算步骤?
当前遇到什么问题?
怎样解决?
计算步骤,构建系统进化树,其主要步骤如下:
1)序列相似性比较。
就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。
完成这一工作只需要使用两两序列比较算法。
常用的程序包有BLAST、FASTA等;
2)序列同源性分析。
是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。
这是理论分析方法中最关键的一步。
完成这一工作必须使用多序列比较算法。
常用的程序包有CLUSTAL等;
3)构建系统进化树。
根据序列同源性分析的结果,重建反映物种间进化关系的进化树。
为完成这一工作已发展了多种软件包,如PYLIP、MEGA等;
4)稳定性检验。
为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。
通用的方法使用Bootstrap算法。
【
(1.序列相似性比较:
就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么,完成这一工作只需要使用两两序列比较算法。
常用的序列包有BBLAST、FASTA等;
(2.序列同源性分析:
将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小,这是理论分析方法中最关键的一步,完成这一工作必须使用多序列比较算法,常用的程序包有CLUSTAL等;
(3.构建系统进化树:
根据序列同源性分析的结果,重建反应物种间进化关系的进化树,为完成这一工作,已发展了多种软件包,如PYLIP、MEGA等
(4.稳定性检验:
为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。
通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。
】
当前的主要困难:
是发现了基因的横向迁移(LGT)现象,即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。
克服LGT的方法(可能的解决途径):
1)纵向思路:
选择垂直进化而来的序列进行研究,即去除横向迁移的数据库,如COG数据库;
2)横向思路:
发展基于完整基因组构建进化树,即使用全基因组数据库进行基因组水平上的对比;
利用生物体的蛋白质组构建进化树。
选取特征对比,不同长度的序列字符串进行对比后,对照其genome进行归一化;
ORF对比,将allpredictedORF采用COG的分类规则进行分类,再构建进化树
4.什么是SNP?
为什么SNP的研究是重要的?
SNP研究有哪些优点?
举出2~3个SNP相关的网站。
SNP是指单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,代表了基因组水平上遗传密码的变异,由于这种变异很多以单碱基突变的形式出现,因此称为单核苷酸多态性;
它反映了不同个体间、正常与异常个体之间基因组上的差别,现在这个概念有所扩大,不限于一个核苷酸的差异。
重要性:
因为SNP研究是基因组领域理论成果走向应用的关键步骤,是联系基因型和表现型之间关系的桥梁,是研究人类基因组计划走向应用的重要步骤。
优点:
(1)SNP在基因组中分布相当广泛,使人们有机会发现与各种疾病相关的基因组突变;
(2)不直接导致疾病基因表达的SNP,与某些疾病基因相邻,成为重要标记,有助于发现疾病基因
(3)从实验操作来看,通过SNP发现疾病相关基因突变,比通过家系发现更加容易。
(4)基础研究中非常重要,如对Y染色体SNP分析有重要成果。
SNP的特点:
1.位点丰富
2.具有代表性
3.遗传稳定性
4.易于进行自动化,规模化分析,缩短了研究时间
SNP研究的意义:
通过大批量、高通量的SNP的发现与鉴定,人类SNP—Haplotype遗传图谱的构建,在连锁不平衡基础上的关联分析等,有望为人类致命基因的寻找和疾病的防治提供快速和有效的途径,一系列发现和检测SNP的方法,构建图谱的策略,及连锁不平衡和关联分析等技术,正在动植物研究领域中受到广泛的关注,毫无疑问将在分子和群体遗传、动植物育种和生物进化等研究领域中发挥越来越大的作用。
SNP相关的一些网站:
1)SNPConsortium'
sdatabase(http:
//snp.cshl.org/index.html)
2)NCBISNPdatabase将这些数据进行整理,去掉冗余,使每个SNP都是唯一的。
此时的SNP被称为referenceSNP或refSNP。
((http:
//www.ncbi.nlm.nih.gov/SNP/overview.html)
3)TheHumanGenicBi-AllelicSequencesDatabase(HGBASE)这一数据库收录了人基因组中所有已知的序列变化,包括:
SNPs、序列的插入和缺失(Indels)、简单重复序列等。
(http:
//hgbase.cgr.ki.se/)
4)TheHumanGeneMutationDatabase(HGMD)(http:
//www.hgmd.org/)
5)TheProteinMutantDatabase(PMD),蛋白突变数据库。
收录了蛋白质特定位点的氨基酸突变信息,以及这些突变对蛋白质结构功能的影响。
//pmd.ddbj.nig.ac.jp/)
6)TheAlleleFrequencyDatabase(ALFRED):
人类群体等位基因频率数据库,http:
//alfred.med.yale.edu/alfred/index.asp
5.什么是系统生物学?
系统生物学对生命科学概念上的发展?
系统生物学对生物功能实现的理解有何本质变化?
系统生物学的研究思路是什么?
系统生物学是指在系统的层面上研究生命活动。
(研究一个生物系统中所有组成成分的构成,以及特定条件下组分间互作关系。
【系统生物学就是自基因组研究以来,各个层次的所有资料和数据(包括基因组测序数据,功能基因组数据,蛋白质三维结构信息以及相互作用的数据等)的整合,以及这些整合数据为基础建立数学模型,再以这些模型模拟仿真研究生命活动的影响之后生命活动的反应以及变化】
包含三个相互衔接的组成(三部曲):
整合数据,即整合所有各个层次(DNA水平,RNA水平,蛋白质水平,蛋白质相互作用水平)的信息数据;
系统建模,即用这些信息构建描绘生命活动的数学模型;
预测未知,即用这个模型预测生命未来的发展及外界干扰后系统的变异(生命活动及外界因素变化对其产生的影响)。
学术概念上的发展主要有:
传统生物学是从基因组序列到结构,再到功能,而它从各个层次的相互作用到网络,再到功能。
与以往不同的是,系统生物学一开始就考虑元件之间的相互作用,把整个生命活动作为网络,考虑其相互作用。
1)研究思路的变化:
传统的分子生物学研究步骤一般为:
DNA序列→蛋白结构→蛋白功能(一维),而系统生物学是在二维的角度研究生命科学,即:
相互作用→网络→功能,是由一组基因产生并相互作用共同实现的。
2)看待生命活动本质的变化:
因为没有一个生命活动是靠一个基因完成的,生命活动是一组基因相互作用实现的,这种相互作用形成一个网络,既包括每个单元的结构,又包括单元与单元之间的相互作用。
因此,系统生物学不仅考虑每个基因的活动,还描述了基因间的相互作用并导致了网络的产生。
(系统生物学与传统生物学看待生命活动有着本质的不同:
系统生物学认为生命活动是由一组基因及其相互作用来实现其过程的,这种相互作用形成了一个网络,既包括每个单元的结构,又包括单元与单元之间的相互作用,因此在考虑结构的过程中考虑其结构间的相互作用,一组一组地研究。
而传统的分子生物学考虑的只有结构,是一个一个地去研究。
其对生物功能实现的理解发生了本质性变化:
它不仅考虑单个分子而且考虑其间相互作用,把整个生命活动作为一个相互作用的网络来研究其功能,基因组只是网络中的一部分,只有通过相互作用的网络才能体现功能;
通过系统地整合生物过程不同阶段的分散数据,如基因组,转录组,蛋白组,代谢组,可以对复杂的生物过程,如折叠、信号传导途径、代谢途径更好地模拟,研究生物过程的动态变化;
它不仅全息的了解复杂的生命系统中的所有成分以及他们之间的动态联系,还可以预测如果这个系统一旦受到了刺激和外界干扰,系统未来的行为是什么。
系统生物学与传统生物学有什么不同:
区别:
传统生物学:
序列→结构→功能,只考虑单个个体,单个gene,单个蛋白质
系统生物学:
相互作用→网络→功能,除考虑单个个体,单个gene,还考虑个体与个体之间的相互作用,把整个生命活动作为一个网络来考查它们的相互作用。
(传统分子生物学是从基因组中发现特殊序列,即基因,然后找到基因编码的蛋白,再通过测知其结构,而知其功能。
而系统生物学研究是从各个层次的相互作用到网络,再到功能。
系统生物学不仅考虑单个分子,而且考虑其间相互作用,认为生命活动由大量相互作用的结构单元组成,这些结构单元形成网络。
基因组只是网络中的一部分,只有通过相互作用的网络才能体现功能。
系统生物学与分子生物学有什么不同:
分子生物学:
序列→结构→功能,只考虑单个gene,单个蛋白质
是研究生物系统组成成分的构成与相互关系的结构、动态与发生,以系统论和实验、计算方法整合研究为特征的生物学。
系统生物学不同于以往仅仅关心个别的基因和蛋白质的分子生物学,在于研究细胞信号传导和基因调控网路、生物系统组成之间相互关系的结构和系统功能的涌现。
系统生物学的研究思路(研究流程):
1.针对选定生物系统进行实验设计,了解系统所有组成成分:
基因,RNA,蛋白,膜脂等
2.通过系统行为动力学分析,总结系统设计和控制规律
3.通过总结规律来提出新的实验设计,验证系统模拟的正确性
【分子生物学与系统生物学的区别与联系?
二者的区别和联系主要从宏观和微观上讲。
分子生物学的研究采用典型的还原论方法,研究对象主要是分子水平上的,即生物系统中的大分子、信号分子的结构、生化性质以及功能,基因表达过程中的调控,以及DNA重组。
分子生物学只研究系统的组成元素,最后给出系统的组成元素清单,它是系统生物学的基础,但它的研究结果只能解释生物系统的微观或局部现象,无法说明系统整体所具有的功能从何而来。
而系统生物学作为一个整体,表现出完善的整体行为,而组成系统的细胞、基因、蛋白质等只能作为系统的一个构件、一个元素、通常情况下它无法表现出“系统”行为。
系统生物学与分子生物学研究对象不同,系统生物学研究的是系统整体,研究由系统元素形成有功能的整体所依赖的组织方式和潜藏规则,它同时研究系统的不同层次,以及他们之间的相互作用关系,并将这些整合起来深刻挖掘系统整体的功能形成机制。
系统生物学虽然在研究对象上与分子生物学不同,但他们之间并不是完全不相关的,系统生物学的研究离不开分子生物学研究所给出的大量资料和数据,正是依赖这些,系统生物学才有了建模的基础。
同时分子生物学的研究结果只有通过系统生物学进行整合才能从理论上对系统的宏观性质达到定性定量的理解,反过来,系统生物学的研究成果也可以用来指导分子生物学的实验设计。
因此二者之间其实是相互补充的,只有结合起来,才能充分认识生命现象。
】
6.
(1)什么是非编码序列,非编码RNA,非编码基因?
(2)以人的基因组为例回答:
在基因组中有多少非编码序列,有多少存在转录本,举2~3个非编码核酸的生物学功能?
(1)非编码序列是基因组中不编码蛋白质和多肽的序列;
(基因组中不归属于基因调控元件,稳定元件之外的,也无明确生物学功能意义的基因序列统称为非编码序列,即不编码蛋白质同时也无明确生物学功能的序列)
非编码RNA是指来自基因组的非编码的转录元件,即基因组中非编码序列的转录产物/转录本;
非编码基因指那些具有明确生物学功能的非编码RNA在基因组上非编码序列上的位置,即功能性的非编码RNA对应基因组上的位置称为非编码基因;
(2)人类基因组中97~98%的序列是非编码序列,有70%~80%存在转录本,非编码核酸的生物学功能:
1)Xist:
X-inactivation(X染色体失活)是哺乳动物的一种剂量补偿机制,其中一半拷贝转录被抑制从而失活,抑制转录是通过一个2kb的非编码RNA(XistRNA)实现的,xistRNA装配在失活X染色体的外侧,引起结构改变导致失活;
2)SmallRNAandRNAi:
RNAi是由RNA(siRNA、microRNA)导致的转录后基因沉默现象,如由双链小RNA引起的干扰和转录后基因沉默现象,在植物病毒抗性和线虫中的转座子沉默;
一些小核RNA调控基因转录。
(单链易降解,但发现细胞中存在另一种pathway,双链小RNA进入细胞后结合组蛋白形成复合体,该复合体和识别并降解target)
3)piRNA(具有大量转录本,功能不详)和Prions(生物复杂度到一定程度后会出现发病情况,可能和非编码RNA有关)等。
7.什么是基因组中的非编码区?
请以人类基因组为例,说明:
(1)非编码区所占的比例?
(2)按在基因组中的位置(组成)(功能)区分,非编码序列有哪些组分?
它们所占比例如何?
(3)按序列编码特征区分,非编码序列有哪些组分?
(4)请说明非编码区研究的重要性(可以举出一、两个典型非编码序列作为例子)
基因组中不能编码蛋白质的区段叫做非编码区。
非编码区位于编码区前后,同属于一个基因,控制基因的表达和强弱。
(1)人类非编码区占97—98%
(2)按照在基因组中的位置(组成)来分,各个组分占基因组的份额:
编码基因(编码蛋白质和tRNA、rRNA):
1.5—2%;
Intron(广义):
25%;
端粒、中心粒等特定位置:
12%;
基因间序列:
60—70%;
按照在基因组中的功能区分,各个组分占基因组的份额:
功能蛋白质基因1.7%,功能RNA基因0.5%,总共大约1—3%;
内含子:
24%;
SatelliteDNA(主要分布在中心粒和端粒):
12%;
基因间序列(IntergeneDNA):
(3)按照序列特征区分,各个组分占基因组的份额:
编码区(包括编码蛋白质和tRNA和rRNA的基因)占总基因组的2%;
非编码区占到98%:
其中:
简单重复序列:
散在重复序列:
45%;
假基因:
1%;
非编码非重复序列:
35—40%;
(4)举例:
非编码基因:
1.SINE作为调节源,调节基因重组、交换,丰富多样性,获得新功能;
2.鸡溶菌酶基因中,位于编码区上游的CRI元件起着转录沉默子的作用;
3.nc—DNA产物有重要生物学功能,如tmRNA介导错误翻译蛋白的降解RNAi导致基因沉默
非编码基因产物的功能:
smallRNA是nc—DNA产物,是机体固有的,例如:
microRNA,SiRNA小RNA对染色质的形状有关,也可直接关闭或删除部分DNA。
NcRNA起着非常重要的生物学功能,如影响发育过程,调节转录、影响染色体复制、对RNA加工修饰、影响mRNA稳定性进而影响翻译、甚至影响蛋白降解转运;
Xist介导X染色体失活是通其编码的一个大的剪接过的多聚A非编码产物进行的。
(长链非编码RNA(lncRNA)是一类转录本长度超过200nt的RNA分子,它们并不编码蛋白,而是以RNA的形式在多种层面上(表观遗传调控、转录调控以及转录后调控等)调控基因的表达水平。
lncRNA起初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能。
然而,近年来的研究表明,lncRNA参与了X染色体沉默,基因组印记以及染色质修饰,转录激活,转录干扰,核内运输等多种重要的调控过程,lncRNA的这些调控作用也开始引起人们广泛的关注。
哺乳动物基因组序列中约4%~9%的序列产生的转录本是lncRNA(相应的蛋白编码RNA的比例是1%),虽然近年来关于lncRNA的研究进展迅猛,但是绝大部分的lncRNA的功能仍然是不清楚的。
(已有的研究结果表明,在高等生物中,小分子非编码RNA在干细胞干性维持、胚胎发育、细胞分化、凋亡、代谢、信号传导、感染以及免疫应答等几乎所有重要生命活动中发挥关键的调控作用,提示生物体内可能存在着由RNA介导的遗传信息表达调控网络。
8.精准医学的重大意义是什么?
实现精准医学的重要基础是什么?
精准医学的重大意义;
精准医学有可能导致医疗体系本质上的转变,把目前的医疗体系由诊断治疗过渡到健康保障,使得健康体系的关口前移,有可能产生新兴产业。
健康人可以通过组学等一系列研究,对现在的健康作以评估。
在健康检查的基础上,对未来可能导致疾病的部分进行干预,使得能够延缓疾病的发生,或者排除某些疾病的发生,使得健康得以保障。
实现精准医学的重要基础:
1.必须获取分子水平上的数据信息,并挖掘其内涵,在挖掘组学数据时,一定要使用大数据分析技术,因此是大数据与组学的交汇。
组学包括基因组,转录组,蛋白质组,代谢组;
大数据包括人群和队列
2.建立分子水平上的知识与宏观疾病表型的联系,即基因型和表型的关联,搭建分子水平信息和疾病间的桥梁,在搭建桥梁时,生物信息学,生物网络,系统生物学的知识是其核心知识。
3.在此基础上,融合临床检验,影像学等指标,使得医学做得更加精准。
【定义:
精准医学是以个体化医疗为基础、随着基因组测序技术快速进步以及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式。
本质上:
是通过基因组、蛋白质组等组学技术和医学前沿技术,对于大样本人群与特定疾病类型进行生物标志物的分析与鉴定、验证与应用,从而精确寻找到疾病的原因和治疗的靶点,并对一种疾病不同状态和过程进行精确亚分类,最终实现对于疾病和特定患者进行个性化精准治疗的目的,提高疾病诊治与预防的效益。
精准医学是因人因病而异的、更加精确的个体化医疗,其进步之处是将人们对疾病机制的认识与生物大数据和信息科学相交叉,精确进行疾病分类及诊断,为疾病患者提供更具针对性和有效性的防疗措施,最终目的是更好地为患者服务。
与个体化医疗相比,精准医疗更重视“病”的深度特征和“药”的高度精准性;
是在对人、病、药深度认识基础上,形成的高水平医疗技术。
精准医学实现了从诊断治疗到健康保障这一本质性转变。
精准医学包括精准诊断和精准治疗,而“迈向精准医学”需要构造的生物医学知识网络是建立在系统生物学的基础之上。
实施精准医学计划的战略意义总共有4点:
提高疾病诊治水平,惠及民生与国民健康;
推动医学科技前沿发展,增强国际竞争力;
发展医药生物技术,促进医疗体制改革;
形成经济新增长点,带动大健康产业发展。
【有可能将基因组变异作为疾病诊断,精准医学导致医疗体系本质的转变,把目前阶段治疗过渡到健康保障,使健康体系关口前移,在健康筛查基础上,排除疾病发生。
就是评估----检查----干预的过程。
基础:
1获取分子水平上数据信息,挖掘信息内容,发展大数据新算法,理论技术如组学的信息。
2建立分子水平知识宏观疾病表型关联,搭建分子水平信息与疾病的桥梁。
问题:
样本量少,有效治疗事件频率低,疾病相关复杂网络构建分析的困难。
陈小伟老师部分:
1.芯片间标准化的方法:
排序:
每列由小到大排序,而可以得到每一组基因表达量的真实值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 中科院 生物 信息学 期末考试 复习题 资料