换一换

冰豆网 > 资源分类 > DOCX文档下载

预览

中科院生物信息学复习题.docx

资源ID：8955547 资源大小：823.29KB 全文页数：11页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

中科院生物信息学复习题.docx

1、中科院生物信息学复习题1.什么是生物信息学，如何理解其含义？答：生物信息学有三个方面的含义：1) 生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。2) 生物信息学是把基因组序列信息分析作为源头，破译隐藏在序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测；其本质是识别基因信号。3) 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。怎样理解生物信息学：生物信息学是把基因组序列信息分析作为源

2、头，找到基因组序列中代表蛋白质和基因的编码区；同时阐明基因组中大量存在的非编码区的信息实质，破译隐藏在序列中的遗传语言规律：在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据，从而认识代谢、发育、分化、进化的规律。其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测，并将此类信息与生物体和生命过程中的生理生化信息结合，阐明其分子机制，最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。2.如何利用数据库信息发现新基因，基本原理？答：利用数据库资源发现新基因，根据数据源不同，可分2种不同的查找方式：1) 从大规模基因组测序得到的数据出发，经过基因识别发现新基

3、因：利用大规模拼接好的基因组，使用不同数据方法，进行标识查找，并将找到的可能的新基因同数据库中已有的基因对比，从而确定是否为新基因。可分为：基于信号，如剪切位点、序列中的启动子与终止子等。基于组分，即基因家族、特殊序列间比较，， 2) 利用数据库发现新基因和新：数据来源于大量的序列小片段，较短，故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用策略。其主要步骤有：构建数据库；将序列纯化格式标准化；从种子库中取序列和大库序列比对；延长种子序列，至不能再延长；放入库构建若干数据库：总的纯化的数据库，种子数据库，载体数据库，杂质、引物数据库，蛋白数据库，数据库；用所用种子数据库和杂质

4、、引物数据库及载体数据库比对，去除杂质；用种子和纯化的数据库比对用经过一次比对得到的长的片段和蛋白数据库、数据库比较，判断是否为已有序列，再利用该大片段与纯化的数据库比对，重复以上步骤，直到序列不能再延伸；判断是否为全长序列。（利用数据库：原理：当测序获得一条序列时，它来自哪一个基因的哪个区域是未知的（随机的），所以属于同一个基因的不同序列之间常有交叠的区域。根据这种“交叠”现象，就能找出属于同一个基因的所有序列，进而将它们拼接成和完整基因相对应的全长序列。而到目前为止，公共数据库()中已经收集到约800万条的人的序列。估计这些序列已覆盖了人类全部基因的95%以上，平均起来每个基因有10倍以上

5、的覆盖率。）3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么？当前的困难是什么，如何克服？答：构建系统进化树，其主要步骤如下：1) 序列相似性比较。就是将待研究序列与或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有、等；2) 序列同源性分析。是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有等；3) 构建系统进化树。根据序列同源性分析的结果，重建反映

6、物种间进化关系的进化树。为完成这一工作已发展了多种软件包，如、等；4) 稳定性检验。为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70以上）出现的分支点才是可靠的。通用的方法使用算法。当前的主要困难是发现了基因的横向迁移（）现象，即进化程度不同的物种间存在着遗传信息基因的传递，如果拿迁移的基因做进化分析就会出错。克服的方法：1) 选择垂直进化而来的序列进行研究，即去除横向迁移的数据库，如数据库；2) 使用全基因组数据库进行基因组水平上的对比；利用生物体的蛋白质组构建进化树。选取特征对比，不同长度的序列字符串进行对比后，对照其进行归一

7、化；对比，将采用的分类规则进行分类，再构建进化树4.什么是，为什么的研究是重要的，举出23个相关的网站。答：是指单核苷酸多态性，代表了基因组水平上遗传密码的变异，由于这种变异很多以单碱基突变的形式出现，因此称为单核苷酸多态性；因为研究是基因组领域理论成果走向应用的关键步骤，是联系基因型和表现型之间关系的桥梁，是研究人类基因组计划走向应用的重要步骤。相关的一些网站：1) s ()2) 将这些数据进行整理，去掉冗余，使每个都是唯一的。此时的被称为或。（() 3) () 这一数据库收录了人基因组中所有已知的序列变化，包括：、序列的插入和缺失()、简单重复序列等。（）4) （）() 5) ()，蛋

8、白突变数据库。收录了蛋白质特定位点的氨基酸突变信息，以及这些突变对蛋白质结构功能的影响。（）6) ()：人类群体等位基因频率数据库，5. 什么是系统生物学？系统生物学对生命科学概念上的发展？答：系统生物学是指在系统的层面上研究生命活动。（研究一个生物系统中所有组成成分的构成，以及特定条件下组分间互作关系。）包含三个相互衔接的组成：整合数据，即整合所有各个层次（水平，水平，蛋白质水平，蛋白质相互作用水平）的信息数据；系统建模，即用这些信息构建描绘生命活动的数学模型；预测未知，即用这个模型预测生命未来的发展及外界干扰后系统的变异。概念上的发展主要有：1) 研究思路的变化：传统的分子生物学研究步骤一

9、般为：序列蛋白结构蛋白功能（一维），而系统生物学是在二维的角度研究生命科学，即：相互作用网络功能，是由一组基因产生并相互作用共同实现的。2) 看待生命活动本质的变化：因为没有一个生命活动是靠一个基因完成的，生命活动是一组基因相互作用实现的，这种相互作用形成一个网络，既包括每个单元的结构，又包括单元与单元之间的相互作用。因此，系统生物学不仅考虑每个基因的活动，还描述了基因间的相互作用并导致了网络的产生。6.（1）什么是非编码序列，非编码，非编码基因？（2）以人的基因组为例回答：在基因组中有多少非编码序列，有多少存在转录本，举23个非编码核酸的生物学功能？答：（1）非编码序列是基因组中不编码蛋白质

10、和多肽的序列；非编码是基因组中非编码序列的转录产物/转录本；功能性的非编码对应基因组上的位置称为非编码基因；（2）人类基因组中9798%的序列是非编码序列，有70%80%存在转录本，非编码核酸的生物学功能：1) （X染色体失活）是哺乳动物的一种剂量补偿机制，其中一半拷贝转录被抑制从而失活，抑制转录是通过一个2的非编码（）实现的装配在失活X染色体的外侧，引起结构改变导致失活；2) : 是由（、）导致的转录后基因沉默现象，如由双链小引起的干扰和转录后基因沉默现象，在植物病毒抗性和线虫中的转座子沉默；一些小核调控基因转录。(单链易降解，但发现细胞中存在另一种，双链小进入细胞后结合组蛋白形成复合体

11、，该复合体和识别并降解)3) （具有大量转录本，功能不详）和（生物复杂度到一定程度后会出现发病情况，可能和非编码有关）等。1.芯片间标准化的方法：基本方法：芯片间标准化的目的是基于15五个基因表达量理论的和应该保持恒定，即S13三列每一列的和是相等的。但实际测定过程中不可能完全相等，因此将这种不等归结于每一组芯片自身的差异而进行芯片间标准化，基本步骤为通过排序取平均重新排序的方法消除芯片间误差，从而可以得到每一组基因表达量的真实值。（老师给的这组芯片基因完全相同的情况下S3一列数据明显偏高，通过这种标准化实现了芯片间差异的消除）。2. 控制假阳性的方法基本方法：对于m个独立的样本，其记为，1

12、,2,3m；（1）对所有的进行从小到大排序p(1)p(2) p(m)；（2）对于一个给定的（此时的即为统计里的显著水平，范围01，通常取0.05），找到最大的k值，满足；（3）拒绝从p(1)(k)的无效假设H0（即表示p(1)(k)表达量存在显著差异）。计算方法1（=0.05）：P(4)=0.030.05*5/6=0.041；4. 即G2, G6, G5, G4差异表达，0.05计算方法2（法）：根据可以推出因此直接计算并与进行对比即可：由于G3的大于0.05，因此G2, G6, G5, G4差异表达。3. 转录本表达量的表示方法（：）：（1）的作用：是透过次世代定序的技术来侦测基因表现量的

13、方法，在衡量基因表现量时，若是单纯以到的数来计算基因的表现量，在统计上是一件相当不合理的事，因为在随机抽样的情况下，序列较长的基因被抽到的机率本来就会比序列短的基因较高，如此一来，序列长的基因永远会被认为表现量较高，而错估基因真正的表现量，所以等人在2008年提出以在估计基因的表现量假设一个物种的基因组上只有两个基因，基因G1的外显子长8 ，基因G2的外显子长2 。对该物种的一个样本做，共得到23 的，其中能够比对到G1的有16 个，能够比对到G2的有4 个.计算G1和G2的。 16 4 20 G1: 16,000,000 8 16,000,000/(20*8)=100,000G2: 4,

14、000,000 2 4,000,000/(20*2)=100,000（2）与的区别：两者基本相同。代表，代表。在中，由于来源于的逆转录，转录物的表达量与片段成比例。配对末端实验每个片段产生两个，但这并不意味着两个都可在图上标注。例如，第二个低品质。如果我们对计数而不是片段，我们可能对某些片段重复计数，而对另一些只计一次，导致对表达量估计的偏差。因此以片段为单位计数，而不是数。（来源于网上，原网址：）预测：1.高通量测序数据分析总括：高通量测序数据库程序读出的数据及对应的质量分值以文件格式为的格式保存。测序的原始数据为荧光信号，首先将荧光信号转换为序列信息，即读段数据及对应的质量分值；为了方

15、便测序数据的发布和共享，一般需要对数据进行格式化转换，最常用的数据格式为格式；对得到的原始数据必须对其质量进行评估，评估指标包括G、C含量，碱基质量，插入分布等。方便过滤掉质量较差的读段；若数据质量评估过关，接着将原始读长通过序列映射定位到基因组上；若无参考基因组，则必须使用的组装方法；得到测序数据的组装图后，便可根据实验目的对组装好的数据进行相关分析，如分析基因的剪接位点，位点，变异位点还可以分析基因的差异化表达（），转录因子结合位点（），甲基化模式（），同时还可利用此数据发现新的编码基因和非编码基因；使用可视化组件对分析结果进行可视化处理。2.表达谱数据分析流程基因芯片在一个颜色通道扫描

16、后得到的原式图是色调单一，强度不同的亮点陈列图；将原始的图像数据转换为基因表达矩阵；对得到的基因表达矩阵的数据质量进行检测，对得到的数据进行统计学分析，从而估计和校正试验误差，筛选出有效数据。标准化就是消除基因芯片实验过程中系统变异对基因表达水平所带来的影响。标准化包括芯片内的标准化和芯片之间的数据标准化。芯片内的标准化方法，如局部加权线性回归标准化，参照点标准化，芯片之间的标准化方法如；前几部都是对表达谱数据的预处理，后期的数据分析包括差异基因表达分析、聚类分析、判别分析等；a)差别基因表达分析可分析不同样本中起关键作用的基因，为后续研究提供方向；b)聚类分析是基因表达谱最广泛使用的统计技术

17、，聚类分析的目的再与寻找可能标准化或关联的基因，从而预测位置基因的功能信息或已知基因的未知功能；c)判别分析能够依据样本的某些特性，判别样本的所属类型，利用已有数据建立分类器，然后利用建立的分类器对未知样本的功能或状态进行预测。方法主要有，贝叶斯分类和神经网络法等。3.无生物学重复和有生物学重复时如何进行差异表达分析？答：（1）无生物学重复：方法：（倍数变化）描述数据初值与终值之间的差异（一般是两个差别表达基因间或处理与对照之间），用标准化后的两组数据相除得到的比例，一般2表明两组数据是有显著差异的；这种计算方法可以得到一组相对值，而不是绝对值变化，消除了系统误差以便于统计学分析；一般得到的

18、值与设定的阈值进行比较即可得到表达有差异的基因；（2）有生物学重复：方法：假设检验a)具体步骤：提出实际问题；提出无效假设（H0）与备择假设（H1）；选择显著性水平（一般=0.05）；选择统计模型与相应的统计量；根据实验结果计算实验统计量；判断检验统计量的值 (表示事件发生的概率具有偶然性)；将p值同选定的显著性水平比较；拒绝或不拒绝H0；回答所提出的实际问题。b)假设检验根据数据类型（是否符合正态性）分为参数检验与非参数检验：参数检验：符合正态分布可使用，常用的方法主要有t检验法，配对t检验法、最小二乘法非参数检验：不符合正态分布可使用，常用的方法有秩和检验法，其基本方法是根据表达量排序并按

19、照排列顺序检验，检验结果较参数检验法更粗犷。4.全基因组测序的步骤？答：（1）第一期：基因组调研图整体测序深度不低于20倍覆盖度。进行初步的数据分析，对基因组大小，含量等做出初步评估，确定框架图梯度文库构建具体策略；（2）第二期：基因组框架图基因组覆盖度达到90% 以上，基因区覆盖度达到95% 以上，单碱基的错误率达到1万分之一以内，整体测序覆盖深度不低于60倍覆盖度。同时对框架图进行基本基因注释和功能注释，和简单的比较基因组学分析。（3）第三期：基因组精细图基因组覆盖度达到95% 以上，基因区覆盖度达到98% 以上，单碱基的错误率达到10万分之一以内，整体基因组覆盖度不低于100倍， N50

20、大小不低于300，对基因组精细图进行详细基因注释，基因功能注释，基因代谢途径注释和比较基因组学分析。5. 转录本测序，各数据分析工具的特点？转录本测序可分为和：主要用于检测（主要是）的表达水平，发现新的：(A)用以检测蛋白质编码基因的可变剪切体及表达水平；（除）用于检测及的表达水平并发现新的；数据分析工具主要有：，具体作用如下：a)是一个超级快速的，较为节省内存的短序列拼接至模板基因组的工具。它在拼接35碱基长度的序列时，可以达到每小时2.5亿次的拼接速度。并不是一个简单的拼接工具，它不同于等。它适合的工作是将小序列比对至大基因组上去。它最长能读取1024个碱基的片段。b) 是一

21、个快速的将数据进行快速剪接映射的程序。它使用超快的高通量短读比对程序，将的信息比对到哺乳动物大小基因组上，然后分析映射结果来鉴别外显子之间的剪接点。c) 利用比对的结果（）来组装转录本，估计这些转录本的丰度，并且检测样本间的差异表达及可变剪接调控。它通过接受线性的并将线性片段组装为一套最大简约的（）转录本。然后根据数估计估计相关转录本的丰度并将实验室预设的偏差考虑在内。6.转录本拼接最大简约转录本的组装方法：组装一套转录本在链中找到最小的分割单元P找到最大的反义链在二分图中找到最大匹配数找到最小点覆盖二分图：指顶点可以分成两个不相交的集使得在同一个集内的顶点不相邻（没有共同边）的图。设()

22、是一个无向图，如果顶点V可分割为两个互不相交的子集()，并且图中的每条边（i，j）所关联的两个顶点i和j分别属于这两个不同的顶点集(i V)，则称图G为一个二分图。最大匹配：给定一个二分图G，在G的一个子图M中，M的边集中的任意两条边都不依附于同一个顶点，则称M是一个匹配，选择这样的边数最大的子集称为图的最大匹配。最小点覆盖：给定一个二分图G，在G的一个子图N中，N的点集中的点与所有的边都有关联（把所有的边都覆盖），则称N是一个点覆盖，选择这样的点数最小的子集称为图的最小点覆盖。7. 测序原理在聚合反应体系中加入修饰过的四种核苷酸，它们分别被标记上终止基团和荧光基团：3羟基上标记上叠氮基在延伸

23、时起阻止聚合的作用，胞嘧啶上标记上荧光基团。每一种核苷酸标记的荧光分子是不一样的。聚合终止，每次加入一个修饰核苷酸，链聚合就被终止了，如下图用激发光照射，被修饰的碱基发出荧光，记录荧光信号，则知这一步加入的是什么核苷酸。延伸回复：加入二巯基丙醇去掉叠氮基；用( (2) ,三(2-羧乙基)膦)处理，去掉荧光基团。进入下一轮延伸，加入一个新的碱基。原理的关键之处在于如何形成足够强的荧光信号。无疑这需要大量的模板。怎样来获得大量模板呢？同时二代测序技术还要实现高通量测序，即同时对大量序列测序。如何将混合样品中序列彼此分开呢？桥式技术可解决以上两个问题（1）样品准备1 序列片段化：将混合样品中的核酸序

24、列打断至400左右2 短序列收集，并将末端补平。在5端加一个基团；3端加一个“A”3 在两端分别加上不同的接头序列（2）桥式将样品平铺到预制的含与接头序列互补的平板上（），平板结构如下：表面是寡聚引物加上接头的序列与平板上寡聚引物互补配对加上接头的序列与平板上寡聚引物互补配对，然后进行酶聚合反应4 变性使原始模板链分离并洗净模板链脱离单链弯曲杂交在相邻的引物上5 单链弯曲杂交在相邻的引物（与另一端结合的引物）上。6 酶聚合形成双链桥式结构；之后桥式结构打开形成的两个又在其各自周围形成新的。酶聚合形成双链桥式结构每个簇都有约10000个拷贝，且每个簇都代表一个独特序列7 桥式双链分

25、开，反向链（底3-5上）被切掉后洗脱（通过切反向链引物）；正向链3端被封闭，防止不必要的延伸。8 加入测序引物测序，如图右。1.高通量测序数据的分析流程高通量测序数据以程序读出的数据及对应的质量分值的格式保存，其文件格式为格式高通量测序最原始的数据为荧光信号，首先将荧光信号转化为序列信息，即数据及对应的质量分值。为了便于测序数据的发布以及共享，一般需要对数据进行格式转换，最常用的数据格式是。对于得到的数据必须对其质量进行评估，评估指标包括含量，碱基质量，插入缺失错误，以便过滤掉质量差的。若数据质量评估过关，接着将原始到基因组上。若无参考基因组，则需用组装方法。得到测序数据的组装图后，便可以根据实验目的，对组装好的数据进行相关的分析。如分析基因的剪接位点，位点，变异位点，还可以分析基因的差异化表达(），转录因子结合位点（），甲基化模式（），同时还可利用此数据发现新的编码基因和非编码基因。使用可视化软件对分析结果进行可视化处理。

注意事项

本文（中科院生物信息学复习题.docx）为本站会员主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。