生物信息学复习笔记.docx
- 文档编号:25425878
- 上传时间:2023-06-08
- 格式:DOCX
- 页数:28
- 大小:1,002.30KB
生物信息学复习笔记.docx
《生物信息学复习笔记.docx》由会员分享,可在线阅读,更多相关《生物信息学复习笔记.docx(28页珍藏版)》请在冰豆网上搜索。
生物信息学复习笔记
生物信息学
填空,选择,计算,简答,名词解释
几代测序的代表平台,优缺点
一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法
Sanger法核心原理是:
由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:
ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列
第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用
以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了
(1)DNA待测文库构建
利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。
(2)Flowcell
Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。
每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。
(3)桥式PCR扩增与变性
桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a所示。
经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。
(4)测序
测序方法采用边合成边测序的方法。
向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。
这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。
在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。
接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。
这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP3’-OH保护基团,以便能进行下一轮的测序反应。
Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。
第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性
以PacBio公司的SMRT和OxfordNanoporeTechnologies纳米孔单分子测序技术,被称之为第三代测序技术。
其中PacBioSMRT技术其实也应用了边合成边测序的思想5,并以SMRT芯片为测序载体。
基本原理是:
DNA聚合酶和模板结合,4色荧光标记4种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。
同时这个DNA聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。
PacBioSMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来。
他们利用的是ZMW(零模波导孔)原理:
如同微波炉壁上可看到的很多密集小孔。
小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰。
如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用。
同理,在一个反应管(SMRTCell:
单分子实时反应孔)中有许多这样的圆形纳米小孔,即ZMW(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X10-21L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。
另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息(图7)。
SMRT技术的测序速度很快,每秒约10个dNTP。
但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。
与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。
第X代
公司
平台名称
测序方法
检测方法
大约读长(碱基数)
优点
相对局限性
第一代
ABI/生命技术公司
3130xL-3730xL
桑格-毛细管电泳测序法
荧光/光学
600-1000
高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列
通量低;样品制备成本高,使之难以做大量的平行测序
第一代
贝克曼
GeXP遗传分析系统
桑格-毛细管电泳测序法
荧光/光学
600-1000
高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列;易小型化
通量低;单个样品的制备成本相对较高
第二代
Roche/454
基因组测序仪FLX系统
焦磷酸测序法
光学
230-400
在第二代中最高读长;比第一代的测序通量大
样品制备较难;难于处理重复和同种碱基多聚区域;试剂冲洗带来错误累积;仪器昂贵
第二代
Illumina
HiSeq2000,HiSeq2500/MiSeq
可逆链终止物和合成测序法
荧光/光学
2x150
很高测序通量
仪器昂贵;用于数据删节和分析的费用很高
第二代
ABI/Solid
5500xlSolid系统
连接测序法
荧光/光学
25-35
很高测序通量;在广为接受的几种第二代平台中,所要拼接出人类基因组的试剂成本最低
测序运行时间长;读长短,造成成本高,数据分析困难和基因组拼接困难;仪器昂贵
第二代
赫利克斯
Heliscope
单分子合成测序法
荧光/光学
25-30
高通量;在第二代中属于单分子性质的测序技术
读长短,推高了测序成本,降低了基因组拼接的质量;仪器非常昂贵
第三代
太平洋生物科学公司
PacBioRS
实时单分子DNA测序
荧光/光学
~1000
高平均读长,比第一代的测序时间降低;不需要扩增;最长单个读长接近3000碱基
并不能高效地将DNA聚合酶加到测序阵列中;准确性一次性达标的机会低(81-83%);DNA聚合酶在阵列中降解;总体上每个碱基测序成本高(仪器昂贵);
第三代
全基因组学公司
GeXP遗传分析系统
复合探针锚杂交和连接技术
荧光/光学
10
在第三代中通量最高;在所有测序技术中,用于拼接一个人基因组的试剂成本最低;每个测序步骤独立,使错误的累积变得最低
低读长; 模板制备妨碍长重复序列区域测序;样品制备费事;尚无商业化供应的仪器
第三代
IonTorrent/生命技术公司
个人基因组测序仪(PGM)
合成测序法
以离子敏感场效应晶体管检测pH值变化
100-200
对核酸碱基的掺入可直接测定;在自然条件下进行DNA合成(不需要使用修饰过的碱基)
一步步的洗脱过程可导致错误累积;阅读高重复和同种多聚序列时有潜在困难;
第三代
牛津纳米孔公司
gridION
纳米孔外切酶测序
电流
尚未定量
有潜力达到高读长;可以成本生产纳米孔;无需荧光标记或光学手段
切断的核苷酸可能被读错方向;难于生产出带多重平行孔的装置
LAMP架构
Linux+Apache+Mysql/MariaDB+Perl/PHP/Python一组常用来搭建动态网站或者服务器的开源软件,本身都是各自独立的程序,但是因为常被放在一起使用,拥有了越来越高的兼容度,共同组成了一个强大的Web应用程序平台。
序列比对,重中之重,肯定会有计算题,全局比对,局部比对
SequenceA:
CAATTGA
SequenceB:
GAATCTGC
Theiroptimalalignment
生物信息相关的重要数据库:
序列数据库,结构数据库等,送几分
多序列比对,SP模型,线性比对
目的:
发现多个序列的共性
发现与结构和功能相关的保守序列片段
设:
有k个序列s1,s2,...,sk,每个序列由同一个字母表中的字符组成,k大于2。
通过插入操作,使得各序列达到一样的长度。
意义:
用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。
用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。
其他应用,如构建profile,打分矩阵等。
1、SP(Sum-of-Pairs)模型
逐对加和SP(sum-of-pairs)函数
1、 计算多序列比对 的SP模型得分,打分矩阵用课本中的PAM250矩阵,P(-,-)=0, 任意氨基酸与–得分为-1。
2、 计算AACTCAT, CCATAAT,GTAACAT, GACCACT 4条序列的PSSM(计算步骤参见课本P63)
基因组组装,主要复杂在几个问题上,正反向都有等,贪婪算法和拓扑排序等
基因组组装存在的主要问题:
碱基错误
片段的方向未知
存在重复区域
缺少覆盖
用贪婪法和非循环子图拓扑排序方法实现课件中几条序列的组装。
贪婪算法
简化覆盖多图,对每一对顶点仅考虑权值最大的边,而去掉其它的边。
称经过处理后的新图为F的覆盖图,记为OG(F)。
贪婪算法的核心思想就是逐步加入满足哈密顿路径条件的最大权值的边
无回路
节点出度为1(不可能有两条边同时从某个顶点出发)
节点入度为1(不可能有两条边同时终止于某个顶点)
例如,设序列片段集合F={CA,ATCA,TGCAT},其覆盖图如图3.28实线所示,这里去掉了权值为0的边。
依次取两条权值为2的边,形成一条哈密顿路径。
贪婪算法并不能保证总是产生出最佳的结果。
如果将F第一个序列改为CATCA,则在原来的图中将加上虚线所示的边。
按照贪婪算法,首先选择权值为3的虚线边,然而这样一来,其它两条权值为2的边都不能再选了,因为将它们加入后不满足哈密顿路径的条件。
于是,算法只能选择权值为0的边,以建立完整的哈密顿路径,总的权值为3。
可是,上述另外两条被拒绝的边形成一条哈密顿路径,并且权值和等于4,是权值最高的一条哈密顿路径,但贪婪算法找不到该路径。
假设检验,多元统计,没有计算只有相关概念
4.2.2.2假设检验问题
从样本值出发,判断关于总体分布的某种假设是否成立。
举例
为验证一硬币是否匀称(即正反两面出现的概率是否相等),做投掷试验。
假定试验结果有以下两个:
(1)正面55次,反面45次;
(2)正面40次,反面60次。
如何判断该硬币是否匀称?
假设检验的步骤:
分析题意,提出假设,确定显著性水平,计算检验统计量,做出推断
假设检验的基础:
小概率原理,即小概率事件在一次随机抽样中不可能发生。
多元统计方法概述
运用数理统计方法研究多变量、多因素问题多元统计分析理论和方法
多元统计分析
研究多元变量的统计规律性,是一元统计学的推广,同时又有多元随机变量特有的问题。
多元统计分析的主要研究内容和方法
1、降维问题(简化数据结构)
(1)将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关的变量
(2)把高维空间的数据投影到低维空间,使问题得到简化的同时损失的信息不太多。
主成分分析
因子分析
对应分析
2、归类问题
对所考察的观测样本(或变量)按照相似程度进行分类、归类
聚类分析
判别分析
3、变量间的相互联系
(1)相互依赖关系:
分析一个或几个变量的变化是否依赖于另一些变量的变化。
建立变量间的定量关系,并用于预测或控制
回归分析
(2)变量间的相互关系:
分析两组变量间的相互关系
典型相关性分析
分子生物学的一些基本内容,起始密码子和终止密码子等
隐马尔科夫模型,肯定有计算题
神经网络,不考计算题,只考概念
计算:
动态规划,HMM(PSMM)
sanger二代,三代测序的优缺点,平台
Linux数据库类型,名称,序列,结构
代谢网络(KEGG)
LAMP:
linux,Apache,Mysql,PHP
原核基因组特点:
真核基因组特点:
人工神经网络,不靠计算,概念理解
标准剪切公式
计算题老师说动态规划(序列比对中的),隐马尔夫模型肯定考,PSSM矩阵可能考,然后原核生物与真核生物基因组的结构应该会考,其它的估计PPT老师讲过的应该都会涉及到,题型有填空题,选择题,计算题,名词解释,论述题,简答题
最好也注意一下几代DNA测序的优劣,我记得这是第一次作业,老师没有把作业发给我们
名词解释
2018年12月21日
14:
33
生物信息学:
研究大量生物数据复杂关系的学科,多学科交叉,以互联网为媒介,数据库为载体,利用数学知识建立数学模型,对生物学数据进行储存,检索,处理及分析解释
二级数据库:
在一级数据库的基础上针对特定的目标衍生而来,对生物学知识和信息的进一步整理
FASTA序列格式:
是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号代表一个新文件的开始
genbank序列格式:
是GenBank数据库的基本信息单位,是最广泛的生物信息学序列格式之一
Entrez检索系统:
NCBI开发的核心检索系统,继承了NCBI的各种数据库
BLAST:
基本局部比对搜索工具,对需要检索的序列与数据库中的每个序列进行相似性比较
查询序列(querysequence):
也称被检索序列,用来被检索并进行相似性比较的序列
打分矩阵(scoringmatrix):
相似性检索中对序列两两比对的质量评估方法
空位(gap):
序列比对时,由于长度不同,需要插入空位以取得最佳结果
空位罚分:
补偿插入和缺失对序列相似性的影响
E值:
衡量序列之间相似性是否显著的期望值
低复杂度区域:
BLAST搜索的一个过滤选项,指的时序列中包含的重复度高的区域
点矩阵(dotmatrix):
构建二维矩阵,XY轴为两条序列,相同碱基位置打点,形成点矩阵
多序列比对:
通过序列相似性检索得到许多相似序列,进行一个总体比对,观察其在结构上的一同,回答生物学问题
分子钟:
认为分子进化速率时恒定的假说
系统发育分析:
通过一组相关基因或者蛋白质的多序列比对,可以研究出不同物种或基因的进化关系
进化树的二歧分叉结构:
进化树上任何一个分支节点,一个父分支都能被分成两个子分支
系统发育图:
用枝长表示进化时间的系统树成为系统发育图,是引入时间概念的支序图
直系同源:
来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能
旁系同源:
一个物种中具有共同祖先,通过基因重复产生的一组基因
外类群:
进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种
有根树:
能确定所有分析物种共同罪案的进化树
除权配对算法(UPGMA):
最初,每个序列归为一类,找到距离最近的两类归为一类,以此类推,直到所有的聚类被加入,产生树根
邻接法(neighbor-joiningmethod):
一种不仅仅计算两两比对距离,还对整个树的长度进行最小化
最大简约法(MP):
一系列额能够解释序列差异的进化树中找到具有最少核酸或氨基酸替换的进化树
最大似然法(ML):
对每个可能的进化位点分配一个概率,然后综合所有位点,找到进化最大的进化树
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 复习 笔记