生物信息学复习资料.docx
- 文档编号:27141015
- 上传时间:2023-06-27
- 格式:DOCX
- 页数:21
- 大小:343.39KB
生物信息学复习资料.docx
《生物信息学复习资料.docx》由会员分享,可在线阅读,更多相关《生物信息学复习资料.docx(21页珍藏版)》请在冰豆网上搜索。
生物信息学复习资料
第一章
生物信息学是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储。
检索和分析的科学。
1982年创建了GenBank数据库。
(1)序列数据资源:
储存了生物信息学研究的原始数据,是生物信息学存在和发展的基础。
(2)序列比对与比对搜索:
相似性分析是生物信息学最早涉及的问题之一。
常用的分析方法是序列比对。
(3)基因组结构注释
(4)分子系统发生分析:
系统发生关系是表示物种进化关系的参考依据。
通过分析分子水平的序列数据,可以了解物种系统发生的关系,目前常用树的形式来表示不同物种间的进化关系。
(5)蛋白质结构:
蛋白质的空间结构是其行使功能的基础。
(6)蛋白质序列分析与功能预测。
(7)微阵列数据分析:
微阵列是一种重要的基因表达高通量检测技术。
(8)蛋白质组数据分析:
高通量的蛋白质组工程能够大范围地确定蛋白质功能,能确定蛋白质在哪种特殊的生理条件下会出现,还能确定那些蛋白质之间有相互作用。
(9)疾病相关研究:
寻找疾病相关基因是认识疾病发生机理、研制疾病的基因诊断与防治手段的基础,也是人类基因组研究的重要手段。
(10)SNP芯片及深度测序数据分析。
视黄醇结合蛋白是一个相对分子质量小、被大量分泌的蛋白质,能结合血液中的视黄醇。
性质:
①在多个物种中有许多蛋白质和RBP4同源,包括人、小鼠和鱼总的蛋白质。
②也有许多人类蛋白质额RBP4紧密相关,它们和RBP4的家族成为lipocalin家族——一群多样的小配体结合蛋白,它们倾向于分泌到细胞外空间。
③有细南的lipealin蛋白,它们在对抗生素的抗性中起作用。
编码细菌lipocalin的基因可能是一古老基因,它通过水平基因转移的过程进人真核生物基因组。
④些lipocalin蛋白的表达水平受到显著的调控。
⑤lipealin蛋白小而丰富,并且是可溶性的,它们的生物化学性质已被详细研究,许多蛋白质的三维结构也以x线晶体街射的方法被解析出来。
⑥一些lipocalin蛋白和人类疾病相关。
人类免疫缺陷病毒(HIV)是当今世界上最大的公共卫生挑战。
HIV-1基因组仅编码9种蛋白质,包括pol。
pol基因的特性、其蛋白质产物以及HIV-1基因组具有显薯特点:
①pol基因编码一种1003个氨基酸的蛋白质。
该蛋白质是一多结构域蛋白质:
单条肽链但有多个结构和功能不同的结构域。
②pol蛋白有反转录酶活性(即RNA依赖的DNA多聚酶),它也是天冬氨酸蛋白酶,并且还有整合酶(integrase)的活性。
有多种活性是多结构域蛋白的典型特征。
③pol蛋白的模块化特点会影响数据库搜索和多序列比对。
④pol基因以相当快的速度发生碱基替换。
一个典型的被HIV感染的个体可能会有百万种以上的pol变种。
第二章
2.1分子生物学数据库的特点
1、数据库数量众多
2、数据库种类繁杂
3、数据库巨大且不断增长
4、数据间关系复杂
5、数据存在冗余与偏差
6、版本不断更新
7、提供开源的web服务
2.2序列数据存储格式
1) FASTA格式
FASTA格式又称Pearson格式,是一 种基于文本形式表示核苷酸序列或氨基酸序列的格式。
在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。
FASTA格式的序列由两部分组成,第一行是由大于号“>”或分号“。
”打头的任意文字说明(习惯常用“>”作为起始),用于序列标记,给出序列的描述和注释信息等,没有长度限制。
从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。
通常核苷酸符号大、小写均可,而氨基酸常用大写字母。
文件每行的字母一般不应超过80个字符(通常60个字符)。
第一行以“>”开头,后跟序列名称等描述(在同一行),通常注释用“1”相隔;序列的剩余行每行60个字母。
采用FASTA格式给出多条序列信息时,只需简单地一条序列接条 序列地 将它们按FASTA格式列出即可。
这类格式的文件扩展名可规定为“.fasta"。
(2) NBRF/PIR格式
NBRF/PIR格式由三部分组成。
第一行以“>”开头,后跟一个双字母标记,表示序列的类型,比如“P1”表示是完整的蛋白质序列。
其他的双字母标记与表示的序列类型详见表2.6。
然后再跟一个分号。
分号后通常是序列在数据库中的编码(ID - code),即序列的唯一标识( sequence identification code)。
第二行给出了序列的文字说明,该行可长 可短,也可以是空白,这里是空白行。
剩余行给出序列本身,以星号“*”表示结束。
这类格式的文件扩展名可规定为“.pir”或“.seq”。
(3)GDE格式
(4)Raw格式
(5)MSF格式
(6)Phylip格式
(7)ALN格式
2.3核酸序列数据库
核酸序列数据库中收集了大量的核酸序列,包括基因组DNA序列、mRNA序列、tRNA序列和rRNA序列等。
目前世界上最有影响力的核酸序列数据库是GenBank、EMBL和DDNJ。
这三个核酸序列数据库虽分属不同的机构,但通过国际核酸序列数据库合作协议,实现了信息资源的及时共享以及序列数据的交换。
2.3.1GenBank数据库
CenBank是由美国国立卫生研究院下属的美国国家生物技术信息中心负责维护的基因序列数据库,注释收集所有公开发布的DNA序列。
(1)GenBank的数据来源
目前CenBank中几乎所有的序列由实验室直接提交,提交者包括个体研究者、各实验室/机构、基因组测序工程、专利应用等。
有三个提交序列的工具Banklt、Sequin和tbl2asn供不同的提交者使用。
据统计,NCBI每个月会接受和处理20000个直接提交的序列以及自动处理几乎200000个批量提交的序列。
现在大多数的期刊出版者要求拟发表报道的序列首先需向GenBank、EMBL或DDBJ提交,取得序列访问号。
当然,科学家们在向GenBank提交数据时,可以要求在规定时限内对数据保密,当撰写的文章出版后再对外公布序列。
(2)GenBank的数据组织形式
随着多个基因组计划的相继启动,GenBank中收集的序列数量呈爆炸般增长趋势(见表2.1)。
鉴于数据库规模不断扩大,为便于数据库的维护、管理和使用,有必要将GenBank分成若干子库。
例如,在对数据库进行查询或搜索时,有时不需要进行整个数据库的操作,而是将查询和搜索范围限定为一个或几个子库,这样不仅可以加快速度,而且可以得到更加明确、可靠的结果。
这些子库形成了GenBank的分(GenBankdivision)。
目前主要有两类分支,一类是传统的GenBank分支,主要指依据种属来源分类的分支,比如哺乳类、啮齿类和病毒等;另一类是基于特定测序策略的分支,主要依据序列来源分为专利、人工合成、表达序列标签、高通量基因组测序、序列标签位点以及基因组概览序列分支等。
详细情况如表2.12所示。
在GenBank记录的每条序列的名称后都紧跟着它的分支名称,比如表2.12第一行中的“PRI”,可以据此区分数据类型。
注意,由于历史的原因,GenBank和EMBL对其子库分类方法略有不同,表2.12中一并给予了简要说明。
(3)GenBank数据的加工整理
GenBank是典型的原始数据库,或称一级数据库。
为维持数据的“原始”性,未经原作者允许,不能对原始数据库中的数据记录进行更新、修改,甚至加上注释。
随着发展,原始数据库中逐渐积累了很多的冗余和不完全数据,亟须对其中的数据进行整合、加工,以及添加注释等。
GenBank采用建立二级数据库的方式提供解决该问题的途径。
这里以第三方注释序列数据库和dbEST数据库为例进行简单说明。
第三方注释序列数据库收集和保存由部分科学家提交的关GenBank/EMBL/DDBJ等原始数据库记录的序列注释信息,这些科学家并非是序列数据的原始提交者。
提交的TPA数据记录必须满足如下三个条件:
一是提交的序列数据已经在DDBJ/EMBL/GenBank中出现,二是提供的注释信息有实验支持,三是出现在学术性期刊中。
只有当序列的访问号或序列数据在生物学的学术性期刊中发表,相应的TPA数据才会被发布到公共数据库中。
目前,EST序列是CerBank由数据的主要组成部分。
由于理论上EST序列是基因外显子的一部分,因此,EST序列是发现新基因的主要信息资源,具有重要意义。
进人到GenBank中的EST数据首先保存在EST分支中。
在对GenBankEST数据的每日处理中,NCBI利用BLAST工具搜索新的EST序列的同源物信息,并将其合并到GenBank的伙伴数据库dbEST中。
这意味着公开发布的EST数据既出现在Gen-Bank的EST分支中,也出现在独立而相关的二级数据库dbEST中。
两处的序列和访问号相同,不过dbEST中的数据记录具有一些附加的注释信息,比如最佳的核酸和蛋白质匹配参考等。
进一步处理dbSET中的数据得到UniGene数据库。
(4)GenBank数据记录格式
GenBank数据库不仅给出了序列信息,还包含了全面的注释信息。
表2.13中以人类RBP4基因为例,展示了GenBank中每条序列对应的数据记录内容,简称GenBank条目。
每个GenBank条目包含序列的简单描述、科学名称、来源物种的物种分类名(taxonomy)、参考文献、特征数据(features)和原始序列(origin)等。
特征数据中给出了具有生物学意义的一些序列区域,比如能够编码蛋白质的序列(codingsequence,CDS)、转录单位(transcriptionunits)重复区,以及突变和修饰位点(sitesofmutationsormodifications)等。
编码的蛋白质序列也包含在特征数据中。
注意RBP4基因是只含有一个外显子的简单基因,如果含有多个外显子,CDS这个特征部分会更复杂一些:
条目中会进一步指出各外显子的碱基位置,并用逗号分隔,比如“1265..1999,2100..2159”。
GenBank数据记录条目中包含的主要字段及其含义见表2.14。
如需更进一步的了解,参见GenBank的使用说明文档,服务网址是ftp:
//ftp.ncbi.nih.gov/genbank/gbrel.txt。
2.3.2RefSeq数据库
参考序列数据库RefSeq是NCBI建立的一个收集了基因组DNA、转录物RNA和蛋白质产物等的,全面的、整合的、非冗余的序列集合。
RefSeq是医学、功能学和差异性等研究的基石,为基因组注释、基因辨识和特征分析、突变和多态性分析、表达研究,以及比较分析等提供了参考。
RefSeq的独特之处在于提供了巨大的、多物种的、人工注释和审核的序列数据库,明确地关联了染色体、转录物和蛋白质信息,将来源于序列、遗传、表达和功能信息等多个数据源的大量相异数据整合为一个单一、一致和具有标准协议的数据集合。
(1)RefSeq的特点
RefSeq具有几个明显的特征:
是非冗余,RefSeq数据库是一个非冗余的DNA、RNA和蛋白质的数据集合,这一点明显不同于GenBank;二是明确地将核酸序列和蛋白质序列关联起来,并以转录物为单位组织相关mRNA和蛋白质的序列和注释等重要信息;三是维持更新以反映最新的序列数据和生物学知识;四是数据经过校验,特别是标记为“REVIEWED"或“VALIDATED”的RefSeqmRNA序列已经过了人工审查,序列质量相对可靠。
(2)RefSeq的数据来源(3)RefSeq的数据格式
2.4蛋白质数据库
2.5基因组数据资源
一个完整的基因组就是组成生物体的全部DNA的集合。
每个独立生物个体的基因组包含了对其身份进行最终限定的一些特殊 基因和其他一些DNA 元素。
基因组的大小范围变化很大,小的(如最小的病毒)只编码少于10个基因,而大的(如人类的真核生物)则包含数十亿个碱基对,编码数万个基因。
随着人类、小鼠、河豚、拟南芥、水稻、线虫果蝇、酵母、大肠杆菌等模式生物基因组计划的完成,越来越多的基因组计划在不断启动,世界各国的人类基因组研究中心、测序中心构建了各种基因组数据库,这类数据库一般不仅包含 核酸序列数据,还包含基因表达、突变体、基因组定位、相关科学文献等等。
2.5.1 基础知识
(1)基因组测序
由于DNA测序的每次反应只能测定300 ~800 bp长度的DNA片段,因此,对于较长的DNA,特别是整条染色体测序,只能采取分而治之的策略,即先将基因组DNA分割成定大小的片段,然后分别对这些片段进行测序,测完后再将这些片段拼接起来,这称为鸟枪法( shotgun)。
目前有两种策略进行这一工作,全基因组鸟枪法( whole-genome shotgun,WGS)和逐步克隆测定法(clone by clone) ,前者是对整个基因组进行直接鸟枪法测序,这种方法可以快速产生大量序列数据,具有价格低廉、高效的优点,但该策略在序列组装阶段难度很大;后者采用的策略是将超大DNA片段先分成中等大小的DNA片段(YAC/BAC克隆),并利用基因组上的标记( marker)确定这些克隆群的相对位置关系,然后再对这些中等大小的DNA片段进行鸟枪法测序,最后拼接成完整的基因组序列,如图2.5所示。
逐步克隆测定法的好处在于可以利用已经定位的大片段克隆,所以序列组装起来较容易,但是需要前期进行遗传图谱和物理图谱绘制,而遗传图谱和物理图谱绘制是破译基因组顺序过程中最耗时、费力的。
通常,要完成数亿级大小的基因组需要两种策略的密切互补。
(2)一个基因组什么时候测序完毕:
一般地,为使基因组尽可能地被测序,基因组应当进行5~10层的覆盖。
(3)基因组研究涉及的主要网络资源
(4)基因组结构注释:
基因组测序完成后,得到了完整的核苷酸序列.
2.5.2不同物种的基因组数据库
(1)已完成测序的基因组:
病毒基因组
、细菌和古细菌基因组
(2)真核基因组:
真菌基因组、从寄生生物到灵长类
真核生物基因组的分析:
在获取了每条染色体的全部基因组序列之后,进一步需要对 DNA进行注释以确定非编码DNA,鉴定编码蛋白质的基因和其他非编码的基因。
真核生物基因组包含了小部分的编码质的基因序列和大量的非编码DNA序列。
非编码序列包括了重复性序列、编码具有调
功能的RNA基因序列、外显子之间的内含子序列等。
比较基因组学是一种注释和理解来自多种物种的基因组DNA序列的有力方法。
两个比较真核生物基因组DNA的经典程序是PipMaker和VISTA。
每个程序的目的都是把大段的序列(几千甚至是几百万个碱基对)进行比对并且把保守的区域(外显子和调控序列区域)以及大段的基因组序列变化(例如倒置、重排和复制)显示出来。
第五章
5.1.1 问题的历史起源
自1859年达尔文的《物种起源》发表以来进化是人类,进化已经成为生物学领城中一个重要的内容,并日益受到广泛的关注。
系统发生学就是研究生物进化规律及物种间亲缘关系的学科,其研究结果酒常以系统发生树( pylogenetic tr)ee)的形式来描述物种之间的进化关系。
最初的系统发生树是直接从化石记录中获取不同生物的进化历史而构建的。
然而,化石的零散性和不完整性使得推导出的系统发生树往往缺乏中间环节。
而且仅靠化石记录难以推测各生物类的起源时间。
PCR 技术的产生,大量的核被及组白质分子数据不断涌现,系统发生分析也进人了的形态学和生理学途径所不具备的优势。
5.1分学水平的进化
随着人类基因组计划的完成,这个崭新的时代又赋于了系统发生树新大量的分子数据不断而现,生物信息学得到了飞速的发展,
5.1.2分子钟
系统发生分析建立在分子钟(mlelerelock)假说的基础上。
这个假说认为在进化过程,对于一种生物大分子来说,其核苷酸或氨基酸序列以大至固定的速率发生替换,他也发现分子时钟在不同的蛋白质中运行的速率不同。
5.2基本概念
进化通常以树的形式来表
5.2.1系统发生树的基本概念
多分枝树:
即一棵树中包含两个以上直接后代的节点
5.3分子系统发生树的直接构建
主要分为4个步骤:
1,选择可供分析的序列
2,多序列对比(Clustal最为常见)
3,构建系统发生树:
系统发生树的构建方法可分为两类,一类是基于距离的方法(inacebusedmehad),也称为基因距离法。
该方法根据一定的假设(进化距离模型)推导出分类单元之间的进化距离,后依据一定的算法和规则构建系统发生树。
这类方法主要包括非加权分组平均怯(anweighteditpoupmecthodwitharithmetiemeans,又称UPGMA祛)和近邻法(neighborjoimingmethod,又称N真法)等。
另一类是基于字母特征的方法Chartaterebasedmethod)。
通过分析字符间的进化关系(如核开酸序列的变化)来构建系统发生树。
5.3.3.1基于距离法
基于距离法是最常用的构建系统发生树的方法。
在这种方法中,首先需要根据某种进化西离模型计算出所有分类单元间的进化距离(距离矩阵),然后根据不同的算法,比如依饮聚类进化距离最短的类,或一定的规则,比如使得分支长度之和最小,构建获得“最优”的系统发生树。
理想情况下.距离能够从进化的角度反映两条序列间的远近关系,一定程度上也能反映两条序列间的差异。
有多种测算序列距离的方法,最简单的是统计两序列间不同的核苷酸碱基或氨革酸残基(也称差异位点)数目所占全序列长度的比率,义称P距离(pdistance)。
对于序列长度为N、差异位点数目为n的比对,其p距离的计算方法为:
p=(Nx100%(5-1)然而,由于一个位点上可能发生多次替代、两序列间的p距离有时不能反映进化的真实距有,需采用替代模型对p距离进行校正。
一般假定替代模型遵从马尔可夫过程。
有两个最常的替代模型,Jakes-Cantor模型和Kimura模型。
课后习题
为什么要进行分子系统发生,见5.5.1
何为分子钟,见5.1.2
什么是系统发生树见5.2.1
构建系统发生树有那两类方法见5.3构建分子发生树主要步骤有哪些,见5.3
分子系统发生分析常用的软件有哪些:
PHYLIP软件
第六章
蛋白质结构相关数据库、常用的蛋白质结构分析工具以及利用计算手段预测蛋白质结构的方法。
蛋白质分子是由氨基酸首尾相连而成的共价多肽链,但是天然的蛋白质分子并不是松散的多肽链,每一种蛋白质都有自己特殊的空间结构,这种空间结构通常也被称为蛋白质的构象。
一个给定的蛋白质理论上可以采用多种构象,但在天然的生理环境下,只有一种或很少几种是能够稳定存在的。
为了更清楚地描述蛋白质的结构,一般将其划分为四个层次:
一级结构(primarystructure)是指氨基酸序列,描述了蛋白质的氨基酸组成,也破称为多肽链;二级结构(secondarystrueture)是指多肽链借助氡键排列成特殊的a螺旋和β折叠片段,它们在蛋白质中会重复出现,且进化过程非常保守;三级结构(tertiarystructure)是指多肽链借助各种非共价键(或者非共价力)弯曲、折叠而成的结构,蛋白质的三级结构描述出了每个原子在三维空间中的位置,三级结构也被称为三维结构或空间结构,在没有特别指明的情况下,本章中所提及的蛋白质结构就是指蛋白质的三级结构(图6.2);四级结构(quaternarystructure)是指寡聚蛋白质依靠非共价键结合形成的聚合体,在许多情况下,寡聚蛋白质并没有生物学功能,它必须和其他蛋白质聚合才能行使功能,这种复杂构型被称为蛋白质的四级结构。
(意义)1.蛋白质结构对其行使生物学功能十分关键。
比如行使催化功能的酶通常依靠一个活性位点来催化反应,活性位点通常位于酶三维结构中的一个空穴中,可以被其他反应物所触及。
在蛋白质的催化过程中,它们的形状和物理化学性质使得它们要比其他替代物质更强烈地结合目标反应物,因此产生了对特定分子的特殊催化效果。
所有的这些都取决于活性位点所处位置的特殊三维结构。
而蛋白质的另一个重要功能,绑定和分子识别的发生前提是蛋白质具有特定的构象以供分子的绑定和识别,而这些也都取决于蛋白质特定的三维结构。
2.另外,疾病的研究及药物开发也都需要蛋白质结构相关的知识。
一些蛋白质在序列上发生的细微变化会引起人类疾病,比如镰刀形细胞贫血症(一种常见的遗传性血液疾病),就是由于血红蛋白β链上一个氨基酸的突变所引起的。
经研究发现,虽然序列上只有一个氨基酸发生改变,但是它会导致结构发生较大的变化,从而导致疾病的发生。
相似的例子还有囊性纤维化病等。
这些都说明了蛋白质结构研究的重要性。
已知蛋白质名称或者序列的情况下,搜寻并得到对应的蛋白质结构。
用PDB数据库(ProteinDataBank)PDB数据库负责收集蛋白质等大分子的结构数据。
收录了全世界实验学家通过X线衍射和核磁共振等方法获取的大分子结构数据,目前已经拥有超过9.7万个结构记录(表6.1)。
在PDB中,每一个蛋白质都有唯一.对应的标识(PDBID),PDBID由1个数字和3个字母或数字组成(如m红蛋白的PDBID为4HHB),通过PDBID可以在PDB中直接查询该蛋白质对应的结构信息。
PDB数据库可以按照作者名、大分子名、序列信息、配体名或者ID等类别搜索相关结构信息。
在PDBID等信息未知的情况下,还可以通过关键词在PDB中搜索相关蛋白质结构的信息。
页面的下部分列出了与视黄醇蛋白相关的所有大分子,在该页面提供了所有这些大分子的名称列表,每个名称下面提供了下载或直接查看PDB文件的方式,也可以利用Jmolviwer直接查看该蛋白质三维结构。
在结果页面也可以挑选并批量下载感兴趣的大分子结构数据(downloadchecked)。
而如果需要缩小搜索范围,则可以通过“RefineQuerywithAdvancedSearch”栏目完成。
结构信息注释页面提供了该蛋白质结构相关信息与一些基本注释信息,如蛋白质名字、实验者的相关信息,实验方法和参数蛋白质功能(CO)、蛋白质所属结构分类等,以及该蛋白质在其他些数据库中的链接。
除了PDB数据库之外,美国生物信息中心(NCBI)所维护的MMDB(MolecularModelingDatbase,http:
//www.ncbi.nlm.nih.gov/structure)和欧洲生物信息研究所(FB1)所维护的PDBe(Pm.teinDataBankinEurope,http:
//www.ebi.ac.uk/pdbe/)也都提供了蛋白质结构的检索和查询服务,并且它们也与PDB进行了有效的整合。
6.2.2蛋白质结构家族分类数据库
同一个家族的蛋白质往往具有相同或相似的功能,可以根据所属家族其他成员的功能来推断该蛋白质的功能。
由于在进化上蛋白质结构比序列要更加保守,结构家族所反映出的蛋白质同源关系会更可靠和广泛。
因此,根据蛋白质结构家族分类数据库米分析蛋白质的进化和功能具有重要意义。
目前,蛋白质结构家族分类数据库主要有SCOP、CATH和Dali/FSSP。
SCOP(StructuralClassificationofProteins,http:
//scop.mre-lmb.cam.ac.uk/scop/)是由英国剑桥大学科学家Murzin等人建立的蛋白质结构人工分类数据库,将蛋白质结构按照专家经验在不同的层次进行分类。
各个层次反映蛋白质在进化中不同的同源关系。
处于最顶端的是Class层,主要是根据蛋白质中的二级结构组成等,将
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 复习资料