生物信息学概论.docx
- 文档编号:10824105
- 上传时间:2023-02-23
- 格式:DOCX
- 页数:19
- 大小:26.66KB
生物信息学概论.docx
《生物信息学概论.docx》由会员分享,可在线阅读,更多相关《生物信息学概论.docx(19页珍藏版)》请在冰豆网上搜索。
生物信息学概论
生物信息学概论
武汉大学生物医学工程系
赵旻
本章内容
学习目的
1、了解生物信息学的发展背景
2、理解生物信息学在生命科学研究中的作用
3、理解数学、计算机科学与生物信息学的关系
4、了解生物信息学主要技术方法的原理和应用
第一节生物信息学基础
一、生物信息的特征
生命现象是不同层次上的物质、能量与信息的交换,不同层次是指核酸、蛋白质、细胞、器官、系统、机体,与医学研究密切相联
生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能;生物种间的进化关系等其他信息资源。
生物体系和生物过程中信息的内涵和信息的传递
生命与信息
DNA通过复制,在生物体的繁衍过程中传递遗传信息
DNA本身是否也具有酶活性呢?
1994年,G·F·Joyce等人发现一个人工合成的DNA分子具有一种特殊的磷酸二酯酶活性。
又有多例报道人工合成的DNA序列具有各种不同的酶活性。
1995年后从多种生物中提取的DNA均具有酯酶活性,能催化乙酸萘酯水解为萘酚和乙酸。
这种较弱的酯酶活性并不需要特定序列的DNA编码,而是非特异性DNA的一般性质。
DNA分子本身的酯酶活性作为“分子化石”遗迹。
(1)遗传信息的载体——DNA或RNA
遗传信息的载体主要是DNA或RNA分子
控制生物体性状的基因是一系列DNA片段
生物体生长发育的本质就是遗传信息的传递和表达
(3)DNA分子和蛋白质分子都含有进化信息
通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。
通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。
进化信息
通过比较相似的蛋白质序列可以发现基因的分子进化证据。
通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析种属之间的系统发生关系,推测它们共同的祖先蛋白质。
五、生物信息的特征
生物信息数据量庞大
生物信息复杂度高:
遗传信息,功能结构信息
生物信息之间存在着密切的联系
存在特定载体:
核酸分子和蛋白质分子
存在不同的层次:
分子,细胞,组织器官和机体
第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少
对于第二部密码,目前则只能用统计学的方法进行分析
无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。
改变生物学的研究方式
改变传统研究方式,引进现代信息学方法
在医学上的重要意义
为疾病的诊断和治疗提供依据
为设计新药提供依据
第二节生物信息学的建立和发展
——人类基因组计划简介
生物信息学产生的背景
海量生物信息需要分析;大量未知基因需要破解其功能
GenBank中的DNA碱基数目呈指数增加。
2000年后其数目已达110亿,它们来自47000种生物;UniGene的数目约达7万个。
1999年初单核苷酸多态性(SNP)数据库出现以来,已超过600万。
自全长1.8Mb的嗜血流感杆菌基因组序列于1995年发表以来,已有54个模型生物的完整基因组完成了测序,包括9个古细菌、31个原核真细菌、14个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。
还有另外的70余个微生物基因组正在测试当中。
生物信息学的发展历程
20世纪50年代,生物信息学开始孕育
20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来
20世纪70年代,生物信息学的真正开端
20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法
20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库
20世纪90年代后,HGP促进生物信息学的迅速发展
生物信息学的发展历程
1952年,Sanger根据胰岛素蛋白质的测序结果,推断蛋白质是排列完美的分子。
最早的信息论观点。
1955年,Sanger与合作者分别对牛、猪和羊的胰岛素蛋白质进行了测序并做了序列上的比较。
最早的序列比对。
1962年,鲍林提出分子进化的理论,推测在人中可能存在50,000~100,000个不同的基因/蛋白质。
分子进化理论的奠定。
1965年,MargaretDayhoff构建蛋白质序列图谱
1970年,Needleman-Wunsch算法:
全局优化比对。
1981年,Smith-Waterman算法开发:
局部优化比对。
1990年,快速序列相似性搜索工具BLAST的开发
生物信息学发展过程中的里程碑性事件
人类基因组计划
人类基因组计划(HumanGenomeProject,HGP)是由美国科学家RenatoDulbecco在1985年首先提出,美国政府1990年10月正式启动的,耗资30亿美元。
目标是构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约3万基因,以及人类基因的鉴定和分离的内容。
人类基因组计划全部测序工作提前到2000年春季完成“工作框架”,即工作草图。
遗传图谱、物理图谱、转录图谱和序列图谱
遗传图谱是以具有遗传多态性的遗传标记为“路标”,以遗传学距离为图距的基因组图。
进行基因识别和基因定位
物理图谱是指有关基因组中特异性序列排列和间距的信息.建立物理图谱实际上是为全基因组测序建立“路标”。
转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
研究内容
1、生物分子数据的收集与管理
2、数据库搜索及序列比较
3、基因组序列分析
4、基因表达数据的分析与处理
5、蛋白质结构预测
常见研究领域
Alignment(序列比对)
ProteinStructurePrediction(蛋白质结构预测)
Computer-AidedGeneRecognitions(计算机辅助基因识别)
DNALanguage(DNA语言)
MolecularEvolution&ComparedGenomics
(分子进化和比较基因组学)
ContigAssembly(序列重叠群装配)
OriginofGeneticCodes(遗传密码的起源)
AnalysisofMetabolizeNetwork(代谢网络分析)
GeneChipDesign(基因芯片设计)
研究方向
基因组序列装配
基因识别
基因功能预报
基因多态性分析
基因进化
mRNA结构预测
基因芯片设计
基因芯片数据分析
疾病相关基因分析
例:
高度自动化的实验数据的获得、加工和整理
各种自动化分子生物学仪器应用上,如DNA测序仪,PCR仪等
实验过程高度自动化,产生的海量数据,专门的实验室数据管理系统自动完成包括实验进程和实验数据的纪录,常规数据分析,数据质量检测和问题的自动查找,常规的数据说明和数据输入数据库。
建立分子生物学数据管理系统。
DNA序列片段的测序拼接
目前DNA自动测序仪每个反应只能测序100-1000bp,传统测序方法是将克隆进行亚克隆并对亚克隆进行排序。
自动而高速拼接序列的算法,Lander-Waterman模型(LanderESandWatermanMS,1998)利用鸟枪法进行测序,再将大量随机测序的片段用计算机进行自动拼接。
1.9MbHaemophilusinfluenzae(流感嗜血杆菌)(1995)
0.58MbMycoplasmugenitalium(支原体)(1995)
0.58Mbjannaschii(甲烷杆菌)(1996)
拼接算法需要进一步提高拼接真核基因组的有效性;自动处理自动测序造成的差错。
2、数据库搜索及序列比较
搜索同源序列在一定程度上就是通过序列比较寻找相似序列
序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述
多重序列比对研究的是多个序列的共性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
常用序列分析工具
CLUSTAL:
已知同源的序列间的配比
FASTA:
全基因数据库的快速搜索
PSI-BLAST:
非常快速的全数据库搜索
HMM:
特定蛋白家族的序列模式识别
PHYLIPS:
基因进化树
序列比较发现同源分子
3、基因组序列分析
遗传语言分析
基因组结构分析
基因识别
基因功能注释
基因调控信息分析
基因组比较
基因识别
识别基因组编码区,识别基因结构
1、同源比较(DNA序列、EST)
2、基因预测(不是用同源搜索的方法来识别基因)
从头开始基因预测,基于知识的基因预测(密码子使用,碱基组成,剪切位点特征,PolyA信号,核苷酸频率,转录信号,转译信号,尺寸分布)
基因预测的步骤:
1、识别可能的外显子
2、辨别起始/内部/终止外显子
3、把外显子联结起来,形成可能的基因
4、确保该可能的基因没有内部的移位或终止密码子
5、leftovers:
shadowexons
算法:
Rule-basedsystem;linguisticsystem;
lineardiscriminantanalysis;decisiontree;
splicedalignment;fourieranalysis
EvaluatingGenePrediction
敏感性(Sensitivity)
敏感性=预测基因中确为基因的数目/待测序列中的基因数目;
Howmanyexonswerecorrectlypredicted?
特异性(Specifity)
特异性=预测基因中确为基因的数目/预测基因数目
Howmanyexonpredictionsaretrue?
生物学家们一直假设,人类拥有8万到10万个基因。
但是根据测序完成的人类基因组第21对、22对染色体的经验,得出的结论是整个基因组有不多于4万个基因。
比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基因数估计:
在27700与34300之间。
马里兰Rockville的基因组研究所(TIGR)的JohnQuackenbush根据TIGR的人类基因指数的估计118259个基因。
*生物体的复杂性并不是简单地与基因数量相关联的。
生物体的复杂性来自于基因如何被管理或表达的,而不是基因数目本身。
基因功能预测
序列同源比较:
如果基因A与基因B有相当的同源性,那么基因A可能具有类似基因B的功能。
公共数据库:
GenBank,EMBL,DDBJ
功能数据库:
dbEST,dbSTS,dbGSS(GenomeSurveySequence),dbHTG(highthroughputGenomicSequence,未完成整理的序列数据)
蛋白质序列库:
PIR(proteininformationresource),Swiss-Prot
蛋白质高级结构数据库PDB(proteindatabank):
生物大分子三级结构的数据库。
同源比较算法:
分为整体对齐(Globalalignment)和局部对齐(localalignment)局部对齐的算法有Smith-Watermann算法;FASTA算法;BLAST算法
4、基因表达数据的分析与处理
基因表达数据分析是目前生物信息学研究的热
点和重点
目前对基因表达数据的处理主要是进行聚类分
析,将表达模式相似的基因聚为一类,在此基
础上寻找相关基因,分析基因的功能
所用方法主要有:
相关分析方法
模式识别技术中的层次式聚类方法
人工智能中的自组织映射神经网络
主元分析方法
基因表达分析和调控网络研究
高通量基因转录实验技术
1、mRNA
cDNAmicroarray
Oligonucleotidechip
RT-PCR
SAGE
2、protein
2D-PAGE
5、蛋白质结构预测
蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径
蛋白质结构预测分为:
二级结构预测
空间结构预测
二级结构预测
二级结构的预测可以归结为模式识别问题
主要方法有:
立体化学方法
图论方法
统计方法
最邻近决策方法
基于规则的专家系统方法
分子动力学方法
人工神经网络方法
预测准确率超过70%的第一个软件是基于神经网络的PHD系统
蛋白质三级结构预测
同源模型化方法
远程同源模型化方法
结构的从头预测方法
距离几何
分子动力学
同源模型化方法
空间结构预测方面,比较成功的理论方法是同源模型法
该方法的依据是:
相似序列的蛋白质倾向于折叠成相似的三维空间结构,如果具有25-30%的等同序列,可以假设这两个蛋白质折叠成相似的空间结构
运用同源模型方法,借助于数据库搜索和序列的比对排列,可以完成所有蛋白质10-30%的空间结构预测工作
可以通过计算(如分子力学、分子动力学等)来进行结构预测
可以通过计算(如分子力学、分子动力学等)来进行结构预测:
立体作用,空间堆积,静电作用,氢键,疏水作用
6比较基因组学研究
研究生命是从哪里起源的?
生命是如何进化的?
遗传密码是如何起源的?
估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?
鼠和人的基因组大小相似,基因的数目类似。
可是鼠和人为什么差异确如此之大?
不同人种间基因组的差别仅为0.01%;人猿间差别约为1%。
但表型间的差异十分显著。
生物进化研究
1、序列相似性比较。
就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。
完成这一工作只需要使用两两序列比较算法。
常用的程序包有BLAST、FASTA等;
2、序列同源性分析。
是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。
这是理论分析方法中最关键的一步。
完成这一工作必须使用多序列比较算法。
常用的程序包有CLUSTAL等;
3、构建系统进化树。
根据序列同源性分析的结果,重建反映物种间进化关系的进化树。
为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;
4、稳定性检验。
为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。
通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。
为便于使用者查找表三给出了进化分析相关软件的因特网地址。
?
16SrRNA
通过比较真核细胞rRNA的核苷酸顺序和“真细菌”、“古细菌”的rRNA核苷酸顺序,发现它们之间截然不同,表明真核细胞不是来自原核细胞,而是远在原核细胞生成之前,真核细胞就已和原核细胞分开而成独立的一支,即“早真核生物”,它才是现代真核生物的始祖。
第四节生物信息学的主要任务
对非蛋白编码区进行生物学意义分析的策略
1基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;
2通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。
由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。
因此,近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况——蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术和质谱测序技术。
通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。
重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。
从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。
数学(Maths)
Statistics统计学
ProbabilityTheory概率论(特别是随机过程理论)
OperationalResearch运筹学
OptimizationTheory&Method最优化理论与方法
Topology拓扑学(主要是几何拓扑)
FunctionTheory函数论
InformationTheory信息论
ComputationalMathematics计算数学
GroupTheory群论
常用数学模型与方法
Bayes公式、Bayes统计
马氏链(Markovchains)
隐马氏链(HiddenMarkovchains)
Poisson过程与连续时间马氏链
熵、相对熵与信息增益
神经网络(neuralnetworks(NN)):
Multi-layerfeed-forwardNN,self-organizedlearningNN,recurrentNN(HopfieldNN,Bolztmannmachine)
计算机科学(ComputerScience)
网络技术
数据库(特别是关系型数据库)
数据整合和可视化
数据挖掘
基于Unix操作系统的各种软件包
计算机硬件
一些重要的算法的复杂性研究
国际著名的生物信息中心
国内部分生物信息学服务器
北京大学生物信息中心
中国生物信息http:
//www.biosino.org/
北京大学物理化学研究所
北京医科大学生物医学信息
中国科学院微生物研究所
天津大学生物信息中心
中科院计算所智能信息处理重点实验室生物信息学研究组
中国科学院基因组信息学中心
例如:
北京大学生物信息中心
安装了70多个数据库,提供200多种软件下载
建立了14个国外著名生物信息中心镜象
提供了数据库和文献查询、搜索
构建了中华民族基因多样性等专用数据库
集成和开发了基于Web的生物信息软件工具
开展了分子模拟、序列分析等应用研究
举办了国际国内培训班、讲习班、讨论会
开设了生物信息学概论研究生课程
构建二次数据库
中华民族基因多样性数据库
转录因子细胞特异性数据库Cytomer
蛋白质结构域数据库Domain
蛋白质回环数据库Loop
水稻矮缩病毒数据库RDV
二硫键信息数据库Bridge
其他数据库
DictyDb(DictyosteliumdiscoideumgenomedatabaseDictyosteliumdiscoideum基因组数据库)http:
//glamdring.ucsd.edu/others/dsmith/dictydb.html
EcoCyc(EncyclopediaofE.coligenesandmetabolism 大肠杆菌基因和代谢百科全书)
EcoGene(EscherichiacoliK12genomedatabase EscherichiacoliK12基因组数据库)http:
//bmb.med.miami.edu/EcoGene/EcoWeb/
FlyBase(Drosophilagenomedatabase 果蝇基因组数据库)http:
//flybase.bio.indiana.edu/ http:
//gin.ebi.ac.uk:
7081/
HIV(HIVsequencedatabase HIV序列数据库)http:
//hiv-web.lanl.gov/
MaizeDB(Maizegenomedatabase 玉米基因组数据库)http:
//www.agron.missouri.edu/
IMGT(ImMunoGeneTicsdb 免疫基因标记数据库)usc.fr:
8104/
MAIZE-2DPAGE(Maizegenome2DElectrophoresisdatabase 玉米基因组双向电泳数据库)http:
//moulon.moulon.inra.fr/imgd/
Mendel(Mendel-GFDb(Plantgenesfamiliesdatabase) 孟德尔植物基因家族数据库)http:
//www.mendel.ac.uk
MGD(Mousegenomedatabase 小鼠基因组数据库)http:
//www.informatics.jax.org/ http:
//mgd.wehi.edu.au/mgd/ http:
//bioinformatics.weizmann.ac.il/mgd/ http:
//mgd.hgmp.mrc.ac.uk/ http:
//mgd.niai.affrc.go.jp/
MIM(OnlineMendelianInheritanceinMan(OMIM) 人类孟德尔遗传网上数据库)http:
//www.ncbi.nlm.nih.gov/omim/
NRSUB(Non-redundantB.subtilisdatabase 无冗余枯草杆菌数据库)http:
//pbil.univ-lyon1.fr/nrsub/nrsub.html
SGD(SaccharomycesGenomeDatabase 酵母基因组数据库)http:
//genome-www.stanford.edu/Saccharomyces/
SubtiList(Bacillussubtilis168genomedatabase 枯草杆菌168基因组数据库)http:
//www.pasteur.fr/Bio/SubtiList/
TIGR(Thebacterialdatabase(s)of'TheInstituteofGenomeResearch' 基因组研究所的细菌数据库)http:
//www.tigr.org/tdb/
TubercuList(MycobacteriumtuberculosisH37Rvgenomedatabase分支结核杆菌H37Rv基因组数据库)http:
//www.pasteur.fr/Bio/T
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 概论