生物信息学概述.ppt
- 文档编号:30855301
- 上传时间:2024-03-14
- 格式:PPT
- 页数:79
- 大小:5.88MB
生物信息学概述.ppt
《生物信息学概述.ppt》由会员分享,可在线阅读,更多相关《生物信息学概述.ppt(79页珍藏版)》请在冰豆网上搜索。
第一章第一章生物信息学概述生物信息学概述郑珩副教授什么是生物信息学?
(What)为什么要学习生物信息学?
(Why)怎样学好这门课程?
(How)通过本课程学习,要达到什么要求1.什么是生物信息学信息信息是用符号、信号或消息所包含的内容,来直接或间接描述客观世界生物信息分子:
细胞细胞核酸蛋白质多糖DNA-遗传密码的携带者遗传密码的携带者引自NeilCampbell著Biology第4版,1996从基因组序列信息到基因功能染色体染色体基因基因蛋白质蛋白质功能功能采用信息科学技术,借助数学、采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。
储存、分析、解释的一门学科。
收集、加工、储存:
计算机科学家分析、解释:
生物学家生物信生物信生物信生物信息学息学息学息学Whatisbioinformatics?
8生物生物信息信息学:
学:
研究对象:
生物学(核酸蛋白质)研究对象:
生物学(核酸蛋白质)研究内容:
数学模型;生物学范畴研究内容:
数学模型;生物学范畴研究工具:
计算机科学(程序)研究工具:
计算机科学(程序)研究人员:
计算机科学家研究人员:
计算机科学家生物学家生物学家9生物生物信息信息学新兴的交叉学科学新兴的交叉学科MathematicalsciencesComputersciencesLifesciences102.Why?
AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTACGTACGThisnationundergodshallhaveanewbirthoffreedooooooooomandthatgovernmentofthepeoplebythepeopleandforthepeoooooooooooooooopleshallnotperishfromtheearhisnationundergodshallhaveanewbirthoffreedooooooooomandthatgovernmentofthepeoplebythepeopleandforthepeoooooooooooooooopleshallnotperishfromtheearthatthisNation,underGOD,shallhaveanewbirthoffreedom;andthatgovernmentofthePeople,bythePeopleandforthePeopleshallnotperishfromtheearthAGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTACGTACGT人类基因组计划开始人类基因组计划开始(HumanGenomeProject,HGP)人类基因组计划带来了人类基因组计划带来了生物信息学生物信息学。
第一节生物信息学发展简史15曼哈顿原子弹计划曼哈顿原子弹计划阿波罗登月计划阿波罗登月计划人类基因组计划人类基因组计划人类自然科学史上的人类自然科学史上的3大计划大计划16基因组基因组(Genome)(Genome):
包含包含细胞或生物体细胞或生物体全套的遗传信息的全部全套的遗传信息的全部遗传物质。
遗传物质。
细胞核基因组细胞核基因组DNADNA细胞质(线粒体、叶绿体)基因组细胞质(线粒体、叶绿体)基因组DNADNA人类基因组:
人类基因组:
3.2109bp17人类基因组计划准备用人类基因组计划准备用15年时年时间投入间投入30亿美元亿美元,完成人全部,完成人全部24(22+X+Y)条染色体中条染色体中3.2109个个碱基对的序列测定,主要任务包碱基对的序列测定,主要任务包括括做图做图(遗传图谱物理图谱以(遗传图谱物理图谱以及转录图谱的绘制)、及转录图谱的绘制)、测序测序和和基基因识别因识别,其根本任务是解读和破,其根本任务是解读和破译生物体的生老病死以及与疾病译生物体的生老病死以及与疾病相关的遗传信息。
相关的遗传信息。
18HGPHGP的的的的历史回顾历史回顾历史回顾历史回顾1984.12犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1985Dulbecco在Science撰文“肿瘤研究的转折点:
人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987美国能源部和国家卫生研究院(NIH)联合为“人类基因组计划”下拨启动经费约550万美元1989美国成立“国家人类基因组研究中心”,Watson担任第一任主任1990.10经美国国会批准,人类基因组计划正式启动1998.5塞莱拉遗传公司成立,宣布3年内完成HGPJamesWatson192000Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组拟南芥全基因组的测序工作2001.2.15Nature刊文发表国际公共领域结果2001.2.16Science刊文发表Celera公司及其合作者结果Drosophilamelanogaster果蝇果蝇Arabidopsisthaliana拟南芥拟南芥20AttheWhiteHouseonJune26,FrancisCollins(r),DirectoroftheNationalHumanGenomeResearchInstitute,PresidentClinton,andJ.CraigVenter,PresidentofCelaraGenomics,laudedthethousandsofscientistswhocontributedtothegenomesequence.公共领域和Celera公司同时宣布完成人类基因组工作草图212001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面22我国对人类基因组计划的贡献我国对人类基因组计划的贡献2324humanArabidopsis拟南芥拟南芥ThermotogamaritimaEscherichiacoli大肠杆菌大肠杆菌Buchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylorimouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis1,0001,000,0001,000,000,0001,000,000,000,0001,000,000,000,000,0001,000,000,000,000,000,0001,000,000,000,000,000,000,0001,000,000,000,000,000,000,000,000103Kilo106Mega109Giga1012Tera1015Peta1018Exa1021Zetta1024Yotta100Tera-bytes(1014)/atypicalgenelab/yearAllthewordseverspokenbyhumanbeingsaccounttoabout5exa-bytes(51018)Soonusing1zetta-bytes(1021)and1yotta-bytes(1024)生物信息量至少是所有人类说过的话的生物信息量至少是所有人类说过的话的200倍倍!
至至2004年,国际数据库记录的核酸碱基数目已年,国际数据库记录的核酸碱基数目已超过超过200亿亿!
如果用传统的纸张来书写,以每!
如果用传统的纸张来书写,以每个核苷酸作为一个字符,则需要印制个核苷酸作为一个字符,则需要印制2万本每万本每本本1000页每页页每页1000字的书!
字的书!
另外,二维凝胶电泳技术、测序质谱技术以及另外,二维凝胶电泳技术、测序质谱技术以及生物芯片技术的高速发展和广泛应用,也使得生物芯片技术的高速发展和广泛应用,也使得大量的数据信息已经无法用传统的文献形式发大量的数据信息已经无法用传统的文献形式发表,而更多的需以数据库形式,通过文字、图表,而更多的需以数据库形式,通过文字、图象、超链接等多种方式来记录。
象、超链接等多种方式来记录。
计算机工具的介入计算机工具的介入生物分子信息的特征生物分子信息的特征生物分子信息数据量生物分子信息数据量大大生物分子信息生物分子信息复杂复杂生物分子信息之间存在着密切的生物分子信息之间存在着密切的联系联系30生物信息学(生物信息学(BioinformaticsBioinformatics)这一名词的来由这一名词的来由八十年代末期,马来西亚的美籍学者林华安八十年代末期,马来西亚的美籍学者林华安(HwaA.Lim)认识到将)认识到将计算机科学计算机科学与与生物学生物学结合结合起来的重要意义,开始留意要为这一领域构思一个起来的重要意义,开始留意要为这一领域构思一个合适的名称。
起初,考虑到与将要支持他主办一系合适的名称。
起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是计算研究所的关系,他使用的是“CompBio”;之;之后,又将其更改为兼具法国风情的后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。
因,看起来似乎有些古怪。
因此不久,他便进一步把它更改为此不久,他便进一步把它更改为“bio-informatics(或(或bio/informatics)”。
但由于当时的。
但由于当时的电子邮件系统与今日不同,名称中的电子邮件系统与今日不同,名称中的-或或/符号经常符号经常会引起许多问题,林博士于是将其去除,会引起许多问题,林博士于是将其去除,“bioinformatics”就正式诞生了,林博士也因此就正式诞生了,林博士也因此赢得了赢得了“生物信息学之父生物信息学之父”的美誉。
的美誉。
31Bioinformatics生物分子数据计算机计算+32第二节生物信息学的研究领域l基因组序列装配基因组序列装配l基因识别基因识别l基因功能预报基因功能预报l基因多态性分析基因多态性分析l基因进化基因进化lmRNAmRNA结构预测结构预测l基因芯片设计基因芯片设计l基因芯片数据分析基因芯片数据分析l疾病相关基因分析疾病相关基因分析l蛋白质序列分析蛋白质序列分析l蛋白质家族分类蛋白质家族分类l蛋白质结构预测蛋白质结构预测l蛋白质折叠研究蛋白质折叠研究l代谢途径分析代谢途径分析l转录调控机制转录调控机制l蛋白质芯片设计蛋白质芯片设计l蛋白质芯片数据分析蛋白质芯片数据分析l药物设计药物设计
(一)、核酸及基因组信息
(一)、核酸及基因组信息1、大规模核酸测序及拼接、大规模核酸测序及拼接2、基因识别与定位、基因识别与定位3、基因相关的、基因相关的SNP研究研究4、非编码区信息结构分析、非编码区信息结构分析5、比较基因组学、比较基因组学一、生物学领域一、生物学领域1.大规模基因组测序大规模基因组测序3536运用计算机软件进行序列拼接运用计算机软件进行序列拼接372、基因识别与定位、基因识别与定位3.基因相关的基因相关的SNP研究研究SingleNucleotidePolymorphisms(SNP),是指在基因组上单个核苷酸的变异,一般而言,SNP是指变异频率大于1%的单核苷酸变异基因变异与疾病基因变异与疾病404、非编码区信息结构分析、非编码区信息结构分析在微生物中,非编码区非编码区只占整个基因组序列的10%20;但在高等生物和人类基因组中,非编码序列则占了基因组序列的绝大部分。
在人的基因组中,非编码序列超过95%5、比较基因组学、比较基因组学比较基因组学比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。
(二)蛋白质及蛋白质组信息
(二)蛋白质及蛋白质组信息1、蛋白质结构模拟、蛋白质结构模拟2、蛋白质功能预测、蛋白质功能预测3、基因表达及蛋白质组信息学、基因表达及蛋白质组信息学蛋白质蛋白质三维结构三维结构测定主要方法:
测定主要方法:
X射线晶体结构分析、多射线晶体结构分析、多维核磁共振(维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,重构(电子晶体学,EC)等物理方法)等物理方法Difficult!
Difficult!
Expensive!
Expensive!
TooMuchTime!
TooMuchTime!
蛋白质结构及功能预测蛋白质结构及功能预测44蛋白质组研究蛋白质组研究(三三)、分子相互作用及代谢调控网络、分子相互作用及代谢调控网络对生物功能的分析表明基因和蛋白质很对生物功能的分析表明基因和蛋白质很少单独起作用,它们倾向于少单独起作用,它们倾向于成组地通成组地通过网状的交互作用过网状的交互作用而影响生物系统而影响生物系统的功能,分子相互作用信息和单个分子的功能,分子相互作用信息和单个分子的信息一样重要。
的信息一样重要。
R1R2R1R2结构与功能结构与功能信号网络信号网络代谢途径代谢途径细胞重建细胞重建系统重建系统重建基因组基因组基因基因后基因组时代单个基因的结构与功能单个基因的结构与功能基因家族基因家族代谢途径代谢途径基因组基因组48(四四)、生物进化的研究、生物进化的研究序列相似性比较序列相似性比较n生物信息数据库生物信息数据库n数据库接口和检索工具的研制数据库接口和检索工具的研制n新的算法和软件新的算法和软件n1、多序列比较方法、多序列比较方法n2、序列拼接与分析、序列拼接与分析n3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 概述