最新生物信息学学习心得.docx
- 文档编号:28241346
- 上传时间:2023-07-09
- 格式:DOCX
- 页数:12
- 大小:23.28KB
最新生物信息学学习心得.docx
《最新生物信息学学习心得.docx》由会员分享,可在线阅读,更多相关《最新生物信息学学习心得.docx(12页珍藏版)》请在冰豆网上搜索。
最新生物信息学学习心得
生物信息学学习心得
第一篇:
生物信息学
生物信息学是上世纪90年代初人类基因组计划(hgp)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。
目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。
生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。
本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。
生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。
限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。
其他选修者按照课时和学校相关规定计算创新学分。
实验一熟悉生物信息学网站及其数据的生物学意义
实验目的:
培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。
实验原理:
利用互联网资源检索相关的国内外生物信息学相关网站,如:
ncbi、sanger、tigr、kegg、sble、中科院北京基因组研究所、北大生物信息
学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathatdb格式化库文件,并输入blast命令进行计算,获得结果文件。
实验内容:
1.向网上blast服务器提交序列,得到匹配结果;
2.本地使用blast,格式化库文件,输入命令行得到匹配结果;
3.对结果文件进行简要描述,阐述生物学意义。
实验报告:
1.阐述blast原理和比对步骤;
2.不同类型blast的结果及其说明;
3.讨论:
不同平台运行blast的需求比较。
参考书目:
《生物信息学概论》罗静初等译,北京大学出版社,2020;
《生物信息学实验指导》胡松年等著,浙江大学出版社,2020;。
实验三利用clustalx(a方法计算的。
在系统树图绘制完以后,输入的所有序列按照得分高低被分成n-1个组,然后再对组与组之间进行联配,这一步用myers和miller算法实现。
实验内容:
1.明确软件所支持的输入文件格式,搜集整理出合适的数据;
2.在atch程序去除ests原始序列中的载体成分和引物成分,然后用phrap生成congtig和singlet,用blast程序进一步将有同源性的contig和singlet进行功能聚类,最后通过blast对聚类获得的cluster进行功能注释。
在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。
实验内容:
1.运行codoncodealigner程序,并用它建立工程文件,导入例子文件
夹里面的数据;练习对序列的各种查看方式。
2.使用codoncodealigner程序里的clipends,trimvector,assemble
等功能,完成序列的剪切、去杂质、组装工作。
实验报告:
1.实验各步骤记录和中间结果文件;
2.举例简要说明结果文件中数据的生物学意义。
参考书目:
《生物信息学概论》罗静初等译,北京大学出版社,2020;
《基因表达序列标签(est)数据分析手册》胡松年等著,浙江大学出版社,2020。
实验五利用primerpremier5.0设计
race引物
实验目的:
熟悉pcr引物设计工具primerpremier5.0的一些基本功能,能够根据实验需要选择相应的引物设计方法设计pcr引物。
实验原理:
pcr实验是当代分子生物学的基本实验之一,由于目标序列和实验目的的不同,相应设计引物的要求也不一样。
本实验延续ests分析结果,对于其中需要获得全长的基因进行race引物的设计,及5’和3’race引物,配合接头序列设计单向引物,并模拟练习通过连接获得全长的基因cds序列。
最后设计已知全长基因序列的pcr扩增引物。
实验内容:
1.从网站下载并安装primerpremier5.0;
2.从genbank中任意获取一个dna序列,设计出该序列的合适引物;实验报告:
1.实验各步骤使用的数据、运算平台、结果文件记录;
2.比较不同引物设计平台和不同pcr实验的差别;
参考书目:
《生物信息学概论》罗静初等译,北京大学出版社,2020;《生物信息学实验指导》胡松年等著,浙江大学出版社,2020;。
实验八perl程序的安装、编写、调试实验目的:
培养学生能在atics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。
它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。
其研究重点主要体现在基因组学(genomics)和蛋白质组学(proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
具体而言,生物信息学作为一门新的学科领域,它是把基因组dna序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。
基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。
从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:
(1)新算法和统计学方法研究;
(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。
生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。
对生物信息学工作者提出了严峻的挑战:
数以亿计的acgt序列中包涵着什么信息?
基因组中的这些信息怎样控制有机体的发育?
基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。
这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。
诺贝尔奖获得者atlab里面有的关于生物方面的工具包也很多的。
4,生物知识,不用说的。
其他:
如果要深入的话,最好会编程。
什么java,perl,等。
我是刚开始学。
大家多指教。
导师推荐了好几本书:
《生物信息学概论》introductiontobioinformatics(英)tkattith著罗静初等译北京大学出版社2020年4月第一版本书从生物信息学的研究对象、意义出发,介绍生物信息学研究的基本方法和常用工具。
主要介绍的是核酸和蛋白质序列的计算机分析方法,探讨利用现有的计算机程序,从现有的数据库中能够获取什么、不能够获取什么。
全书共分十章:
1.概论,2.信息网络,3.蛋白质信息资源,4.基因组信息资源,5.dna序列分析,6.双序列比对,7.多序列比对,8.二次数据库搜索,9.数据库搜索实例,10.序列分析软件包。
每章末尾均提供了进一步阅读指南和有关的网址。
这本书的一大特色在于丰富的例子和图表,使读者可以很直观的了解和掌握书中的内容。
此外,书的末尾还附有与生物信息学相关的词汇表。
总的说来,这本书实用性强,可以作为高等院校生物信息学教材,也可以作为生命科学和生物技术各领域分子生物学研究和开发工作者的生物信息学参考书。
《生物信息学手册》郝柏林张淑誉编著上海科学技术出版社2020年10月第一版一本手册式的生物信息学书籍。
除了介绍了生物信息学,还包括了计算机及计算机网络(这一部分提供了一些网址)和分子生物学的知识。
更为重要的是,该书的主要部分?
quot;生物信息数据库和服务、软件和算法部分,提供了大量的网址。
几乎是每一个条目下面都有不少网址。
这本书将网络上的生物信息学资源进行了索引式的介绍,并作了必要的说明。
书中列举了近千条网址和引文,基本涵盖了生物学研究的各个方面,堪称生物信息的汪洋大海中的导航图。
对生物信息学的服务、软件和算法,本书也作了较全面的描述。
本书可供广大生命科学工作者以及由物理学、数学和计算机学转入生命科学领域的研究教学人员参阅(上面可以查到很多网址)。
《生物信息学》赵国屏等编著科学出版社2020年4月第一版本书是863生物高科技丛书之一。
它比较全面地介绍了生物信息学的若干个主要分支,并特别介绍了与人类基因组研究
相关的生物信息学的一些较新成果;着重介绍了数据库和数据库的查询、序列的同源比较及其在生物进化研究中的应用;以生物芯片中的生物信息学问题为例,介绍与基因表达相关的生物信息学问题;还介绍了蛋白质结构研究中的生物信息学问题,以及与分子设计和药物设计相关的生物信息学技术。
本书可供生物信息学专业和生命科学相关专业的本科生、研究生和教学科研人员阅读学习,也可供相关专业的科技和应用机构的科研、管理和决策人员参考。
注意,本书有很大篇幅是讲基因芯片和蛋白质结构预测的。
《生物信息学--基因和蛋白质分析的实用指南》bioinformatics--a
practicalguidetotheanalysisofgenesandproteinsandreasd.baxevanisb.f.francisouellette著李衍达孙之荣等译清华大学出版社2020年8月第一版这本书由前卫计算生物学家撰写,贯穿了已有的工具和数据库,包括应用软件、因特网资源、向数据库提交dna序列以及进行序列分析和利用核酸序列与蛋白质序列进行预测的的方法。
以下是该书的目录:
1.因特网与生物学家,2.genebank序列数据库,3.结构数据库,4.应用gcg进行序列分析,5.生物数据库的信息检索,6.ncbi数据模型,7.序列比对和数据库搜索,
8.多序列比对和实际应用,9.系统发育分析,10.利用核酸序列的预测方法,11.利用蛋白质序列的预测方法,12.鼠类和人类公用物理图谱数据库漫游,13.acedb:
基因组信息数据库,14.提交dna序列数据库。
本书有很多实际的序列和序列分析的例子。
这本书适合高等院校的师生和从事生物工程研究的科技工作者阅读。
在第14章提及的通讯资源:
互联网和通信地址;电话和传真号码
ddbj/embl和genbank的一般联系信息以及提交dna序列到这些数据库的入口。
ddbj(信息生物学中心,nig)
地址:
ddbj,1111yata,mishima,shiznoka411,japan
传真:
81-559-81-6849
提交:
ddbjsub@ddbj.nig.ac.jp
更新:
ddbjupd@ddbj.nig.ac.jp
信息:
ddbj@ddbj.nig.ac.jp
互联网
主页:
ation,nationtionallibraryofmedicine,nationalinstitutesofhealth,building38a,room8n805,bethesdamd20204
电话:
301-496-2475
传真:
301-480-9241
提交:
gb-sub@ncbi.nlm.nih.gov
est/gss/stsbatch-sub@ncbi.nlm.nih.gov
更新:
update@ncbi.nlm.nih.gov
信息:
datalib@ebi.ac.uk
互联网
主页:
bankit:
在dna序列数据库中使用的遗传密码:
ddbj/embl/genbank特征表文档可用binedpoathematics,andcomputers)。
现代生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的
科学,是现代生命科学与信息科学、计算机科学、数学、统计学、
物理学和化学等学科相互渗透而形成的交叉学科。
在这短短的一学期课中,在老师的带领下,我们学到了很多关
于生物信息学的知识,其中给我印象最深的有序列比对、蛋白质结
构分析、核酸序列分析、数据库及数据库检索等内容。
比如,序列比对,它的基本问题是比较两个或两个以上符号序列
的相似性或不相似性。
从生物学角度来看,它包含很多意义;如从
相互重叠的序列片段中重构dna的完整序列等。
老师主要给我们介
绍了blast比对。
再如,对蛋白质的分析。
比如我们实验测定了一条蛋白质序列
或者从dna序列翻译得来一条蛋白质序列,我们要借助生物信息学
方法来对它进行基本性质及结构分析。
其中基本性质包括它的分子
量、氨基酸数目、排列顺序、等电点分析等。
结构分析包括跨膜螺
旋分析等。
要运用的工具是protparamtool和tmhmm。
对于这两
个工具我都进行了实际操作练习,我觉得这对我们以后的理论学习
和实验分析都非常重要。
现代生物信息学的主要研究领域及其进展
1、基因组学和蛋白组学研究
基因组和蛋白组研究是生物信息学的主要内容.同样,生物信息
学是基因组和蛋白组研究中必不可少的工具。
基因组学(genomics)和蛋白组学(proteomics)的实质就是分析和解读核酸和蛋白质序列中所表达的结构与功能的生物信息.这方面的研究已成为生物信息学的主要研究内容之一.
一种生物的全部遗传构成被称为该种生物的基因组.有关基因组的研究称为基因组学.其中,序列基因组学(sequencegenomics)主要研究测序和核苷酸序列;结构基因组学(structuralgenomics)着重于遗传图谱、物理图谱和测序等方面的研究;功能基因组学
(functionalgenomics)则研究以转录图为基础的基因组表达图谱;比较基因组学(comparativege2nomics)的研究内容包括对不同进化阶段基因组的比较和不同种群和群体基因组的比较。
蛋白组和蛋白组学的概念是随基因组和基因组学的出现而出现的.蛋白组(proteme)的概念是由于基因表达水平并不能代表细胞中活性蛋白质的数量,基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程而提出的.在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组,代表这一有机体全部蛋白质组成及其作用方式.有关蛋白组的研究称为蛋白组学.其中,蛋白组的研究技术与方法、双向凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容。
生物信息学在基因组和蛋白组研究中所起的作用主要有:
(1)基因组信息结构的计算分析.即对基因组数据进行大规模并行计算并预测各种新基因和功能位点,研究大量非编码区序列的信息结构和可能的生物学意义。
(2)模式生物全基因组信息结构的比较研究.即
对已完成全基因组测序的各种模式生物的基因组信息结构进行比较分析,包括同源序列的搜索比较和指导基因克隆.(3)功能基因组的相关信息分析,包括对基因表达图谱及其相关算法和软件的研究,与功能基因组信息相关的核酸、蛋白质的空间结构的预测模拟以及蛋白质的功能预测。
2、生物信息数据库
复杂的生物和生物界和日新月异的生命科学研究产出的大量的生物学信息,对这些信息的储存、检索、比较分析必须借助于计算机数据库技术,包括各类生物学信息数据库的建立与维护、数据的添加与注释、更新与查询、数据库资料的网络化等研究内容。
现有的数据库有:
核酸序列数据库(genbank、embl、ddbj)、基因组数据库、基因图谱数据库、蛋白质序列数据库(s.tan
科学出版社2020
a生物信息学概述
相关学习网站plexes)的形成。
了解这些复合物对于注释蛋白质功能是必需,也是解释信号级联和调控网络等分子途径的一个步骤。
死效应反映了两个突变的蛋白质
2.遗传方法
抑制子突变体可以通过恢复被破坏的蛋白质互作来补偿有害的原始突变体。
而合成致死效应反映了两个突变的蛋白质不能相互作用,显性负突变(dominantnegativemutation)显示了一种起着多聚复合体作用的蛋白质。
3.亲和性方法
可通过几种利用蛋白质亲和性(特异结合的倾向)分析的物理方法来为蛋白质之间的相互关系提供直接的证据,比如亲和性管柱层析法,免疫共沉淀。
由ciphergen公司使亲和实验格式更趋微型化,使得在蛋白质芯片的发展中达到顶峰。
4.分子和原子的方法
x射线晶体学和核磁共振谱有助于在原子水平识别蛋白质互作,其它的蛋白质互作分析的分子方法包括荧光共振能量传递(fret),表面基元共振谱(spr)和表面增强激光接吸附/离子化技术(seldl),其中的很多方法可通过质谱技术直接集成到蛋白质注释中。
5.基于文库的方法
基于文库的蛋白质互作实验有两个主要优点:
它是高度并行的实验格式;候选互作蛋白质及其cdnas之间直接关联。
影响最大的方法是酵母双杂交系统(yeastt,y2h),在这个系统中蛋白质通过识别与之连接的一个功能转录因子进行互作。
c数据库--内容,结构和注释
已注释的序列数据库
1.初级序列数据库
genbank(ncbi)、核酸序列数据库(embl)和日本的dna数据库(ddbj)
2.sbl
sbl翻译了初级核酸数据库中的编码序列。
其他数据库
1.omim
omim指人类孟德尔遗传的联机数据库,用于研究人类遗传学和人类分子生物学的强大资源。
每个omim条目都有一个对特定基因或性状的已知信息的全文总结,并有指向初级序列数据库和其它遗传学资源的链接。
2.incyte和unigene
incyte是商业数据库,它提供了基因序列和专家注释的记录,这是专门为药物研究开发服务的数据库。
unigene是一种用来把genbank序列聚类并与est数据相关联的实验工具。
3.结构数据库
蛋白质数据库(pdb),核酸数据库(ndb),大分子结构数据库(msd)
e通过序列相似性标准搜索序列数据库
序列相似性搜索
1.序列联配
序列联配是是相似度量化的第一步,用来区分偶然性的相似和真实的生物学关系。
联配结果以变化(突变)、插入或缺失(或空位indel)来显示序列之间的差异,这些差异可以用进化术语来说明。
2.联配算法
动态规划算法可以计算两条之间的最佳联配,其中广泛使用的算法有smith-an算法(局部联配)和needleman-ms)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配、插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
代表某蛋白结构域家族的模型从该家族中生成序列的概率较高,从其他家族中生成序列的概率较低。
j微阵列数据分析
微阵列数据:
分析方法
1.微阵列原始数据
微阵列数据就是经过杂交的阵列的扫描图像,扫描图像显示每一个点的杂交信号强度。
这些图像可通过单通道、双通道荧光标记、同位素标记或比色标记等方法获得,其记录方式各不相同。
2.数据质量
准确记录个点的信号强度是微阵列数据分析的基本要求,dna阵列可包含数千个特征点,因此数据的获取和分析必须自动进行。
阵列上必须包含对照点以衡量非特异杂交和不同
阵列上杂交的多变性。
3.基因表达矩阵
从微阵列实验得到的原始数据首先要转换成表,即基因表达矩阵。
表中的各行代表基因,各列代表不同的实验条件,表中的数据为信号强度,代表各个基因的相对表达水平。
4.表达数据分组
基因表达矩阵中的每一个基因都有其特定的表达模式,即一系列条件下基因表达情况的测量值。
微阵列数据分析就是要将这些数据按表达模式的相似程度进行分类。
序列采样和sage
1.序列采样数据分析
差异基因表达的研究,可以通过从不同的cdna文库中随机挑取克隆来进行,也可以通过抽取est数据来进行。
这种分析需要抽取成千上万的序列以达到统计上的显著性,即使对于中度冗余度的mrna也要如此。
2.sage
sage是一种序列采样技术,其原理是将非常短的序列标记(9~15碱基)连续为长的串联体。
sage标记的长度是最适于高通量分析,但基因依然可以被明确的鉴定出来。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 生物 信息学 学习心得