书签分享收藏举报版权申诉 / 61

立即下载加入VIP,免费下载

当前位置：首页 > 高中教育 > 其它课程 > 国科大陈润生生物信息学开卷考试资料总结.docx

国科大陈润生生物信息学开卷考试资料总结.docx

文档编号：9385507
上传时间：2023-02-04
格式：DOCX
页数：61
大小：1.11MB

《国科大陈润生生物信息学开卷考试资料总结.docx》由会员分享，可在线阅读，更多相关《国科大陈润生生物信息学开卷考试资料总结.docx（61页珍藏版）》请在冰豆网上搜索。

国科大陈润生生物信息学开卷考试资料总结.docx

国科大陈润生生物信息学开卷考试资料总结

一．什么是生物信息学？

Genomeinformaticsisascientificdisciplinethatencompassesallaspectsofgenomeinformationacquisition,processing,storage,distribution,analysis,andinterpretation.（它是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。

）（TheU.S.HumanGenomeProject:

TheFirstFiveYearsFY1991-1995,byNIHandDOE）

生物信息学是把基因组DNA序列信息分析作为源头，破译隐藏在DNA序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。

生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。

它是本世纪自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

二、生物学研究内容

（一）经典的研究内容---大规模基因组测序中的信息分析----拼接和注释

大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。

从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。

1．HowtofindthecodingregionsinrudeDNAsequence?

BysignalsorBycontents基于信号或碱基组成

Bysignals作为参考信息

AmongthetypesoffunctionalsitesingenomicDNAthatresearchershavesoughttorecognizearesplicesites,startandstopcodons,branchpoints,promotersandterminatorsoftranscription,polyadenylationsites,ribosomalbindingsites,topoisomeraseIIbindingsites,topoisomeraseIcleavagesites,andvarioustranscriptionfactorbindingsites.Localsitessuchasthesearecalledsignalsandmethodsfordetectingthemmaybecalledsignalsensors.

第一、序列长度短，重复性大，假的比真的多百千倍，因而单独使用无法真正达到检测的目的。

第二、信号模式不是唯一不变的，而是用概率来表示的。

Bycontent更多依赖于

I.StatisticalmethodandSequenceAlignmentMethodenevenpositionalbasefrequence（Dvalue）

编码区是三联体，将密码子翻译与天然蛋白的氨基酸序列进行比较（天然的蛋白质有固定的氨基酸比例）。

这种方法产生三种可能的氨基酸序列，若其中有一个非常像氨基酸序列，则另外两个都非常不像，则非常像的那个便是；若三个都模糊像，则都不是。

与数据库进行比对，这种方法发现不了新蛋白。

II.SequenceAnalysis–PairwiseAlignment双序列比对

经典的双序列比对运用动态规划（DP）的形式，通过缓存亚问题的解决和重利用而不是重计算他们而解决一个最佳问题，运动DP的寻找两个长度为N的序列最佳排列将产生N2的亚问题。

准确，但耗费计算机的资源。

上述方法在序列很长时计算速度太慢，因此人们将之简化，发展处Heuristicschemes的方法。

比较成熟的有FASTA和BLAST。

这种方法搜寻短序列不插入间隔。

（序列比对（alignment）：

为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

将两个或多个序列排列在一起，标明其相似之处。

序列中可以插入间隔（通常用短横线“-”表示）。

对应的相同或相似的符号（在核酸中是A,T（或U）,C,G，在蛋白质中是氨基酸残基的单字母表示）排列在同一列上。

）

III.Neuralnetwork-神经网络--------------predictingthesplicingsites

硬件和软件构成的神经元系统，并构建标准数据底（标准非编码序列，标准的三联体密码序列）一个个试，调节系统能准确输出序列。

任意挑出一个非编码序列能输出0。

神经网络包括输入层，中间层和输出层。

输入层为非线性惯性，每个位置只能有五个值，四种碱基或空。

输出层代表输入序列是否为编码序列，对应中间的碱基像不像。

IV.Fractaldimensionofexonsandintrons分维值

转弯越多，值越大。

将任一序列投影到碱基坐标，计算分维值，非编码和编码序列的分维值不同，可比较

分维小，像编码序列

V.Complexityanalysis--------复杂度分析

HowmanydifferentpatternsarethereintheareaofthedifferentDNAsequence?

我们的结果发现外显子的复杂度比内含子和5’以及3’侧翼序列要高。

什么是复杂度？

任意取一个字符，花样出现多少次？

若一段序列出现四种碱基就比出现三种碱基要复杂。

窗口：

将一段序列分成几个一组，18个一个窗口。

VI.MethodandTechniquesinCryptology--------密码分析学的方法

-CoincidentIndexs，重合指数认定，将密码进行过滤，找出重合指数高的片段，再结合进行变异。

UnicityDistance，单一距离。

VII.SequenceAnalysis–MultipleAlignment----多序列比对

双序列比对是序列比对的一种特殊形式，多序列比对能总结得到比对序列家族，估计一个新序列归属于一个已知序列的可能性，序列家族内的比对。

双序列比较是不能给出两者的同源关系的，需要两个序列以上进行比较，给出这些序列代表物种间的同源序列，没有精确解，只有相似解。

多种方法一起使用，看结果，但也无法知道基因的严格位置，准确报出基因的结构（从算法本质上不同的算法进行比较来确定准确性，准确性较高）。

2．问题与挑战

1）散在重复序列：

花样类似但是分散在不同的位置。

Alu

2）由于RNA编辑，可变剪接，一个基因产生许多蛋白

3．四个例子

1）理论研究：

腾冲耐热菌的测序和其耐热性的研究

研究代谢途径，测出未知功能的基因方法，将所有FA合成的路径图全画出，将其编码的2800多个蛋白与图上所需酶进行比对，所有酶都对上就是这个途径。

亲缘关系（和枯草杆菌60%的亲缘性，不耐热）

代谢（脂肪酸，核酸）有什么特殊的pathway

重复片段300bp,280次，是转录的起始位点

将耐热与不耐热的细菌基因组进行比较，得出耐热所需的蛋白

一般来说，耐热菌的G-C含量较高（其实不然），耐热菌的G-C大部分小于50%，但是不耐热菌G-C含量变化更大，多以细菌基因组G-C含量与耐热无关，但与mRNA,rRNA的G-C含量有关，G-C含量高，耐热性上升。

2）疾病研究：

细菌性痢疾

测序发现，引起细菌性痢疾细菌的基因组和EcoliK12,Ecoli157很近。

比较引起痢疾和不引起痢疾细菌，发现了痢疾引起的细菌含有毒力岛和黑洞（痢疾没有，不痢疾的有，保护机制的丧失）。

3）工业生产:

维生素C生产菌株氧化葡萄酸杆菌基因组测序和组装

4）SARS简介

Thecappedandpoly-adenylatedgenomeisthelargestoftheRNAvirusesandhasauniquemethodofreplication.Theseviruseshavetheabilitytogeneticallyrecombinewithothermembersofthecoronavirusfamily.

Thegenomeencodes3or4differentstructuralproteins.HumanCoronavirus-OC43encodesforhemagglutinin-esterase（HE）whereasHCV-229Edoesnot.Thisproteincausesredbloodcellstoclumptogether,andcanbeusedtodeterminehowmuchvirusisinasample.HEcanalsoinitiatebinding.HumanTorovirusalsoencodesforHE.Allcoronavirusesencodeforanucleocapsidprotein（N）.ThisproteinbindstoRNAandformsahelicalnucleocapsid.ItmaybeinvolvedintheregulationofRNAsynthesis.Themembraneglycoprotein（M）isinvolvedwithenvelopeformation.Thespikeprotein（S）isalsoresponsibleforbindingtocells.Thecoronacyclelinktotheleftexplainstheinvolvementoftheseproteinsineachstepofthedynamicphase.

（二）．新基因和新SNPs的发现与鉴定

大部分新基因是靠理论方法预测出来的。

比如啤酒酵母完整基因组（约1300万bp）所包含的6千多个基因，大约60％是通过信息分析得到的。

a）、利用EST（ExpressionSequenceTag）数据库（dbEST）发现新基因和新SNPs国际上现已出现了几个基于EST的基因索引如UniGene,Merck-Gene,GenExpress-index，这些基因索引数据库（即二次数据库）构建了基因框架，极大地方便了相关研究者。

超大规模计算

方法：

建立实验方法，让一小段真正的编码区标签表达，企图发现整个编码序列，几百个碱基序列一个标签，其数据库集中全世界所有的标签，进行拼接和组装，得到编码序列，同样将相同片段进行比较能发现SNPs,也可以发现非编码序列

b）、从基因组DNA序列中预测新ORF

两者区别：

前者是利用EST数据库进行片段的拼接与组装，而后者是利用基因组数据库的基因序列进行识别、预测，

c．基因电脑克隆

基因电脑克隆的实质:

以一个序列片段为线索,通过它和整个数据库的比较,还原出全序列原貌。

原理：

当测序获得一条EST序列时，它来自哪一个基因的哪个区域是未知的（随机的），所以属于同一个基因的不同EST序列之间常有交叠的区域。

根据这种“交叠”现象，就能找出属于同一个基因的所有EST序列，进而将它们拼接成和完整基因相对应的全长cDNA序列。

可行性：

到目前为止,公共EST数据库（dbEST）中已经收集到约800万条的人的EST序列。

估计这些序列已覆盖了人类全部基因的95%以上，平均起来每个基因有10倍以上的覆盖率。

嵌合体cDNA是指来源于不同基因的序列，由于偶然因素被组装在一起形成的Contig。

我们构建的神经网络能探测组装过程形成的嵌合体。

d.不同的实施方案和计算量

⏹将数据库中的所有序列进行两两比较,将他们分成一组组（一组内的序列都属于同个基因）,最后再拼接成一条条完整的cDNA序列。

对于人的EST库（5百万条序列），需要进行的序列比对次数为:

●0.5*（5*106）2=1.25*1013。

⏹以一组感兴趣的（如表达于某种组织的）序列作为”种子”序列（N条），将它们和整个库比较，以找到它们所属的完整cDNA序列。

这种方案需要进行的序列比对次数为：

◆N*5*106。

四．EST

①利用EST（ExpressionSequenceTag）数据库（dbEST）发现新基因和新SNPs

EST数据库质量相对较低，就象许多文献报道，发现了许多内含子，克隆载体，多酶切点，ALU以及3’、5’非翻译序列（统称污染序列，也称载体序列或非insert序列）被包含在EST数据库中，这使得EST序列分析复杂化。

因此在进行Contig电脑组装之前，需要探测并去除EST数据库中的污染序列。

为探测并去除EST数据库中的污染序列，必须建立载体库，对种子库和人EST库中的每条序列扫描其前端和尾部检查上述非Insert序列，并去除。

全长cDNA标注涉及到mRNA的5’端即转录起始位点区、第一个ATG、开读框架、终止密码子和3’端的确认。

目前国际上各种二次数据库的建立和公布，使得我们有可能利用现有的数据源，通过同源性比较来预测mRNA的5’端，最常用的与转录起始位点相关的数据库是真核启动子数据库（TheTRADATProject,EukaryoticPromoterDatabase,EPD.http:

//www.epd.unil.ch/）。

开读框架（OpenReadingFrame:

ORF）的预测常与第一个ATG和终止密码子的确定相关，但由于EST序列相对较低的测序质量，在测序过程中出现的碱基删除或插入错误（称为indel错误）将引起读框移动，甚至出现假终止密码子，所以，仅凭第一个ATG和终止密码子是不足以确定ORF的。

我们结合下述几种方法对Contigs进行标注，先用复合人工神经网络系统预测Contig编码蛋白的可能性，然后采用NCBI的ORF预测软件（ORFfinder:

http:

//www.ncbi.nlm.nih.gov/gorf/orfig.cgi）初步判断ORF的可能范围。

第一个ATG的确定则依据Kozak规则和信号肽分析软件（SignalPhttp:

//www.cbs.dtu.dk/services/signalP）的结果。

所谓Kozak规则，即第一个ATG侧翼序列的碱基分布所满足的统计规律，若将第一个ATG中的碱基A，T，G分别标为1，2，3位，则Kozak规则可描述如下：

（1）第4位的偏好碱基为G；

（2）ATG的5’端约15bp范围的侧翼序列内不含碱基T；（3）在-3，-6和-9位置，G是偏好碱基；（4）除-3，-6和-9位，在整个侧翼序列区，C是偏好碱基。

Kozak规则是基于已知数据的统计结果，为获得高可信度的结果，我们把预测过程中证实含完整mRNA5’端的Contig翻译为蛋白序列，然后用SignalP软件对前50个氨基酸序列（从第一个ATG对应的甲硫氨酸Met开始）进行评估，如果SignalP分析给出正面结果，则测试序列有可能为信号肽，假如在该测试序列的第一个Met5’端存在终止密码子，该序列为信号肽的可能性更大。

3’端的确认主要根据Poly（A）尾序列,若测试Contig不含Poly（A）序列，则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。

嵌合体cDNA是指来源于不同基因的序列，由于偶然因素被组装在一起形成的Contig。

我们构建的神经网络能探测组装过程形成的嵌合体。

②EST数据也可用来帮助研究基因的可变剪接和发现非编码RNA。

五．完整基因组的比较研究是一个新方向

研究生命是从哪里起源的？

生命是如何进化的？

遗传密码是如何起源的？

估计最小独立生活的生物至少需要多少基因，这些基因是如何使它们活起来的？

比如，鼠和人的基因组大小相似，都含有约三十亿碱基对，基因的数目也类似。

可是鼠和人差异确如此之大，这是为什么？

同样，有的科学家估计不同人种间基因组的差别仅为0.1%；人猿间差别约为1%。

但他们表型间的差异十分显著。

这又为什么？

完整基因组序列的比较研究是解决这些问题的重要途径。

Thedistributionofmousehomologygenesinthehumanchromosome

鼠的1号染色体分布人的1.2.5.6.8.13.18号染色体上，waston,crick第一次来中国时说肿瘤的发生也可能因为基因的换位，改变基因表达水平。

所以不同编排方式使得基因表达存在很大差别。

HOX基因是看家基因，脊椎动物的HOX基因是果蝇的四倍，果蝇到人基因组很可能是经过了两次的加倍。

六．基于序列数据的生物进化研究当前面临的问题

自1859年Darwin的物种起源（OriginofSpecies）发表以来，进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。

进化论研究的核心是描述生物进化的历史（系统进化树）和探索进化过程的机制。

自本世纪中叶以来，随着分子生物学的不断发展，进化论的

研究也进入了分子水平。

当前分子进化的研究已是进化论研究的重要手段，并建立了一套依赖于核酸、蛋白质序列信息的理论方法。

2、用进化树分析序列的进化

①序列相似性比较。

就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。

完成这一工作只需要使用两两序列比较算法。

常用的程序包有BLAST、FASTA等；

②序列同源性分析。

是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。

这是理论分析方法中最关键的一步。

完成这一工作必须使用多序列比较算法。

常用的程序包有CLUSTAL等；

③构建系统进化树。

根据序列同源性分析的结果，重建反映物种间进化关系的进化树。

为完成这一工作已发展了多种软件包，象PYLIP、MEGA等；

④稳定性检验。

为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70％以上）出现的分支点才是可靠的。

通用的方法使用Bootstrap算法，相应的软件已包括在构建系统进化树所用的软件包当中。

为便于使用者查找表三给出了进化分析相关软件的因特网地址。

3、基因的横向迁移

生物同一状态下，出于不同进化程度的物种间的基因横向转移不是进化来的，而是在同一时代横向迁移来的，人基因中的223基因是细菌的，而线虫，果蝇和酵母中没有，说明是垂直进化来。

MoreandmoreLGT（LateralGeneTransfer）werediscoveredandreported.Somepeopleguess1.5%~14.5%ofgenesinagenomearerelatedwithLGT,evenrRNAmoleculesareinvolvedinLGT;

Asmoreandmorewholegenomesequenceandtherelateddatabecomeavailable,itispossibletore-considerthephylogenyandclusteringpropertiesofspeciesinmorebroadmeasurements,eveninlevelofwholegenome.

怎样在考虑LGT的基础上进行进化树分析

构建数据库[COG归属于genebank]去掉LGT

基于实验基因组的方法，利用各种完整的基因组，可以不考虑LGT

Q：

怎么比不同SIZE的基因组（人与支原体）

用（CISA：

CompleteInformationSetAnalysis）抽提每个基因组的特殊，如一个支原体400kb，抽提特殊序列，除以400，人基因组为30亿，提取其特殊，再除以30亿，再进行比较。

PhylogenyBasedonWholeGenomeasinferredfromCompleteInformationSetAnalysis（CISA）

wepresentanewmethodbasedoninformationtheorytocalculatethephylogenicdistancebetweenbiologicalsequences,including16sRibosomalRNA,whichisusedformethodproof-test,24completelysequencedgenomes,aswellasallpredictedORFproductsofthem,creatingPhylogenyofgenomeandproteomeusingneighboring-joiningalgorithm.

Scientistshavealreadybeenconsciousofthatnootherbiologicalsequencecanbringmorephylogeneticinformationthanthegenome.However,previousalgorithmsdon’thavetheabilitytohandlesuchmegabaselevelnucleicacidoraminoacidsequences,whoselengthsizesareinmostcasesunequal.

TheCompositionofProteinswithdifferentfunctions（COG）inaWholeProteomeRevealstheOrganism’sPhylogenyandClusteringProperties

Wetookthe17functionalclassesofCOGs（ClustersofOrthologousGroups）asthebasicclassesofproteinfunctionsandconstructeda17-Dprotein_vectortodescribethepotentialfunctionsoftheprotein.Bysummingupallprotein_vectorsbelongingtotheproteomeandthennormalizingit,wegota17-D“Proteome_Vector”reflectingthecompositionofproteinsofdifferentfunctionsintheproteome.Byregarding