书签分享收藏举报版权申诉 / 73

立即下载加入VIP,免费下载

当前位置：首页 > 工作范文 > 演讲主持 > 大规模表达序列标签测定及分析_精品文档PPT格式课件下载.ppt

大规模表达序列标签测定及分析_精品文档PPT格式课件下载.ppt

文档编号：15479551
上传时间：2022-11-01
格式：PPT
页数：73
大小：1.43MB

《大规模表达序列标签测定及分析_精品文档PPT格式课件下载.ppt》由会员分享，可在线阅读，更多相关《大规模表达序列标签测定及分析_精品文档PPT格式课件下载.ppt（73页珍藏版）》请在冰豆网上搜索。

大规模表达序列标签测定及分析_精品文档PPT格式课件下载.ppt

90年代初CraigVenter提出了EST的概念，并测定了609条人脑组织的EST，宣布了cDNA大规模测序的时代的开始（Adamsetal.,Science,1991）。

1993年前ESTs数据收录于GenBank，EBI和DDBJ。

1993年NCBI（NationalCenterofBiotechnologyInformation）建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。

1995年中期GenBank中EST的数目超过了非EST的数目。

至2007年9月底，GenBank中EST的数目已经超过了四千六百万，超过GenBank中序列数的60%.EST相关数据库相关数据库储存EST原始数据的一级数据库EMBLGenBank（dbEST）DDBJUniGene（http:

/www.ncbi.nlm.nih.gov/UniGene）TIGRGeneIndices（http:

/www.tigr.org/tdb/tgi/）STACK（http:

/www.sanbi.ac.za/Dbases.html）对EST进行聚类拼接的二级数据库EST的应用1ESTs与基因识别ESTs已经被广泛的应用于基因识别，因为ESTs的数目比GenBank中其它的核苷酸序列多，研究人员更容易在EST库中搜寻到新的基因（Boguskietal.,1994）.在同一物种中搜寻基因家族的新成员在同一物种中搜寻基因家族的新成员（paralogs）。

在不同物种间搜寻功能相同的基因在不同物种间搜寻功能相同的基因（orthologs）。

已知基因的不同剪切模式的搜寻。

【注：

不过很难确注：

不过很难确定一个新的序列是由于交替剪切产生的或是由于定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组文库中污染了基因组DNA序列序列（Wolfsbergetal.,1997）】EST的应用2ESTs与基因图谱的绘制EST可以借助于序列标签位点（sequence-taggedsites）用于基因图谱的构建.STS本身是从人类基因组中随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。

来自mRNA的3非翻译区的ESTs更适合做为STSs，用于基因图谱的绘制。

其优点主要包括：

由于没有内含子的存在，因此在cDNA及基因组模板中其PCR产物的大小相同；

与编码区具有很强的保守性不同，3UTRs序列的保守性较差，因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。

（JamesSikela等，1991年）EST的应用3ESTsESTs与基因预测与基因预测由于EST来源于cDNA，因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。

使用合适的比对参数，大于90的已经注释的基因都能在EST库中检测到（Baileyetal.,1998）。

ESTs可以做为其它基因预测算法的补充，因为它们对预测基因的交替剪切和3非翻译区很有效。

ESTsESTs与与SNPsSNPs来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。

最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs（Buetowetal.,1999;

Gargetal.,1999;

Marthetal.,1999;

Picoult-Newbergetal.,1999）。

应注意注意区别真正的SNPs和由于测序错误（ESTs为单向测序得来，错误率可达2）而引起的本身不存在的SNPs。

解决这一问题可以通过：

提高ESTs分析的准确性。

对所发现的SNPs进行实验验证进行实验验证。

EST的应用4EST的应用5利用利用ESTsESTs大规模分析基因表达水平大规模分析基因表达水平因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到，所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。

标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。

CGAP为研究癌症的分子机理，美国国家癌症研究所NCI的癌症基因组解析计划（CancerGenomeAnatomyProject,CGAP）构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库，并进行了大规模的EST测序，其中大部分的文库未经标准化或差减杂交处理。

CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如：

DigitalGeneExpressionDisplayer（DGED）cDNAxProfiler基因表达系列分析基因表达系列分析（SerialAnalysisofGeneExpression,SAGE）基因表达系列分析是一种用于定量，高通量基因表达分析的实验方法（Velculescuetal.,1995）。

SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签（约9-14个碱基对），这些短的序列被连接、克隆和测序，特定的序列标签的出现次数就反应了对应的基因的表达丰度。

DNA微阵列或基因芯片的研究微阵列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微阵列是一种新的大规模检测基因表达的技术，具有高通量分析的优点。

在许多情况下，cDNA芯片的探针来源于3EST（Dugganetal.,1999），所以EST序列的分析有助于芯片探针的设计。

ESTEST技术流程技术流程体内：

翻译体外研究：

反转录连接，转化转化效率问题（基因芯片）转化效率问题（基因芯片）转化效率问题（基因芯片）转化效率问题（基因芯片）文库构建技术已经成熟文库构建技术已经成熟文库构建技术已经成熟文库构建技术已经成熟测序采样问题（测序采样问题（测序采样问题（测序采样问题（SAGESAGE）测序成本已经大大降低测序成本已经大大降低测序成本已经大大降低测序成本已经大大降低大大大大数据量分析理念已经形成数据量分析理念已经形成数据量分析理念已经形成数据量分析理念已经形成Serialanalysisofgeneexpression（SAGE）技术流程反转录反转录酶切酶切连接连接测序测序单条测序对单条测序对3040条条EST测序测序分析分析由于采样量大大提高，可对低表达基因进行分析：

由于采样量大大提高，可对低表达基因进行分析：

基因表达量分析、寻找新基因等等基因表达量分析、寻找新基因等等实实实实验验验验步步步步骤骤骤骤较较较较长长长长要要要要求求求求较较较较高高高高基因芯片或微阵列技术流程.Clone反转录（可选）反转录（可选）读取光密度读取光密度聚类分析（非同源功能注释）聚类分析（非同源功能注释）标记标记杂交杂交反转录反转录EST分析分析.GeneChip0.10.060.050.04000.070.01表达量矩阵G1,G3,G5G2,G4G6,G9利用EST，SAGE分析结果制作芯片（研究已发现的研究已发现的基因基因）连接，连接，转化转化Ricegenome-wideDNAchip（60,000+预测基因）果蝇基因芯片原位合成几种大规模分析基因表达水平的方法的比较几种大规模分析基因表达水平的方法的比较lESTs很短，没有给出完整的表达序列；

低丰度表达基因不易获得。

由于只是一轮测序结果，出错率达2%-5%；

有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染；

有时出现镶嵌克隆；

序列的冗余，导致所需要处理的数据量很大。

ESTs数据的不足数据的不足一、cDNA文库构建非标准化的非标准化的cDNA文库的构建。

文库的构建。

（可用于基因表达量的分析）（可用于基因表达量的分析）（可用于基因表达量的分析）（可用于基因表达量的分析）经标准化或扣除杂交处理的经标准化或扣除杂交处理的cDNA文库。

文库。

（富集表达丰度较低的基因）（富集表达丰度较低的基因）（富集表达丰度较低的基因）（富集表达丰度较低的基因）Oligod（T）cDNA文库。

（非翻译区由于不含有编码序列，与编码区保守序列相比所受到的选择压力比较小，因而非翻译区由于不含有编码序列，与编码区保守序列相比所受到的选择压力比较小，因而非翻译区由于不含有编码序列，与编码区保守序列相比所受到的选择压力比较小，因而非翻译区由于不含有编码序列，与编码区保守序列相比所受到的选择压力比较小，因而其多态性程度比较高，便于多态性位点的选择以用于遗传图谱的构建。

其多态性程度比较高，便于多态性位点的选择以用于遗传图谱的构建。

）随机引物随机引物cDNA文库文库。

（所获得的所获得的所获得的所获得的ESTEST在基因功能的鉴定时具有更多的信息含量，并且在构建在基因功能的鉴定时具有更多的信息含量，并且在构建在基因功能的鉴定时具有更多的信息含量，并且在构建在基因功能的鉴定时具有更多的信息含量，并且在构建ESTEST数据库时更有数据库时更有数据库时更有数据库时更有优势，同时有利于利用优势，同时有利于利用优势，同时有利于利用优势，同时有利于利用ESTEST数据库聚类完整的基因和阅读框的寻找，便于利用更敏感的蛋数据库聚类完整的基因和阅读框的寻找，便于利用更敏感的蛋数据库聚类完整的基因和阅读框的寻找，便于利用更敏感的蛋数据库聚类完整的基因和阅读框的寻找，便于利用更敏感的蛋白质比较来寻找同源基因。

白质比较来寻找同源基因。

）二、序列测定及数据分析随机挑取克隆进行随机挑取克隆进行随机挑取克隆进行随机挑取克隆进行55或或或或33端测序端测序端测序端测序序列前处理序列前处理序列前处理序列前处理聚类和拼接聚类和拼接聚类和拼接聚类和拼接基因注释及功能分类基因注释及功能分类基因注释及功能分类基因注释及功能分类后续分析后续分析后续分析后续分析lEST软件平台EST序列库/序列的质量检查测序量监控聚类和拼接检查（借助于基因组信息）全长ORF寻找发现全长基因研究表达基因概况的主要实验手段（DNAchip、proteomics的先驱）功能分类表达量分析SAGE的先驱交替剪接检测EST特有信息测序方向的选择根据不同的实验目的选择不同的测序方向：

55端端5上游非翻译区较短且含有较多的调控信息。

一般在寻找新基因或研究基因差异表达时用5端EST较好，大部分EST计划都是选用5端进行测序的，而且从5端测序有利于将EST拼接成较长的基因序列。

33端端3端mRNA有一20200bp的plyA结构，同时靠近plyA又有特异性的非编码区，所以从3端测得EST含有编码的信息较少但研究也表明，10的mRNA3端有重复序列，这可以作为SSR标记；

非编码区有品种的特异性，可以作为STS标记两端测序两端测序获得更全面的信息。

1.去除低质量的序列（Phred）2.应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列（artifactualsequences）。

载体序列载体序列（ftp:

/（ftp:

/ncbi.nlm.nih.govn