基因组学第5章PPT资料.ppt
- 文档编号:13169574
- 上传时间:2022-10-07
- 格式:PPT
- 页数:46
- 大小:2.62MB
基因组学第5章PPT资料.ppt
《基因组学第5章PPT资料.ppt》由会员分享,可在线阅读,更多相关《基因组学第5章PPT资料.ppt(46页珍藏版)》请在冰豆网上搜索。
,5.1.2同源基因查询,同源查询:
利用已存入数据库中的基因序列与待查的基因组序列进行比较,从中查找可与之匹配的碱基序列或蛋白质序列及其比例用于识别基因的方法。
同源查询的依据是:
现有生物的不同种属之间具有功能或结构相似的同源基因成员,它们在起源上一脉相承,存在保守的序列组成。
一般认为氨基酸的一致性或相似性在25%以上可视为同源基因。
同源性,一致性和相似性的定义,1)同源(homological)基因系指起源于同一祖先但顺序已经发生变异的基因成员,分布在不同物种间的同源基因又称直系基因.同一物种的同源基因则称水平基因,水平基因由重复后趋异产生.2)基因同源性只有“是”和“非”的区别,无所谓百分比.3)一致性(identity)系指同源DNA顺序的同一碱基位置的相同的碱基成员,或者蛋白质的同一氨基酸位置的相同的氨基酸成员,可用百分比表示.4)相似性(similarity)系指同源蛋白质的氨基酸顺序中一致性氨基酸和可取代氨基酸所占的比例.可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质(或酶)的生物学功能.,相似性与一致性,249MFN-MAIPFGAGAYAQALNQQQAALMASVAQGG232ILTSLTLPFSAGAYAQALNQQQTTVIS-TSGS注:
红色为一致性氨基酸,蓝色为可取代氨基酸,白色为趋异氨基酸.一致性氨基酸百分比为红色氨基酸所占的比例.相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比例.,同源查询(DNA顺序),1CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT1802CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT1151ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT2402ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT175,同源查询(氨基酸顺序),氨基酸的同源性比DNA更为可靠,因为绝大多数同源基因在功能上具有相似性,这种相似性体现在关键的氨基酸通常占据相同的位置。
现有基因注释软件的特点,1)目前基因注释程序的编写主要依据两种信息内涵:
1.signalterms(信号指令),如起始密码,终止密码,终止信号,剪接受体位与供体位顺序,多聚嘧啶顺序等保守的顺序组成;
2.contentterms(内容指令),如密码子使用偏好.2)常用的注释软如GenScan主要偏重于内容指令,而FgeneSH则着重于信号指令.对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困难.在一个长度数十或数百kb的内含子中,存在许多可能误判的信号指令.在超长基因注释中常出现正向错误(false-positive,多注释)或负向错误(false-negetive,少注释).引自:
NatureReviews/Genetics,4:
741-749,2003.,基因自动注释软件的问题,1)基因注释一般包括如下内容:
基因组DNA顺序中确切的转录为mRNA的顺序;
外显子和内含子的位置;
基因编码的蛋白质顺序.2)在目前即使已有很好研究基础的生物中,最好的计算机基因注释程序对每个外显子注释的准确率也只能达到80%.如果一个基因有5个外显子,整个基因注释的准确率为0.85=33%.3)基因注释的软件通常容易犯误拼和误拆的错误,即将两个基因归在一个,或者反过来.4)容易遗漏很小的外显子,特别是保守性不强的基因.5)容易忽略小基因,尤其是基因内基因.6)无法预测mRNA中5-和3-非翻译区(UTR)的边界,即很难确定转录起点与终点.,不同注释软件比较,1)目前基因组注释的软件绝大多数都是根据已有基因结构的数据编写的,具有很多的经验成分.2)由于各家采用的注释软件不同,注释结果有很大的差别,如人类基因组测序计划(HGP)注释的基因与Celara公司注释的基因仅2/3一致.,不同注释软件之间的效率,Performanceofthreepopulargenepredictionprogramson42semiartificialgenomicsequencescontaining178knownhumangenesequences(900exons).Sensitivity(敏感性)ispercentageofexonsthatarepredictedcorrectly.Specificity(专一性)ispercentageofpredictedexonsthatarecorrect.ReproducedwithchangesfromYadaetal.,2002ColdSpringHarborGenomeSequencingandBiologyMeeting,May7-11,2002.FGENESHisbyfarthemostaccurateofthreeprograms.效率与准确率比较-programsensitivityspecificitymissedexon(%)wrongexon(%)-FGENESH77.165.79.623.2GenScan66.544.912.040.9HMMGene69.536.615.555.5-引自:
http:
/,5.1.3实验确认基因,实验确认基因的依据:
任何基因都可转录为RNA拷贝。
实验确认基因的方法
(1)分子杂交可确定DNA片段是否含表达序列
(2)由EST和cDNA指认基因(3)全长cDNA边界序列文库的构建-确定基因的边界,
(1)分子杂交确认基因,将RNA经琼脂糖凝胶电泳分离,然后转移到杂交膜上,将待测DNA样品标记后与RNA杂交,如果RNA中含有DNA的转录产物,会显示明显的信号。
(2)由EST和cDNA指认基因,EST(expressedsequencetag,表达序列标签):
基因转录产物的一段cDNA序列。
由于EST和cDNA是基因转录加工后的产物,可以确切无疑地代表相应基因成员的存在。
EST和cDNA是特定组织器官基因的表达产物,可初步判断基因表达的场所,为基因功能研究提供线索。
(3)基因边界的确定,构建全长cDNA边界序列文库,或称基因鉴别信号(geneidentificationsignature,GIS):
分离每个全长cDNA5端和3端各20个碱基序列。
-,-,-,基因1,基因2,基因3,几种模式生物注释的基因总数,大肠杆菌(E.coli):
4800酵母(yeast):
6200线虫(nematode):
19000果蝇(fly):
13600拟南芥(Arabidopsis):
25000水稻(rice):
60000玉米(maize):
59000(估计数)老鼠(mouse):
30000,5.1.4基因的命名和分类,迄今为止国际上还没有一个普遍公认的适合所有生物种属的基因命名规则.由于历史,习惯以及其它各种原因,基因命名中常常存在许多同名歧义,或者同义歧名的现象.许多基因在生物的不同发育阶段具有不同的功能,这一点也给准确的基因命名造成了实际困难.很多科学家都希望基因的命名标准化,曾经在1997年和1999年举行了两次有关基因命名的研讨会,但因研究领域的不同以及基因命名本身存在的复杂问题,无法达成一个统一的意见。
目前不同生物种属的基因命名规则仍由各相关领域的专家讨论分别制定,然后推荐给研究者选择采用.,基因注释水平的分类,Knowngene(已知基因):
与已知cDNA和蛋白质顺序同源的基因.Novelgene(新基因):
与其他物种cDNA或蛋白质同源的基因.Noveltranscripts(新转录物):
与novel基因相似,但缺少明确的ORF.Putativegene(可能的基因):
有同源EST支持,但缺少cDNA或ORF.Predictedgene(预测基因):
数据库中至少有一个外显子支持,但缺少cDNA或明确的ORF.Pseudogene(假基因):
与已知蛋白质有50%的同源性,但cDNA残缺,在其它位点存在正常的同源基因的顺序.引自:
Nature414:
865-871,2001(人类22号染色体注释),5.2基因功能预测,传统的基因功能的研究方法是逐个进行的,需要通过一系列的突变体筛选、基因功能互补等遗传学和分子生物学程序予以检测和验证。
采用生物信息学进行同源性比较来预测基因功能,蛋白质结构域是预测基因功能的主要依据。
同源基因都拥有一个共同的祖先基因,在漫长的进化岁月中它们仍然保持原有的生物学功能。
同源基因有2类-直向同源基因:
不同物种之间的同源基因,它们来自物种分隔之前的同一祖先。
-共生同源基因:
同一种生物内部的同源基因,它们常常是多基因家族的不同成员。
同源基因,1)任何基因编码的蛋白质都由一些在高级结构水平具有特征性的功能域组成,如信号肽,受体区,激酶区,DNA或RNA结合域等.2)功能域具有很强的保守性,关键的氨基酸组成及其排列位置是相当保守的,是鉴定功能域的主要标识.3)功能域是目前确定基因功能的主要依据之一.4)已由许多专门的功能域注释软件,可用于基因组顺序的注释.,蛋白质结构域在功能预测中的意义,什么是结构域或功能域(domain)?
定义:
结构域指蛋白质结构中具有相对独立的亚结构区,通常含有数个二级结构基序,具有相对独立的功能。
1)Regionofaproteinwithadistincttertiarystructure(e.g,globularorrodlike)andcharacterristicactivity;
homolgousdomainsmayoccurindifferentprotein.(引自“MolecularCellBiology”)2)Adiscretecontinuouspartoftheaminoacidsequenceofaproteinthatcanbeequatedwithaparticularfuction.(引自“GeneVII”)3)Portionofaproteinthathasatertiarystructureofitsown.Inlargerproteinseachdomainisconnectedtootherdomainbyshortflexibleregionsofpolypeptide.(引自“MolecularBiologyofTheCell”),RRM结合域,5.3基因功能检测,1.基因剔除2.基因过表达3.突变体库构建4.抑制差减杂交5.RNA干扰与基因功能检
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组