第二版基因表达数据分析_精品文档PPT文件格式下载.ppt
- 文档编号:15025768
- 上传时间:2022-10-26
- 格式:PPT
- 页数:112
- 大小:4.97MB
第二版基因表达数据分析_精品文档PPT文件格式下载.ppt
《第二版基因表达数据分析_精品文档PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《第二版基因表达数据分析_精品文档PPT文件格式下载.ppt(112页珍藏版)》请在冰豆网上搜索。
真核生物基因表达的基本方式真核生物基因表达的基本方式基因表达调控示意图基因表达调控示意图基因表达的时空性基因表达的时空性基因表达测定方法基因表达测定方法RT-qPCR近近20年来三种不同高通量基因表达测定技术的应用趋势年来三种不同高通量基因表达测定技术的应用趋势高通量基因表达测定的应用实例高通量基因表达测定的应用实例1.测定组织特异性基因表达测定组织特异性基因表达2.基因功能分类基因功能分类3.癌症的分类和预测癌症的分类和预测4.临床治疗效果预测临床治疗效果预测5.基因与小分子药物、疾病之间的关联基因与小分子药物、疾病之间的关联6.干细胞的全能型、自我更新和细胞命运决定研究干细胞的全能型、自我更新和细胞命运决定研究7.动植物的发育研究动植物的发育研究8.环境对细胞基因表达的作用环境对细胞基因表达的作用9.环境监测环境监测10.物种的繁育物种的繁育第二节第二节基因表达测定平台基因表达测定平台与数据库与数据库MicroarrayPlatformandDatabases1.cDNA芯片芯片2.Affymetrix芯片芯片3.下一代下一代测序技序技术技技术如:
如:
Roche-454,IlluminaMiSeq,IonTorrentPGM一、基因表达测定平台介绍一、基因表达测定平台介绍二、二、MicroarrayMicroarray技术与技术与RNA-SeqRNA-Seq技术的比较技术的比较1.RNA-Seq技术对没有已知参考基因组信息的非模式技术对没有已知参考基因组信息的非模式生物,也可测定转录信息;
生物,也可测定转录信息;
2.RNA-Seq技术可以测定转录边界的精度达到一个碱技术可以测定转录边界的精度达到一个碱基,基,RNA-Seq可以用来研究复杂的转录关系;
可以用来研究复杂的转录关系;
3.RNA-Seq可以同时测定序列的变异;
可以同时测定序列的变异;
4.RNA-Seq背景信号很小,测定的动态范围很大。
背景信号很小,测定的动态范围很大。
RNA-Seq在基因表达的定量上准确性很高;
在基因表达的定量上准确性很高;
RNA-Seq在测定技术上和生物上重复性很高;
在测定技术上和生物上重复性很高;
RNA-Seq的测定需要很少的的测定需要很少的RNA样本。
样本。
在应用上在应用上RNA-Seq技术对技术对ISOFORM的测定和等位的测定和等位基因的区分比芯片技术有很好的优势。
基因的区分比芯片技术有很好的优势。
三、基因表达数据库三、基因表达数据库常用基因表达数据库常用基因表达数据库名称名称数据库内容数据库内容GeneExpressionOmnibus(GEO)目前最常用的基因表达数据(目前最常用的基因表达数据(NCBI)ExpressionAtlas欧洲生物信息学中心的基因表达数据欧洲生物信息学中心的基因表达数据库SMDStanford基因表达数据基因表达数据库RNA-SeqAtlas正常正常组织的基因表达的基因表达谱数据数据GEPdb基因型、表型和基因表达关系基因型、表型和基因表达关系GXD老鼠老鼠发育基因表达信息育基因表达信息EMAGE老鼠胚胎的老鼠胚胎的时空表达信息空表达信息AGEMAP老鼠老化的基因表达数据老鼠老化的基因表达数据疾病相关基因表达数据库疾病相关基因表达数据库数据库名称数据库名称数据库内容数据库内容GENT肿瘤瘤组织与正常与正常组织的表达数据的表达数据ParkDB帕金森病的基因表达数据帕金森病的基因表达数据库cMAP小分子化合物小分子化合物对人人细胞基因表达的影响胞基因表达的影响Anticancerdruggeneexpressiondatabase抗癌化合物的基因表达数据抗癌化合物的基因表达数据CGED癌症基因表达数据癌症基因表达数据库(包括(包括临床信息)床信息)第三节第三节数据预处理与差异表达分析数据预处理与差异表达分析PreprocessingofMicroarrayDataandAnalysisofDifferentiallyExpressionGene一、基因芯片数据预处理一、基因芯片数据预处理
(一)基因芯片数据的提取
(一)基因芯片数据的提取cDNA微阵列芯片荧光信号微阵列芯片荧光信号定性信息提取:
定性信息提取:
P/A/M(Present/Absent/Marginal)定量信息提取:
基于探针集汇总后的基因水平的荧定量信息提取:
基于探针集汇总后的基因水平的荧光信号强度值光信号强度值原位合成芯片原位合成芯片
(二)数据
(二)数据对数化转换对数化转换对芯片数据做对数化转换后,数据可近似正态分布对芯片数据做对数化转换后,数据可近似正态分布(三)(三)数据过滤数据过滤数据过滤的目的是去除表达水平是负值或很小的数据过滤的目的是去除表达水平是负值或很小的数据或者明显的噪声数据。
数据或者明显的噪声数据。
过闪耀现象过闪耀现象物理因素导致的信号污染物理因素导致的信号污染杂交效能低杂交效能低点样问题点样问题其他其他(四)(四)补缺失值补缺失值1.数据缺失类型数据缺失类型非随机缺失非随机缺失基因表达丰度过高或过低。
基因表达丰度过高或过低。
随机缺失随机缺失与基因表达丰度无关,数据补缺主要针对随机缺与基因表达丰度无关,数据补缺主要针对随机缺失情况。
失情况。
高表达基因的数据缺失高表达基因的数据缺失2.数据补缺方法数据补缺方法
(1)简单补缺法)简单补缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average
(2)k近邻法近邻法选择与具有缺失值基因的选择与具有缺失值基因的k个邻居基因个邻居基因用邻居基因的加权平均估计缺失值用邻居基因的加权平均估计缺失值参数参数邻居个数邻居个数距离函数距离函数(3)回归法)回归法(五)(五)数据标准化数据标准化1.为什么要进行数据标准化为什么要进行数据标准化:
存在不同来源的系统误差存在不同来源的系统误差染料物理特性差异(热光敏感性,半衰期等)染料物理特性差异(热光敏感性,半衰期等)染料的结合效率染料的结合效率点样针差异点样针差异数据收集过程中的扫描设施数据收集过程中的扫描设施不同芯片间的差异不同芯片间的差异实验条件差异实验条件差异2.运用哪些基因进行标准化处理运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)同条件下表达量相同)不同条件间稳定表达的基因(如持家基因)不同条件间稳定表达的基因(如持家基因)控制序列(控制序列(spikedcontrol)在不同条件下表达水平相同的合成在不同条件下表达水平相同的合成DNA序列或序列或外源的外源的DNA序列。
序列。
3.cDNA芯片数据标准化处理芯片数据标准化处理
(1)片内标化()片内标化(within-slidenormalization)方法)方法全局标化、荧光强度依赖的标准化全局标化、荧光强度依赖的标准化、点样针组内点样针组内标准化标准化。
假设:
R=k*G方法方法:
c=log2k:
中值或均值:
中值或均值全局标化全局标化(globalnormalization)荧光强度依赖的标化荧光强度依赖的标化(intensitydependentnormalization)为什么为什么方法方法:
scatter-plotsmootherlowess拟合拟合c(A)为)为M对对A的拟合函数的拟合函数标化后的数据标化后的数据点样针依赖的标化点样针依赖的标化(within-print-tip-groupnormalization)为什么为什么一张芯片的不同区域运用不同的点样针点样,从而一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。
引入点样针带来的系统误差。
method
(2)染色)染色互换互换实验(实验(dye-swapexperiment)的)的标化标化实验组实验组对照组对照组芯片芯片1cy5(R)cy3(G)芯片芯片2cy3(G)cy5(R)前提假设:
前提假设:
cc方法方法:
线性标化法线性标化法(linearscalingmethods)与芯片内标化的尺度调整(与芯片内标化的尺度调整(scaleadjustment)方)方法类似。
法类似。
非线性标化法非线性标化法(non-linearmethods)分位数标化法分位数标化法(quantilenormalization)两张芯片的表达数据的分位数标化至相同,即分两张芯片的表达数据的分位数标化至相同,即分布于对角线上。
布于对角线上。
(3)片间标化()片间标化(multiple-slidenormalization)4.芯片数据标准化芯片数据标准化对对每个探针对计算每个探针对计算RR=(PMMM)/(PM+MM)比较比较R与定义的阈值与定义的阈值Tau(小(小的正值,默认值为的正值,默认值为0.015)单单侧的侧的WilcoxonsSignedRanktest产生产生p值,根据值,根据p值定义定量信号值值定义定量信号值PresentcallMarginalcallAbsentcall
(1)提取定性信号提取定性信号分析步骤分析步骤获取探针水平数据获取探针水平数据背景值效正背景值效正标准化处理标准化处理探探针特异背景值效正针特异背景值效正探针集信号的汇总探针集信号的汇总
(2)提取定量信号)提取定量信号1分析方法分析方法23456M=log2R-log2GA=(log2R+log2G)/2789前面提及的标准化方法仅效正了数据分布的中心,前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间在不同的栅格间log-Ratios的方差也不同。
的方差也不同。
二、差异表达分析基本原理与方法二、差异表达分析基本原理与方法
(一)倍数法
(一)倍数法实验条件下的表达值实验条件下的表达值对照条件下的表达值对照条件下的表达值通常以通常以2倍差异为阈值,判断基因是否差异表达倍差异为阈值,判断基因是否差异表达
(二)
(二)tt检验法检验法运用运用t检验法可以判断基因在两不同条件下的表检验法可以判断基因在两不同条件下的表达差异是否具有显著性达差异是否具有显著性(三)方差分析(三)方差分析两种或多种条件间下基因表达量的比较,用方差分析。
两种或多种条件间下基因表达量的比较,用方差分析。
它将基因在样本之间的总变异分解为组间变异和组内它将基因在样本之间的总变异分解为组间变异和组内变异两部分。
通过方差分析的假设检验判断组间变异变异两部分。
通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达是否存在,如果存在则表明基因在不同条件下的表达有差异。
有差异。
(四)(四)SAM法法(significanceanalysisofmicroarrays)1.多重假设检验问题多重假设检验问题型错误(型错误(假阳性)假阳性)在假设检验作推断结论时,拒绝了实际上正确的检在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。
验假设,即将无差异表达的基因判断为差异表达。
型错误型错误(假阴性)(假阴性)不拒绝实际上不正确的,即将有差异表达的基因判不拒绝实际上不正确的,即将有差异表达的基因判断为无
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 基因 表达 数据 分析 精品 文档