书签分享收藏举报版权申诉 / 97

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 院校资料 > 医学专业中生物信息学的传递PPT推荐.ppt

医学专业中生物信息学的传递PPT推荐.ppt

文档编号：20046521
上传时间：2023-01-16
格式：PPT
页数：97
大小：2.44MB

《医学专业中生物信息学的传递PPT推荐.ppt》由会员分享，可在线阅读，更多相关《医学专业中生物信息学的传递PPT推荐.ppt（97页珍藏版）》请在冰豆网上搜索。

医学专业中生物信息学的传递PPT推荐.ppt

欧裔美国人和尼：

欧裔美国人和尼日利亚雅鲁巴人日利亚雅鲁巴人（非洲非洲）各各3030个核心家系，中国北京汉个核心家系，中国北京汉族人及日本东京人各族人及日本东京人各4545个个体。

个个体。

3.3.一期已于一期已于20052005年完成，成功分型年完成，成功分型100100多万个常多万个常见见SNPSNP位点的识别，达到平均位点的识别，达到平均每每3kb3kb一个一个SNPSNP的测定。

的测定。

4.4.二期计划在一期基础上完成二期计划在一期基础上完成300300多万个多万个SNPSNP位位点的分型，构建起一张精度更高、信息更完整的多点的分型，构建起一张精度更高、信息更完整的多人种遗传多态图谱。

人种遗传多态图谱。

5.5.三期计划已经开展，在进一步测定原有群体基三期计划已经开展，在进一步测定原有群体基因型基础上，加入另外因型基础上，加入另外77个不同历史遗传背景的人群个不同历史遗传背景的人群，部分分型数据已经发布。

部分分型数据已经发布。

6.HapMap6.HapMap计划期望在全部完成时能够提供一个计划期望在全部完成时能够提供一个包括全部人类遗传差异的多态组图谱包括全部人类遗传差异的多态组图谱，同时带动其，同时带动其他人类遗传变异的发现和研究。

他人类遗传变异的发现和研究。

HapMap中中SNP的分布密度（截至的分布密度（截至2005年年10月）月）（二二）HapMap数据特点数据特点1.1.在多个个体的在多个个体的DNADNA样品中鉴定单核苷酸多态样品中鉴定单核苷酸多态（SNPSNP）。

）。

2.2.将群体中频率大于将群体中频率大于1%1%的那些共同遗传的相邻的那些共同遗传的相邻SNPSNP组合成单体型。

组合成单体型。

3.3.在单体型中找出用于识别这些单体型的标签在单体型中找出用于识别这些单体型的标签SNPSNP。

这样，。

这样，HapMapHapMap提供的每个研究个体的数据包提供的每个研究个体的数据包括括SNPSNP等位、基因型、基因型频率、等位、基因型、基因型频率、200kb200kb范围内范围内SNPSNP之间的之间的LDLD量度。

量度。

（二二）HapMap数据的拓展应用数据的拓展应用1.1.基于大群体、多种群的人类单核苷酸多态数据基于大群体、多种群的人类单核苷酸多态数据的重组率推算提供了我们一张基因组进化痕迹图。

的重组率推算提供了我们一张基因组进化痕迹图。

2.2.连锁不平衡的计算给了我们一张基因组块状连连锁不平衡的计算给了我们一张基因组块状连锁结构图。

锁结构图。

3.3.种群差异研究让我们看到一张种群间基因组结种群差异研究让我们看到一张种群间基因组结构差异图。

构差异图。

4.SNP4.SNP的杂合情况告诉我们人类基因组上受到选的杂合情况告诉我们人类基因组上受到选择的区域或区域内的基因。

择的区域或区域内的基因。

5.5.利用利用SNPSNP位点向两边延伸的长度差异情况，我位点向两边延伸的长度差异情况，我们可以观察到一些基因组上近期正在进行的选择事们可以观察到一些基因组上近期正在进行的选择事件。

件。

6.6.高密度的高密度的SNPSNP位点，为进一步加强和完善基因位点，为进一步加强和完善基因组范围的表型和遗传相关性分析（关联研究或数量组范围的表型和遗传相关性分析（关联研究或数量性状定位）提供了可能性状定位）提供了可能。

（四四）利用利用HapMart进行科学研究进行科学研究为了便于科研工作者快速提取感兴趣的为了便于科研工作者快速提取感兴趣的SNP数据，数据，BioMart开发了方便、友好的开发了方便、友好的SNP获取网络获取网络平台平台HapMart。

HapMart建立在建立在HapMap数据基础上。

数据基础上。

支持研究者支持研究者输入输入SNP、基因、染色体区段、基因、染色体区段等等信息进行限定条件下的信息进行限定条件下的SNP查询及相关信息输出。

查询及相关信息输出。

以以IL10为例介绍基于基因的为例介绍基于基因的SNP查询过程：

查询过程：

1.输入设置输入设置选择中国群体，并在选择中国群体，并在GENEFILTERS框中输入感兴趣的基因名框中输入感兴趣的基因名IL102.输出设置输出设置选择感兴趣的输出信息选择感兴趣的输出信息3.结果导出结果导出以界面和文件形式输出限定条以界面和文件形式输出限定条件下件下IL10上的上的SNP位置、基因型、群体频率等信息位置、基因型、群体频率等信息四、重要的四、重要的SNPSNP数据库数据库（一一）SNP存储与维护数据库存储与维护数据库dbSNP为了满足对基因组范围总体变异的需求，解为了满足对基因组范围总体变异的需求，解决在决在关联研究、基因定位、功能和药理遗传学、关联研究、基因定位、功能和药理遗传学、群体遗传学、进化生物学以及定位克隆、物理作群体遗传学、进化生物学以及定位克隆、物理作图等图等领域中大规模抽样设计的需求，领域中大规模抽样设计的需求，NCBI与与NHGRI协作创建了协作创建了dbSNP。

dbSNP中中SNP数据的增长速度数据的增长速度1dbSNP的主要功能的主要功能

（1）遗传变异序列环境分析）遗传变异序列环境分析：

对变异本身：

对变异本身进行基于周围序列环境的功能分析进行基于周围序列环境的功能分析

（2）基于）基于NCBI的遗传变异交叉注释的遗传变异交叉注释：

辅助：

辅助进行染色体功能元件的功能发现和识别进行染色体功能元件的功能发现和识别（3）外部资源整合）外部资源整合：

跨平台的交叉引用：

跨平台的交叉引用（4）遗传变异的功能分析）遗传变异的功能分析：

连系多种数据：

连系多种数据平台进行变异功能发现平台进行变异功能发现2dbSNP数据特征数据特征

（1）收录人类已知的所有）收录人类已知的所有SNP数据，及已知数据，及已知的跨物种的的跨物种的SNP、插入、插入/缺失、拷贝数和微卫星多态。

缺失、拷贝数和微卫星多态。

（2）部分）部分SNP包含频率和基因型数据、实验包含频率和基因型数据、实验条件、分子背景，以及功能特性和临床变异的定位条件、分子背景，以及功能特性和临床变异的定位信息。

信息。

（3）到）到2009年年10月，月，dbSNP涉及到涉及到55个物种个物种的的1.5亿个亿个SNP，编码区编码区SNP超过超过2千万千万，具有频率，具有频率信息的信息的SNP超过超过300万个。

万个。

3dbSNP的检索界面的检索界面4dbSNP与与EntrezGene的交叉引用的交叉引用

（二）关联研究基因型数据的存储与整理

（二）关联研究基因型数据的存储与整理dbGap1.dbGap的主要功能的主要功能

（1）dbGaP的开发是为了的开发是为了存储和发布基因型存储和发布基因型和表型相关的研究数据和表型相关的研究数据及研究结果。

及研究结果。

（2）包括全基因组关联研究、医疗测序、分）包括全基因组关联研究、医疗测序、分子诊断化验，以及基因型与非临床性状（数量性状）子诊断化验，以及基因型与非临床性状（数量性状）之间的关联性。

之间的关联性。

（3）用于高通量、低成本、高效率的分析方用于高通量、低成本、高效率的分析方法研究，发现海量基因型和表型数据相关性法研究，发现海量基因型和表型数据相关性。

2.dbGap中的数据类型中的数据类型

（1）研究文件）研究文件包括研究项目的说明，协议包括研究项目的说明，协议文件和数据收集文书。

文件和数据收集文书。

（2）表型数据）表型数据包括在个体水平上的和以摘包括在个体水平上的和以摘要形式进行个体的表型信息介绍。

要形式进行个体的表型信息介绍。

（3）遗传数据）遗传数据包括研究对象的个体基因型、包括研究对象的个体基因型、谱系信息、精细定位结果和重新测序的描述。

谱系信息、精细定位结果和重新测序的描述。

（4）统计结果）统计结果包括原始的关联或连锁分析包括原始的关联或连锁分析获得的结果。

获得的结果。

第三节基于SNP的复杂疾病遗传定位方法SNP-basedcomplexdiseasemappingmethodsSNP-basedcomplexdiseasemappingmethods基于群体分子标记频率的统计分析方法进行遗基于群体分子标记频率的统计分析方法进行遗传特性与疾病发生之间的相关性研究，实现疾病基传特性与疾病发生之间的相关性研究，实现疾病基因的染色体定位，不需要先验的生物学知识，是一因的染色体定位，不需要先验的生物学知识，是一种强大的疾病基因识别手段。

种强大的疾病基因识别手段。

随着随着SNP分型技术的发展，分型技术的发展，SNP作为一种最重作为一种最重要的分子标记，能够应用于孟德尔遗传病的研究，要的分子标记，能够应用于孟德尔遗传病的研究，同时被广泛的用来进行复杂疾病的染色体定位。

同时被广泛的用来进行复杂疾病的染色体定位。

一、疾病定义与样本选取偏好一、疾病定义与样本选取偏好1.临床表型临床表型选取具有典型临床特征和明确诊选取具有典型临床特征和明确诊断依据的个体作为疾病研究对象。

断依据的个体作为疾病研究对象。

2.发病年龄发病年龄具有早发特征的患病个体更倾向具有早发特征的患病个体更倾向于有较明显的遗传特点。

于有较明显的遗传特点。

3.家族史家族史有家族史的个体能够较为准确的诊有家族史的个体能够较为准确的诊断疾病种类。

断疾病种类。

4.严重程度严重程度较为严重的患病个体，具有较明较为严重的患病个体，具有较明显的遗传特点。

显的遗传特点。

5.群体分层群体分层选取的研究群体应具有同质性。

选取的研究群体应具有同质性。

二、连锁分析进行风险二、连锁分析进行风险SNPSNP定位原理定位原理连锁分析连锁分析（linkageanalysis）是根据家系中遗）是根据家系中遗传标记重组率来计算两等位之间距离的方法。

传标记重组率来计算两等位之间距离的方法。

连锁分析主要是通过分析已知的性状或疾病表连锁分析主要是通过分析已知的性状或疾病表型与基因型在家系中遗传模式，来定位新的易感位型与基因型在家系中遗传模式，来定位新的易感位点和易感区域。

点和易感区域。

连锁分析是用于研究家系中标记传递的一种分连锁分析是用于研究家系中标记传递的一种分析策略，根据连锁分析过程中是否依赖于假设模型，析策略，根据连锁分析过程中是否依赖于假设模型，我们将连锁分析方法分为两类：

参数连锁分析和非我们将连锁分析方法分为两类：

参数连锁分析和非参数连锁分析。

参数连锁分析。

（一）参数连锁分析方法

（一）参数连锁分析方法对于孟德尔遗传病，易于比较清楚的知道该疾对于孟德尔遗传病，易于比较清楚的知道该疾病的遗传方式、外显率、基因频率等指标，从而确病的遗传方式、外显率、基因频率等指标，从而确定一个准确的遗传模型进行连锁分析。

定一个准确的遗传模型进行连锁分析。

统计方法的发展，某些遗传模型并不清楚的疾统计方法的发展，某些遗传模型并不清楚的疾病也通过改变策略而适用于连锁分析，但相对准确病也通过改变策略而适用于连锁分析，但相对准确的模型建立是参数连锁分析成功的基本条件。

的模型建立是参数连锁分析成功的基本条件。

直接计分法和直接计分法和LOD值法是最常用的参数连锁定值法是最常用的参数连锁定位方法。

位方法。

这里我们以这里我们以LOD值法为例对参数连锁分析方法值法为例对参数连锁分析方法进行简要的介绍：

进行简要的介绍：

1.LOD值法进行连锁分析首先针对某一疾病收值法进行连锁分析首先针对某一疾病收集一定数量的家系资料进行分离分析，确定遗传模集一定数量的家系资料进行分离分析，确定遗传模型。

型。

2.通过文献检索了解其可能的决定性状的染色通过文献检索了解其可能的决定性状的染色体区域，并对该区域的体区域，并对该区域的SNP进行查询和筛选，基于进行查询和筛选，基于选定的选定的SNP，对该家系成员进行，对该家系成员进行SNP分型。

分型。

3.通过连锁分析估计疾病与通过连锁分析估计疾病与SNP在子代中重组在子代中重组的发生率，计算的发生率，计算LOD值，确定重组分数及相应的遗值，确定重组分数及相应的遗传距离，并进行假设检验，判断易感基因是否与遗传距离，并进行假设检验，判断易感基因是否与遗传标记连锁。

传标记连锁。

LOD值是指在一定重组率条件下，两个位点相值是指在一定重组率条件下，两个位点相连锁的似然性和不连锁的似然性比值的对数值，即连锁的似然性和不连锁的似然性比值的对数值，即在进行连锁分析时，要计算在进行连锁分析时，要计算0（不重组）到（不重组）到0.5（随机分配）的一系列（随机分配）的一系列LOD得分。

得分。

当当LOD得分为得分为+3或更大时，肯定连锁；

当或更大时，肯定连锁；

当LOD得分小于或等于得分小于或等于-2时，排除连锁。

时，排除连锁。

常用的基于常用的基于LOD的连锁分析工具有的连锁分析工具有LIPED、LINKAGE、S.A.G.E.等自由软件包等自由软件包早期的连锁分析方法对模型的依赖性较强，计早期的连锁分析方法对模型的依赖性较强，计算速度慢等原因，算速度慢等原因，“混合模型混合模型”方法、多位点连锁方法、多位点连锁分析方法、吉布斯取样及蒙特卡罗方法等逐步发展。

分析方法、吉布斯取样及蒙特卡罗方法等逐步发展。

参数连锁分析过程中的注意事项：

1.参数连锁分析家系选择过程中需要考虑到五参数连锁分析家系选择过程中需要考虑到五项基本要求做出合理的家系筛选。

项基本要求做出合理的家系筛选。

2.对于某些外显率并不明确的疾病，还需要对对于某些外显率并不明确的疾病，还需要对外显率进行估计，而采用疾病个体特异的分析策略。

外显率进行估计，而采用疾病个体特异的分析策略。

3.家系中某些个体的疾病表型并不典型，难以家系中某些个体的疾病表型并不典型，难以确定是否受累，如某些精神疾病，需要进行人为的确定是否受累，如某些精神疾病，需要进行人为的判断或重新划分。

判断或重新划分。

（二）非参数连锁分析方法

（二）非参数连锁分析方法非参数连锁分析是一种在分析前不需要确定疾非参数连锁分析是一种在分析前不需要确定疾病遗传模式（如基因型频率、外显率等）或半依赖病遗传模式（如基因型频率、外显率等）或半依赖模型的分析方法。

模型的分析方法。

最常用的是等位共享方法，不依赖于遗传模型最常用的是等位共享方法，不依赖于遗传模型的构建，而是一个排除模型的过程。

的构建，而是一个排除模型的过程。

通过显示受累亲属间高于随机情况的共享遗传通过显示受累亲属间高于随机情况的共享遗传相同的染色体区域（或位点）概率来证实染色体区相同的染色体区域（或位点）概率来证实染色体区域的遗传模式与孟德尔遗传之间的差别。

域的遗传模式与孟德尔遗传之间的差别。

等位共享方法研究家系中亲属共享来源于同一等位共享方法研究家系中亲属共享来源于同一祖先的特定染色体区域或位点的频率，也叫做祖先的特定染色体区域或位点的频率，也叫做血源血源一致性一致性（identical-by-descent,IBD），然后将某），然后将某个位点共享个位点共享IBD的情况与随机进行比较。

的情况与随机进行比较。

还有一个与之相似的概念还有一个与之相似的概念状态一致性状态一致性（identical-By-State,IBS），用来描述亲属对之），用来描述亲属对之间共享同一等位的频率。

间共享同一等位的频率。

随着遗传标记分型技术，特别是随着遗传标记分型技术，特别是SNP分型技术分型技术的进步，的进步，IBD和和IBS方法也逐渐应用于基因组范围关方法也逐渐应用于基因组范围关联研究中。

联研究中。

IBD和和IBS示意示意等位共享的方法是一种非参数方法，比参数连等位共享的方法是一种非参数方法，比参数连锁分析方法有更宽泛的应用范围，而且即使在受累锁分析方法有更宽泛的应用范围，而且即使在受累亲属中不完全显性、表型复制、遗传异质性和高频亲属中不完全显性、表型复制、遗传异质性和高频等位等影响因素存在时，也有较好的表现。

等位等影响因素存在时，也有较好的表现。

唯一的缺陷是等位共享方法提供的结果一般说唯一的缺陷是等位共享方法提供的结果一般说来没有参数连锁分析方法显著。

来没有参数连锁分析方法显著。

三、关联研究发现疾病风险三、关联研究发现疾病风险SNPSNP关联研究关联研究（associationstudy）是（一般情况）是（一般情况下）不依赖于家系信息的一种遗传定位策略，由于下）不依赖于家系信息的一种遗传定位策略，由于资源丰富，分析方法简便，是目前遗传定位研究中资源丰富，分析方法简便，是目前遗传定位研究中最常用的分析方法。

最常用的分析方法。

关联研究通过检验某个特定的等位在疾病组和关联研究通过检验某个特定的等位在疾病组和对照组中出现的频率差异来判断此等位是否是疾病对照组中出现的频率差异来判断此等位是否是疾病易感等位。

以易感等位。

以SNP而言，发现风险而言，发现风险SNP的过程可以的过程可以采用四格表采用四格表2检验进行等位频率分析，也可以采用检验进行等位频率分析，也可以采用2*32检验进行基因型分析。

检验进行基因型分析。

SNP与疾病关联性进行分析，方法上的简捷性与疾病关联性进行分析，方法上的简捷性显而易见，但关联研究也有比较明显的缺点：

显而易见，但关联研究也有比较明显的缺点：

1.对照组样本选取具有严格的限制对照组样本选取具有严格的限制2.由于关联研究可能针对任何一个分子标记进由于关联研究可能针对任何一个分子标记进行，而不存在先验的假设，对关联研究发现的风险行，而不存在先验的假设，对关联研究发现的风险SNP尚需要进行可靠的功能验证。

尚需要进行可靠的功能验证。

研究中对标记信息的分析比研究方法本身更重研究中对标记信息的分析比研究方法本身更重要，下面我们将从关联研究机理上来探讨风险要，下面我们将从关联研究机理上来探讨风险SNP发现应注意的问题。

发现应注意的问题。

关联研究中发现关联研究中发现SNP与疾病发生之间的显著相与疾病发生之间的显著相关性可能存在三个原因：