QTL定位中常见的12个问题.docx
- 文档编号:28366023
- 上传时间:2023-07-10
- 格式:DOCX
- 页数:32
- 大小:586.17KB
QTL定位中常见的12个问题.docx
《QTL定位中常见的12个问题.docx》由会员分享,可在线阅读,更多相关《QTL定位中常见的12个问题.docx(32页珍藏版)》请在冰豆网上搜索。
QTL定位中常见的12个问题
数量性状基因定位研究中假设干常见问题的分析与解答
李慧慧张鲁燕王建康*
中国农业科学院作物科学研究所/国家农作物基因资源与基因改良重大科学工程/CIMMYT中国办事处,北京100081
摘要:
QTL作图是基因精细定位、克隆和有效开展分子育种的基础,在利用QTL作图开展数量性状基因定位研究的进程中常常会碰着一些问题,与统计方式有关的一些问题包括:
LOD的统计学意义是什么?
检测QTL的可信度和LOD临界值的关系是什么?
如何评判不同的QTL作图方式?
提高QTL检测效率的途径有哪些?
与遗传参数估量有关的一些问题包括:
QTL的奉献率是如何计算出来的?
如何确信QTL有利等位基因的来源?
选择基因型分析的有效性如何?
复合性状是不是适宜于QTL作图?
与作图群体及遗传图谱有关的一些问题包括:
QTL作图群体中表型数据是不是要求服从正态散布?
加密标记是不是能够显著提高QTL检测功效?
缺失分子标记对QTL作图有什么阻碍?
奇异分离标记对QTL作图有什么阻碍?
笔者试图结合咱们连年的研究工作对这些具有共性的12个常见问题做出分析和解答,供科研工作者参考。
关键词:
数量性状;QTL作图;完备区间作图;似然比查验;功效分析
AnalyticalAnswerstoFrequentlyAskedQuestionsinQuantitativeTraitLocusMapping
LIHui-Hui,ZHANGLu-Yan,andWANGJian-Kang*
InstituteofCropSciences/NationalKeyFacilityforCropGeneResourcesandGeneticImprovement/CIMMYTChinaOffice,ChineseAcademyofAgriculturalSciences,Beijing100081,China
Abstract:
QTLmappingisanimportantstepingenefinemapping,map-basedcloning,andtheefficientuseofgeneinformationinmolecularbreeding.QuestionsarefrequentlymetandaskedintheapplicationofQTLmappinginpracticalgeneticpopulations.QuestionsrelatedtostatisticalmethodofQTLmappingare:
whatdoesLODscoremean?
WhatistherelationshipbetweenthereliabilityofdetectedQTLandtheLODthreshold?
HowtoevaluatedifferentQTLmappingmethods?
HowtoimprovetheQTLdetectionpower?
Questionsrelatedtogeneticparameterestimationare:
howtocalculatethephenotypicvarianceexplainedbyeachdetectedQTL?
HowtodeterminethesourceoffavorableallelesatdetectedQTL?
Howefficientistheselectivegenotyping?
CancompositetraitsbeusedinQTLmapping?
Questionsrelatedtolinkagemapandmappingpopulationsare:
Doesthephenotypeofatraitofinteresthavetofollowanormaldistribution?
DoestheincreaseinmarkerdensitygreatlyimproveQTLmappingpower?
WhateffectswillmissingmarkershaveinQTLmapping?
WhateffectswillsegregationdistortionhaveinQTLmapping?
Ourobjectiveinthispaperistoprovidetheanalyticalanswersto12frequentlyaskedquestions,basedonourstudiesinpastseveralyears.
Keywords:
Quantitativetrait;QTLmapping;Inclusivecompositeintervalmapping;Likelihoodratiotest;Poweranalysis
经典数量遗传学成立在多基因假说基础之上,把操纵数量性状的基因作为一个整体,重点研究各类遗传效应与遗传方差的分解和估量,不区分个别基因在表型效应上的不同[1-3]。
分子标记连锁图谱的大量显现,使得咱们能够像研究质量性状基因一样研究数量性状基因,也能够把单个数量性状基因(quantitativetraitgeneorlocus,简称QTL)定位在染色体上,并估量其遗传效应,这一进程称为QTL作图或定位[4]。
QTL作图是基因精细定位和克隆的基础,目前已成为数量性状遗传研究的常用方式。
QTL定位结果能够帮忙育种家取得目标性状的遗传信息,借助与QTL连锁的分子标记在育种群体中跟踪和选择有利等位基因,提高选择的准确性和预见性。
可是,在利用QTL作图开展遗传研究的进程中也常常碰着一些问题,这些问题大致可分为有关作图统计方式、有关遗传参数估量、和有关作图群体及连锁图谱等三大类。
笔者试图结合咱们近些年的研究工作对具有共性的12个问题做出分析和解答,供广大科研工作者在利用QTL作图开展遗传研究时参考。
与作图统计方式有关的四个问题是:
LOD的统计学意义是什么?
检测QTL的可信度和LOD临界值的关系是什么?
如何评判不同的QTL作图方式?
提高QTL检测效率的途径有哪些?
与遗传参数估量有关的四个问题是:
QTL的奉献率是如何计算出来的?
如何确信QTL有利等位基因的来源?
选择基因型分析的有效性如何?
复合性状是不是适宜于QTL作图?
与作图群体及遗传图谱有关的四个问题是:
QTL作图群体中表型数据是不是要求服从正态散布?
加密标记是不是能够显著提高QTL检测功效?
缺失分子标记对QTL作图有什么阻碍?
奇异分离标记对QTL作图有什么阻碍?
1QTL作图中的统计学问题
LOD的统计学意义是什么?
区间作图(Intervalmapping,简称IM)[5]、复合区间作图(Compositeintervalmapping,简称CIM)[6]和完备区间作图(Inclusivecompositeintervalmapping,简称ICIM)[4,7-9]均利用极大似然估量原理,通过一维扫描在全基因组上逐点检测QTL的存在。
查验的零假设(H0)是扫描位点上不存在QTL,备择假设(HA)是扫描位点上存在一个QTL,似然比统计量(LRT)用来衡量扫描位点上存在QTL的可能性大小。
似然比统计量的一样概念是,
,
其中ln是自然对数函数,L0是H0下似然函数的极大值,LA是HA下似然函数的极大值。
似然比统计量大多数情形下有专门好的统计学性质,即渐近服从
散布,
散布的自由度为两种假设下独立变量个数之差,因此容易确信给定显著性水平下查验统计量的临界值。
一些研究说明QTL作图时的似然比统计量可能不服从单一
散布,但却能够用2个不同自由度的混合
散布来近似[6,10],因此也能够确信给定显著性水平下查验统计量的临界值。
Lander和Botstein在提出IM的同时也提出利用人类遗传研究中经常使用的LOD(Likelihoodofodd)值作为查验QTL是不是存在的标准[5]。
LOD值概念为极大似然函数比的经常使用对数,即,
。
因此,假设LA是L0的10倍,那么LOD=1;若是LA是L0的100倍,那么LOD=2;若是LA是L0的1000倍,那么LOD=3。
依照LOD值和LRT值的概念,不宝贵到它们之间有如下关系:
或
。
检测QTL的可信度和LOD临界值之间的关系是什么?
与其他假设查验一样,QTL作图中的查验也可产生四种结果(图1)。
当一个位点上没有QTL,通过考试却错误地判定有QTL存在,称这种现象为假阳性;当一个位点上有QTL,通过考试判定有QTL存在,称这种现象为真阳性;当一个位点上有QTL,通过考试却错误地判定没有QTL存在,称这种现象为假阴性;当一个位点上没有QTL,通过考试判定没有QTL存在,称这种现象为真阴性。
假阳性和假阴性是统计考试中的两类错误,犯第一类错误(或假阳性)的概率(
)等于H0为真时被拒绝的概率,即,
=P{拒绝H0|H0为真}=P{假阳性}/[P{假阳性}+P{真阴性}]。
犯第二类错误(或假阴性)的概率(
)等于H0为假时未被拒绝的概率,即,
=P{未拒绝H0|H0为假}=P{假阴性}/[P{假阴性}+P{真阳性}]。
关于特定的查验方式而言,在必然的实验精准度下,降低
那么会提高
,降低
那么会提高
,同时降低
和
的途径是提高实验精准度和增加样本量。
犯第一类错误的概率
一样在查验前设定,对必然的查验方式,给定
后
也是确信的。
可是除t-考试外,大多数统计假设查验给定
下的
难以用代数解析式表示出来。
表1前5列给出LOD值~时对应的LRT值和三种自由度下一次查验中犯第一类错误概率,犯第一类错误概率
有时也叫做显著性概率;后4列给出显著性概率~时对应的LOD临界值。
以自由度2为例,LOD=对应的显著性概率为,若是只做一次假设查验,采纳如此的LOD临界值就能够保证假阳性的概率不超过,即鉴定出的QTL是假阳性的概率低于,或说鉴定出的QTL为真的概率超过。
基于区间考试的QTL作图,一样在基因组内所有染色体上按必然步长逐点查验QTL的存在,而这些查验又不是完全独立的,因此也很难确信一次查验的显著性水平所对应的全局
。
例如,若是每次查验均采纳临界值LOD=3,当自由度为2时每一个扫描位置对应的
近似为,QTL作图需要明白的是全基因组查验后的
。
由于QTL作图的复杂性,如涉及到多次非独立假设查验,不同物种有不同大小的基因组,不同作图群体有不同的标记数,零假设下似然比查验统计量服从什么样的渐近散布尚无定论,因此难以准确确信LOD临界值对应的一次查验和全局
,但一些非参数统计方式已用于给定全局
后LOD临界值的确信[11-12]。
一样以为采纳2~3的LOD临界值能够把全局
操纵在之内,在显性QTL和互作QTL作图中,似然比统计量有较大的自由度,还可适当考虑采纳较高的临界值,如3~4。
但通过理论或模拟,进一步明确QTL作图中似然比查验统计量的渐近散布仍是必要的,笔者推测渐近散布可能与染色体条数、每条染色体长度、标记密度和QTL遗传效应类型等因素有关。
与所有假设查验一样,采纳较高的LOD临界值会更好地操纵假QTL的发生,同时遗传效应较小的真QTL却不易被检测出来。
如何平稳两类错误的概率,这不单单是统计学问题,还要考虑到具体的研究目标。
若是QTL作图只是初步确信基因在染色体上的位置,然后依照作图结果构建其他次级群体对检测到的QTL进行精细定位、乃至图位克隆,然后开展转基因工作,这种研究几乎不允许假QTL的发生。
现在要适当提高查验QTL时的LOD临界值,保证后续研究中QTL的靠得住性。
另一方面,若是研究目标是把QTL作图结果用于标记辅助选择聚合育种,这时只有尽可能多地检测出操纵育种目标性状的QTL,才能保证对所有操纵育种性状的基因进行选择,因此有必要适当降低查验QTL时的LOD临界值,使得遗传效应较小的QTL也有机遇被检测出来。
此时即便有一些假QTL的存在,也不至于造成专门大的损失。
图1QTL定位中假设查验的两类错误。
阴影部份表示查验统计量LOD值的散布,LOD0表示临界值
Fig.1TwotypesoferrorinhypothesistestinQTLmapping.TheshadowarearepresentsthedistributionoftheteststatisticLODscore,andLOD0isthethresholdvalue
表13种自由度下不同LOD值对应的犯第一类错误概率(
)和不同
下对应的LOD临界值
Table1ThecorrespondingprobabilitiesoftypeIerrortoLODandthecorrespondingLODthresholdtothesignificanceprobabilitiesunderthreedegreesoffreedom
LOD
LRT
LOD
df=1
df=2
df=3
df=1
df=2
df=3
如何评判不同的QTL作图方式?
图2给出一个模拟的加倍单倍体(DH)群体中ICIM、CIM和IM三种方式的LOD值和估量遗传效应的曲线图。
遗传模型中包括7个QTL,第1染色体上1个,第2和4染色体上别离有2个相引相连锁QTL,第3染色体上有2个互斥相连锁QTL,所有QTL遗传效应的绝对值为1,效应的方向如图2箭头所示。
从图中咱们能够很直观地看到不同QTL作图方式找到的QTL不尽相同,IM无法准确信位连锁QTL,CIM无法准确信位互斥连锁的QTL。
统计查验的功效概念为
,即发觉真QTL的概率,经常使用来比较不同统计方式的有效性。
QTL作图包括着复杂的统计假设查验,难以从理论上推导出不同QTL作图方式的统计功效。
一样采纳模拟方式比较不同方式QTL检测功效和假阳性的大小,功效高同时又具有较低假阳性在统计上确实是较好的方式。
咱们用独立遗传模型说明功效的计算(表2),假定基因组包括10条染色体,每条长度160cM且均匀散布17个标记,8个QTL(IQ1~IQ8)别离位于前8条染色体,另外2条为空白染色体。
为简单起见,咱们用IQ二、IQ五、IQ6和IQ7说明功效的计算,4个QTL别离说明2%、5%、10%和20%的表型变异(即PVE)。
假定表型方差为,如此加性遗传效应等于PVE的平方根(表2)。
模拟4个DH群体,群体大小均为200,每一个群体中ICIM和IM检测到的所有超过LOD临界值的QTL列于表3,用于统计每一个QTL检测功效和假阳性。
以第一个模拟群体为例,ICIM检测到5个QTL,其中3个别离位于第5、6和7条染色体的、和70.00cM处,别离落在了IQ5、IQ6和IQ7的10cM置信区间内(表3),因此当置信区间为10cM时把IQ5、IQ6和IQ7的统计功效加1;第2条染色体上检测到一个QTL,与IQ2的距离为cM,不在IQ2的10cM置信区间内,第7条染色体上40cM处检测到一个QTL,既不在IQ7的10cM置信区间内也不在其20cM置信区间内,因此判定为假阳性。
同理,IM发觉4个QTL,其中两个别离位于第6和7染色体的60.00cM和cM处,别离落在IQ6和IQ7的10cM置信区间内,这2个QTL对应的功效加1,另外2个不在这4个QTL的10cM置信区间内,因此判定为假阳性。
依照上述算法,关于4次模拟来讲,在LOD临界值下当置信区间为10cM时(表3),ICIM检测IQ2、IQ5、IQ6和IQ7的功效别离为2、一、3和2,即IQ2在4次模拟中被检测到2次,IQ5被检测到1次,IQ6被检测到3次,IQ7被检测到2次;IM检测4个独立QTL的功效别离为一、0、3和2。
ICIM检测到的16个QTL中有8个假阳性,IM检测到的13个QTL中有7个假阳性。
当置信区间为20cM时(表3),ICIM检测IQ二、IQ五、IQ6和IQ7的功效别离为3、2、4和4,IM的检测功效别离为1、1、3和4;ICIM检测到的16个QTL中有3个假阳性,IM检测到的13个QTL中有4个假阳性。
因此通过100乃至1000次的模拟,就能够取得准确的检测功效和假阳性率,从而判定不同QTL作图方式的有效性。
图2200个加倍单倍体家系群体中区间作图、复合区间作图和完备区间作图的比较
Fig.2Comparisonofintervalmapping,compositeintervalmappingandinclusivecompositeintervalmappinginasimulatedpopulationwith200doubledhaploidlines.
假定一个基因组包括6条染色体,每条长度为120cM,等距离散布13个标记,第1条染色体上35cM处存在1个QTL,第二、3、4条染色体上都在35和68cM处存在2个QTL,图中箭头表示QTL的近似位置,朝上箭头表示QTL的加性效应为正,朝下箭头表示QTL的加性效应为负,效应的绝对值均为1。
Agenomewith6chromosomeswasassumed,eachof120cMandevenlydistributedwith13markers.OneQTLwaslocatedat35cMonchromosome1,andtwoQTLwerelocatedat35and68cMonchromosomes2,3,and4.ArrowspointedtotheapproximateQTLpositions.UpwardarrowsindicatedtheQTLhavepositiveeffects,whiledownwardarrowsindicatedtheQTLhavenegativeeffects.Theabsolutegeneticeffectis1forallQTL.
表28个独立遗传QTL在基因组中的位置、加性遗传效应、说明表型变异的百分数和10cM和20cM置信区间
Table2EightindependentQTLandtheirchromosomalpositions,additiveeffectsandexplainedphenotypicvariation(%),alongwiththe10cMand20cMconfidenceintervals(CI)
QTL
染色体
Chromosome
位置
Position(cM)
加性效应
Additive
贡献率
PVE(%)
置信区间Confidenceinterval(CI)
CI=10cM
CI=20cM
IQ1
1
25
1
(20cM,30cM)
(15cM,35cM)
IQ2
2
32
2
(27cM,37cM)
(22cM,42cM)
IQ3
3
39
3
(34cM,44cM)
(29cM,49cM)
IQ4
4
46
4
(41cM,51cM)
(36cM,56cM)
IQ5
5
53
5
(48cM,58cM)
(43cM,63cM)
IQ6
6
60
10
(55cM,65cM)
(50cM,70cM)
IQ7
7
67
20
(62cM,72cM)
(57cM,77cM)
IQ8
8
74
30
(69cM,79cM)
(64cM,84cM)
表3利用4个模拟DH群体计算完备区间作图和区间作图两种方式的检测功效和假阳性,QTL置信区间长度别离是10cM或20cM
Table3CalculationofpowerandfalseQTLinfoursimulatedDHpopulationsforICIMandIM.TheconfidenceintervalofeachpredefinedQTLis10or20cM.
Pop
完备区间作图Inclusivecompositeintervalmapping
区间作图Intervalmapping
染色体
Chromosome
位置
Position
加性效应
Additive
LOD
PVE(%)
CI=10cM
CI=20cM
染色体
Chromosome
位置
Position
加性效应
Additive
LOD
PVE(%)
CI=10cM
CI=20cM
1
2
FalseQTL
IQ2
5
FalseQTL
IQ5
5
IQ5
IQ5
6
FalseQTL
FalseQTL
6
IQ6
IQ6
6
IQ6
IQ6
7
FalseQTL
FalseQTL
7
IQ7
IQ7
7
IQ7
IQ7
2
2
IQ2
IQ2
2
IQ2
IQ2
5
FalseQTL
IQ5
6
IQ6
IQ6
6
IQ6
IQ6
7
IQ7
IQ7
7
FalseQTL
IQ7
3
2
IQ2
IQ2
6
IQ6
IQ6
6
IQ6
IQ6
7
FalseQTL
IQ7
7
IQ7
IQ7
7
FalseQTL
FalseQTL
7
FalseQTL
FalseQTL
7
FalseQTL
FalseQT
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- QTL 定位 常见 12 问题