评估中介作用时的混杂性.docx
- 文档编号:27438884
- 上传时间:2023-07-01
- 格式:DOCX
- 页数:18
- 大小:290.24KB
评估中介作用时的混杂性.docx
《评估中介作用时的混杂性.docx》由会员分享,可在线阅读,更多相关《评估中介作用时的混杂性.docx(18页珍藏版)》请在冰豆网上搜索。
评估中介作用时的混杂性
摘要
中介作用通过一个中介变量解释风险因素和产出之间的关系,这是它的步骤中其中的一步。
在没有因果循环关系的假设下,我们认为在各种变量中第四个变量可能会成为评估中介作用时的一个混杂因素。
山蒙特卡罗研究支持的渐进效果表明在一定条件下,调整混杂因素可能会导致有偏见的估计。
一般的原则是为在估计中介作用时适当的调节混杂因素的作用服务的。
我们应用指南的中介效应的估计在125年去世的宗教团体研究参与者的阿尔茨海默病病理£4载脂蛋口E等位基因之间的关系和认知功能,纵向,衰老和阿尔茨海默病的临床病理研究。
1.介绍
调解模型描述了第三个变量(M)是如何干预的自变量(X)和一个因变量(Y)之间的因果关系的。
更具体的说,中介模型假设了自变量(X)影响中介变量(M),从而进一步影响因变量(Y)o我们用这个X-H-Y的示意图来代表影响途径。
我们的研究点在中介效果:
通过中介变量M后X对Y的作用。
一般情况下是基于路径模型中每一条相关联路径的系数的乘积来评估中介作用的(奥威和豪瑟,1975;男爵和肯尼,1986;博伦,1987;福克斯,1980;索贝尔,1982)。
模型如下:
M=cM+a0X+eM,
(1)
Y=cY+B+©X+£Y,
(2)
其中£M是一个独立于X和£Y的零均值的随机变量,eY是一个独立于X和M的零均值的随机变量,CM与CY代表不变的截距。
这里是路径X-M的关联系数,
B°是在控制X变量后路径M-Y的关联系数。
根据系数乘积的方法,通过中介变量M后X对Y的影响被定义为a。
B°。
剩下的X和Y之间的联系,用,被称为“直接影响”,其中可能包括通过一些未知的途径的不明的间接影响和X与Y之间可能存在的之间影响。
直接效应和间接效应的总和即a。
B。
,被称为X对Y的累积效应。
估计中介效应,通常基于回归方程式
(1)和
(2)由普通最小二乘佔计(OLS)ao和当这两个方程式之间存在真实的因果关系时,最小二乘法对(么介)和(a°,B。
)。
其结果是,(久吊是中介作用(a0,Po)的估计。
上述结论关键取决于在假设中,没有其他的干扰变量作为自变量、调节变量和因变量。
如果有一个变量Z干扰其中的一个变量或者所有的三个变量,那么简单的估算(&")将和上述不再一致。
例如,假设Z-M并且M-X,那么£M组件之一是Z。
因此,X和
£M相关,并且最小二乘法对a°的估计是有偏见的,即使是在一个大样本下。
在最近的一篇文章中,Herting(2002)认为,没有纳入一个混杂因素,去拒接中介效用存在的正确的形式是太过于简单了。
在本文中,我们认为第四个变量z可以在路径x-Z以任何可能的方式作为混杂因素。
我们调查的调解作用在所有我们考虑的方案中各种估计的属性。
提供了不同佔计的渐进偏见。
一些模拟实验来评佔的有限样本渐近结果的准确性。
基于渐近结果和数值的证据,我们就如何在经验应用中选择估计变量给了一些指引。
我们的方法被应用到临床诊断阿尔茨海默氏病(AD)时估计中介效应的风险因素中,其中年龄是一个可能的混杂因子。
AD是一种渐进性脑疾病,逐渐破坏一个人的记忆和学习新的信息的能力,即沟通和进行正常的日常生活的能力,随着年龄的增加患AD的风险也会随之增加。
仅仅在美国就有500万人患有AD,而这个数字在未来的儿十年里将会随着人口老龄化而在全球范圉内逐渐增长。
最近证据表明AD的临床表现是多种遗传和环境因素与大脑中的病理和生化改变相互作用的复杂结果。
例如,尽管AD的病理标志是神经炎斑和神经原纤维缠结,这些病变可能会增加大脑的其他疾病,如脑梗其至引起认知障碍(彼得罗维奇等人,2005)o与此相反,环境风险因素可以修改AD病理学的认知关系。
一个载脂蛋白E£4等位基因的存在(APOEe4,该基因编码载脂蛋口E的共同的多态性)是用于所述疾病的主要遗传风险因素(Tang等人,1998)o通过该£4等位基因与临床诊断的AD的风险升高相关联的神经生物学机制还不是很清楚。
先前的组织病理学研究(例如,Bennett等,2003)表明,£4等位基因对认知功能障碍的效果可通过增加在该AD病理学累积速率来介导的。
山于AD病理学可能会增加,或与其他因子相互作用以引起认知功能障碍,各种备选的机制也可以解释之间的关联。
因为认知作用,AD病理学和许多AD的风险因素均与年龄相关,要能够调整为年龄在老年人的常见的慢性疾病中介分析的潜在混杂影响是重要的。
我们应用不同的策略来评价混杂因子,死亡年龄,广告病理学Apoee4等位基因的存在之间的关系和认知功能水平之前死亡125例在宗教团体的研究中,纵向,衰老的临床病理研究和广告中中介作用的评估。
本文其他部分的研究如下,第二章介绍了Z作为一个混杂因子影响路径X-M-y的所有可能方式。
在我们的研究中,Z,X,M和Y分别对应于死亡年龄,AP0E£4,AD病理学和认知功能。
第三节考察不同的估计方法中中介作用的渐进性质。
第四节介绍仿真结果。
第五节讲应用程序。
第六部分是结论,并给出了选择估计量的一些建议。
2•路径模式
我们首先假定一个通路模式X-M-yo我们进一步假定X,M,和Y是以线性方式相互关联,如图所示,例如在方程
(1)和
(2)中当结果是0的时候一个完整的中介就出现了,这样X和Y之间就完全被M中介,X对Y没有直接的影响。
事实上,一个完整的中介是不可能的,并且一个长远的影响通常保持在一个中介模型中,即使它在统计学上是不显著的。
假定在路径中没有循环,那么一个周期以为着变量可能通过路径中的其他变量影响其本身。
表1通过四分之一的混杂因子Z和X,M和Y提供了所有可能的通路路径组合。
该路径模式分为四种不同的类别。
第一种类别,表示为基准的情况下,由表壳0.0,其中Z与X,M和Y不相关。
第二类包含七个形式(例1.1-1.7)第四个变量Z在在路径X,M和/或Z的开始。
第三类由七个形式组成(例2.1-2.7),其中X,M和/或Y在到Z的路径的最前端。
最后一类是由剩余的五个形式组成(例3.1-3.5),涉及Z和X,M和Y更复杂的路径的关系。
每个通路可以山路图来表示。
例如,基准案例0.0,可以简单地表示为X-M-Y并且相应的模型在方程
(1)和
(2)中给出。
作为第二个例子,图1为例3和例4提供了路径示意图,其中自变量X通过中介变量M对因变量Y有间接的影响,通过笫4个变量Z对Y有间接影响,对Y有直接的影响。
另外,上述第四个变量Z对中介变量M有着直接的影响。
例3和例4的正确模型可以写为:
X二Cx+欣・⑶
(4)
⑹
Z=C2+;、xzX+$Z・
M=+X+VzmZ+伽
Y=cy+tX++吃丫/+即.
表1
Z和X-M-Y因果途径的关系
Case
图一因果模式的路径图例3.4
£X,eZ,£M,£Y是均值为0,方差为咲弓%的随机变量。
在上面的
模型中我们对Y使用了一个下角标ZM来表示Z对M的影响。
其他的也具有类似的含义,在应用中,X是以ApoE£4存在的,Y是认知功能水平,M是AD病理学的水平,Z是死亡年龄。
在方程(3)-(6)中,每个贰,是独立于相应的方程的右边的变量。
这种独立性对单项因果关系有着独立的影响,如果没有这种假设,^一般取决于方程右边的变量。
单向因果关系的假设是我们的中介框架的基石,适用于所有型号的调解。
我们在整篇文章中都运用这个假设。
对大多数路径来说,中介效果通过M后是吗仏有少数例外(例3.1-3.4),通过M出现了X对Y影响的两条路径,例如,在例子3和4中,这两个路径是X-M-Y和X-Z-M-Y。
在第一条路径中,X对M有着直接的影响。
在第二条路径中,Z在X和M间是一个中介变量。
X对M的总效应是间接效应;畑加和直接效应血。
X对H的总影响乘以%,即M对Y的直接影响,提供了通过M后X对Y的中介作用,定义为》0:
力0=仪0+yXZ¥ZM)Po・
对于其余情况的中介作用列于表2的第二列中。
3•中介作用的估计
第二节列举了20因果模式,其中四分之一混杂变量可能通过因果途径X-M进行干预。
3.1四种不同的估算策略
笫一估计策略,称为策略A,它忽略了混杂因素并且在没有变量Z的悄况下适合回归方程,回归方程如下式:
〃=%+亦X,(7)
『=“+际.¥MX,(8)
其中带帽子的参数表示用最小二乘法进行的估thv和个是通过最小二乘法回归后M和Y的预测值。
表2通过中介变量M后的间接影响
TnieindirectProbiibililylimitsofdifferentestimates
effectABCD
符号中的儿个字是有顺序的,汰耐勺咒M•下标意味着M对x的回归中次XM是M的系数。
在本文中我们对其他的符号定义类似的规定。
其中回顾7是一级回归,回归8是二级回归。
加”和几}“进行最小二乘估计,估计的中介效果是
AA.
第二个估计策略,被称为战略B,是忽略了X-M因果通路的混杂变量,回归方程通过测量B给出:
M=讪+@xmX,
F=Cy+AwXzM+壬LWzX+^ZY^X^4乙
中介作用的估计效果是:
»B=&XM卩MY.XZ・
第三估算策略,叫做策略C,山下式给出
M十勺XM.zX+予ZM.X乙
y=cy+Amy・xM+?
xf・mX,
忽略在m-y因果路径的混杂变量。
中介作用所产生的估计是
&C=攵XM・zBmy・X・
最后,第四估计策略,称为策略D,两个回归方程中都包括混杂变量Z,从而导致
M=CM+&XM・zX+夕ZM.xZ,
丫=cy+Rhy.xzM++7zy^xm^-
中介作用的估计效果是
AA,
$D=&XM・z"mY・XZ・
在应用中,通常的四种评估策略之一应用在没有知识关系的混杂因子Z和X-M-Y因果路径之间。
在接下来的小节中,在接下来的小节中,我们提出了概率极限5A.3B.3c.and3D代表表1给出的所有可能的因果模式。
3.2渐进偏见
对于每一个因果模式,我们得出每个估计的概率极限。
这个限制和真实的中介作用之间的差被定义为渐近偏差。
根据此定义,当渐近偏差为零,则估计和表2的第二列中给出的正确的中介的作用相一致。
M=cm++伽+:
'xz7zm)X+Vzm&z+&小
我们首先使用案例3.4演示渐近偏差的推导。
用公式(3)-(4),我们可以推断出,其中X和复合误差项ZM£Z+£M的相独立。
因为OLS估计和底层模型参数一致,通过一个常数和X回归M得到的最小二乘估计的概率极限是:
卩limixAf=Jo+7xz7zM-(9)
上述限制适用于方案A和B,既无视Z在他们的第一阶段回归。
像方案C和D,当Z在第一阶段回归,用公式(5),我们可以推断出:
PUm叮二如・(10)
"TOO
我们现在转向第二阶段的回归。
战略B和D结合Z进入回归。
在这种情况下,
OLS估计的概率限值:
P*^lvr.xz=&-(11)
对于策略A和C,协变量Z从回归省略。
OLS估计量的概率极限是:
它遵循公式(3)到(6)
y“(M)二4(«o+沏zmF+rkd+昭,i伽(x)=冶.
Cov(M,X)=呗oo+7xz7zmK
Cov(M,Y)=tCou(M,X)+辭ar(M)+}'^Cov(M.Z),
CotXX,『)二iVar(X)+0()Cou(M,X)+加;Wz吟
将上述表达式插入(12)的收益率
(14)
Plii殳Pms=悅+半扌牛?
=0*・
"叼+哦M
组合(9),(10),(11)与(14)中,我们得到每个估计量的概率极限:
/仪o+IxzTzmW
%+丁xz?
zm)"oao/r
Va()/>0
22,2I—‘0
*ZM/
PHm$a-讥=(茨o+丁xzVzm)(”o+,ZMtZY(Jz刀一>oo\
a"仃2
3一I—丨^ZMiZY^Z(乂0十丿XZ,ZM)—-——,
%+gz7zm
A
plim§b—&0=Q
HTOO
启心呦fz畑航aM+4>?
ZM
P山丄'd—do=僅0#0一$0=—Vxz丁ZM0O・
A/fOO
根据底层模型参数,当敢"c,nd,%是渐进偏见时,和是渐进无偏。
了解不同估计的偏置特性,请注意,在孤的结构中,Z被正确地包括在第二阶段回归中。
由于Z被省略,由第二阶段OLS回归估计的M对Y的影响会不一致。
这是在不一致的情况下对and3C的估计。
另一方面,Z不包含在策略B的第一阶段回归中。
根据Z导致M,X导致Z,第一阶段对纭m的最小二乘估计,似乎忽略了Z遭受遗漏变量偏差的影响。
然而,我们的□标是估计X对M的总影响。
当省略了Z,第一步对汰“的最小二乘佔讣不仅得到了X对M的直接效应,还有通过中间变量Z的间接影响。
因此纭“刚好提供了我们想要的。
与此相反,通过在第一阶段包括Z的估计,第一步对
汰M的最小二乘佔计只得到了X对M的直接影响。
因此根据%M・Z对$D的估计与真正的中介作用是不一致的。
接下来,我们考虑一般的情况。
估计量下对于不同的因果型态的四个估计策略的概率范围概括在最后四列表2。
山于大部分的概率范圉具有复杂的形式,表2中只给出了儿个例子。
这些概率限值等于第一级OLS估计乘以所述第二阶段OLS估计的极限。
如果两个估计是不一致的,山此产生的估计为中介效果也是不一致的。
导致的两个估计的不一致的原因可以描述如下。
首先,在第一阶段只有当因果图包含以下情况时估计是不一致的,即协变量Z对M的影响,并且与第一阶段X的回归相关联,省略Z导致众所周知的省略可变偏差。
笫二,第一阶段只有当因果图中包含的下述之一时对洽的估计是不一致的。
/X->M\
\Z/或者
(X—MfZ)or(X—M—Y—Z).
笫一种情况很容易理解。
,X对H的总影响山于X对M的直接影响和込'Z收敛于0,与Zz和知+是不一致的。
另见案例3.4的讨论。
对于后两种情况下,Z是在因果链X-M的后端。
包括中的Z第一阶段回归颠倒X和M之间的因果关系。
山于M会影响乙因此M与Z是相关的。
M对Z的回归控制了Z的影响,给出我们X和M的统计关联,没有给出X和M之间的因果关系。
因此,根据第一阶段回归系数的因果解释,把Z视为无效回归。
因此,録mz不提供x对H的因果关系的无偏佔计。
第三,只有当一下情况的因果图出现时,省略了可变偏压的存在和"的估计是不一致的。
最后,只有当因果图包含下列之一时,几"的估计是不一致的。
MfY\
IZI
Z/或者Y—乙
在笫一种情况下,Amy.xz的最小二乘估计只能解释M对Y的直接影响,忽略了通过Z的间接效应。
第二种情况下,Z在因果链M—Y—Z的末端,山于同
A
样的原因,渐进偏差淤w・z适用于你"・xz。
在渐进偏差的基础上,20个因果图案可分为7类,在表3中的笫二列中列出的更多细节见第4.2节。
4.模拟
我们使用SAS?
(9.1版)的所有统计模拟和分析。
从正态分布使用SASRANN0R功能与种子二1,000,000.我们考虑100,200,500和1000为样本大小。
为简单起见,我们假定Z和X,M和Y之间的所有路径系数是相同的并且相等。
表3
Case2.2
AB
0.00
0.00
-0.26
-0.26
Case2.6
AB
0.01
0.01
-2.09
-2.09
Case3.3
AB
0.00
0.00
-0.72
-0.72
Case0.0
ABCD
0.01
0.01
0.01
0.01
Case1.1
ABCD
0. 0.00 -0.01 -0.01 Case1.2 ABCD 0.00 0.00 0.00 0.00 Case1.3 ABCD 0.00 0.00 0.00 0.00 Case1.5 ABCD ().00 0.01 0.00 0.01 Case2.1 ABCD -0.02 -0.02 -0.02 一0.02 |Case3.5 ABCD -0.01 -0.01 -0.01 -0.01 Case3.4 B 0.66 0.00 -0.53 -0.72 Case1.4 BD 0.64 -0.02 0.64 -0.02 Case1.6 CD 1.83 1.82 -0.01 -0.02 Case1.7 D 3.% 1.85 0.53 0.01 在现实中,这个假设肯左不成立。 采纳麦金农等人的程序(2002),参数值給被选择以对应于实现小样本(因变量局部方差为2%),中样本(在从属变量局部方差的13%),和大样本(从属变量的局部方差的26%)。 这些参数是0.14,0.39,和0.59,对应于0.14, 0.36,和0.51,分别偏相关。 直接影响I被选作0(完全中介)和0.2(偏中介)。 变 量M,Y和Z的模拟如下正态分布的连续变量。 独立变量X被假定为以成功概率0.3遵循正态分布和贝努利分布。 在应用中,具有至少一种ApoEe4等位基因的概率为0.29o因为截距并不影响的调停作用的推定,不失一般性,我们设置所有的截距在数据生成的模拟中为0,但它们包括在模型拟合。 所有的随机噪声项被假定为独立的,相同的并且正态分布均值为0,方差1。 总之,模拟使用了3X3X3X2X2X4X20阶乘设讣。 我们改变了影响路径大小的因素%(0.14为小样本,0.39为中样本,0.59为大样本),fio(0.14为小样本,0.39为中样本,并且0.59为大样本),>'(0.14为小样本,0.39中样本,和0.59的大样本),直接影响(0和0.2),分布的X(标准正常和伯努利概率0.3),样本大小(100,200,500,和1000),和表1中的20因果图案,共计8640不同的数据生成过程(DGP)o对于每个DGP,要重复进行500次实验。 比较不同层次的中介效应偏差,我们计算经验相对偏差,用在第三节中用在真正的间接效应上。 相对偏差在500个重复的试验上,评估每个因果模式下四个估计的实证表现,在4.2节中总结。 师$=也一1, 500x EstimatorAEstimatorB 4.1例子 我们用图1中的例子3・4来说明数据是如何形成的0.o=OJ4^)==(B9.y=(U9.r=0.2并且X遵循标准正态分布,样本遵循臥络细心~,".川0.“,以产生一个二进制变量X,X的分布,在方程(15),被替换为X〜伯努利(0・3)o X=£X, Z=0.59X+£z, M=0.14X+0.59Z+£m, Y=0.2X+0.39M+0.59Z+£丫, 4.2结论 不同效应大小的模拟结果和这20个因果模拟相类似,不管影响大小的幅度,或独立变量的分布,或直接作用(0或0.2)的大小,相对偏压表明每个散图案类似的模式,其结果是,即使样本容量为100也是相对稳定的。 图。 2,我们绘制渐近相对偏差和经验相对偏差(500个样本),ao=0J4,^=039,7=0.59.t=0.2,并且X遵循正态分布。 唯一渐进无偏的是策略B。 对于所有的佔算策略,经验相对偏差是非常接近的渐近相对偏差。 策略A高估了M-Y的因果关系因此高估了中介作用。 策略C低估了X-M的因果关系,高估了M-Y的因果关系,他们相结合低估了中介作用。 策略D低估了X-M的因果关系,因此低估了中介作用。 表3列出了对于所有的20个因果图案血=0・14•爲=0・39拧=0・59池=0・2丿=1()()()时的相对方差,X遵循标准正态分布。 类似渐近相对偏差的结果,我们可以在我们的这20因果模式的模拟结果分为七个不同的群体,在表3的第二列列出。 表A包含6个因果模式(2・3,2.4,2.5,2.7,3・1和3.2),只有办的估计是一致的。 AB组包含3个因果模式(2.2,2.6和3.3),3AandSB都是一致的。 ABCD组包含7个因果模式(0.0,1.1,1.2,1.3,1.5,2.1,和3.5),其中4个估计都是一致的。 B组包含一个因果模式(3.4),只有Sb提供了中介作用一致的佔计。 BD组给提供了一个因果模式(1.4),其中and3d提供了一个一致的估计。 请注意,在例3.3和3.4中,混杂因素有助于总调解效果的因果途径的一部分。 当研究者感兴趣估计部分调解效果不经过混杂因素,策略D提供渐近无偏估计。 5.应用 在第4节中我们可以看岀,当估计中介效应时,没有黄金标准战略可用于正确的估计潜在混杂因素的调整。 因此,策略的选择依赖于多种因素。 在本节中,我们提出了一个应用说明一个可能的方法,用于选择适当的估计策略。 AD的临床表现是引起病理或其他大脑中的病理学或其他化学改变交互多遗传和环境因素的复杂函数。 Bennett等(2003年),用于参与宗教订单从125死者的数据研究,老化和AD的纵向,临床病理研究,以测试APOEe4等位基因,为临床AD的一个已知危险因素,与认知水平相关联的假说功能通过与AD病理,而不是其他脑部病变措施的关联。 在他们的分析中,独立变量是一个或两个APOEe4等位基因的存在,其定义为神经炎斑和神经原纤维缠结标准化并组合成全局病理学得分的复合量度介wasAD病理学和因变量是认知功能的水平临终前定义为规范化,组合成认知的复合全球措施19认知功能测试。 总之,虚拟因果路径是APOE£4-AD病理学一认知功能。 而年轻的人可能会患有AD,疾病通常在65岁开始并且风险随着年龄的增加而增大。 65-74之间患有AD的人少于5%,将近一半的人年龄85岁以上可能有疾病。 值得注意的是,然而,AD是不正常老化的一部分。 在APOEe4-AD病理一认知功能相关,年龄是密切相关的,这两个AD病理学和认知功能,并构成了重大的混杂因素。 在本节中,我们提供了APOE£4通过AD病理调解效果佔计使用四个评佔策略,我们用这个例子来说明的方法来选择合适的评估策略调整对于年龄的调解效果估计在潜在的混杂效应常见的慢性的研究年龄相关的条件的方法。 一般的方法是归纳为三个步骤。 在第一步骤中,人们需要确定混杂因素年龄和APOEe4,病理学,和认知功能概念性地之间的所有可能的因果图案。 一个人岀生时或没有APOEe4,因此因果关系(Z)-APOE£4(X)不成立,并在参照表1,案件1・1,1.5,1.6,和1.7可以排除。 与此相反,因为有证据表明,APOE£4与死亡率是有关的(海登等人,2005),我们不能完全排除APOEe4的可能性一年龄(例2.1,2.5-2.7,在表13.2-3.5)。 与此同时,随着年龄的增加是与AD病理学(M)和认知功能(Y)的损失的同时积累相关联。 例1・4和3.4(表1)用两种可能的图案表示。 在第二步骤中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 评估 中介 用时 混杂