结构方程模型案例汇总Word文档下载推荐.docx
- 文档编号:18926815
- 上传时间:2023-01-02
- 格式:DOCX
- 页数:21
- 大小:304.54KB
结构方程模型案例汇总Word文档下载推荐.docx
《结构方程模型案例汇总Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《结构方程模型案例汇总Word文档下载推荐.docx(21页珍藏版)》请在冰豆网上搜索。
λ2
λ3
χ1
χ2
χ3
负荷量
潜在变量
观察变量
误差
三种分析方法对比
线性相关分析:
线性相关分析指出两个随机变量之间的统计联系。
两个变量地位平等,没有因变量和自变量之分。
因此相关系数不能反映单指标与总体之间的因果关系。
线性回归分析:
线性回归是比线性相关更复杂的方法,它在模型中定义了因变量和自变量。
但它只能提供变量间的直接效应而不能显示可能存在的间接效应。
而且会因为共线性的原因,导致出现单项指标与总体出现负相关等无法解释的数据分析结果。
结构方程模型分析:
结构方程模型是一种建立、估计和检验因果关系模型的方法。
模型中既包含有可观测的显在变量,也可能包含无法直接观测的潜在变量。
结构方程模型可以替代多重回归、通径分析、因子分析、协方差分析等方法,清晰分析单项指标对总体的作用和单项指标间的相互关系。
结构方程模型假设条件
⑴合理的样本量(JamesStevens的AppliedMultivariateStatisticsfortheSocialSciences一书中说平均一个自变量大约需要15个case;
BentlerandChou(1987)说平均一个估计参数需要5个case就差不多了,但前提是数据质量非常好;
这两种说法基本上是等价的;
而Loehlin(1992)在进行蒙特卡罗模拟之后发现对于包含2~4个因子的模型,至少需要100个case,当然200更好;
小样本量容易导致模型计算时收敛的失败进而影响到参数估计;
特别要注意的是当数据质量不好比如不服从正态分布或者受到污染时,更需要大的样本量)
⑵连续的正态内生变量(注意一种表面不连续的特例:
underlyingcontinuous;
对于内生变量的分布,理想情况是联合多元正态分布即JMVN)
⑶模型识别(识别方程)(比较有多少可用的输入和有多少需估计的参数;
模型不可识别会带来参数估计的失败)
⑷完整的数据或者对不完整数据的适当处理(对于缺失值的处理,一般的统计软件给出的删除方式选项是pairwise和listwise,然而这又是一对普遍矛盾:
pairwise式的删除虽然估计到尽量减少数据的损失,但会导致协方差阵或者相关系数阵的阶数n参差不齐从而为模型拟合带来巨大困难,甚至导致无法得出参数估计;
listwise不会有pairwise的问题,因为凡是遇到case中有缺失值那么该case直接被全部删除,但是又带来了数据信息量利用不足的问题——全杀了吧,难免有冤枉的;
不杀吧,又难免影响整体局势)
⑸模型的说明和因果关系的理论基础(实际上就是假设检验的逻辑——你只能说你的模型不能拒绝,而不能下定论说你的模型可以被接受)
结构方程模型的技术特性:
1.SEM具有理论先验性
2.SEM同时处理测量与分析问题
3.SEM以协方差的运用为核心,亦可处理平均数估计
4.SEM适用于大样本的分析——一般而言,大于200以上的样本,才可称得上是一个中型样本。
5.SEM包含了许多不同的统计技术。
6.SEM重视多重统计指标的运用
结构方程模型的实施步骤
⑴模型设定。
研究者根据先前的理论以及已有的知识,通过推论和假设形成一个关于一组变量之间相互关系(常常是因果关系)的模型。
这个模型也可以用路径表明制定变量之间的因果联系。
⑵模型识别。
模型识别时设定SEM模型时的一个基本考虑。
只有建设的模型具有识别性,才能得到系统各个自由参数的唯一估计值。
其中的基本规则是,模型的自由参数不能够多于观察数据的方差和协方差总数。
⑶模型估计。
SEM模型的基本假设是观察变量的反差、协方差矩阵是一套参数的函数。
把固定参数之和自由参数的估计带入结构方程,推导方差协方差矩阵Σ,使每一个元素尽可能接近于样本中观察变量的方差协方差矩阵S中的相应元素。
也就是,使Σ与S之间的差异最小化。
在参数估计的数学运算方法中,最常用的是最大似然法(ML)和广义最小二乘法(GLS)。
⑷模型评价。
在已有的证据与理论范围内,考察提出的模型拟合样本数据的程度。
模型的总体拟合程度的测量指标主要有χ²
检验、拟合优度指数(GFI)、校正的拟合优度指数(AGFI)、均方根残差(RMR)等。
关于模型每个参数估计值的评价可以用“t”值。
⑸模型修正。
模型修正是为了改进初始模型的适合程度。
当尝试性初始模型出现不能拟合观察数据的情况(该模型被数据拒绝)时,就需要将模型进行修正,再用同一组观察数据来进行检验。
探索性分析
定义:
探索性因子分析法(ExploratoryFactorAnalysis,EFA)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。
因而,EFA能够将将具有错综复杂关系的变量综合为少数几个核心因子。
探索性因子分析(EFA)致力于找出事物内在的本质结构。
e1
e2
e3
f2
f3
f1
探索性分析的适用情况:
在缺乏坚实的理论基础支撑,有关观测变量内部结构,一般用探索性因子分析。
先用探索性因子分析产生一个关于内部结构的理论,再在此基础上用验证性因子分析。
但这必须用分开的数据集来做。
探索性分析步骤:
1、辨别、收集观测变量。
按照实际情况收集观测变量,并对其进行观测,获得观测值。
针对总体复杂性和统计基本原理的保证,通常采用抽样的方法收集数据来达到研究目的。
2、获得协方差阵(或Bravais-Pearson的相似系数矩阵)。
我们所有的分析都是从原始数据的协方差阵(或相似系数矩阵)出发的,这样使我们分析得到的数据具有可比性,所以首先要根据资料数据获得变量协方差阵(或相似系数矩阵)。
3、确定因子个数。
有时候你有具体的假设,它决定了因子的个数;
但更多的时候没有这样的假设,你仅仅希望最后的到的模型能用尽可能少的因子解释尽可能多的方差。
如果你有k个变量,你最多只能提取k个因子。
通过检验数据来确定最优因子个数的方法有很多,例如Kaiser准则、Scree检验。
方法的选择由,具体操作时视情况而定。
4、提取因子。
因子的提取方法也有多种,主要有主成分方法、不加权最小平方法、极大似然法等,我们可以根据需要选择合适的因子提取方法。
其中主成分方法一种比较常用的提取因子的方法,它是用变量的线性组合中,能产生最大样品方差的那些组合(称主成分)作为公共因子来进行分析的方法。
5、因子旋转。
因子载荷阵的不唯一性,使得可以对因子进行旋转。
这一特征,使得因子结构可以朝我们可以合理解释的方向趋近。
我们用一个正交阵右乘已经得到的因子载荷阵(由线性代数可知,一次正交变化对应坐标系的一次旋转),使旋转后的因子载荷阵结构简化。
旋转的方法也有多种,如正交旋转、斜交旋转等,最常用的是方差最大化正交旋转。
6、解释因子结构。
最后得到的简化的因子结构是使每个变量仅在一个公共因子上有较大载荷,而在其余公共因子上的载荷则比较小,至多是中等大小。
通过这样,我们就能知道所研究的这些变量是由哪些潜在因素(也就是公共因子)影响的,其中哪些因素是起主要作用的,而哪些因素的作用较小,甚至可以不用考虑。
7、因子得分。
因子分析的数学模型是将变量表示为公共因子的线性组合,由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量的线性组合,即因子得分。
验证性因子分析
验证性因子分析是对社会调查数据进行的一种统计分析。
它测试一个因子与想对应的测度项之间的关系是否符合研究者所设计的理论关系。
验证性因子分析(confirmatoryfactoranalysis)的强项在于它允许研究者明确描述一个理论模型中的细节。
因为测量误差的存在,研究者需要使用多个测度项。
当使用多个测度项之后,我们就有测度项的“质量”问题,即效度检验。
而效度检验就是要看一个测度项是否与其所设计的因子有显著的载荷,并与其不相干的因子没有显著的载荷。
对测度模型的检验就是验证性测度模型。
对测度模型的质量检验是假设检验之前的必要步骤。
而验证性因子分析(CFA)是用来检验已知的特定结构是否按照预期的方式产生作用。
验证性因子分析的步骤:
1、定义因子模型。
包括选择因子个数和定义因子载荷。
因子载荷可以事先定为0或者其它自由变化的常数。
或者在一定的约束条件下变化的数(比如与另一载荷相等)。
这是和探索性因子分析在分析方法上的一个重要差异,我们可以用一个直观的比喻,也就是说探索性因子分析是在一张白纸上作图,而验证性因子分析是在一张有框架的图上完善和修改。
2、收集观测值。
定义了因子模型以后,我们就可以根据研究目的收集观测值了。
这一点与探索性因子分析有一定的相似之处。
3、获得相关系数矩阵。
与探索性因子分析一样,我们的分析都是在原始数据的相关系数矩阵基础上进行的,所以首先就要得到相关系数矩阵。
实际上方差协差阵、相似系数矩阵和相关阵之间是可以相互转化的。
4、根据数据拟合模型。
我们需要选择一个方法来估计自由变化的因子载荷。
在多元正态的条件下,最常用的是极大似然估计,也可采用渐进分布自由估计。
5、评价模型是否恰当。
这一步可以说是验证性因子分析的核心。
当因子模型能够拟合数据时,因子载荷的选择要使模型暗含的相关阵与实际观测阵之间的差异最小。
最好的参数被选择以后,差异量能被用来作为衡量模型与数据一致的程度。
最常用的模型适应性检验是卡方拟合优度检验。
原假设是模型是适应性模型,备择假设是存在显著差异。
但是,这个检验受样本量大小影响,包含大样本的检验往往会导致拒绝原假设,尽管因子模型是合适的。
其他的统计方法,比如用Tucker-Lewis指数,比较建议模型和“原模型”的拟合度。
这些方法受样本量大小影响不大。
6、与其他模型比较。
为了得到最优模型,我们需要完成这一步。
如果你想比较两个模型,其中一个是另一个的缩略形式,你就能从卡方统计量的值检查出他们的差别,大约服从卡方分布。
几乎所有独立因子载荷的检验能用来作为全因子模型和简因子的模型之间的比较。
为以防你不是在检查全模型和简模型,你可以比较均方根误差的近似值(RMSEA),它是模型中每个自由度差异的一个估计值。
验证性分析适用情况
验证性因子分析要处理推论统计量,处理难度要求高。
需要具备更大容量的样本。
精确的样本量要随着观测值和模型的因子数变化而变化,但一个标准模型至少需要200个个体。
在进行分析过程中必须选择与每个因子在很大程度上匹配的变量,而不是可能是潜在变量的“随机样本”。
基于结构方程全模型的大学生就业预期情况分析
0引言
随着我国经济的不断发展,我国高校大规模扩招,越来越多的年轻人获得了接受教育的机会。
从社会发展的角度来讲,大批高素质的人才培养是与我国快速发展的社会经济水平相适应的。
然而,由此也带来了两方面的问题:
一是本科生的就业矛盾日益突出,几乎每一个大学生都在切身感受就业的恐慌;
二是人才的竞争加剧,加之市场对于人才的需求多元化,考研或出国深造成为提高我们本科生自身核心竞争力的一种渠道,同时也是规避就业难的一种新途径;
那么,在如此就业形势严峻、人才竞争加剧的当今社会,大学生们对自己将来的就业有怎样的预期呢?
本论文基于辽宁工程技术大学数学与统计学院2005级统计系本科生于2007年10月至11月期间收集的题目为“大学生就业与深造意向调查”的原始问卷资料,欲从大学生的就业预期角度出发,结合结构方程模型,分析大学生预期就业手段和预期就业地域方面的相关情况,并期望推广结构方程模型应用于问卷分析的方法。
1问题分析
1.1研究目的
本论文在采用量表方式对问卷中的定性变量予以赋值后,欲分析影响大学生预期就业手段和预期就业地域的因素,并期望得到各个因素与大学生预期就业手段、预期就业地域之间的关系的度量。
需注意:
⑴该调查的调查对象是辽宁工程技术大学全日制在读本科生。
调查对象仅仅是来自大学生这个总体的一个群或层。
根据抽样调查的相关理论,辽宁工程技术大学在读本科生并不具有典型代表性,即它作为大学生总体的一个群被抽出并不具备随机性和强代表性。
因此,本论文从这份调查数据出发,仅仅只是从一个相对小的视角研究大学生预期就业手段、预期就业地域方面的情况,结果不一定适用于大学生总体。
⑵问卷数据归属于2009年10月这个时点,因此,本论文的分析结果当然是对2009年10月这个时点相关情况的反映。
1.2研究方法
本论文考虑建立结构方程全模型来研究大学生预期就业手段和预期就业地域(内生潜变量)与其各个因素(外生潜变量)之间的关系,并量化这种关系。
结构方程模型的优势就在于引入潜变量(不可直接观测的量),使人们考虑问题的思路跃然纸上,显得更加系统化。
也就是,它以如下的方式考虑问题:
X指标
外生潜变量
内生潜变量
Y指标
外源观测变量内生观测变量
那么,研究外生潜变量对内生潜变量的影响实质上就是间接研究X指标对Y指标的影响。
只不过,结构方程把由同一个潜变量控制的指标划分为一类,表示这一类指标受该潜变量的影响,使得问题的分析更加的系统。
值得注意的是,本论文的研究基础——问卷资料来自于第二方的调查资料,第二方事先并未考虑过用结构方程模型分析问卷。
那么,本文运用结构方程模型分析问卷,问卷中的问题就不一定能很好地切合结构方程模型,由此可能引起相当的误差。
这也就决定了我们在确定运用结构方程模型分析问卷时,已有心理准备面对模型可能出现的整体拟合效果不好等问题,故本文着眼于推广结构方程模型建模方法在问卷分析中的应用。
也就是说,欲用结构方程模型分析问卷,应该事先根据相关理论或经验初步设定几个潜变量,然后在问卷中为每一个潜变量设置若干的题目来测量它。
2问卷数据的收集
2.1数据来源
本论文数据来自于辽宁工程技术大学理学院2007级统计系本科生于2009年10月至11月期间收集的题目为“大学生就业与深造意向调查”的原始问卷资料。
该次调查的调查对象为辽宁工程技术大学全日制在读本科生(辽宁工程技术大学二级学院的学生不包括在内)。
具体说来,本论文仅仅提取在问卷的“甄别问题”部分回答“就业”的那部分人(共计280人)的相关信息进行分析。
2.2抽样方法
该次调查按学科类别(文科、理科、工科、其他)和年级(大一、大二、大三、大四)将研究总体分为16个层,由于“其他类”的大一和大四的数据难以取得,因此,仅针对其余14个层进行抽样。
根据抽样框,在每层中按简单随机抽样抽取20%的班级,同时在抽中的班级中按简单随机抽样抽取30%的学生。
2.3问卷内容及执行情况
调查问卷详见附录三。
该次调查专门成立调查组,按照被抽中学生的花名册由专人负责发放问卷,共计发放问卷788份,实际收回问卷758份,提取有效问卷706份。
3问卷数据的处理
3.1定性变量的分类及赋值方法
3.1本文变量的设置
表1指标的设置
变量符号
变量名
取值情况
X1
生源地
X1=1西部;
X1=2中部;
X1=3东部
X2
户口类型
X2=0农村户口;
X2=1城镇户口
X3
父亲受教育程度
X3=1初中以下;
X3=2初中;
X3=3高中或中专
X3=4大专或本科;
X3=5研究生以上
X4
母亲受教育程度
X4=1初中以下;
X4=2初中;
X4=3高中或中专
X4=4大专或本科;
X4=5研究生以上
X5
月可支配生活费
X5=1300元以下;
X5=2300~500元
X5=3500~800元;
X5=4800元以上
X6
对就业形势的看法
X6=1很不好;
X6=2不好;
X6=3一般
X6=4较好;
X6=5非常好
X7
所学专业前景看法
X7=1很不好;
X7=2不好;
X7=3一般
X7=4较好;
X7=5非常好
X8
参加就业辅导的次数
X8=0参加0次;
X8=1参加1次
X8=2参加2次;
X8=3参加4次以上
X9
就业资格证书个数
X9=0、1、2、3……
X10
四、六级考证情况
X10=0四、六级都没过;
X10=1过四级;
X10=2过六级
X11
参加社会实践次数
X11=0从不参加;
X11=1参加1、2次
X11=2参加3、4次;
X11=3参加4次以上
Y1
是否自主创业
Y1=0否;
Y1=1是
Y2
工作地域
Y2=1农村地区;
Y2=2县级地区
Y2=3地级城市及州市;
Y2=4省会城市及直辖市
表2潜变量的设置
变量包括的指标
1
社会经济地位
X1、X2、X3、X4、X5
2
对就业状况的把握
X6、X7、X8
3
自身能力
X9、X10、X11
预期就业手段
预期就业地域
4.基于结构方程模型的大学生预期就业手段和就业区域情况分析
4.1结构方程模型简介
很多社会、教育、心理等研究中涉及的变量,都不能准确、直接地测量,比如学习动机、家庭社会经济地位等,我们称这样的变量为潜变量。
潜变量往往只能通过一些外生指标去衡量,比如用父母受教育程度、学生户口类型、父母收入等外生指标来衡量学生的社会经济地位(潜变量)。
传统的统计分析方法不能妥善处理这些潜变量,而结构方程全模型则能同时处理潜变量及其指标。
它是一种基于变量的协方差矩阵来分析多个变量之间关系的一种统计方法,也称为协方差结构分析。
并且,它有机地整合了多元统计中的因子分析方法、生物学中的路径分析方法以及计量经济学中的联立方程模型。
结构方程全模型由测量方程和结构方程组成。
若结构方程模型中只包括测量方程,则又称为验证性因子模型。
关于测量方程和结构方程的形式,最普遍的情况是设定为线性模型。
测量方程用来描述指标与潜变量之间的关系,用下述模型表示:
结构方程用来描述外生潜变量与内生潜变量之间的关系,用下述模型表示:
4.2模型的基本假定
⑴一般假定,每一个指标
只在其对应的潜变量上有不为0的因子负荷,而在其他潜变量上的因子负荷为0。
内生变量之间的路径(相关或单方面影响)依据经验和相关理论而定。
⑵测量误差项
与外生潜变量
之间(
)、测量误差项
与内生潜变量
之间不相关(
);
(
)、
)不相关。
4.3结构方程模型路径图及形式
结合研究目的,首先我们根据相关研究及经验,找出影响大学生的预期就业手段和预期就业地域这两个内生潜变量的外生潜变量。
然后,对问卷中的相关指标进行初步归类,建立验证性因子模型,并进行相关的参数估计、不断修正,最终确定潜变量的结构后,再加入结构方程模型。
下图为拟采用的结构方程全模型的路径分析图,欲对各路径参数进行估计。
图1拟采用的全模型路径分析图
图1的符号说明:
正方形或长方形表示指标;
圆或椭圆表示潜变量;
单向箭头表示单向影响;
双箭头表示相关;
单向箭头指向指标表示测量误差;
单向箭头指向潜变量表示内生潜变量未被解释的部分。
注意:
⑴确定需要用哪些指标衡量潜变量,可以根据经验分析进行初步归类,也可以使用多元统计分析中因子分析的方法进行探索。
然后,对初步归类的指标建立验证性因子模型(即只有测量方程),并进行相应的参数估计,比较从属于同一潜变量的各路径参数的大小,进行相应的路径删减。
⑵结构方程全模型是否可识别不仅取决于数据质量,更取决于模型设定形式是否正确。
模型形式的正确性就表现在潜变量指向指标的单向路径、外生潜变量之间的双向路径、内生潜变量之间的单向或双向路径、外生潜变量指向内生潜变量的单向路径划定是否正确。
每一条路径对应一个待估参数(主要是模型中的系数(负荷)、误差方差、潜变量之间的相关系数)。
一般的思路是先建立验证性因子模型,不断修正(删减路径或改变路径相连方式)、保证指标与潜变量之间的从属关系成立后,再建立结构方程,不断修正,渐渐修改为相对理想的模型。
⑶在没有任何理论依据或经验的前提下,我们要考虑任意两个外生潜变量之间、任意两个内生潜变量之间的相关关系(路径为双向),然后根据模型的参数估计结果进行相应的路径增减。
⑷由图1,注意到本文拟采用的模型中,两个内生潜变量
和
均分别只用一个指标
衡量,相当于潜变量就是指标。
原则上,结构方程模型并不允许这样的情况出现,因为单指标潜变量的存在会使得模型无法识别。
倘若这种情况真的出现了,需在参数估计时固定负荷或方差等(详见附录四的程序)。
本文模型的设定形式不得不包含单指标的潜变量,主要是由于我们基于第二方设计的问卷进行相关问题的分析,使得问卷内容设计和模型形式设定脱节,从而导致有些潜变量找不到一定数量的、合适的指标来测量。
对照图1,模型的形式设定为:
4.4模型的识别
常用
判断模型是否可识别:
在结构方程模型
中,共有
个可观测变量,记
为模型中自由估计的参数个数,则模型可识别的一个必要条件是:
该模型中共含有35个参数,包括11个负荷
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结构 方程 模型 案例 汇总