测验同质信度的分析考试研究.docx
- 文档编号:28479939
- 上传时间:2023-07-14
- 格式:DOCX
- 页数:14
- 大小:93.29KB
测验同质信度的分析考试研究.docx
《测验同质信度的分析考试研究.docx》由会员分享,可在线阅读,更多相关《测验同质信度的分析考试研究.docx(14页珍藏版)》请在冰豆网上搜索。
测验同质信度的分析考试研究
测验同质信度的分析
顾海根
(作者简介:
顾海根,教授,博士生导师,上海师范大学教科学院应用心理系,上海,200234。
)
摘要:
本文讨论了测验同质信度概念、不同指标、适用条件以及估计方法,特别对近年来发展起来的同质信度指标β系数、γ系数、ζ系数、ρ系数进行分析,并与传统的克朗巴赫系数进行了比较,得出了系数不是一个理想的同质信度指标的结论。
关键词:
同质信度;α系数;β系数;γ系数;ζ系数;ρ系数
同质信度又叫内在一致性系数,是估计测验内部一致性的指标。
这里讲的一致是指测题得分的一致,而不是指测题内容或形式的一致。
如果测验中各测验得分有正相关,则认为测验为同质的;反之,如果测验中各测题间相关为零,则认为测验为异质的。
测题间正相关越高,则测验的同质信度越高。
虽然同质信度原定义为测验内部的一致性程度,但是这个概念也可以应用于测验中的分测验或一组测题。
究竟要在哪一级水平上作分析,这取决于测验的结构和分析的目的。
有时一个异质性的测验可能包含一些同质性的分测验或测题组。
一、同质信度常用的指标
同质信度有多种指标,最常用的有分半信度、库德-理查逊公式系数(KR一20公式系数)和克朗巴赫系数。
(一)分半信度
按照信度系数的定义,必须要拿两个彼此平行的测验对同一组被试施测,获得两组观察分数后,才能求出相关系数即信度系数。
如果一个测验只对被试组施测一次,只获得一组观察分数,按照相关的定义是无法求出相关系数的。
分半信度走出了使用单一形式测验只施测一次求出信度系数的路子,关键是在两个半测验上使用了平行测验的概念。
分半信度的思想是:
将测验的项目分为两部分,分别计算这两部分的分数,然后计算两半之间的相关,即得到分半信度系数。
由于这种方法是用两个半测验计算的信度系数,低估原长测验的信度,所以需要再用斯皮尔曼一布朗公式对分半信度系数进行修正,这样就可以得到整个测验的信度系数了。
那么如何把测验分成对等的两半呢?
对等的两部分测验起码有两个要求:
一是测验的两部分在难度、区分度及测验目标上基本是相同的;二是被测者以同等的态度来对待两部分测验,即在完成两部分测验过程中,练习、疲劳、情绪等因素对被试产生了同等的影响。
因此,将一个测验分成两部分时,常用的是奇偶分半法。
该方法把测验的项目进行折半时,采用题号的奇偶数为分组标准,即奇数题为一组,偶数题为另一组,然后计算奇数组得分和偶数组得分的相关,由此来判定内在一致性程度。
奇偶法的使用要求:
1.奇、偶数题目必须成对;
2.成对值的数目一般要大于30;
3.两列数据都应呈正态分布。
因此,该方法通常用于由选择题组成的考试。
采用分半法需要注意一点:
在人格测验中,测题往往包含不同的特质,比如艾森克的人格问卷,它把测题按照人格特质分成四个部分,精神质(P)、内外向(E)、神经质(N)、说谎(L),而且各特质的测题都是分散分布,那么这时不可以拿整个测题来求分半信度,而应求分量表的分半信度。
(二)克朗巴赫α系数和库德-理查逊公式
1.克朗巴赫(Cronbach)α系数
上述单一形式测验信度系数求法并不能广泛推行,因为它要求测验中所有项目要彼此平行,这是无法满足的苛刻条件,假定我们已经编出一个性能良好的测验,它在测试某一心理结构时整体功能很好,但是各个项目间却无法认定其彼此“平行等值”。
如何解决这个问题呢?
既然我们在实际上编制出了能很好测量特定心理结构的测验,就不妨在思想上设想,还有一个与此测验完全平行等值的测验存在,并且可以认为这是从一个良好的由许多平行测验构成的总体中随机抽得的两个样本。
这样这两个平行测验间观察分数的相关系数,自然就是所求的测验信度系数。
记实际存在的测验为X,思想上设想存在的完全符合平行要求的测验记为Y,两者观察分数的相关是
将上式展开
因为按照积差相关,,所以上式可以写成
这样上式分子就有K2项,每项结构相同,都是两个标准差的积再乘以相关系数,实际上是两个平行测验项目间的交叉协方差。
如果分子求出平均数,而按照平行性假设分母中的两个标准差相等,所以上式可以写成
上式分子中是两个平行测验项目的交叉协方差的平均数,但是这两个平行测验只有一个是实际存在的,另一个是想象出来的,所以无法求出平均数,但是可以证明,平行测验项目间交叉协方差的平均数必然等于其中一个测验内项目间协方差的平均数。
这样于是有
这样上式就可以用单一形式测验一次施测所得资料实际求出了。
于是,上式左边的相关系数就可以改用成测验信度系数ρXX了。
这是一个适用面很广的求单一形式测验信度系数的通式,构成测验的项目,二值记分可以,非二值记分也可以,平行项目可以,非平行项目也可以。
但是,它也有局限性,就是计算麻烦,因为要求取项目间的平均协方差。
由于一个测验项目间的平均协方差,可以用所有项目协方差的和跟协方差个数的比来代替,于是上式可以写成
又因为测验总分方差等于测验项目上分数方差加上所有项目协方差的和,即有
因此,单一形式测验信度系数为
(1)
这就是著名的克朗巴赫α系数(可以证明α系数是信度系数的低限估计值)[1]。
2.库德-理查逊公式法
假如一个测验全是二值记分的项目所组成,那么上式中每个项目上的分数方差就会等于该项目上通过率p与未通过率q二者的积。
(2)
这就是KR-20公式。
它是α系数,是信度系数的低限估计值[1]。
从分半相关,到α系数KR-20公式,这一大类单一形式测验信度系数,都在着力考查测验的组成成分,直至最基本的单位即项目之间的相关性。
如果它们的相关一致性强,说明测验的所有成分都在集中力量考查同一个心理特质,这样,测验的信度系数就会取值高,测验质量就好。
所以,它们又被称为内部一致性系数或者同质信度。
内部一致性系数虽然采用了单一形式测验,但是本质上仍然是求取平行测验间分数相关,因此,跟稳定性系数和等值性系数一样,都是一种实现平行性要求的策略和方法。
3.对α信度系数的质疑
克朗巴赫α系数只是给出了测验信度估计的下界,但是一致性信度和测验的信度并不是一个概念。
通过克朗巴赫α系数的推导过程我们可以知道
若上面的不等式取等号,则α系数就是测验信度的精确估计。
不等式取等号的条件是:
(1)分测验Y1,Y2,Y3,…,Yq是平行测验,即测验Y1,Y2,Y3,…,Yq的真分数Y1,Y2,Y3,…,Yq两两之间的相关为l,且具有相等的真分数方差和误差方差(充分但非必要条件)。
(2)Y1,Y2,Y3,…,Yq是基本τ-等价,即测验Y1,Y2,Y3,…,Yq的真分数T1,T2,T3,…,Tq两两之间的相关为1,且具有相等的真分数方差,但可以有不同的误差方差(充分必要条件)。
因此,如果测验中的各个项目不满足基本τ-等价测验的条件,用α作为信度的估计,极易出现低估的情况。
在心理与教育测验中,仅系数常用来描述一个测验同质性的高低,为了说明α系数在描述测验同质性时的局限性,下面首先考虑同质性测验与α系数之间的关系。
由协方差理论的相关研究可知[2],用α系数作为测验同质性的指标并不是十分可靠,同质性测验的信度不仅仅与题目间的相关程度有关,而且与不同项目在共同因子上的因素载荷λi有关。
在心理与教育测验中,在保证测验同质的前提下,α系数高表明测验同质性高,α系数低并不一定说明测验同质性低;但是反过来,测验α系数的高低并不能对一个测验是否同质作出判断。
相等的真分数方差和相等的误差方差,即在同质性测量模型中限制λ21=λ22=…=λ2q和θ21=θ22=…=θ2qτ-等价测验要求几个测验具有相等的真分数方差,但可以有不同的误差方差,即在同质性测量模型中限制λ21=λ22=…=λ2ψ,可见,同质性测验对应的协方差结构模型(若称为模型1)要比τ-等价测验对应的协方差结构模型(若称为模型2)的限定条件少得多;而平行、狈0验对应的协方差结构模型(若称为模型3)则要求更多的限定条件。
三个模型间的关系:
模型3嵌套于模型2,模型2嵌套于模型1。
对这样的嵌套模型,很容易证明同质性测验不一定是τ-等价测验或平行测验。
显然,α系数作为同质性测验信度精确估计的条件太严格了,用α系数的大小作为同质性测验信度的估计是不可靠的。
另一方面,α的数值直接受项目多少的影响。
在考虑测验的构想效度时,往往考查测验的同质性,即一个测验里的分测验或题目群是否测量单一概念。
单一维度内的题目具有一致性,这种一致性主要受两方面变异的影响,一是内容的同质性,二是所研究的行为的同质性。
所要测量的内容或行为同质性越高,题目的内部一致性越高。
很多研究者都把系数α作为单一维度的依据。
若一组题目的仅系数很高,就认为,这组题目测量单一概念,反之,是测多个概念。
用α系数作为题目是否单一维度的标准存在很多问题,α的数值直接受项目多少的影响。
增加题目的数量会使α的值迅速增加,增加测验长度的效果可以用斯皮尔曼-布朗公式的通式来计算。
可见,只要题目的数量足够多,无论题目是否属于单一维度,其α值必定会高。
可见,高α值未必是单维度,低α值未必是多维度。
侯杰泰利用模拟数据研究了测验的维度与α系数间的关系[3]。
α系数低或中等时要考虑:
项目的维度是否是单维的,如果是单维的,还要考虑每个项目的因素负荷是否够大,项目是否存在质量问题。
可见仅从α系数的大小,不能推断项目是否同质。
见下表:
表1七个模式的维度及值
模型
题数
维度
因子负荷
因子相关
x2
df
NNFI
RNI
结论
数值
结论
A
9
1
0.3
不适合
15
27
1.15
1.11
单维
0.49
低信度
B
9
1
0.9
不适合
20
27
1.00
1.00
单维
0.98
高信度
C
36
1
0.9
不适合
563
594
1.00
1.00
单维
0.99
高信度
D
9
1
0.3
0
36
38
0.57
0.68
多维
0.18
低信度
E
9
3
0.9
0
2440
27
0.09
0.32
多维
0.72
中信度
F
36
12
0.9
0
3609
594
0.03
0.09
多维
0.61
中信度
G
36
3
0.9
0
17310
594
0.27
0.31
多维
0.91
高信度
可以看出,高α未必是单维,低α未必是多维。
A、B、C均是单维,B、C的α高,A的α低,其中因子负荷是一个影响因素。
D、E、F、G为多维,但α值并不一致,D极低,E、F一般,G很高。
因而,维度数目与α值并无一一对应关系。
用α系数作为测验项目分析的指标,并依据这个指标进行解释常得出这样的结论:
一是测验同一因素的项目之间具有内部一致性;二是同一维度内项目的相关必然高于不同维度项目之间的相关。
同质性系数α的大小仅仅是反映项目与项目间数量关系的一个指标,用α系数作为测验内部一致性的指标是不合适的。
再者,对于α系数必须是事先在理论上能够确认是同质的,施测后,所计算的α系数高才能对测验项目同质性程度进行数量上的描述。
任意一组具有高相关的项目虽然有较高的α系数,但未必是具有内部一致性的测验。
举一个极端的例子,如一个学生的社会经济地位可能与学业成绩存在高相关,但它们显然不具有内部一致性。
所以,同质性的测验必须是在一定的理论构想前提下才是有意义的测验,即在理论假设的基础上探讨数字之间的规律。
如果没有事先项目内容同质的理论假设仅仅从项目与项目间的相关系数去断定项目间是否具有一致性是没有说服力的。
从以上分析中可看出,用α系数对测验进行评价的确存在一些问题。
用α系数估计测验的信度,其理论假设并不能得到严格满足;α系数值与测验的维度之间并不存在一一对应关系;利用内部一致性系数对项目进行取舍时必须谨慎,同一维度内项目之间的相关并不必然大于不同维度项目之间的相关。
二、同质信度指标的发展
近年来,针对原有的同质信度指标的缺点,测量学家提出了一系列新的指标。
(一)β系数
针对α系数的不足,陈希镇教授提出了β系数的概念[4],其公式是:
(3)
其中ρ=max{∣R(Xi,Xj)∣;i≠j,i,j=1,2,…,k}
证明了在一般情况下,β也是D(T)/D(X)的下界,但是这个下界要比α好得多,它更接近与信度系数的真值,因此在估计信度系数时,β公式比α系数优越得多。
(二)γ系数
根据信度定义,刻画信度的信度系数应该是一个评价测验受到误差因素影响的指标,这一指标应该主要反映测验本身的特点,既不应该对测验题目的同质性太敏感,也不应该对样本的特点太敏感,为了从α系数中分离出考生样本同质性的影响,从而更好地刻画测量误差变异在观察分数总变异中的比重,谢小庆教授提出一种同质信度估计的方法,称为“γ系数”[5]。
其中,S2是测验方差,Si2是第I题的题目方差,K是题目的数量,Xmax,Xmax测验得分的最高分和最低分。
不难导出:
其中,SE为标准误
其中,σ为测验标准差,α为α系数。
即
从上面的三个公式可以看出γ与标准误SE的关系,γ与α的关系;可以看出,α系数在很大程度上受到SE的影响。
SE越大,γ系数就越小;SE越小,γ系数就越大。
与α系数相比,SE具有很高的稳定性,并不随着考生样本同质性的变化而出现太大的变化。
因此,Anastasi说:
“对于大多数测验目的而言,SE比信度系数更有用。
”[6]
但是,标准误不像α系数那样具有不同测验之间的可比性。
α系数反映了测验分数方差的不同成分之间的比例关系,具有不同测验之间的可比性。
标准误受到分数单位的影响,具有不同分数单位的测验之间无法比较,例如,5分制考试的标准误与百分制考试的标准误是无法比较的。
正是为了克服标准误的这一不足之处,提出了γ系数。
从计算公式可以看出,γ系数是95%置信区间与测验分数全距的比值。
对95%置信区间的解释是:
如果某一考生得到了分数X,我们有95%的把握认为他的真分数会落在这个区间之内。
根据计算公式,95%置信区间在测验总分中所占比值越小,γ系数系数越高;95%置信区间在测验总分中所占比值越大,γ系数越低。
γ系数既不像α系数那样容易受到考生样本同质性的影响,也不像标准误那样受到分数取值单位的影响。
在对测验信度进行评价时,γ系数一般应该达到0.70以上。
或者说,测验分数的95%置信区间一般小于测验分数全距的30%。
既然涉及到95%置信区间,必须考虑正态分布假设能否得到满足。
可以证明,在样本不是很小的情况下,样本平均数的分布独立于测验分数分布恒为正态分布。
因此,γ系数适用于具有各种分布形态的测验分数,包括偏态、双峰等分布。
(三)ζ系数法
丁树良、周新莲教授提出另一种同质信度的指标,称为ζ系数[7]。
一个长度为m的测验,对每个项目,有σ2i为常数,记为σ2,且任两个项目协方差也为一个正常数c,若,γi+δ≥Si,i=l,2,…,m(m一1)/2,令
(6)
ζ是信度的一个下限估计,ζ是δ的单调下降函数且ζ≥α
(四)ρ系数
RaykovT.教授利用LISEL软件采用参数估计的方法估计同质信度[8]。
该方法是运用信度系数ργ与因素负载量(indicatorloadings)和潜在的误差方差的关系来估计ργ。
如果没有相关误差的影响,这个关系是:
(7)
如果存在相关误差影响,(7)可以修改为:
(8)
包含所有成对相关误差(1≤i≤j≤k)
三、对各种同质信度优劣的实证研究
以上我们讨论了测验同质信度的不同指标,主要有克朗巴赫α系数、β系数、γ系数、ζ系数、ρ系数。
这些指标孰优孰劣?
这在实际应用中很需求知道。
为了回答这一问题,我们设计了一个3×3×3的实验。
实验设计如下:
(一)自变量
1.被试人数,取三种不同的数值:
25,50,100,分别用数字l,2,3表示。
2.项目数,取三种不同的数值:
25,50,100,分别用数字l,2,3表示。
3.方差是否相等,三种水平:
方差相等,方差不相等(两种水平)。
分别用数字l,2,3表示。
(二)因变量
1.Cronbachα系数
2.β系数
3.γ系数
4.ζ系数
5.ρ系数
(三)实验过程
按照下面的模型
Y1=Tl+E1
Y2=T1+E2
Y3=T1+E3
Y4=Tl+E4
Y5=bk×Tl+E5
bk为Y5的负载,分别取值l,2,4。
运用LISREL8.50程序产生多元正态数据,其中T1的方差为l,对角线误差协方差矩阵Var(Ei)=2,i=1,2,…,4;
由此,得到27种实验组合,在各种组合条件下分别计算量表∑5i=1Y1的Cronbachα系数,β系数,γ系数,ζ系数,ρ系数。
(四)统计工具
LISREL8.5、SPSSl0.0。
(五)实验结果
根据实验设计得到表2。
由表2可以看到,α系数呈现一种规律性的变化:
在方差相等的条件下,α系数能比较敏感地反映量表的信度,偏离方差相等设定越远,α系数偏离真实信度也越远,可见,α系数对方差相等假设非常敏感,不是一个很好的信度估计值,在应用的时候要注意适用条件。
表2
实验条件
ργ
α系数
β系数
γ系数
ζ系数
ρ系数
111
0.74
0.70
0.71
0.69
0.68
0.74
112
0.82
0.62
0.67
0.72
0.68
0.81113
113
0.91
0.63
0.65
0.69
0.71
0.90
121
0.82
0.81
0.79
0.80
0.79
0.81
122
0.87
0.69
0.70
0.71
0.73
0.87
123
0.92
0.61
0.65
0.68
0.62
0.92
131
0.84
0.82
0.80
0.83
0.82
0.83
132
0.90
0.68
0.72
0.70
0.69
0.89
133
0.92
0.60
0.64
0.62
0.65
0.92
211
0.87
0.85
0.82
0.82
0.86
0.86
212
0.91
0.70
0.75
0.74
0.79
0.91
213
0.91
0.60
0.69
0.68
0.71
0.90
221
0.82
0.79
0.79
0.80
0.77
0.81
222
0.93
0.69
0.82
0.76
0.75
0.93
223
0.96
0.79
0.67
0.70
0.72
0.95
231
0.88
0.86
0.85
0.85
0.79
0.86
232
0.92
0.69
0.74
0.73
0.76
0.92
233
0.94
0.61
0.70
0.69
0.72
0.94
311
0.84
0.80
0.80
0.77
0.81
0.83
312
0.91
0.76
0.78
0.75
0.84
0.91
313
0.96
0.71
0.75
0.74
0.76
0.95
321
0.87
0.84
0.84
0.84
0.83
0.86
322
0.91
0.76
0.77
0.76
0.77
0.91
323
0.94
0.70
0.74
0.73
0.77
0.93
331
0.86
0.82
0.81
0.81
0.81
0.86
332
0.90
0.65
0.78
0.78
0.80
89
333
0.95
0.69
0.72
0.70
0.69
0.95
注:
ργ是真实信度系数,ρ是运用协方差方法估计出的ρ系数。
β系数、γ系数、ζ系数、对信度的估计基本上处于一个水平,比α系数估计精度要高一些。
ρ系数表现最好,不论条件如何变化,是方差相等还是方差不相等,项目和被试数量在何种水平上,它在各种条件下都能非常准确地反映信度,是信度的一个良好的估计值,它基本上不偏离ργ,即使有也是在很小的幅度,都在0.01范围内。
但是用协方差方法求ρ系数也有自己的缺点,主要是模型复杂、计算不方便,但是随着计算方法的进步,我们不能再仅仅满足于计算简单方便,而应该致力于真实反映真分数与观测分数的关系,这有利于真实评价测验的质量,推进测验编制,以编制出高质量的量表。
参考文献:
[1]Cronbach,L.J.,(1951)CocientAlphaandtheInternalStructureofaTest,Psychometrika,16:
PP.297-334.
[2]Raykov,T.,EstimationofCongenericScaleReliobilityviaCovarianceStructureAnalysiswithNonlinearContraints,BritishJournalofMathematicalandStatisticalPsychology,54:
PP.315-323.
[3]侯杰泰.信度与度向性:
高alpha量表不一定是单向度[J].教育学报(香港),1995,(23):
PP.1.142。
[4]陈希镇.如何正确使用信度估计公式[J].心理学报,1991,
(1):
P39-47。
[5]谢小庆.信度估计的系数[J].心理学报,1998,
(2):
PP.193-196。
[6]Anastasi,A.PsychologicalTesting(4thedition).NewYork:
Macmillan.1976:
PP.103-128.
[7]丁树良,周新莲.一种新的信度估计[J].江西师范大学学报(自然科学版),2002,(3):
PP.222-224。
[8]JoereskogK.G.,Soerbom,D.(1996),LISREL8:
User’sSreferenceGuide,Chicago:
ScientificSoftwareInternational.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 测验 同质 信度 分析 考试 研究