心理测量.docx
- 文档编号:25702650
- 上传时间:2023-06-11
- 格式:DOCX
- 页数:39
- 大小:87.33KB
心理测量.docx
《心理测量.docx》由会员分享,可在线阅读,更多相关《心理测量.docx(39页珍藏版)》请在冰豆网上搜索。
心理测量
心理测量
第一章心理测量和测验
(一)测量
一、测量基本问题
·测量:
依据一定的法则用数字对事物的属性进行确定。
最基本的特征是将事物进行区分。
·三要素:
1)测量的对象——事物的属性或特征
具体型:
看得见摸得着,如长度、体积、时间、温度;确定型:
属性在一定条件下不会改变,如长度在温度恒定下;抽象型:
大多不能被感官直接感觉,智力、个性、品德、机能、态度、兴趣、爱好;随机型:
属性是随机变化的,如人记忆广度每次测量都有差异;模糊型:
属性本身模糊不清,热情、冷若冰霜
2)测量的规则(法则)——给事物的属性分派数字的依据,测量所依据的规则和方法
A、有好坏之分,好规则可能达到正确可靠的测量结果;B、好的法则是在测量准确的前提下
其好坏一方面取决于制定规则的程序,另一方面取决于所预测的事物属性本身是否易于建立规则及规则是否便于操作(具体稳定的如性别、身高、体重等;抽象的如智力知识技能等)
3)测量的结果——描写事物属性的数字或符号
数字:
代表某一事物或事物某一属性的量。
数量特征:
A、区分性(每个数是独特的,是1就不是2)——教室B103和教室B110;B、序列性——名次1、2、3名;等距性——温度5度、8度;可加性——160CM、170CM
二、测量的要素
·参照点和单位
前者:
测量工作中量的起点
绝对零点(长度、重量);相对零点(摄氏温度,以冰水混合为0度、地势高度、零势面)
心理测量多为相对零点,心理测量为顺序量表,只有高低之分,没有倍数之分。
不能说甲的智商是乙的两倍。
后者:
好的单位:
首先要有明确的意义,不同的人对其理解意思要相同;其次要有相等的价值,相邻两个单位之间的差别总是相等的。
但是心里和教育测量所用的单位则不等值。
心理测量的单位不够完善,既无统一单位,也不符合等距要求。
三、测量量表
·量表:
可是使事物数量化的值和量的渐进系列测量水平。
本质是根据某一法则将事物数量化,即在一个定有参照点和单位的连续体上吧事物的属性表现出来,这个连续体称为量表。
·测量量表:
根据测量结果数量化描述的不同分为四种水平测量,相应四种类型量表
1)类别量表/名称量表:
用数字代表事物或把事物归类。
统计方法:
每个类别的次数频数
2)等级量表/顺序量表:
数字不仅指明类别,同时指明类别的大小或含有某种属性的程度。
能排等级或顺序。
统计方法:
中位数、百分位数、等级相关系数、肯德尔和谐系数、秩次变差分析
3)等距量表/区间量表:
事物属性划分是等距的,单位是等值的,但没有绝对零点。
相对参照点。
可以加减,不能乘除。
只能说18度与9度差9度,不能说是其两倍。
统计方法:
均数、变差、积距相关系数、T检验、F检验
4)等比量表/比率量表:
有绝对零点。
可乘除。
长度、重量、开氏温度量表
四、直接量表间接量表
·前者:
直接测得事物属性的测量,如长度
·后者:
不能直接测得事物属性,只能根据测量结果去推测事物属性的测量。
如,曹冲称象;温度的测量;心理测量。
五、测量方法
实验法、观察法、测验法(狭义的测量)
六、测量的误差和精确程度
·测量误差总是存在的。
误差越大精确度越低。
测量要求的精确程度视测量目的而定。
·精确程度的影响因素:
A、测量对象本身的属性有关;B、测量所用工具
(二)心理测量
一、心理测量
·定义:
根据一定法则用数字对人的行为加以确定,即依据一定的心理学理论,使用一定的操作程序,给人的行为和心理属性确定出一种数量化的价值。
二、心理测量的特点
·间接性
·相加性
三、心理测量的水平
心理测量属于等级量表,有相对参照点;没有相等单位
(三)心理测验
一、心理测验
·定义:
对一个行为样组进行测量的系统程序;心理测验实质上是对行为样组的客观和标准化的测量
二、心理测验三要素
·行为样组:
不能把所有与该心理特性相关的行为全部测量到,就只能选择其中一部分行为进行测量,以这部分被测量的行为作代表,来推测与其关联的心理特征。
这一组行为,称为行为样组。
如果所选行为样组缺少代表性或与所欲测的心理特性关系不密切那么就不能凭借此推论个体特性。
一个测验的好坏,首先决定于测题编制的好坏,必须要求这些测题能够引发和测量出具有高度代表性的行为样组。
·标准化:
测验的一致性,即测验编制、实施、计分、测验分数解释的程序一致性。
另一个重要步骤是建立常模
·客观性:
指测验不受主观支配,其测量方法是可重复的,测验的实施、计分和解释都是客观的。
行为样组的代表性和测验程序的标准化都是为了保证这种客观性。
标准化样组的代表性决定着测验常模的客观性,并进而影响整个测验的客观性。
三、心理测验客观性指标
·信度:
测验结果的可靠性
智力测验:
0.85以上;人格测验:
0.7-0.8;学业成就:
0.9
·效度:
表示一个测验实际测验出所测特性或功能的真实性程度。
·难度与鉴别力:
好的测题是鉴别力高并且难度适宜的项目
(四)测验
一、根据测量的对象分类
·认知测验(能力测验):
包括智力测验、能力倾向性测验(性向测验)——偏向特殊能力测试,如音乐能力等、教育测验(成就测验)、创造力测验
•人格测验:
性格、情绪、需要、动机、兴趣、态度、焦虑、气质等方面的个性心理特征及其相关行为
二、根据测验人数分
•个别测验:
适用特殊对象,幼儿、文盲
优点:
主试对被试的言语、情绪状态、行为反应有仔细的观察和控制的机会与被试合作,激发被试测试的积极性。
结果可靠。
缺点:
时间长,手续复杂,对主试要求高
•团体测验:
优点:
节省人力物力时间。
主试要求低。
团体测验计分和评分较个别测验更严格客观。
更易建立常模。
缺点:
无法对被试详细观察,不易控制被试行为,容易产生误差。
注意:
团体测验可以个别施测,但不能反过来。
年龄小儿童个别施测较好。
三、根据测验材料分类
•语言或文字测验:
测验题目以语言或文字呈现,也要求被试用文字或语言作答。
团体测验多采用这种。
缺点:
不能用于语言有困难的人、语言文化背景不同的人。
•非语言测验或操作性测验:
以图画图形符号或实物为测验材料。
作答无需使用语言或文字,常用操作表达或回应。
方便用于学前儿童、不识字成人,有差异性地区进行研究。
缺点:
费时太多,不易团体施测。
•混合式测验:
既有文字类测题,也有非文字测题。
(韦克斯勒智力量表)
四、按记分方式
•客观测验:
计分有明确的标准或有正确答案可资参照比较的测验;可避免计分者主观差异
•非客观测验:
无固定标准答案可资遵循的测验。
评分会因为评分者的宽严程度不同而有差异。
五、按测验要求分类
•最高作测验:
要求尽可能做出最好回答,与认知过程有关,有正确答案。
•典型行为测验:
按通常的习惯方式反应,没有正确答案
六、按测验目的分
•描述性测验;•诊断性测验;•预示性测验
七、按测验难度分类
•速度测验;•难度测验
八、按测验解释分类
•常模参照测验;•标准测验;•潜力测验
九、按测验应用分类
•教育测验;•职业测验;•临床测验
第五节测验的应用
•••了解个别差异
•诊断、预测和评价
•甄选、分类和安置
•为心理辅导和心理咨询服务
•心理和教育科研的辅助手段
第五章信度
(一)信度理论
一、信度
·定义:
信度是对测量一致性程度的估计;信度是受到误差的影响
·认知类(能力、学习成就测验):
0.9以上;人格类(性格、兴趣、价值观):
0.8以上
二、误差
·定义:
测量中与目的无关的因变所产生的不准确、不一致效应
·种类:
1)抽样误差:
由于抽样变动所造成的误差,由于样组之间存在差异,在信度估计时,抽样误差可以忽略不计。
2)系统误差(常定误差):
由与测验目的无关的因子所引起的恒定、系统的、有规律的变化,存在于每次测量中。
与信度无关,与效度有关。
3)测量误差(随机误差):
由与测验目的无关的偶然因素引起,使得几次测量结果不一致,且这种不一致是无系统的、随机的。
信度完全受随机误差影响。
误差来源:
测验本身、施测过程、被试本身
三、真分数理论
·真分数定义:
测量中不存在测量误差时的真值或客观值;操作定义:
无数次测量的平均值,用T表示
·真分数理论基本方程式:
X=T+E
实测分数X由T和E(误差分数)共同决定。
·三个理论假设:
1)误差分数的平均数是零;2)误差分数与真分数相互独立,相关为零;3)两次测量的误差分数之间相关为零。
X=T+E
=
=
r=0
=
信度就是一组测验分数中真分数方差与实测分数方差的比率,表达式为:
就是信度,也称信度系数。
信度=信度指标的平方,
注意:
信度是一组测验之间的一致性,不是个人的分数的一致性。
(二)估计信度的方法
一、重测信度
·定义:
也称稳定系数。
是同一组被试在不同时间用同一测验测量两次(两次测验间隔一段时距),两次测验分数的相关系数。
跨时间的一致性
重测信度高,可以用于预测未来
·公式:
1、
2、总体标准差
3、
·误差来源:
1)测验本身:
测量特性本身不稳定,如情绪;2)被试方面:
知识的发展每个人是不同的,练习因素、记忆效果都有个体差异。
3)偶然因素
前提:
1、测重测信度,要保证所测特性是稳定的;2、被试的记忆、练习效果是相同的;3、两次测量期间被试学习效果没有差别
二、复本信度
·定义:
又称等值系数,估计的是两个假定相等的复份测验(平行测验/复本测验)之间的一致性,是两个平行测验分数的相关。
1)等值性复本信度
使用测验复份A,然后在最短时距,再使用复份B,求两次测验分数的相关系数
注:
测量是否为良好的平行测验,跨形式的一致性
2)稳定-等值系数
给相等的被试施测复本A,一段时距以后,再使用复本B,测量两次测验相关。
注:
测量是否为良好平行测验,跨形式、跨时间的一致性;由于误差来源受重测信度、复本信度双重影响,往往比重测和复本信度都低。
·误差来源:
1)测验两种形式是否等值:
取样是否匹配、格式是否相等、难度、内容等是否一致;2)被试:
情绪波动、动机变化;3)测验情景是否改变偶然因素
三、内在一致性信度
·定义:
指组成研究工具的各项目之间的同质性或内在相关性,内在相关性越大说明组成研究工具的各项目都在一致地测量同一个问题或指标,即内在一致性越好,信度越高。
当测验既无复本也不能重复测量时,就用这个方法。
估计测验跨项目或两个分半测验之间的一致性
1)分半信度
先把一份测验按题目的奇偶顺序或其他方法分成两个尽可能平行的半份测验,然后计算两半的相关系数。
这个方法可能低估原长测验信度,因此要修正公式。
A、前提:
两个测验是平行测验,即两个半个测验的方差是相等的,
B、前提:
若两个半个测验方差不相等
(
是总分的方差;
是两个分表之差所组成列的方差)
)或
分半方法:
1、完全随机分半;2、奇偶题目分半;3将测验分成若干内容块,再奇偶分半
因此每种划分方法得的系数不同,分半法的信度不具备唯一性。
2)同质性信度(基于项目协方差的方法)
测验内部所有题目间的一致性程度(测验所测内容或特质的相同程度)
A、前提:
项目为0,1计分的。
(n是测验项目数目,p是项目通过率,q是项目未通过率)
)
B、前提:
项目非0,1计分。
就是第i个题的方差和
)
·优点:
1、只用测一次,省时节力;2、测得的信度系数高。
不足:
1、分半方法,信度就不同;2、测验要求有同质性,所以一般项目异质的人格测验通常不用内在一致性系数估计信度。
四、评分者信度
·定义:
由多个评分者给一组测验结果评分,所得各个分数之间的一致性。
在投射测验、学业测验、作文测试、面试中就要考虑这个信度。
估计测验跨评分者的一致性
·计算方法
1)当只有两个评分者:
评分是连续变量——积差相关;等级评分——等级相关
2)当三个以上评分者:
肯德尔和谐系数(K是评分者人数,N是被试人数)
W=
(三)影响信度系数的因素
一、五种信度对同一个测验的结果不同的误差来源
重测:
随机误差,被试时间上的变化(时间取样不同)
复本:
1)即时:
题目不同(内容取样不同);2)延迟:
内容取样,时间取样
内在一致性:
1)分半:
内容取样;2)同质性:
内容取样,内容异质性
评分者:
评分者不同的差异
二、分数分布范围的影响
抽选被试往往要选取不同层次的被试,以似的测验团体呈异质性,从而使得信度提高。
当需要同质团体的信度时,就应该尽量选取同一层次的被试
三、测验长度的影响
越长,信度越高
四、测验难度的影响
如果太难或太简单,信度都很低。
第六章效度
(一)效度
一、效度
·定义:
所测量的与所要测量的心理特点之间符合的程度,即心理测量的准确性。
1)测量什么东西2)能够测量到达的程度
·性质:
1)相对性:
目的相对性,心理特质隐蔽性导致的测量准确的相对性。
2)连续性:
效度只有程度上的差异,并非全或无的差别;3)效度是针对测验结果而言的。
二、信度与效度的关系
1)信度高效度不一定高,效度高信度一定高。
2)效度系数的最高限度是信度的平方根,
三、分类
·内容效度:
测验用的测题对整个测验内容范围的代表性程度
·准则关联效度:
指测验分数对某一行为表现的预测能力的高低。
·结构效度:
测验能说明心理学上的理论结构或特质的程度,即心理学上某种结构或特质来解释测验分数的恰当程度
(二)效度的估计
建立测验效度,必须参照所考虑的测验特定用途。
各种确定测验效度的方法,基本上都涉及测验成绩和独立观察到的被研究的行为特征的事实之间的关系。
研究这种关系的具体方法不同,他们的名称也不同。
一、内容效度
·定义:
测验内容对于其所欲测行为领域(即,测验的内容范围)的代表性程度
·好的内容效度的两个条件:
1)对所测量的心理特性有明确的概念:
要确定好内容范围,并使测验的全部项目均在此范围内;2)测验项目是已界定的内容范围的代表性样本(典型题目)
·评估方法:
1)专家判断法——定性分析
A、确定欲测内容的范围;B、确定每个题目所测的内容,并与测验编者所列的双向细目表对照,比较自己的分类与制卷者的分类,并记录;C、制定评定量表:
考察题目对所定义的内容范围的覆盖率。
判断题目难度与能力要求之间的差异,考察各种题目数量和分数的比例以及题目形式对内容的适当性,对整个测验的有效性做出总的评价。
2)评分者信度法
3)复本法
4)再测法:
在学习之前和之后测出的内容有显著差异
5)经验推测法:
依据特质的特点看准还是不准
·应用
内容效度适用于教育成就测验,职业选拔测验。
测验内容是知识和技能的。
缺点:
缺乏可靠数量指标,妨碍了各测验的比较。
·表面效度
定义:
测验被试的主观认识上觉得有效(测量什么,测到的程度)的程度。
表面效度算不上真正效度,但可以取得被试合作。
认知类测验——表面效度要高(职业测验、成就测验)
人格类测验——表面效度要低(测谎的)
二、效标效度/实证效度/准则关联效度
·定义:
测验预测个体在某种情况下行为表现的有效性程度。
·分类:
同时效度——准则资料与测验分数同时得到,计算的是同时效度。
预测效度——准则资料一段时间以后才能获得。
预测某考试高分的工作成就高低。
·评估方法:
1、相关法:
1)积差相关——预测分数和准则分数都是连续变量
2)二列相关——一个变量被人为分为两类,及格或不及格
2、分组法/区分法:
找两组行为上明显不同的组别,看他们的预测分数上是否有显著差异,看测验分数能否区分由效标所定义的不同团体。
3、命中率法
·效标(准则)
1、定义:
被预测的行为是检验测验效度的标准
2、分类:
观念效标;效标测量
3、好的效标的三个条件:
1)效标必须能最有效地反映测验的目标;2)必须稳定可靠,有高信度,测量误差小;3)可以客观的测量;效标测量的方法简单、省时省力经济实用
4、常用效标:
1)学习成绩、在校成绩、学历、教师评定、学生奖励可作为成就测验或能力倾向测验的效标;2)工作成就;3)特殊训练成绩(体育生);4)临床诊断(临床上观察诊断的结果及患者病史等可作为智力或人格测验的效标);5)团体比较:
以能否区分不同效标表现的人来衡量测验的有效性(职业测验能否区分工作上成功与否的人);6)现成测验(一个新测验可以用已具有良好效度指标的旧有的测验作为效标)
5、可作为效标的变量很多,一个测验可能会有不同的效标,选择的关键在于明确决策者的目标。
工作成就的测量,量化它(观念效标)
三、结构效度(构想效度)
·定义:
测验能够测到理论上的构想或特质的程度
(三)提高测量效度的方法
凡是与测量目的无关的稳定和不稳定的变异来源都会影响测量的效度
一、影响效度的因素
1、测验的构成:
样本代表性、题目清晰度、指导语明确度、题目难度、题量(增加题量可以提高效度)、题目安排
2、测验施测过程:
标准化施测,指导语、时间限制等
3、被试身心状态,样本特点:
兴趣、情绪、动机、态度
4、所选效标性质:
同一测验可能有多个效标。
5、测量的信度:
效度
信度
二、提高效度的方法
1、精心编量表,避免出现较大的系统误差
2、组织测验,控制随机误差
3、创设标准的应试情境被试发挥正常水平
4、选好效标、效标测量,正确使用公式
第七章项目分析
一、项目难度
·定义:
难度表示题目难易程度的指标
能力测验中称为项目的难易程度;非能力测验中称为“通俗性”“流行性”水平(指一总体中被试在答案范围里回答项目的程度)
·难度的计算
1)0,1计分的项目
P=
——更准确。
答对人数除以总人数。
P越小难度越大
2)若参加人数很多
P=
——更方便。
前27%和后27%作为高分和低分组。
3)非0,1计分
P=
——得分率
·难度的等距交换
难度不是等距变量,而是顺序变量
若难度P
0.5,如:
P=0.16,则先要用0.5-0.16=0.34,用0.34查表得Z=1;
若难度P
0.5,如:
p=0.54,则0.54-0.5=0.04,用0.04查表得Z值
注意,这里的难度P是指的正态图向右的区域
·难度与测验分数的分布:
1)是正偏态,被试分数大多低分端,难度大;2)负偏态,被试集中在高分端,难度小。
·测验难度水平的确定
难度分析的主要目的是为了筛选项目。
项目的难度水平多高合适,取决于测验的项目形式以及测验的性质。
根据测验目的选难、易题。
1)若测验目的为了解被试在某方面知识技能掌握情况:
可以不用考虑难度,只要是教育者认为重要的内容就可以选用
2)若目的为了选拔录用人员:
将项目的难度控制在接近录取率左右
3)对于一般常模参照性测验:
难度在0.5
0.2之间。
中等难度,区分度最大
4)选择题而言:
难度应大于概率的水平0.25。
难度等于概率值,说明被试纯粹凭猜测答题。
难度小于概率值,说明题可能有问题。
要进行难度的机遇影响矫正
CP=
K:
选项的数目;P:
未矫正的难度
二、项目区分度
·定义:
测量项目对不同水平的被试反应的区分程度和鉴别能力
·特点:
并不是每个题都要求区分度高,根据题目要求定。
取值范围:
-1~1之间;
·区分度的相对性:
1、不同计算方法,所测得区分值不同:
区分同一测验时,要用同一个指标
2、用相关法时,要进行显著性检验
3、分组的标准会影响D值
4、样本同质性程度影响区分度大小:
如果高能力组做简单题,我们区分度就高,是一个天花板效应
·区分度的计算:
1)项目鉴别指数法——0,1计分
被试总分从高到低排列,计算高分组和低分组在该题上的通过率。
D=
D越大,鉴别力越强,项目质量越好。
极端组的划分:
A、正态,前27%和后27%分别作为高分组和低分组
B、若效标分数比正态平坦,取33%
C、一般在25%-33%中取都可以
D、被试少于100,就取50%
0.4以上—优良;0.3-0.39—良好,如能修改更好;0.2-0.29—尚可,仍需修改;0.19以下—劣,必须淘汰
2)方差法
被试在某一题上的得分越分散,则该试题鉴别力越大。
注意:
但是如果高能力得低分,低能力得高分,则不能确定。
3)相关法——项目与总分相关
当项目于总分相关高,说明两者有一致性,从这个项目上就可以鉴别出被试能力的高低,那么这个项目鉴别力高。
1、点二列相关——0,1计分或二分变量,总分是连续变量的数量资料
r=
2、二列相关——适用于正态连续变量,其中一个是人为二分变量
r=
3、积差相关——项目于总分均为连续变量
4、Ø相关——适用于项目与总分都是二分名义变量
注意:
所有相关之后都要进行显著性检验
·实例分析
选项分析的异常情况主要有:
A、正确答案没人选或少于其他选项人数;B、错误答案选的人太多;C、正确选项上高分组选择人数比低分组还少;D、错误选项上高分组选择人数比低分组人数多;E、某个项目没人选;F、未作答的人数多
三、区分度与难度关系
P=1——D=0
P=0.5——D=1
P=0——D=0
中等难度,区分度最大
第八章常模测试
一、原始分数和导出分数
·原始分数:
测验之后依照测验指导书计算的测验分数
·导出分数的两种描述方式:
1)已经达到的发展水平——对应的为发展性常模
2)在某个特定团体中的相对位置——对应的为组内常模
·分数转换:
按某种规则将原始分数转化为导出分数的过程
二、常模与标准化样组
1、标准化样组(常模团体)
·定义:
具有某种共同特征的人所组成的一个群体,或是该群体的一个样本
·条件:
1)明确定义其成员特征;2)必须是所测群体的代表性样本;3)取样的过程必须明确且有详细的描述(方便别人验证我们常模)。
常模解释范围越大,所取样本也要越大,如全国性常模;4)样本大小要适当:
总体数目小只有几个人;数目大30-100;全国性2000-3000
从同一总体中同样选择另一个样本,得出的两个常模不应该有显著性差异;5)标准化样组是一定时空的产物;6)注意一般常模与特殊常模的结合
2、常模的相对性
1)测验分数的比较:
不同测验的测验分数不可比;2)特殊常模:
地区常模、全国常模
3、常模和标准
·常模:
代表着某一群体真正的成绩,不是应该达到的水平
·标准:
希望达到的水平
4、制定常模的过程
1)确定测验将用于哪个群体,得到常模团体
2)对常模团体进行施测,获得团体成员的测验分数及分数分布
3)确定常模分数类型。
制作常模分数转换表,即常模量表,给出抽取常模团体的书面说明,以及常模分数的解释指南等
5、呈现常模的方法
1)转化表:
简单转化表;复杂转化表:
韦氏
2)剖析图:
16PF;EPQ
三、发展性常模
所测特质是随时间以有系统的方式发展的,可以将个人的成绩与各种发展水平的人的成绩比较而制成的发展量表。
是描述性,诊断性的
1、智龄
·原理:
比奈认为,将一个儿童的行为与各年龄水平儿童比较,以测量心理成长
·测量方法
1)测题划分到不同年龄组
智龄=基本年龄+更高年龄水平的月份数
2)测题未划分到年龄组(混合)
智龄=将个人的行为与各年龄组的一般儿童比较得到的年龄分数
例,3y10分
4y20分
5y28分
小张得10分,则智龄为3岁;小明得15分,则智龄为3.5岁
·注意:
1)只能在同一生理年龄比较智龄
2)智龄是顺序变量,中间的间距不一样,单位不相等。
不能说3.5与4.5岁差距和11与12岁的差距一样。
儿童越小发展越快,差距越大。
2、年级当量
·教育成就测题上的分数可用年级当量解释
·年级常模可以从计算各年级学生在该测验上的平均原始分数得到(一个年级当量算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 心理 测量