测验编制步骤.docx
- 文档编号:25299595
- 上传时间:2023-06-07
- 格式:DOCX
- 页数:40
- 大小:74.24KB
测验编制步骤.docx
《测验编制步骤.docx》由会员分享,可在线阅读,更多相关《测验编制步骤.docx(40页珍藏版)》请在冰豆网上搜索。
测验编制步骤
测验编制步骤:
8步
1、目的、对象
2、确定结构、确定测验结构,
1根据理论、智力测验有几个因素;人格特质,一个特质是一个维度。
2因子分析,大致有个设想,初步构思,先是探索,验证,样本不一样,好的测验要做几次。
首先检查共同度,低于0.5或0.3的题目去除,与其他项目之间的共同成分。
认知能力有两种,斯皮尔曼理论。
G因素和S因素,好的0.5以上。
碎石图拐点
因素负荷,各因子负荷分数,能区分、旋转后也不能把负荷集中,去掉。
如两个因子上都是0.4,结构不明确,某一题目属于谁不确定。
题目多时做验证性因素分析
A、首先做单维检验,一个维度属于一个ξ,如12道题,
B、4个一加,4个一加,原始分相加,变成三个指标,指标太少,验证性因素分析做不出来。
项目超过100个,旋转不出来,探索性因素分析旋转不出来。
③分配权重:
30分常识
60分词汇满分相差很大,通过转换成量表分,变成Z分,转换成量表10分制。
麦卡锡幼儿量表分多的1/2
少的1.5每个维度转换成30分左右。
有的分测验重要的,权重较大。
3、记分方法
4、常模:
用到什么地方,抽样如何抽
A、一种看成是正态分布,知道S和
就可以。
转化为Z分。
B、非正态数据,根据常模样本频数分布确定,累积百分数,你的分数一边是分数,以下是百分之多少。
累积百分比算出来了,某一分数对应P,累积百分率多少。
根据常模样本确定每一点的累积百分数。
常模样本分数分布,例如:
艾森克
一般T20~80分
最多90分,一般做到80分
艾森克远远超出80分,偏态。
5、设计项目:
数据与资料,与测验相关理论、相关测验。
A、很多测验相互参考,很多人格测验用MMPI题目,有些是参考,有些是搬过来,16PF没有效度量表,187道题,有些被试在人才招聘时都选好的答案,用其它测验效度量表加进去,MMPI或艾森克测谎量表,20个题目,分散开,统计时是单独一个量表。
题目量要大,准备用50道,编100道,最好多一倍,有的是1:
1.5,至少要多1/2的题目,便于淘汰。
B、试测:
试测样本一般100~200个大样本就行。
目的:
*题目表述学生有无问题,语言方面,可以访谈一下,理解有无困难,定性的,有些项目是否意义有不同理解删掉
*定量分析,难度,每个选项选的频率,5个选项,1或2个选项几乎是零,项目不合格,不低于5%,最理想的选项分布是正态的,能力测验,正确答案多、其他错的少一些,但有一选项无人选,删掉。
*难度:
0.5的高些,两边少些,都有,总体难度平均0.5左右,有适当难度,0.05~0.95都可以,如果是能力测验,
鉴别能力高的被试容易、鉴别能力低的被试
能力测验题目难度的分布范围可以两个极端都有;
但是人格测验题目难度不能大于0.95,不能太低、太高。
有的淘汰项目只用项目分析。
共同度<0.5
如果样本大,可以用因素分析淘汰二个因子共同度相差不多
不集中在某个因子上的题目
但小样本与大样本因素分析不同。
MMPI500多道题目精神病人分几天做
有些题目删掉,有些修改。
试测要有100~200人,统计分析有意义。
C、合成题目:
通过淘汰题目后,换一个样本再检验一下。
6、标准化:
指导语,如:
能力测量,时间、手势、评分详细规定。
7、收集信、效度资料:
事先做了因素分析,本身为信、效度准备。
能力测验信度要求高,0.9或0.8以上,重测信度。
人格测验信度要求低,0.6或0.7以上。
复本信度要在0.8~0.9以上,说明等值性好。
同质性信度0.6以上可以,
重测相差两个星期,试卷有名字或编号、学号等,复本信度也一样。
8、常模样本:
对总体有代表性,能力测验包括各种人群,尤其两端,天花板尽量高,地板尽量深。
A、发展常模:
*智力年,某一年智力平均数做为智力指标、绝对指标,与常模对照,与哪一年相符确定智龄。
*某一年级,年级当量,成绩、标准化考试,考的是学科知识。
B、组内常模:
心理测验、智商、T分数都是组内常模,跟样本同样年龄人比,在人群中的位置,智商100,在50%位置;110在80%位置;有点象常模参照,目标参照,有点类似,但不一样。
组内常模,水涨船高,总体样本水平高,标准高。
有的维度8道题、7个维度,网络成瘾
8岁和10岁同样智商100,实际水平不同,常模参照。
发展量表分数一样,水平大致相等,智龄9岁相等。
组内只能在组内比较。
9、编手册
目的、功用、依据,材料来源、题目
施行方法、记分、注意事项、标准答案、评分方法、难度、区分度、效度、信度、
常模表、如何解释、如何运用测验结果的解释。
实际:
学习能力、归因、……..几个维度,先给好的。
测评公司、编一个学习能力问卷,5个维度。
先前按1:
1.5以上
试测,141个样本,每道题通俗度、区分度分析,去除区分度低的。
正题、反题,反题按照6-反题原始得分,在compute中做,转换数据是转换的,再分析难度、区分度、
实际维度自己编
a是学习能力、b是团队合作
删除题目后再找样本做,求信、效度数据
原来150~~~~~~~116题,去掉题目,按区分度、难度、题目也看一下、
难度看每个维度难度、平均通俗度编制时在0.4~0.6,在0.5左右,调整题目,增减不同难度题目,看单个维度、去掉较少、区分度低于0.3删掉,但考虑题目数量,个别考虑平衡,个别保留区分度0.28的题目,主要根据区分度删除题目,
区分度每个维度,每个题目得分与维度总分求相关。
第九章心理测验的编制
心理测验的标准化水平与测验编制的程序和方法有密切关系。
为提高心理测验的质量,必须规范心理测验编制的程序。
本章将介绍心理测验编制的一般程序,举例说明人格测验、智力测验和学绩测验编制的方法,供测验编制者参考。
第一节心理测验编制的一般程序
不同性质的心理测验,其编制方法有所不同。
学绩测验的编制与能力测验的编制应有所不同,能力测验的编制与人格测验的编制也会有所差异。
但不管编制测验的具体技术和方法有多大差异,其基本程序一致,这正如工厂里生产某种技术产品,通常会按照既定的工艺流程来进行。
总的来说,编制一个可供使用的标准化的心理测验,一般要经过以下几个步骤:
确定测验目的
制定编题计划
编辑测验项目
预测与分析
合成测验
测验标准化
鉴定测验
编写测验说明书
一、确定测验目的
测验目的是编制测验的依据和出发点。
这一步主要解决三个问题,“为什么测”、“测谁”、“测什么”,即明确测验的用途、测量对象和测量目标。
(一)明确测量用途
明确测量用途,也就是明确编制的测验干什么用。
这一步骤包含两方面的涵义,一方面,是明确测验有什么心理功能,要确定测验是用于测量哪种心理特征。
是测智力还是人格?
是测注意力还是创造力?
是测职业兴趣还是测学业成绩?
如果是测量能力,具体又是测哪方面的能力?
只有先确定了目标,并把目标具体化,才能进一步确定测验的结构和内容。
另一方面,要明确测验将应用在哪一领域,是用于描述被试的心理特质?
还是用于诊断心理是否异常?
是用于选拔人员?
还是用于验证某个理论假设?
用途不同,编制测验时的具体要求、取材范围以及测题的难度也不尽相同。
(二)明确测量对象
明确测量对象,也就是明确量表将应用于哪些个人或团体。
通常以年龄、性别、职业、受教育程度、民族、文化背景等指标来区分测量对象。
应用于不同年龄阶段和不同教育水平被试的测验,在材料的选择和项目的内容上也不一样。
如,编制一份用于测试儿童智力的量表,需要选用他们能理解的材料,项目也应设置为他们可以回答的方式。
施用于不同对象的测验应该有其不同的特征,而不应千篇一律。
文化背景的差异往往会导致心理结构的取向有所不同。
Rogoff&Morelli于1989年做过这样一个实验:
他们要求来自非洲土著部族的被试将二十种物品按照他们认为最聪明的方式进行分类,结果被试将桔子和小刀分为一类、把土豆和锄头归为一组等等。
实验完毕,主试又问:
“愚笨的人会怎样分类?
”被试便迅速地将物品分为两类:
食物和工具。
而后一种分法却是实验者认为理所当然的。
所以,编制心理测验时,必须重视测验实施对象的文化立场和背景。
(三)明确测量目标
明确测量目标,也就是明确测验是用于测量哪种心理特质,并对该心理特质的定义和结构进行分析,据此编制相应的量表。
心理特质结构的确定一般依据一定的理论,或根据因素分析的结果,或根据实践经验。
以编制智力量表为例,不同的心理学家对智力有不同的看法,他们根据自己对智力的理解来编制智力测验量表,如韦克斯勒就是按照他自己的整体智力理论把智力分成语言和操作两方面,所以他的智力量表就是由言语测验和操作测验组成。
而塞斯顿认为人的全部智力可以分为七种基本能力:
空间知觉能力、计数能力、言语理解能力、词汇流畅性、记忆能力、推理与归纳能力、知觉速度,于是,他以这种智力的群因素理论为依据,编制了《基本心理能力测验》。
又如人格测验中,爱德华个人偏好测验就是依据哈佛大学莫瑞教授的人类十五种基本需求理论编制而成;而卡特尔十六种人格因素测验则是依据因素分析的结果确定其结构的;明尼苏达多相人格测验则是编制者根据长期的临床经验来确定其结构的。
二、制定编题计划
编制心理测验犹如建筑房屋,需要事先设计周详的蓝图,以作为命题的依据。
编题计划就是这一蓝图,是编制测验的总体构思。
这样,测题的内容才具有适当的代表性,从而发挥测量的功能,实现测量的目标。
在制定编题计划过程中,一方面,要根据已经确定的测量目标结构,把内容分解为具体的指标,便于操作,使测验内容全面而具有代表性,不致使测题偏离了应测的范围;另一方面,也要明确各个测验指标在整个测验中所占的比重,即确定对各个内容点的相对重视程度,这一比重通常用百分比来标明。
编题计划主要有两个用途:
其一,编题计划确定了指标体系,指明了应该编哪些方面的测验项目以及编多少项目,因此,测题编制结束后,可比照计划核对测验项目是否反映了所要测量的内容。
其二,在记分时可按计划中百分比确定每类测验项目的分数。
三、编辑测验项目
测验的计划拟定之后,就要开始编辑测验项目了,这是编制测验量表过程中较为核心的一个步骤。
在编制测验项目这一步中需要解决下面的三个问题:
(一)收集测验材料
一个测验是否有效,取决于该测验是否能够测得研究者所要测到的东西,而一个测验是否能测到目标特质与测验材料的选择是否适当有着密切的关系。
为此,编制项目之初要做的就是收集适当的测验材料。
尽管不同性质的测验所依据的材料内容各异,但都必须遵循下面几个共同的原则:
1.材料要丰富
无论是能力特征还是人格特征,均是十分复杂的复合性心理结构,不能仅凭一两种简单的材料或少量几个项目去推断一个人的智力或人格特征。
因此,一个心理测验必须包含多种不同类型的材料,材料收集得越齐全,编题工作就会越顺利。
2.材料要有普遍性
测验所使用的材料,应该是大多数被试都能理解的。
编制智力类测验时,所收集的材料对于不同文化背景、不同经济地位、不同地区的个人或团体应当是公平的,应尽可能避免特殊知识经验对测验结果的影响。
如“青稞”这一粮食作物,高原地区的人可能会认识,但大部分居住在平原地带的人都不熟悉,这样的材料就不具备普遍性,不宜纳入测验之中。
编制人格测验时,所收集的材料也应当能够全面反映某一文化背景中的团体的基本人格特征。
3.材料要有趣味性
测验的材料如果具有趣味性,能够引起被试的兴趣,就可以减少被试由于缺乏足够的动机或注意力分散而导致的测量误差。
4.材料要有鉴别力
心理测验的使用总是具有一定目的的,通常是为了鉴别被试在某一特质上的差异,围绕这一根本目的,测验的材料也应该具备鉴别力。
智力测验的材料要能区分高智商者与低智商者;人格测验的材料要能分别特质倾向不同的被试;学绩测验的材料要能区别优等生与成绩差的学生。
(二)选择项目形式
在心理测量中,必须将测验项目以某种形式呈现给被试,而测验项目呈现的形式又取决于被试的年龄、人数的多少、测量的目的、测验项目的性质等因素。
因此,在选择测验项目形式时,应当注意将这些因素考虑进去。
例如,在学绩测验中,如果要考察对概念和原理的记忆,宜用简答题;要考察综合运用知识的能力则宜用论文题。
对于测验项目的确定,我国心理学家廖世承、陈鹤琴早在几十年前曾提出过几条原则,现在仍可供参考:
使被试容易明了测验方法;使被试在完成测验时不会因测验项目的形式不当而作错;测验过程省时;计分省时省力、经济。
根据内容选题,如哪些问题可以反映记忆能力,哪些问题可以反映一个人的个性的内外向特征等。
选题还要注意题目的普遍性和代表性,注意题目的难易程度。
测验中题目形式多种多样,大致有以下几种:
1.是非题
是非题又称正误题,通常是提供许多陈述句或疑问句,要求被试在“对”、“错”或“是”、“否”两种选项中选择一种答案,以判断命题是否正确。
如:
珠穆朗玛峰是世界最高的山峰对错
北京是我国的首都吗?
是否
2.选择题
选择题在结构上包含两个部分:
一是题干,由不完全的陈述句组成,提供一个问题的情境或刺激源;二是选项,包含一个正确答案和若干错误答案(即迷惑选项)。
如:
历史上“郑和下西洋”中的“西洋”是指:
A、大西洋B、太平洋C、印度洋D、北冰洋
选择题的优点在于适应范围广,能运用于各种不同性质的材料,而且评分客观省力,因此在标准化测验中运用较多。
3.匹配题
匹配题是由选择题变化而来的一种题目形式,适用于测量概念与事实之间的关系。
这类题在结构上包括两个部分,一是一组问句项目,另一组为反应项目。
要求在问句项目与适当的反应项目之间用线相连。
如:
问句项目反应项目
国家首都
美国莫斯科
中国华盛顿
日本北京
俄罗斯东京
4.填空题
填空题就是在一个句子里面缺少几个关键词或字,让被试填写。
如:
世界上最长的河流是________。
发明电话的人是________。
世界上最大的洲是________。
5.简答题
简答题的形式是提出一个问题,要求被试用简短的文字来完成测题。
如:
地球自转向着什么方向?
6.操作题
这类题目通常是让被试按照一定的要求完成某些操作任务。
如:
韦氏儿童智力量表中的积木图案,要求被试用积木拼成一定的图案。
(三)编写测验项目
编写测验项目是一个反复的过程。
在这个过程中,测验项目编制者需要对测验项目进行反复修改,其中包括订正意思不明确的词语,删改一些重复和不适当的项目,增加有用的题目等等。
在编写测验项目时要注意:
(1)测验项目的取样应当具有代表性。
只有测验项目真实反映测量对象的特征时,才能保证测验结果的有效性。
(2)测验项目的取材范围要同编制计划所列项目范围相一致,且要根据被试的情况而定。
(3)测验项目的难度应有一定的分布范围。
如果是能力测验或学业成就测验,就应当包括各种不同难度的测验项目,以鉴别各种不同能力或不同知识水平的被试;如果是人格测验,就应当选编那些在不同方向的备选答案上都有一定人数分布的项目,以鉴别具有不同人格特征的被试。
(4)编写测验项目的用语要力求精炼简短,浅显明了,但不能遗漏必要的条件。
(5)初编题目的数量要多于最终所需要的项目数量,以便筛选。
如果题目较多,还可以编制复本。
(6)测验项目的说明必须简洁明了。
四、预测与项目分析
初编的测验项目是否具有较好的性能,必须通过预测收集数据,进行测验项目分析,以便进一步修改。
(一)预测
测题初步确定后,需要在小样本被试内进行一下试测。
这一试测起两个方面的作用:
一方面,可以获得测题性能优劣的客观性资料;另一方面,为进一步筛选项目提供客观依据。
预测的目的在于获得被试对测验项目做何种反应的资料。
它既能提供那些题目意义不清、容易引起误解等质的信息,又能提供测验项目优劣的量的指标。
预测应注意下面一些问题:
(1)预测对象应取自将来正式测验时准备施用的群体,虽然人数不必太多,但要具有代表性。
例如,如果编制一份儿童智力量表,适用对象是7—16岁的儿童,那么试测的对象也必须从7—16岁的儿童中抽取,且要求按年龄分层抽样。
(2)预测的时限可以适当延长,以便每一被试都能将题目做完。
这样做的目的是为了收集到充分的反应资料,使分析结果更加可靠。
(3)预测的情境应力求同正式测验的情境一致。
(4)施测者应对被试的反应加以记录。
如,在同一时限内被试所完成的题数、被试对哪些项目产生误解、长时间的停顿、被试反映的题意不清之处等,以便修改项目时参考。
(二)项目分析
测验项目分析就是对预测结果进行统计分析。
项目分析主要涉及到项目的难度和区分度两项指标。
由于预测的被试样本小可能会存在取样误差,由此获得的项目分析结果未必完全可靠。
所以,需要对来自同一总体的两个样本施测,然后分别进行测验项目分析,看对两个样本的分析结果是否一致。
有关项目难度与区分度的问题,本书有专门的章节进行阐述,这里只做简要介绍。
1.项目难度
项目难度是指题目的难易程度,它是衡量测验题目质量的一个重要指标,它和区分度共同影响心理测验的质量。
当题目0,1评分时,项目难度的计算公式为:
P=R/N
P代表题目的难度系数,R代表题目的答对人数,N代表被试人数。
当题目多级评分时,项目难度的计算公式为:
9-1
为第i个被试的得分,F为题目的满分。
N为做该题的被试人数,
为该题的平均得分。
当题目设定的最低分不是0时,项目难度的计算公式改为:
9-2
其中L为该题目设定的最低分,其它符号与前面相同。
项目难度系数越高,表示题目越容易;项目难度系数越低,则表示题目越难。
一般认为,题目的难度系数在0.3-0.7之间比较合适,整个量表的平均难度系数最好掌握在0.5左右,高于0.7和低于0.3的题目不能太多。
2.项目区分度
项目区分度是反映测验项目区分被试不同特质水平的功能高低的指标。
题目区分度高,说明题目可以有效区分不同水平被试,使高水平者得高分,低水平者得低分;而区分度低则题目不能区分不同水平的被试。
题目的区分度与题目的难度直接相关,通常来说,中等难度的题目区分度较大。
另外,题目的区分度也与被试的水平密切相关,题目难度只有等于或略低于被试的实际能力,其区分性能才能充分显现出来。
项目区分度最简单的计算公式如下:
D=PH-PL
D代表区分度指数,PH代表高分组答对题的人数比例,PL代表低分组答对题的人数比例。
项目区分度比较精确的计算公式常用点二列相关或二列相关等方法。
点二列相关适用一个变量为二分变量,另一个变量为连续变量的数据。
其计算公式为:
9-3
其中,
为点二列相关系数,
为答对该题的被试测验总分的平均分,
为答错该题的被试测验总分的平均分。
St为测验总分的标准差,p为得对该题的人数比例,q为答错该题的人数比例。
当两个变量都是连续变量,但其中一个变量因为某种原因被人为地分为两类,这种数据适用二列相关。
二列相关公式为:
9-4
其中,rb为二列相关系数,Y为正态分布下p与q分割点正态曲线高度。
衡量区分度高低没有统一标准,但一般认为,区分度高于0.3,题目便可以被接受。
五、合成测验
合成测验是把经过预测以后证明有价值的项目排成有组织的测验。
它需要解决的问题是两个:
一是测验项目的选择;二是测验项目的编排。
如要编制复本,还须懂得怎样编制复本。
(一)测验项目的选择
选择测验项目的标准有三:
一是测验的性质,即要选择那些能够测量所要目标特质的项目。
假若要测量的是语言推理能力,就不能选择测量阅读能力或运算能力的项目。
二是项目的难度。
选择多大难度的项目并无固定的标准,选拔性测验要求难度大些,考察性测验要求难度不可太高,人格测验则不要求难度。
三是项目的区分度。
一般来说,项目的区分度越高越好,对于选拔性测验尤为如此,但有时也可以保留若干区分度不高的项目,这要视项目的重要性而定。
(二)测验项目的编排
测验项目选出之后,需要加以合理安排。
在测验开头应该有一、两个较容易的项目,以使被试熟悉作答程序,解除紧张情绪,建立信心,较快进入测量情境。
对测验项目的总的编排原则是要由易到难,这样可以避免被试在难题上耽搁时间过多,而影响对后面问题的解答。
在测验最后可有少数难度较大的题目,以测出被试的最高水平。
下面是几种常见的测验项目的排列方式:
(1)并列直进式:
此种方式是将整个测验按测验项目材料的性质归为若干分测验,对于同一分测验的测验项目,则依其难度由易到难排列。
如韦克斯勒智力测验就是这样编排的。
(2)螺旋式:
此种方式是先将各类测验项目依难度分成若干不同的层次,再将不同性质的测验项目予以组合,作交叉的排列,其难度则逐步提高。
此种排列的优点是被试对各类测验项目循序作答,从而维持做答的兴趣。
如比奈—西蒙智力量表就是这样排列的。
(3)混合式:
这种方式是将所有的测题根据难度排列,不管测题的性质。
一般会避免同一性质的项目编排在一起。
人格、态度、心理健康等量表多采用此法编排。
(三)编制复本
为增加实际的效用,一种测验至少要有等值的两份,份数越多,使用起来越便利。
所谓等值需要符合下列条件:
其一,各份测验测量的是同一种心理特质;其二,各份测验具有相同的内容和形式;其三,各份测验不应有重复的项目;其四,各份测验项目数量相等,并且有大体相同的难度和区分度。
一般来说,只要有足够数量的测验项目,编制复本的手续是很简单的,先将所有可用的项目按难度排列,其次序为1、2、3、4、5、6……
如果要分成两个等值的测验题本,可采用下面的分法:
甲本:
1、4、5、8、9、12、13、16、17、20……
乙本:
2、3、6、7、10、11、14、15、18、19……
如果要分成3个等值的测验题本,可采用下面的分法:
甲本:
1、6、7、12、13、18、19、24……
乙本:
2、5、8、11、14、17、20、23……
丙本:
3、4、9、10、15、16、21、22……
采用上面的分法可使各复本之间在难度上基本相等,从而获得大体相同的分数分布。
复本编好后,应该再测验一次,以确定各份测验究竟是否等值。
六、测验标准化
测验项目经过预测、分析、选择、修订、编排后集合成一个测验,至此,根据测验的定义,我们只能说有了一组好的测题,还不能说有了一个好的测验。
一个测验的好坏,还取决于对该测验的标准化水平。
所谓标准化是指测验的编制、施测、评分以及解释测验分数的程度具有一致性。
具体地说,测验标准化包括下列内容:
(一)测验内容
标准化的首要前提,是对所有被试施测相同的或等值的题目,这样才能对被试的行为和反应进行比较,测验内容如果不同,所测得的结果则无法比较。
另外,测验题目要对测验内容域有较好的代表性。
(二)施测过程
标准化的第二个条件是所有被试必须在相同的条件下施测。
其中包括:
(1)相同的测验情境:
如采光条件、场所布置、设备材料等要尽量统一,尽量接近标准化的情境要求。
(2)相同的指导语:
指导语一般包括两部分,一是向被试说明测验的目的,以便解除被试的顾虑;二是向被试说明如何对测验项目反应。
指导语必须事先拟好,印在测验项目的前面,并且力求清晰、简单、明了,不致引起误解。
对被试不熟悉的测题类型,应当有一至二个例题。
(3)相同的测验时限:
测验的时间限制
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 测验 编制 步骤