教育测量与评价考试重点版.docx
- 文档编号:3993512
- 上传时间:2022-11-27
- 格式:DOCX
- 页数:16
- 大小:27.57KB
教育测量与评价考试重点版.docx
《教育测量与评价考试重点版.docx》由会员分享,可在线阅读,更多相关《教育测量与评价考试重点版.docx(16页珍藏版)》请在冰豆网上搜索。
教育测量与评价考试重点版
课程性质和教学要求
课程的性质:
《教育测量与评价》是教育测量学与教育评价学内容的整合并侧重于教育测量的一门综合性教育课程,它着力探讨对教育教学效果进行测量、评价的原理和方法,是一门带有综合性、技术性、实践性、应用性等特征的应用性学科,是实现教育科学研究与教育管理科学化所必须借助的一门科学,也是教育学专业和小学教育专业所开设的一门必修专业基础课程。
教学目标和要求:
理解《教育测量与评价》的基本概念、原理和方法,能正确使用各类标准化的教育测验、会作测验质量分析、能正确解释分数的含义,并学会运用这些知识,对学校教育、教学和研究实践中的实际问题,做出比较正确与合理的判断和评价,以促进教育管理现代化、教育研究科学化。
第一章 教育测量与评价的学科发展
教育测量与评价的基本问题
教育测量与评价的发展历史
教育测量与评价的学科地位和作用
1.测量的定义
史蒂文斯曾对测量作出以下定义:
“就其广义来说,测量是按照法则给事物指派数字。
”
我国有些学者认为:
“测量是对客观事物进行某种数量化的测定”,“测量是按照一定的法则,用数字方式对事物的属性进行描述的过程”。
本书的观点:
从广义上讲,测量就是根据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程。
从以上对测量所下的各种定义可以看出,这种对事物进行区分的过程,必须是按照一定法则的,区分的结果必须能够用数字的方式进行描述的。
2.测量的要素
(1)测量的量具
测量的量具是指依据某些科学原理和法则,发展出合适的量具或制定出科学的测量方案。
(2)测量的单位
不同的测量所采用的单位是不同的。
理想的测量单位必须符合两个条件:
①要有确定的意义;②要有相等的价值。
教育测量的单位不够完善,既无统一的单位,也不符合等距的要求。
(3)测量的参照点
量的参照点系测量的起点。
要确定事物的量,必须有一个测量的起点,这个起点就叫做测量的参照点。
参照点有两种类型:
①绝对参照点(绝对零点);②相对参照点(相对零点)。
理想的参照点是绝对参照点,但教育测量中很难找到绝对零点,多采用人为指定的相对零点。
3.教育测量的定义与特点
教育测量的定义
教育测量,就是针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以确定和描述的过程。
教育测量的特点
(1)本书的观点:
①间接性和推断性;
②测量对象的模糊性和测量误差的不可避免性;
③量表具有多样性,结果具有相对抽象性。
(2)其他的观点:
有人概括为:
①间接性;②相对性。
(金瑜)
有人概括为:
①间接性;②相对性;③客观性。
(郑日昌)
有人概括为:
①间接性;②不确定性;③明确的目的性。
(朱德全、宋乃庆)
4.量表及其种类
量表的概念
量表(量尺)是指确定了测量单位和参照点并具有取值系统的测量工具。
量表的类型
由于事物的属性(特征)不同,以及所制定的规则不同,致使用数的属性来描述事物属性(特征)所达到的程度不同,这就产生了不同测量水平的问题。
史蒂文斯根据对测量结果数量化描述的不同水平,将测量分成四种不同水平:
称名测量、顺序测量、等距测量、比率测量。
这四种不同水平的测量产生了相应的四种类型的量表。
5.称名量表和顺序量表
称名量表(命名量表或名称量表或类别量表)
称名量表是最低水平的测量量表,它只是用数字代表事物或用数字对事物进行分类。
在这种情况下,数字只是事物的符号,而没有任何数量的意义。
适合于对称名量表进行统计分析的统计方法有百分比、次数、众数和χ2检验。
顺序量表(等级量表)
顺序量表是次低水平的测量量表,它不仅能够指代事物类别,而且能够表明不同类别的大小、等级或事物具有某种特征的程度。
在顺序量表中,数字只表示等级、大小和程度的顺序,它既没有相等的单位,也没有绝对的零点。
适合于对顺序量表进行统计分析的方法有中数、百分位数、等级相关系数和肯德尔和谐系数等。
6.等距量表和比率量表
等距量表
等距量表是较高水平的测量量表,它不仅能够指代事物的类别、等级,而且具有相等的单位。
适合于对等距量表进行统计分析的方法有平均数、标准差、积差相关系数以及t检验和F检验。
比率量表(等比量表)
比率量表是最高水平的测量量表,它除了具有类别、等级、等距的特征外,还具有绝对零点。
适合于对比率量表进行统计分析的方法除了与等距量表相同外,还有几何平均数、变异系数。
7.教育测量属于哪一种水平的测量,为什么?
答:
(1)教育测量属于顺序测量的水平。
(2)①从所使用的参照点来说,教育测量领域的参照点均为相对参照点;
②从所使用的单位来说,教育测量的单位远没有其他测量的单位成熟和完善,
既无统一的单位,也不符合等距的要求。
8.教育评价的概念(如何理解“教育评价”的含义?
)
评价的含义
广义的讲,评价泛指衡量、判断人物或事物的价值。
教育评价的定义
对于什么是教育评价,专家、学者至今没有一个统一的认识。
但具有代表性的观点有以下几种:
格兰朗德:
评价是为了确定学生达到教学目标的程度,收集、分析和解释信息的系统过程;评价包括对学生的定量描述和定性描述两方面。
斯塔费尔比姆:
评价是一种规定、获取和提供叙述性和判断性的过程。
这些信息涉及研究对象的目标、设计、实施和影响的价值及优缺点,以便指导如何决策、满足教学效能核定的需要,并增加对研究对象的了解。
美国教育评价标准委员会:
评价是某些现象的价值如优缺点的系统调查,为教育决策提供依据的过程。
泰勒:
评价评价的过程在本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程。
德雷斯:
所谓评价,就是决定某种活动、目的及程序的价值的过程。
桥本重治:
评价是与教育的目标和价值有明确关系的概念,是按照教育目标和价值观对学生的学习成果及教育计划的效果等进行测量的过程。
布鲁姆:
评价乃是系统地收集证据用以确定学习者实际上是否发生某些变化,确定学生个体变化的数量或程度。
我国学者黄光扬:
教育评价是指按照一定的价值标准和教育目标,利用测量和非测量的种种方法系统地收集资料信息对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。
从上述对“评价”概念在教育教学活动情境下的各种描述中不难发现,教育评价包含以下几个共同的要点:
①强调以教育目标为标准的价值判断过程;
②强调运用多种方法系统收集资料和信息;
③教育评价的内容既要以是教育计划、也要以是学生的学习结果,也要以是某种教育现象、教学活动、教育目的或教育程序;
④强调为学生发展和教育决策服务。
9.教育测量与教育评价的关系
测量与评价既有联系又有区别。
教育评价最根本的特征是做出价值判断。
而教育测量过程的完结,在给出数量事实的描述与判断之后,不一定都要做出价值判断。
从这个意义上说,教育测量可以为教育评价提供价值判断的基本数量事实,教育测量是教育评价的基础;而教育评价往往是教育测量过程的继续,是对测量结果的解释与应用,并朝着价值判断与释放教育功能的方向拓展。
10.思考题:
教育测量与教育评价有何区别?
答:
(1)教育评价最根本的特征是做出价值判断。
而教育测量在给出数量事实的描述与判断之后,不一定都要做出价值判断。
(2)教育测量可以为教育评价提供价值判断的基本数量事实,教育测量是教育评价的基础;而教育评价往往是教育测量过程的待续,是对测量结果的解释与应用,并朝着价值判断与释放教育功能的方向拓展。
11.教育评价与教育评估的关系
教育评价与教育评估这两个概念既有联系又有区别。
第一,英语词源不同(教育评价通常用“educationevaluation”表示,教育评估通常用“educationalassessment”表示),其意义则多少有所差别;第二,源出相同(教育测量运动、美国着名的“八年研究”),它们肯定有想通与交叉之处;第三,汉语词义相近(“评估”一词,含有“评判”、“评量”、“估测”、“估算”等意思;教育评估可能有价值判断,也可能没有价值判断),它们在内容上有交叉,也有区别;
22.教育测量与评价的发展历史
(1)中国是考试制度的发源地
(2)中国科举制度的世界地位
(3)教育测量学科的诞生
(4)教育测量运动的蓬勃开展
(5)美国的“八年研究”是教育评价的催生剂
(6)教育测量与评价理论的发展
13.教育测量与评价的学科地位和作用
(1)教育测量与评价是现代教育科学研究的三大领域之一;
(2)教育测量与评价在教育改革中具有重要的作用;
(3)教育改革呼唤教育测量与评价更加科学化;
(4)教育测量与评价是教师的专业素养和能力。
第二章 教育测量与评价的类型和功能
教育测量与评价的主要类型
教育测量与评价的主要功能
1.教育测量与评价的类型
1.按测量与评价在教学中运用的时机分类,教育测量与评价可分为:
(1)形成性测量与评价:
形成性测量与评价是在教学活动过程中经常实施的,其目的:
其一,教师藉此获得教学过程中连续性的反馈,了解学生的学习效果、学习历程、学习特点、学习困难等信息,作为随时修正自己教学的参考;其二,学生根据反馈的结果获知自己学习后的表现情况,从而肯定或修正自己以后的学习方式。
(2)诊断性测量与评价:
诊断性测量与评价是对经常表现出学习困难的学生所作的测量与评价,它的目的是对个人的问题行为及其原因进行诊断。
诊断性测量与评价多半是在形成性测量与评价之后实施。
(3)终结性测量与评价:
终结性测量与评价是用于教学结束后,其目的:
其一,在教学目标之下,检查学生一学期的学业达到了什么样程度,从而判断教学效果的得失;其二,根据终结性测量与评价的结果,评定学生的学业成绩,并将评定结果通知学生家长或记入档案。
2.按解释测量结果或评价结果时的参照点分类,教育测量与评价可分为:
(1)常模参照测量与评价:
常模参照测量与评价是将被试水平与测验常模相比较,以评价被试在团体中的相对地位的一种测量与评价类型。
(2)标准参照测量与评价(目标参照测量与评价):
标准参照测量与评价是将被试的表现与既定的教育目标或行为标准相比较,以评价被试在多大程度上达到该标准。
(3)潜力参照测量与评价:
潜力参照测量与评价是将被试实际水平与其自身潜在水平(潜力)相比较,以评价被试有无充分发挥自身潜力为目的。
在强调人性化、动态化和个别化的现代教育测评潮流下,潜力参照测量与评价理应发挥更大的作用
3.按测量与评价被试行为表现的性质分类,教育测量与评价可分为:
(1)最佳行为测量与评价:
最佳行为测量与评价是以测量最佳行为表现为目的。
凡是以成就或能力的高低为评价基础的,都属于最佳行为测量与评价。
(2)典型行为测量与评价:
典型行为测量与评价的目的不在测量与评价被试能力的高低,而是测量与评价其是否具备某种(或某些)典型行为。
在这些测量过程,希望被试以其平常的典型状况来回答,无所谓正确与错误之分。
在重视学生个性发展和全人教育的现代教育理念下,典型测量与评价的方法具有特殊的意义。
4.按测量与评价的内容分类,教育测量与评价可分为:
(1)智力测量与评价:
智力测量与评价的目的在于测量被试的智力并对被试的智力发展水平和特点做出评价。
(2)能力倾向测量与评价:
能力倾向测量与评价的目的在于测量与评价个人的潜在才能,预测个人的能力发展倾向。
能力倾向测量与评价一般可分为两种:
一种是关于一般能力倾向的测量与评价,旨在探测个人多方面的潜能;另一种是特殊能力倾向测量与评价,旨在探测个人某方面的特殊潜在能力。
(3)成就测量与评价:
成就测量与评价的目的在于测量并评价个人在接受教育或训练后的成就。
成就测量与评价有两种类型:
一是学科成就测验,旨在测量与评价被试在某一科目上的学习成就;二是综合成就测验,旨在测量与评价被试在多个学科或综合学科上学习成就。
(4)人格测量与评价(个性测量与评价):
人格测量与评价的目的在于测量与评价被试的人格心理特征,诸如气质、性格、兴趣、态度、动机、适应性等方面的心理特征。
用于人格测量与评价的量具主要分为两类:
一类是自陈人格问卷;另一类是投射测验。
5.按测量与评价的对象分类,教育测量与评价可分为:
(1)个别测量与评价:
个别测量与评价是指同一主试在同一时间内只能测量一个被试。
这种形式的测量与评价,主试对被试行为反应有较多的观察和控制机会,主试与被试有更多的交流,这可让主试获得更多的信息,也可以建立较融洽的主被试合作关系,有利于测量与评价的进行。
但是个别测量与评价费时、费力,特别是主试必须经过严格的训练才能胜任。
(2)团体测量与评价:
团体测量与评价是指在同一时间内由一位主试测量许多位被试。
这种形式的测量与评价突出的优点是节省时间,可以在短时期内收集到大量的测量数据。
但由于同一时间内接受测量的被试多,不易有效地控制被试的行为,容易产生测量误差,从而影响测量的信度和效度。
6.按测量与评价的材料(测验材料)分类,教育测量与评价可分为:
(1)文字测量与评价(文字测验、纸笔测验):
文字测量与评价的测验内容是以文字的形式表现的,被试也用文字作答的一种测量与评价的方式。
对于不同教育背景的被试,这种测量与评价的有效性将受到一定程度的影响。
(2)非文字测量与评价(非文字测验、操作测验):
非文字测量与评价的测验内容是通过图形、仪器、工具、实物、模型等形式表现的,被试通过指认、手工操作向主试提供答案的一种测量与评价的方式。
这种形式的测量与评价不受或较少受文化背景的影响与限制。
7.按测量与评价量具有的标准化程度分类,教育测量与评价可分为:
(1)标准化测量与评价(标准化测验):
标准化测量与评价的测验是指由测量专家严格按照测验编制程序而精心编制的一种测验。
通常标准化测验都具有一定的编制程序,包括试题的抽样,难度、区分度指标分析,明确的施测指导语和施测程度,计分标准,解释分数的常模,以及信度、效度等指标资料。
(2)非标准化测量与评价:
非标准化测量与评价的测验编制相对自由,没有严格按照测验编制程序进行。
教师自编测验常由教师依照自己的教学需要和教学目标而自行编制的测验,是一种非标准化测验。
2.教育测量与评价的功能
(1)实现教育判断的功能
教育测量与评价的最基本、最原始、最现实、最普遍的功能,就是实现教育判断,具体来说就是实现测量评定、事实判断、价值判断、问题诊断和区分选拔等功能。
(2)改进教师教学的功能
通过教育测量与评价的结果,教师能够了解学生的起点行为,作为改进教学、补救教与学的依据,确保教学目标的达到,从而充分发挥其改进教师教学的功能。
(3)促进学生学习的功能
教育测量与评价具有激励学生的学习动机、帮助学生的记忆和促进迁移、促进学生自我评价等促进学生学习的功能。
(4)行使教育管理的功能
教育测量与评价具有控制、指挥、导向、计划、检查、考核、评估和监督等方面的作用,通过对教师、目标和过程等方面管理来行使其教育管理的功能。
第三章 教育测量与评价的质量特性
教育测量与评价的信度
教育测量与评价的效度
教育测量与评价中项目的难度
教育测量与评价中项目的区分度
1.信度的意义
信度是指测量结果的稳定性程度,记为rXX。
换一句话说,信度是指用同一测量工具反复测量同一种物质对象所得多次测量结果间的一致性程度。
测验信度是对测验工具及其操作的整体质量的一种量度,是测验性能的重要质量指标。
如果测验本身抗干扰能力强,测验实施过程各方面误差因素都控制得好,多次施测所得分数(测值)的一致性就高,那么测量信度高,人们在使用所得测值时就会感觉可靠。
2.信度的统计定义
定义1:
信度是一个被测团体真分数方差与观察分数方差之比。
即:
rXX=σ2T/σ2X
定义2:
信度是一个被试团体的真分数与观察分数的相关系数的平方。
即:
rXX=ρ2TX
定义3:
信度是一个被试团体在测验X(A卷)上的观察分数与在测验X的任意一个“平
行测验”X′(B卷)上观察分数的相关系数。
即:
rXX=ρXX′
3.重测信度(稳定性系数)
(1)重测信度是指用一个量表(测验或评价表)对同一组被施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。
(2)重测信度基本假设:
某测验所要测量的潜在特质,短期内不会随着时间推移而改变。
(3)重测信度适用于异质性测验(一个测验包括几个不同的部分,这几个部分分别测量几个不同的心理特质,它们之间可能并不存在相关或相关较低),也适用于速度测验和运动技能测验。
4.复本信度(等值性系数或等值稳定性系数)
(1)复本信度是指两个平行测验(在试题格式、题数、难度、指导语说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但试题又是不相同的测验)测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。
(2)实施复本测验的方式:
一是在同一个时间连续施测(此时所得的复本信度叫等值性系数),二是间隔一段时间后施测(此时所得复本信度叫等值稳定性系数)。
(3)使用复本信度首先要构造出两份或两份以上的真正的平行测验。
这是一个很难达到的条件。
另外,重测信度的一些不足,在复本信度中仍然存在,需要加以克服。
(4)复本信度不仅适用于难度测验,也是估计速度测验信度的好方法。
5.同质性信度的概念
(1)同质性信度(内部一致性信度)是指测验内部所有题目间的一致性程度。
这里题目间的一致性含有两层意思:
其一是指所有题目测的是同一种心理特质;其二是所有题目得分之间都具有较高的正相关。
(2)同质性信度的基本假设:
当一个测验具有较高的同特性信度时,说明测验主要测的是某一单个心理特质,由于众多的题目测试了同一心理特质,那么实测结果就是该特质水平的反映。
(3)同质性信度不适用于异质测验和速度测验。
6.同质性信度的估计方法
(1)分半信度
分半信度指是的将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。
分半信度的计算方法和等值复本信度的方法类似,只不过分半信度计算的是两个“半测验”上得分的相关系数,只是半个测验的信度,还必须用斯皮尔曼—布朗公式加以校正。
(2)库德-理查逊信度
该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析。
常用的库德-理查逊公式有:
(3)克龙巴赫系数
当测验题型较多,并非都是二分记分题时,估计测验信度可采用克龙巴赫系数。
其计算公式为:
(4)荷伊特信度
1941年荷伊特提出用方差分量比来估计测验内部一致性的方法,其估计值为:
7.评分者信度
评分者信度的含义
评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。
评分者信度的计算
(1)当评分者人数为两人时,评分者信度等于两个评分者给同一批被试的答卷所评分数的相关系数。
依据数据形式,可采用不同的相关系数计算方法。
(2)当评分者人数多于两人时,评分者信度可用肯德尔和谐系数进行估计。
8.标准参照测验的信度分析
(1)百分比一致性指标(PA)
百分比一致性指标是指同一测验或两平行测验先后两次施测,其对被试的分类结果一致的比例。
其计算公式为:
(2)K一致性系数
K一致性系数是指实际被评定为一致的百分比与在理论上被评定为一致的最大可能次数百分比的比率。
其计算公式:
(3)K2指数
标准参照测验关注决断的可靠性,而这种决断显然与被试团体的平均水平密切相关。
在考虑到这个因素的基础上,心理统计学家莱芬斯顿提出了K2指数作为考察标准参照测验信度的指标。
其计算公式为:
9.测量标准误
测量标准误的含义
测量标准误是指测验中所得测值偏离真分数的程度,记为SE。
测量标准误与测验信度的关系
测量标准误的意义
测量标准误是反映测量结果精确性和可靠性的又一指标,同时也是人们正确解释测验分数的科学依据。
10.效度的概念
效度的意义
效度是指一个测验或量表实际能测出其所要测量的特性的程度。
对这一概念,我们可以从以下几个方面来理解:
①效度始终是针对一定测量目的而言的;
②效度只有程度上的差异;
③效度是针对测量结果而言的;
④评价一个测量是否有效要多角度、多方面地收集证据。
效度的统计定义
效度可定义为目标真分数方差与观察分数方差之比:
rXY=σ2V/σ2X
效度与信度的关系
(1)信度高是效度高的必要而非充分条件
(2)效度系数不会大于信度系数的平方根
11.如何理解“效度”的意义?
效度是指一个测验或量表实际能测出其所要测量的特性的程度。
对这一概念,我们可以从以下几个方面来理解:
(1)效度始终是针对一定测量目的而言的;
(2)效度只有程度上的差异;
(3)效度是针对测量结果而言的;
(4)评价一个测量是否有效要多角度、多方面地收集证据。
12.内容效度
内容效度的含义及应用范围
内容效度是指测验题目样本对于应测内容与行为领域的代表性程度。
如果是教学情境下的成就测验,那么其内容效度就是看测验题目样本能体现教学目标与教材要求的程度。
内容效度主要适用于教育测量(尤其是学业成就测验)的情境中,也适合于某些用于选拔和分类的职业测验,但不适合某些心理测验(如智力测验、人格测验)。
内容效度的分析方法
①逻辑分析的方法
内容效度的逻辑分析法,即依靠有关专家对测验题目与应测内容范围的吻合程度作出判断。
②内容效度的量化分析方法
该方法要求专家在仔细审阅测验目标的基础上,独立地对测验的每个题目作出判断:
“该题目实际测到的内容与其欲测量的目标内容之间相关程度如何,并用四点量表(用完全无关、有点相关、相关较密切、完全相关来表示)来表示这种相关的程度大小”;当两位专家完成此项工作后,统计弱相关(完全无关、有点相关)、强相关(相关较密切、完全相关)的题目数,则此测验的内容效度系数为:
内容效度系数=D/(A+B+C+D)(D表示两位专家都判定为强相关的题目数)
13.结构效度
结构效度的含义
结构效度是指一个测验或量表实际测到所要测量的理论结构(结构是指心理学或社会学上的一种理论构想或特质)的程度。
结构效度的验证一般步骤
①提出有关理论结构的说明,并据此设计测量用的试题;
②提出可以验证该理论结构是存在的假设说明;
③采用各种方法收集实际的资料,以验证第二步提出的假设的正确性;
④收集其他类型的辅助证据,淘汰与理论结构相反的试题,或是修正理论,并重复第二和第三步,直到下述的假设得到验证,即测验的结构效度获得支持为止。
结构效度的验证方法
①测验内部寻找证据法
这种方法是通过研究测验内部结构来验证测验的结构效度。
它主要包括内容效度、作答过程分析、测验的同质性和因素分析等四个方面。
②测验之间寻找证据法
这一方法的特点是同时考察两个或多个测验间的相互关系,从而来验证测验的结构效度。
它包括相容效度、聚合效度、区分效度和“多种特质-多种方法矩阵法”等具体方法。
③考察测验的实证效度法
如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标,至少可以从效标的性质与种类来推论测量的结构效度。
主要方法有差异被试比较法和先后测试分析法。
14.试比较内容效度、结构效度、效标关联效度的异同?
相同点:
三者都是作为检验测验有效程度的指标,都可以作为评价一个测验优劣的标准。
不同点:
①考察的角度不同。
内容效度是指测验题目样本对于应测内容与行为领域的代表性程度。
结构效度是指一个测验或量表实际测到所要测量的理论结构(结构是指心理学或社会学上的一种理论
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教育 测量 评价 考试 重点