阅卷管理与监测系统.docx
- 文档编号:10351486
- 上传时间:2023-02-10
- 格式:DOCX
- 页数:11
- 大小:20.51KB
阅卷管理与监测系统.docx
《阅卷管理与监测系统.docx》由会员分享,可在线阅读,更多相关《阅卷管理与监测系统.docx(11页珍藏版)》请在冰豆网上搜索。
阅卷管理与监测系统
阅卷管理与监测系统
——大规模考试作文评分研究系列之六
上文说过,大规模考试中作文评分的误差||控制包括三个不可缺少的基本环节,这就是评分标准、评分方||法
和阅卷管理。
监测系统是阅卷管理系统中一个有特殊意义的组成部分。
一||次大规模作文考试,如果没有一套完
善的管理制度,没有一个有效的||监测系统,则任何评分标准的厘定、评分方法的改进都只是一句空话。
在测试研究||中,考务管理是一个专门的领域;在测试机构中,考务管理是一个有特定职能的||分支机构。
考
虑到本刊的读者对象,以下只作约略的概述。
1.大规模作文考试的阅卷管理系统
大规模作文考试的阅卷管理系统应承担以下三个方面的||职责:
a.阅卷的业务领导,b.阅卷人员的行政
管理,c.阅卷质量的监测。
||在现阶段,我国比较完善的阅卷管理程度可以示意如下:
作文阅卷管理示意图
(附图
{图})
现代科技的发展,为作文阅卷的管理提供了重要||的辅助手段。
借助这种手段,阅卷管理的主要工作有:
①试卷的随机编排
试卷的随机编排就是把不同学校||的考生打乱混合排列。
有了电脑,这项工作在技术上是不难解决的||。
重点
学校与非重点学校之间,水平可以相差很大,||如果不解决随机编排问题,则监测系统的数据将||失去代表性,既
使得这些数据缺乏应有的说服力,也容易出现盲目的||调控。
有了随机编排,不但阅卷员的评分状况能||够得到比
较客观的反映,而且就阅卷员本人来说,由于||一本试卷(即同一考场中)兼有各类学校的考生作文,可以大大
减弱评分心理的||位置效应(参阅《系列之一》)。
此举可以消除评分的系统误差,即各校的平均成绩与其||实际
水平大体接近,但还不能遏制评分的随机误差(参阅《系列之一》文末注释)。
||
②阅卷员的选择与培训
《系列之三》所披露的||数字表明,阅卷人员决不是“年龄大、职称高”才好。
阅卷队伍的形成应该是一个
选择的||过程,由于大规模考试作文评分的特点与困难,阅卷者应该是一支半专业化的队||伍,为此,需要逐步建
立阅卷人员档案。
“高考作||文评分误差控制”课题组的试验省分有的正考虑实行“阅卷员证书”制度(国外||已
有),这是条很有价值的措施。
在选择阅卷人员的||基础上还要进行培训。
以下两项调查反映了短期培训的效果。
调查A
||取各类作文10篇,15名阅卷员在培训前后两次重评。
结果如下||:
培训前
培训后
篇平均标准差
4.84
3.97
总体标准差
3.97
4.63
可见经过培训,阅卷||员评分的一致性有所提高,在拉开分数距离方面情况有所改善。
调查B
取各类作文60篇,分成对等两组,16名阅卷员先评第一组(作||为培训材料),相隔3日再评第二组,
结果如下:
第一次
第二次
篇平均标准差
3.467
3.105
观测结果与调查A相近。
培训可以有两种方式:
a.短期集中培训,b.结合阅卷过程||进行。
后者一般都与样本卷讨论和典型卷讨
论合并进行,将在下面专门介绍。
③样本卷的选定及其策略
即使有了比较完备的评分参||照量表(参阅上期),每次大规模考试的样本卷仍是不可少的。
这是因为每年
||的试题都有其个性,有其需要特殊处理的矛盾,需要根据当年试题情况编制样||本卷系列予以解决。
样本卷的功能,一是使评分标准明确化、具体化,二是针对||影响阅卷稳定的心理因素予以尽可能的控制。
因||此编制样本卷系列,在着眼点方面,在策略方面,和参照量||表的编制可以有所不同。
参照量表的编制要遵循
“等距性”原则,||即各典型例卷之间,如果按百分制计算,其分距大||体上是相等的;样本卷系列的制订,则可
以进一步着眼于“分界线”和“分歧点”。
例如:
“趋中倾向”(参阅《系||列之一》)是大规模考试评分中一个比较突出的问题||,针对这种情况,1
991年江西省在高考作文评分选定样本卷时采取了以下对策:
a.||一、二类样本卷取下限,b.三类卷取上
、下限。
采取上述措施的结果,各类试卷的分布状况有所改善:
类别
一
二
三
四
五
百分比
2
22
43
27
5
高考作文每年分值不同,为了便于比||较,重新划分分数段使之能与1990年相对应,结果如||下:
(91)29---35
(91)20---28
(91)12---19
(91)1---11
(90)33---40
(90)23---32
(90)14---22
(90)1---13
1991
10%
46%
36%
8%
90(综)
6%
58%
27%
9%
90(综)
11%
62%
22%
5%
从表中的数据可以看出,高分数段的情况没有显著变化,而第二档次的||人数有大幅度下降,第三档的数字
有明显上升。
||从整体上看,打保险分,送“及格”分的倾向有所抑制。
再||取同是采用分项评分法的90年文科考生分与91年全||省考生抽样统计的平均数、标准差、变差系数(
标准差/平均分)相比,结果如下:
平均分
标准差
变差系数
90年(满分40分)24.65
6.65
26.98%
91(满分35分)
20.17
6.41
31.78%
统计表明,变差系数有所增加,即分数离散状况好于前一年。
“分歧点”就是容易引起分歧的问题。
每年阅卷,都可以发现“||有的作文好评,有的作文难评”现象。
对
于某些作文,评分比||较容易趋于一致,对于另一些作文,看法往往分歧。
归纳、分析、研究这些评分差别较||大
的试卷,及时提出来讨论,统一认识,纳入||样本系列,是极其重要的。
④阅卷流程管理
根据我国惯例,大规模作文考试通常||在暑期或接近暑期进行。
在高温、大兵团突击作战的阅卷条件下||,应
该特别注意阅卷人员的生活安排和保健措施。
就阅卷流程管理而言,||要特别注意以下两项工作:
a.均衡投卷,控制速度
阅卷速度必须均匀,前||松后紧之类都必然扩大误差。
考虑到阅卷员熟练程度不断提高||,可以先略慢后稍快
,但各组之间必须同步前||进。
要严禁各组攀比速度,领导小组要掌握进度,但决不||应公布进度,一公布必然对
较慢的组产生压力而滋生误差。
此外,如果阅卷人员之间存||在着利害关系(相互竞争的学校、区县等),试卷
的投放还要注意流向,以免人为因素干扰。
阅卷的速度与质量有直接关系,速度过快必然评估粗糙。
由于目前||实行的承包制以及阅卷数量与报酬挂钩
的原因||,阅卷速度不断加快。
据了解,高考作文有的地区个别阅卷员的速度竟||达到日300份以上,在这种情
况下,阅卷质量||是无法得到保证的。
承包制不适用于作文阅卷,必须||予以解决。
b.制订行为准则
“多元评定法”是减小||各评阅者评分误差的重要措施。
根据赛蒙兹(Symonds||)的研究,一组作文若由两人
评定,其相关系数||为0.55,经四人评定后再由另四人评定,则相关||系数可达0.82,若经八人评定后再
评定,相关系数可||以增加到0.90。
目前,美国威斯曼的“快速||印象法”和英国伦敦教育研究所的实验都要
求一份试卷经||四人评定。
在我国,一般原则上规定一份试卷应由两人共评,要求已经很低,但实际上仍||无法做
到。
在这种情况下,应该就“对子”行为作出一些规定,例如至少要求两人||先共评若干份,分评后每天必须相
互抽查各等级的作文若||干篇,发现问题及时磋商,并有相应的检查措施,等等。
这已经是最低限度的要求。
||
纪律涣散、工作态度不严肃,是无法保证阅||卷质量的。
因此,还应当制订《阅卷员守则》,并且有相应的
奖||惩制度。
对于不合格的阅卷人员必须坚决汰除。
课题组各试验省份都有||被判“红牌”者,对维护阅卷的严肃
性有良好的作用。
⑤监测及复查
由于这个问题的重要性,将在下文专门介绍。
2.建立、健全监测系统
大规模作文考试如果没有一个有效的监测系统,则任||何研究、条例和改进措施将毫无意义。
我国长期惯用
的“||复查”就是一种监测方法,不过随着科技手段的||进步,监测手段日益丰富,怎样借助科技手段来发展监测
系统就成为人们研究的一个课题。
科技手段应用于评分监测,有“隐形笔”等[注],不||过目前主要是电脑。
国外有利用电脑直接进行调控||
的,即以试卷中某些客观性较强试题的得分为参照||系,如果发现某地区或某阅卷员的主观题给分与其它地区或
其他阅卷员的评分平均值||相比明显偏低或偏高,可以通过数学方法加以调整。
我国英语||高考也曾采用过这种方
法。
但语文是一门综合性很强的学科||,其测试也属于异质性测试,经过多次测算,各试题(包||括作文)的得分
之间没有必然联系。
即以写作能力而论,母||语和外语不同,母语作文的能力层次要求大大高于||外语,高层次能
力(如立意)与低层次能力||(如书写)之间,得分也没有必然联系。
因此用其它试题作参照系的方法就作文评||
分而论是不科学的,也是不可取的。
再就各阅卷员之间的评分来说,由于评||分对象的差别(例如一市集中阅卷
,各区之间的水平||就会有所不同),很难据此就作出“偏严”、“偏松”的判断,||如果骤然利用电脑直接调整
,很难避免盲目调控。
因此,至少就作文||评分而言,机器只能及时发现问题,最后的裁断还必须由人工||(专家
)来做出。
当前,利用电脑监测主要有以下几种方法:
①指标监测
用以监测的指标主要有“平均分”和“标准差”。
平均分||可以显示出阅卷者给分有没有偏高或偏低的问题
;标准差显示给分的离||散程度,显示出有没有“打保险分”的趋向。
将阅卷员每日每份试卷的给分及时输入电||
脑,如有问题,就可以及时发现。
②参照系监测
由核心组先随机抽阅一批试卷,将数据输入电脑,以||所形成的曲线作为参照系。
参照系有允许浮动||的一定
幅度。
阅卷员每日评分结果在图形显示上如果超越了幅度,电脑就能及||时检出以备复查。
③“暗点”监测
即由核心组||随机抽阅一批试卷,秘密输入电脑,阅卷员评此卷时,如果给分差距过大,就能及时发现||检出
,显示该阅卷员所评其它试卷也可能存在问题。
本方法原理||虽然简单,但颇为有效。
④内部相关监测
这是我国试验分项评分时所创造||的一种方法。
其原理是各分项得分之间往往具有一定的||相关性,由此设计
了数学模型,把测算结果称为U||值。
U值过大或过小,都可以提供信息供复查||组审核、裁夺。
此方法1992年
在河北省试验与指标监测法同时采用,当年结果如下||(X拨为平均分S为标准差):
试卷
增加分
减少分
增加分
减少分
平均每
袋数
数篇数
数篇数
数总和
数总和
袋改动
X拨出线
14
77
29
209
127
24
S出线
9
26
15
73
26
11
U值小
13
50
53
166
119
21.9
U值大
8
61
18
200
51
31.4
说明:
平均分低于控制线的11袋,经复查,||分数变动269,平均每袋24.5分;高于控制的3袋,
分数变动67分,平均每袋22.3分。
U值方法尚在进一步完善和论证的过程之中||,但实践证明它在发现问题方面是有效的。
由此也可以看出,在
平均分、标||准差均未出线的范围内还存在着大量误差,需要研究对策。
这也正||是作文评分监测系统科研的任务
。
[注]该笔书写的符号,只有||借助特定灯具才能显示。
这样,共评者彼此不知道对方所||给的成绩,而由监测
者(或组长)裁夺。
如果差别过大,则需重评。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 阅卷 管理 监测 系统