书签分享收藏举报版权申诉 / 11

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 经济学 > 阅卷管理与监测系统.docx

阅卷管理与监测系统.docx

文档编号：10351486
上传时间：2023-02-10
格式：DOCX
页数：11
大小：20.51KB

阅卷管理与监测系统.docx

《阅卷管理与监测系统.docx》由会员分享，可在线阅读，更多相关《阅卷管理与监测系统.docx（11页珍藏版）》请在冰豆网上搜索。

阅卷管理与监测系统.docx

阅卷管理与监测系统

　　——大规模考试作文评分研究系列之六

上文说过，大规模考试中作文评分的误差||控制包括三个不可缺少的基本环节，这就是评分标准、评分方||法

和阅卷管理。

监测系统是阅卷管理系统中一个有特殊意义的组成部分。

一||次大规模作文考试，如果没有一套完

善的管理制度，没有一个有效的||监测系统，则任何评分标准的厘定、评分方法的改进都只是一句空话。

在测试研究||中，考务管理是一个专门的领域；在测试机构中，考务管理是一个有特定职能的||分支机构。

考

虑到本刊的读者对象，以下只作约略的概述。

１．大规模作文考试的阅卷管理系统

大规模作文考试的阅卷管理系统应承担以下三个方面的||职责：

ａ．阅卷的业务领导，ｂ．阅卷人员的行政

管理，ｃ．阅卷质量的监测。

||在现阶段，我国比较完善的阅卷管理程度可以示意如下：

作文阅卷管理示意图

（附图

{图}）

现代科技的发展，为作文阅卷的管理提供了重要||的辅助手段。

借助这种手段，阅卷管理的主要工作有：

①试卷的随机编排

试卷的随机编排就是把不同学校||的考生打乱混合排列。

有了电脑，这项工作在技术上是不难解决的||。

重点

学校与非重点学校之间，水平可以相差很大，||如果不解决随机编排问题，则监测系统的数据将||失去代表性，既

使得这些数据缺乏应有的说服力，也容易出现盲目的||调控。

有了随机编排，不但阅卷员的评分状况能||够得到比

较客观的反映，而且就阅卷员本人来说，由于||一本试卷（即同一考场中）兼有各类学校的考生作文，可以大大

减弱评分心理的||位置效应（参阅《系列之一》）。

此举可以消除评分的系统误差，即各校的平均成绩与其||实际

水平大体接近，但还不能遏制评分的随机误差（参阅《系列之一》文末注释）。

||

②阅卷员的选择与培训

《系列之三》所披露的||数字表明，阅卷人员决不是“年龄大、职称高”才好。

阅卷队伍的形成应该是一个

选择的||过程，由于大规模考试作文评分的特点与困难，阅卷者应该是一支半专业化的队||伍，为此，需要逐步建

立阅卷人员档案。

“高考作||文评分误差控制”课题组的试验省分有的正考虑实行“阅卷员证书”制度（国外||已

有），这是条很有价值的措施。

在选择阅卷人员的||基础上还要进行培训。

以下两项调查反映了短期培训的效果。

调查Ａ

||取各类作文１０篇，１５名阅卷员在培训前后两次重评。

结果如下||：

培训前

培训后

篇平均标准差

４．８４

３．９７

总体标准差

３．９７

４．６３

可见经过培训，阅卷||员评分的一致性有所提高，在拉开分数距离方面情况有所改善。

调查Ｂ

取各类作文６０篇，分成对等两组，１６名阅卷员先评第一组（作||为培训材料），相隔３日再评第二组，

结果如下：

第一次

第二次

篇平均标准差

３．４６７

３．１０５

观测结果与调查Ａ相近。

培训可以有两种方式：

ａ．短期集中培训，ｂ．结合阅卷过程||进行。

后者一般都与样本卷讨论和典型卷讨

论合并进行，将在下面专门介绍。

③样本卷的选定及其策略

即使有了比较完备的评分参||照量表（参阅上期），每次大规模考试的样本卷仍是不可少的。

这是因为每年

||的试题都有其个性，有其需要特殊处理的矛盾，需要根据当年试题情况编制样||本卷系列予以解决。

样本卷的功能，一是使评分标准明确化、具体化，二是针对||影响阅卷稳定的心理因素予以尽可能的控制。

因||此编制样本卷系列，在着眼点方面，在策略方面，和参照量||表的编制可以有所不同。

参照量表的编制要遵循

“等距性”原则，||即各典型例卷之间，如果按百分制计算，其分距大||体上是相等的；样本卷系列的制订，则可

以进一步着眼于“分界线”和“分歧点”。

例如：

“趋中倾向”（参阅《系||列之一》）是大规模考试评分中一个比较突出的问题||，针对这种情况，１

９９１年江西省在高考作文评分选定样本卷时采取了以下对策：

ａ．||一、二类样本卷取下限，ｂ．三类卷取上

、下限。

采取上述措施的结果，各类试卷的分布状况有所改善：

类别

一

二

三

四

五

百分比

２

２２

４３

２７

５

高考作文每年分值不同，为了便于比||较，重新划分分数段使之能与１９９０年相对应，结果如||下：

（91）29---35

（91）20---28

（91）12---19

（91）1---11

（90）33---40

（90）23---32

（90）14---22

（90）1---13

1991

10%

46%

36%

8%

90（综）

6%

58%

27%

9%

90（综）

11%

62%

22%

5%

从表中的数据可以看出，高分数段的情况没有显著变化，而第二档次的||人数有大幅度下降，第三档的数字

有明显上升。

||从整体上看，打保险分，送“及格”分的倾向有所抑制。

再||取同是采用分项评分法的９０年文科考生分与９１年全||省考生抽样统计的平均数、标准差、变差系数（

标准差／平均分）相比，结果如下：

平均分

标准差

变差系数

９０年（满分４０分）２４．６５

６．６５

２６．９８％

９１（满分３５分）

２０．１７

６．４１

３１．７８％

统计表明，变差系数有所增加，即分数离散状况好于前一年。

“分歧点”就是容易引起分歧的问题。

每年阅卷，都可以发现“||有的作文好评，有的作文难评”现象。

对

于某些作文，评分比||较容易趋于一致，对于另一些作文，看法往往分歧。

归纳、分析、研究这些评分差别较||大

的试卷，及时提出来讨论，统一认识，纳入||样本系列，是极其重要的。

④阅卷流程管理

根据我国惯例，大规模作文考试通常||在暑期或接近暑期进行。

在高温、大兵团突击作战的阅卷条件下||，应

该特别注意阅卷人员的生活安排和保健措施。

就阅卷流程管理而言，||要特别注意以下两项工作：

ａ．均衡投卷，控制速度

阅卷速度必须均匀，前||松后紧之类都必然扩大误差。

考虑到阅卷员熟练程度不断提高||，可以先略慢后稍快

，但各组之间必须同步前||进。

要严禁各组攀比速度，领导小组要掌握进度，但决不||应公布进度，一公布必然对

较慢的组产生压力而滋生误差。

此外，如果阅卷人员之间存||在着利害关系（相互竞争的学校、区县等），试卷

的投放还要注意流向，以免人为因素干扰。

阅卷的速度与质量有直接关系，速度过快必然评估粗糙。

由于目前||实行的承包制以及阅卷数量与报酬挂钩

的原因||，阅卷速度不断加快。

据了解，高考作文有的地区个别阅卷员的速度竟||达到日３００份以上，在这种情

况下，阅卷质量||是无法得到保证的。

承包制不适用于作文阅卷，必须||予以解决。

ｂ．制订行为准则

“多元评定法”是减小||各评阅者评分误差的重要措施。

根据赛蒙兹（Symonds||）的研究，一组作文若由两人

评定，其相关系数||为０．５５，经四人评定后再由另四人评定，则相关||系数可达０．８２，若经八人评定后再

评定，相关系数可||以增加到０．９０。

目前，美国威斯曼的“快速||印象法”和英国伦敦教育研究所的实验都要

求一份试卷经||四人评定。

在我国，一般原则上规定一份试卷应由两人共评，要求已经很低，但实际上仍||无法做

到。

在这种情况下，应该就“对子”行为作出一些规定，例如至少要求两人||先共评若干份，分评后每天必须相

互抽查各等级的作文若||干篇，发现问题及时磋商，并有相应的检查措施，等等。

这已经是最低限度的要求。

||

纪律涣散、工作态度不严肃，是无法保证阅||卷质量的。

因此，还应当制订《阅卷员守则》，并且有相应的

奖||惩制度。

对于不合格的阅卷人员必须坚决汰除。

课题组各试验省份都有||被判“红牌”者，对维护阅卷的严肃

性有良好的作用。

⑤监测及复查

由于这个问题的重要性，将在下文专门介绍。

２．建立、健全监测系统

大规模作文考试如果没有一个有效的监测系统，则任||何研究、条例和改进措施将毫无意义。

我国长期惯用

的“||复查”就是一种监测方法，不过随着科技手段的||进步，监测手段日益丰富，怎样借助科技手段来发展监测

系统就成为人们研究的一个课题。

科技手段应用于评分监测，有“隐形笔”等［注］，不||过目前主要是电脑。

国外有利用电脑直接进行调控||

的，即以试卷中某些客观性较强试题的得分为参照||系，如果发现某地区或某阅卷员的主观题给分与其它地区或

其他阅卷员的评分平均值||相比明显偏低或偏高，可以通过数学方法加以调整。

我国英语||高考也曾采用过这种方

法。

但语文是一门综合性很强的学科||，其测试也属于异质性测试，经过多次测算，各试题（包||括作文）的得分

之间没有必然联系。

即以写作能力而论，母||语和外语不同，母语作文的能力层次要求大大高于||外语，高层次能

力（如立意）与低层次能力||（如书写）之间，得分也没有必然联系。

因此用其它试题作参照系的方法就作文评||

分而论是不科学的，也是不可取的。

再就各阅卷员之间的评分来说，由于评||分对象的差别（例如一市集中阅卷

，各区之间的水平||就会有所不同），很难据此就作出“偏严”、“偏松”的判断，||如果骤然利用电脑直接调整

，很难避免盲目调控。

因此，至少就作文||评分而言，机器只能及时发现问题，最后的裁断还必须由人工||（专家

）来做出。

当前，利用电脑监测主要有以下几种方法：

①指标监测

用以监测的指标主要有“平均分”和“标准差”。

平均分||可以显示出阅卷者给分有没有偏高或偏低的问题

；标准差显示给分的离||散程度，显示出有没有“打保险分”的趋向。

将阅卷员每日每份试卷的给分及时输入电||

脑，如有问题，就可以及时发现。

②参照系监测

由核心组先随机抽阅一批试卷，将数据输入电脑，以||所形成的曲线作为参照系。

参照系有允许浮动||的一定

幅度。

阅卷员每日评分结果在图形显示上如果超越了幅度，电脑就能及||时检出以备复查。

③“暗点”监测

即由核心组||随机抽阅一批试卷，秘密输入电脑，阅卷员评此卷时，如果给分差距过大，就能及时发现||检出

，显示该阅卷员所评其它试卷也可能存在问题。

本方法原理||虽然简单，但颇为有效。

④内部相关监测

这是我国试验分项评分时所创造||的一种方法。

其原理是各分项得分之间往往具有一定的||相关性，由此设计

了数学模型，把测算结果称为U||值。

U值过大或过小，都可以提供信息供复查||组审核、裁夺。

此方法１９９２年

在河北省试验与指标监测法同时采用，当年结果如下||（X拨为平均分Ｓ为标准差）：

试卷

增加分

减少分

增加分

减少分

平均每

袋数

数篇数

数总和

袋改动

X拨出线

１４

７７

２９

２０９

１２７

２４

Ｓ出线

９

２６

１５

７３

２６

１１

U值小

１３

５０

５３

１６６

１１９

２１．９

U值大

８

６１

１８

２００

５１

３１．４

说明：

平均分低于控制线的１１袋，经复查，||分数变动２６９，平均每袋２４．５分；高于控制的３袋，

分数变动６７分，平均每袋２２．３分。

U值方法尚在进一步完善和论证的过程之中||，但实践证明它在发现问题方面是有效的。

由此也可以看出，在

平均分、标||准差均未出线的范围内还存在着大量误差，需要研究对策。

这也正||是作文评分监测系统科研的任务

。

［注］该笔书写的符号，只有||借助特定灯具才能显示。

这样，共评者彼此不知道对方所||给的成绩，而由监测

者（或组长）裁夺。

如果差别过大，则需重评。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 阅卷管理监测系统

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：阅卷管理与监测系统.docx
链接地址：https://www.bdocx.com/doc/10351486.html

阅卷管理与监测系统.docx

热门标签