测试学复习资料.docx
- 文档编号:2862022
- 上传时间:2022-11-16
- 格式:DOCX
- 页数:9
- 大小:546.51KB
测试学复习资料.docx
《测试学复习资料.docx》由会员分享,可在线阅读,更多相关《测试学复习资料.docx(9页珍藏版)》请在冰豆网上搜索。
测试学复习资料
测试学复习资料
知识点
●语言测试类别
Ø根据测试目的分类
①水平测试(ProficiencyTest)NRT
学生整体语言水平theory-testselectiontests
②学业测试(AchievementTest)CRT
看学生学的怎么样,本门课是否已过关期中期末学业水平考试syllabus-based
③能力倾向测试(AptitudeTest)
能力倾向测试被认为是一种预测措施,表明一个学生是否可能很容易地学习第二语言
④分级测试(PlacementTest)NRT
将能力水平相似的同学分到一组,帮助每个学生选择更符合自己水平的课程,一般教学前
⑤诊断测试(DiagnosticTest)CRT
教学开始或中间进行诊断了解学生的强弱项反馈信息
Ø根据考分解释分类
①常模参照考试(Norm-referencedtests/NRT)
测试的分数是相对于参加该测试的所有其他学生的分数进行解读的/结果呈正态分布比较好(normaldistribution)
②标准参照考试(Criterion-referencedtests/CRT)
衡量明确和相当具体的目标;分数的解释被认为是绝对的,不涉及其他学生的分数;分数的分布不必正常;学生事先知道考试的问题、任务和内容;
Ø其他标准分类
形成性评价(Formativeassessment)/终结性评价(summativeassessment)
根据测试方式分类直接测试(Directtest)/间接测试(Indirecttest)
根据测量形式分类分离式测试(Discrete-pointTest)/综合式测试(IntegrativeTest)
根据考试时间分类速度测试(SpeedTest)/难度测试(PowerTest)
根据影响力度分类高风险测试(High-stakesTest)/低风险测试(Low-stakesTest)
●Testusefulness测试的有效性
Ø
Testusefulness=Reliability+Constructvalidity+Authenticity+Interativeness+Impact+Practicality
ØReliability:
信度主要是指测量结果的可靠性、一致性和稳定性,可以视为测试结果受随机误差影响的程度。
信度指的是回答这样一个问题:
“一个人在测试中的表现有多少是由于测量误差,或者除了我们想要测量的语言能力之外的其他因素?
”尽量减少这些因素对考试成绩的影响。
validity:
效度与这样一个问题有关:
“一个人在考试中的表现在多大程度上取决于我们想要衡量的语言能力?
”并最大限度地发挥这些能力对考试成绩的影响。
效度是指测试是否测量了被设计用来测量的东西。
信度是效度的基础和必要条件。
Ø经典测量理论(CTT)亦称“真分数理论”。
该理论假设观测分数X是由真分数T及测量误差E所组成,即X=T+E
Ø各种信度
1.Test-retestreliability(重测信度):
consistencyovertime
parallel-testsreliability(复本信度):
consistencyinform
indicator:
reliabilitycoefficientRxy取值范围:
0-1
2.Internal-consistencyreliability(内部一致性信度):
是指用来测量同一个概念的多个计量指标的一致性程度。
Cronbachalpha(α)(适用于非0,1计分或连续计分)
plit-halfreliability(分半信度):
K-R20/K-R21(库德--理查逊信度),适用于0,1计分,即所有的题目都是客观题)Raterconsistency(评分一致性)
3.Inter-raterreliability
Intra-raterreliability评分员内部信度:
ratethesamepapersattwodifferenttimes
Ø各种效度
1.Constructvalidity(构念效度)
测验能测到某一理论构念或特质的程度,我的试题是否围绕要考的内容来命题
2.Contentvalidity(内容效度)
说明测试的内容是否符合本课程的教学目标,是构念效度的具体体现,内容咋样一般由专家评定,代表性/抽样的适当性/相关性。
3.Criterion-relatedvalidity(效标关联效度)
①Concurrentvalidity(共时/同期效度)
关注一个测试(通常是一个新开发的测试)所测量的内容与另一个已经存在的标准测量之间的关系,后者可能是一个完善的标准化测试。
如果这两种测量方法的作用相似(即,它们以相同的方式对候选人进行排名),那么它们就被认为具有并发有效性。
②Predictivevalidity(预测效度)
从测试中得出的预测被后来收集的证据所证实的程度。
e。
托福、雅思等。
4.Facevalidity(表面效度)
由未经训练的观察者判断的一个测试似乎在衡量它声称要衡量的知识或能力的程度。
Ø测试的各种属性程度及相关知识
1.Authenticity(真实性)
Thedegreeofcorrepondencebetweenagivenlanguagetesttaskandatarget-language-usetask.testtask---targetlanguageusetask(TLU)如口语测试要求真实性强
2.Interactiveness(交互性)
Thelevelofinteractivenesswillbeafunctionofthecharacteristicsofthetesttakers---personalcharacteristics,languageability,topicalknowledge,andaffectiveschemata---andofthecharacteristicsofthetesttasks.考生特征与考试活动的互动性,考生特征在考试任务的参与度,如选择题交互性弱,小组讨论交互性强
3.Impact/consequence(后效作用)
根据测试所作出的决定以及这些决定产生的影响
4.Stakeholders(利益相关者)
指最直接受到测试方式以及测试结果和决定的人,政府/学校/老师/学生/家长/用人单位
5.Backwash/Washback(后效作用)
考试对教学的作用,教师的教和学生的学
6.Practicality(考试的可操作性)
7.TestFairness(考试公正)--专家评定/实证评定
考试中不能有偏见,一道题难对所有人都难,只是能力有差别,与性别、民族、种族无关。
8.High-stakestests/Low-stakestests
●考试大纲和考试规范
Ø基本概念
1.考试大纲(TestSyllabus):
教育部门/考试机构,“考什么”及“如何考”的纲领性文件,宏观层面,考试的内容和方法,为考生和教师。
2.考试规范(TestSpecification):
考试大纲,具体的、可操作的规定,考试对象/目的/目标/内容/方法/时间/施考流程/评分标准/试卷结构与分值等,命题人员和考试评估人员
●项目分析-经典测试理论(CTT)
Ø难度
①概念:
难度就是考生在试题/卷上的得分率,指所有考生的得分之和占试题/卷满分总计的比率(均值与满分之比)计为P[0-1]
②难度实指易度,值越大试卷越容易;常模参照测试:
试题难度应体现平均水平,应在0.3~0.7之间标准参照测试:
题目难度应反映达标水平,值越大越好
③水平考试(平均水平)期望值0.5比较好,0.3-0.7正常,达标成就考试期望值(达标或录取标准)越接近标准越好,成就(测试学习内容的掌握程度)考试值越大越好
Ø区分度
①概念:
区分考生的力度,为高分组和低分组的得分率/P之差,计为D[-1~1]
②小于0.2差,重写或淘汰/0.2-0.29中,可写较差,通常需要重写/0.3-0.39良,但仍有改进/≥0.4优
③分组方法对鉴别指数有直接影响。
常见分组方法有:
50%(二分)、33%(三分)、25%(四分)或27%(大规模测试)
Ø项目干扰度
①概念:
干扰项干扰力度的大小。
选择它的人数越多,干扰力就越强。
②理想干扰度为理想答错比率的均值(1-0.5/3),理想答错比率为0.7~0.3,四选一项目的理想干扰度为0.23~0.1,三选一的理想干扰度为0.35~0.15
●分数报告和解释
Ø描述性统计分析:
集中趋势-均值,众数,中位数,中值,算数平均数/离散程度-极差全距,最大值/最小值,平均差,标准差,方差
(自由度:
用样本推整体时,样本中独立的可以自由变化的数据个数)
Ø数据类型(SPSS)
定类(nominalscale):
“=”或“≠”,如姓名、类别
定序(ordinalscale):
“>”或“<”,如学号、排名
定距(intervalscale):
“+”或“-”,如年龄、成绩
定比(ratioscale):
“×”或“÷”,如比率、权重;类别/顺序/间距/比例
Ø标准正态分布
1.概率分布
2.偏态分布(标准参照考试,考的越高越好)
3.分数转换(百分位,标准分,Z分数,T分数,GRE)
4.正态分布(常模参照考试,中等多,极高极低少)(多题目)
●假设检验(HypothesisTesting)
Ø简单概念:
由定义可知,我们需要对结果进行假设,然后拿样本数据去验证这个假设所以做假设检验时会设置两个假设,原/零/虚无假设(NullHypothesis)H0-大概率事件,通常用来被拒绝,备择/对立假设(AlternativeHypothesis)H1-小概率事件,通常为期望结果
Ø进行假设检验的顺序:
1.提出假设H0和H1
2.确定显著水平α,通常为小概率,如.05(5%).01(1%),.001(1/1000)等;分单双侧检验(单侧仅考虑一个方向的变化)
3.计算抽样的统计量或概率值p
4.做出决策--决策依据:
决择依据:
p>α接受原假设;否则拒绝原假设,接受备择假设
如p<α,则说明H0几乎不可能成立,完全有理由拒绝H0而接受H1;如p值>α,则说明拒绝H0的理由还不够充分,只能接受H0。
注:
注意:
如果p值不大,即使接受H0,结论的说服力也不强;如果p值为大概率,那么接受H0同样具有说服力。
Ø两类错误
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 测试 复习资料