测验与评量嘉义大学.docx
- 文档编号:11502159
- 上传时间:2023-03-02
- 格式:DOCX
- 页数:161
- 大小:301.94KB
测验与评量嘉义大学.docx
《测验与评量嘉义大学.docx》由会员分享,可在线阅读,更多相关《测验与评量嘉义大学.docx(161页珍藏版)》请在冰豆网上搜索。
测验与评量嘉义大学
測驗與評量重點總整理
第1節測驗的基本概念
1、測驗的發展
1、比奈(Binet).近代智力測驗之父.奠定智力測驗編製的基礎。
公認第一份智力測驗設計者。
2、馮德(Wundt).實驗心理學之父.創立第一個心理實驗室.奠定測驗程序標準化的基礎。
3、高爾登(Galton).個別差異的研究.相信感覺辨別可做為測量個人智力的方法。
4、卡泰爾(Cattell).美國人,創立「心理測驗」一詞
5、桑代克(Throndike).出版第一本教育測量的教科書.開創基本的測量理論與技術.首先運用成就測驗與普通能力測驗於大學入學評量.教育心理學之父。
《題目補充》
1.下列何者在測驗上提出「萬物皆存於量中,存在於量中者都能測量」的說法?
(A)弗洛依德(S.Freud)(B)霍爾(G.S.Hall)(C)馮德(W.Wundt)(D)桑代克(E.L.Thorndike)(ANS:
D)
2、測驗、測量、評定、評量
1、測量(measurement)
(1)定義:
根據量尺,用數字描述個人特質的歷程。
(2)方式:
多半使用量化的數字來描述特質。
如:
身體175公分、IQ130
2、測驗(test)
(1)定義:
狹義–測量的工具;廣義–測量的程序或歷程。
3、評定(assessment)
(1)定義:
蒐集、統整和解釋訊息,以幫助教師所做成決定的一種歷程。
(2)目的:
蒐集訊息幫助教師做成如何診斷、回饋、安置學生或進行教學等決定。
4、評量(evaluation)
(1)定義:
根據一項標準,對所測量到的數量做價值的判斷。
(2)舉例:
如80分,這數字本身無意義,但依據其能力,80分可列為優秀。
3、測驗的種類
1、認知測驗、情意測驗與動作技能測驗
(1)認知測驗:
綜合成就測驗、特殊成就測驗、診斷測驗
(2)情意測驗:
態度測驗、人格測驗
(3)動作技能測驗:
採實作測驗,輔以觀察、檢核表、評定量表
2、標準化測驗與非標準化測驗
(1)標準化測驗:
有一定的編製程序,如試題取樣、計分標準、信度、效度、常模
(2)非標準化測驗:
依自己教學需要而編製,主觀,能考慮教學目標和班級個別差異,又稱:
教師自編測驗
3、選擇反應測驗與結構反應測驗
(1)選擇反應測驗:
選擇題、是非題、填充題、配合題、解釋性習題。
又稱客觀測驗。
大部分的心理測驗均採此一類型
(2)結構反應測驗:
簡答題、限制反應題、申論題、問答題。
又稱補充型試題測驗、論文測驗。
採用者有:
主題統覺測驗、羅夏克墨漬測驗、托倫斯創造性測驗
4、常模參照測驗與標準(效標)參照測驗(依葛拉塞Glasser分類)
(1)常模參照測驗(NRT):
1、定義:
測驗結果,根據測驗分數在團體中的相對位置而加以解釋的一種測驗。
2、目的:
目的在區別學生間的不同成就水準,並給予學生學習成就等第,強調鑑別力。
3、優點:
測驗範圍較廣,可做行政決策之用,如分班。
4、缺點:
無法知道學生那些會,那些不會。
5、類別:
月考、期末考、學科成就競試、大學聯考
6、適合總結性評量、差異性大的團體
(2)標準參照測驗(CRT):
1、定義:
參考教學在教學前所訂定的標準,來解釋個別測驗分數是否達成這項既定標準的一種測驗。
2、目的:
瞭解學生已學會什麼?
考驗學生的精熟程度,是否達到教師所期望的成就水準?
而不是在與他人做比較。
3、優點:
能提出學生會那些及精熟成度。
最適精熟學習法的測驗。
4、缺點:
測驗範圍較小
5、類別:
平時考、隨堂測驗、小考、診斷性評量
6、適形成性評量、同質性高的團體
7、此時,信度對於測驗的重要性很低。
(要考慮的是否有效!
!
)
《題目補充》
2.有關效標參照或標準參照測驗的敘述何者為正確?
(A)信度對測驗的重要性很低(B)以團體平均分數作為比較基準(C)題目難度為中等偏難(D)強調效標效度(ANS:
A)
解析:
A
(1)理論上,信度係數受到團體的變異性所影響,團體的個別差異愈大,測驗的信度係數愈高。
(2)標準參照測驗只在區分精熟與非精熟,故變異性不會存在。
既然變異性不存在,代表團體的個別差異不大,相對地信度係數愈低。
這就是信度為什麼對測驗的重要性很低的原因
B團體平均分數應改成事前就訂好的標準
C中等偏難要改成中等偏易
D效標關聯效度指用測驗分數與效標之間的相關係數來表示測驗效度的高低,效標的意思是足以顯示測驗想測量的特質之參照標準,例如一項數學測驗,我們可以以學生平時的數學表現作為效標,再求學生在數學測驗的分數與其平時表現的相關,相關愈高就表示此數學測驗的效標關聯效度愈高。
但標準參照測驗只在區分精熟與非精熟,所以可以看出標準參照測驗並不強調效標效度
3.下列有關「標準參照測驗」的敘述,何者正確?
(A)可以區分學生的成就水準(B)題目通常維持在中間難度(C)解釋結果的標準於教學前決定(D)測驗分數有較廣的範圍。
(ANS:
C)
4.關於「常模參照測驗」和「標準參照測驗」的比較,下列何者為非?
(A)前者多用於調查性的測驗,後者多用於精熟性的測驗(B)前者著重測量成就的個別差異,後著在描述個體能做的工作(C)前者涵蓋的內容較為有限,後者相較之下可評量廣大的各種知識和技能(D)前者多用來和別人的成就相比較,後者和具體明確的效標做比較。
(ANS:
C)
5.下列何者是常模參照和標準參照測驗的主要區分依據?
(A)答案計分的方式(B)作答反應的形式(C)測驗實施的安排(D)測驗結果的解釋(ANS:
D)
6.題目的鑑別度指數,若是標準參照測驗,那應該採取那一種檢驗的方式?
(A)以高分組的答對率減去低分組的答對率(B)計算在答對與答錯的人與其個人總分的二系列相關(C)統計答對與答錯的人數及通過與未通過(以60分為準,分成「通過」與「未通過」)的人數,再求ψ相關(D)以精熟組的答對率減去未精熟組的答對率
(ANS:
D)
(選項(A):
鑑別度指標(D)=高分組答對率-低分組答對率為常模參照測驗的鑑別度分析方式。
至於標準參照測驗因為每題考生答對率通常在75%以上,若以「鑑別度指標(D)=高分組答對率-低分組答對率」,則會造成鑑別度通常會很低,會被誤判為試題不良。
所以考生所提的公式只適合常模參照測驗,不適合標準參照測驗。
)
7.下列哪一種測驗考試的性質是屬於「常模參照測驗」?
(A)全民英檢(B)美語托福(C)汽車駕照(D)丙級技術士
(ANS:
B)
8.下列關於常模參照測驗與標準參照測驗的比較,何者正確?
(A)常模參照測驗強調學生能力比較,標準參照測驗強調學生能力描述。
(B)常模參照測驗的內容範圍較窄,標準參照測驗的內容範圍較廣。
(C)常模參照測驗需要測驗藍圖,標準參照測驗不用。
(D)常模參照測驗的評量目標較具體,標準參照測驗多採用較抽象的評量目標。
(ANS:
A)
9.下列何種測驗結果屬於常用在效標參照測驗?
(A)答對百分比(B)百分位置(C)百分等級(D)標準九(ANS:
A)
5、個人測驗與團體測驗
(1)個人測驗:
同一時間內,只對一個人施測。
(比西量表、魏氏智力測驗)
(2)團體測驗:
同一時間內,對多人施測。
6、文字測驗與非文字測驗
(1)文字測驗:
以文字、語言來進行施測與回答。
(2)非文字測驗:
以實體操作來進行,如實作測驗。
適合不同文化差異。
7、最大表現測驗與典型表現測驗(由克朗巴哈Cronbach提出)
(1)最大表現測驗:
測量個人最佳反應或成就,如智力測驗、性向測驗、成就測驗。
其結果受先天能力、實際能力、動機等三因素影響。
(2)典型表現測驗:
正常情況下所表現的行為,如人格測驗、興趣測驗、態度測驗、適應測驗。
其結果與受試者是否誠實作答有關。
8、速度測驗與難度測驗
(1)速度測驗:
題簡單,題數多,時間有限。
(2)難度測驗:
時間充裕,約90%的人能完成。
9、客觀測驗與非客觀測驗
(1)客觀測驗:
計分有標準、有正確答案可遵循,如是非題、選擇題
(2)非客觀測驗:
無標準答案可遵循,主觀,如口試、投射測驗、論文測驗
4、測驗的功能
1、教學評量的功能
(1)瞭解學生的起點行為
(2)確定教學目標達到的程度
(3)做為改進教學的參考
(4)評定學生的學習成果
2、落實輔導諮商效能
3、行政決定的功能
(1)選擇決定的功能:
大學聯考(有的人通過,有的人被拒絕)
(2)安置決定的功能:
分班(與選擇功能不同的是,安置決定,沒有拒絕任何人)
(3)分類決定的功能:
如性向測驗
(4)課程與教育計畫決定的功能
5、良好測驗的特徵:
效度、信度、常模、實用性
1、效度
(1)指測驗的正確性,亦即指測驗能夠測量到它所欲測量之特質的程度,或是指測驗能達到其目的的程度。
(2)在選擇測驗或自編測驗時,首先應考慮測驗的效度是否良善。
(3)效度係數介於0到1之間,最好是大於0.8。
2、信度
(1)指測驗的可靠性,包含測驗分數的穩定性與測驗內容的一致性。
(2)信度係數介於0到1之間,最好是大於0.8。
(3)信度是效度的必要條件。
3、常模
(1)測驗的結果,需藉助常模來加以解釋才有意義。
(2)基本界說:
指某特定團體在某一測驗上得分的平均數。
4、實用性
(1)經濟:
易於取得所需的測驗。
(2)容易實施
(3)容易計分、解釋和應用
《題目補充》
1.有關「最大表現測驗」與「典型表現測驗」的陳述,以下那一個正確?
(A)成就測驗屬典型表現測驗(B)興趣測驗屬典型表現測驗(C)人格測驗屬最大表現測驗(D)態度量表屬最大表現測驗。
(ANS:
B)
2.下列哪一個測驗屬於最大表現測驗?
(A)柯氏性格量表(B)語文性向測驗(C)職業興趣量表(D)幼兒人格量表。
(ANS:
B)
3.將測驗分成最大表現測驗與典型表現測驗(A)克朗巴赫(B)奧斯古德(C)里克特(D)莫雷(ANS:
A)
4.「最大表現測驗」指的是:
(A)人格測驗(B)職業興趣測驗(C)學業成就測驗(D)認知風格測驗(ANS:
C)
5.下列的測驗何者屬於「典型表現測驗」(typicalperformancetest)?
(A)工作價值觀量表(B)比西量表(C)區分性向測驗(D)創造思考測驗(ANS:
A)
6.有關信度、效度關係之敘述,下列何者正確?
(A)信度高,則效度也高(B)無信度,亦可能有效度(C)信度是效度的充分條件(D)信度不高,則效度亦不高。
(ANS:
D)
7.效度是測驗的最重要特徵,有關效度的特性,何者有誤?
(A)效度無法直接測量,但可從其他資料推論(B)效度的判斷主要是依據測驗方法(C)效度是程度上的差別,而非全有或全無的問題(D)效度在使用的目的和情境方面具有特殊性。
(ANS:
B)
8.信度與效度是測驗的特徵,下列信度與效度的關係何者正確?
(A)信度低,效度不一定低(B)信度高,效度一定高(C)效度高,信度一定高(D)效度低,信度一定低(ANS:
C)
9.以下有關信度的敘述,何者錯誤?
(A)信度係指測量結果的一致性(B)信度是效度的充分條件(C)測驗題數越多,信度愈高(D)再測信度高於複本信度(ANS:
B)
第2節
測驗的基本原理
○當測驗是有效的、可信的而且是精確時,我們才需要認真地考慮使用測驗的結果。
1、信度
1、信度的涵義
(1)一致性:
多次測驗,結果趨近一致。
(2)誤差性:
誤差比例小,真實特質所占比例高。
(3)在實得分數的變異量中,有多少百分比的變異數是可以被真實分數的變異數所解釋得到。
如當信度係數0.90時,可解釋為在測驗實得分數中,有90%的變異量是由於測驗所欲測量的真實特質所造成,10%是由測量誤差所造成的。
(4)沒有一個測驗是「完全」可靠的,也就是說沒有完全的信度。
信度只是程度上的差別而已。
(5)一分優良的教育測驗至少應該具有.80以上的信度水準。
2、信度的原理
(1)實得分數=真實分數+誤差分數
1、實得分數變異量=真實分數變異量+誤差變異量
2、真實分數變異量=有效變異量+無關變異量
3、誤差變異量:
因情緒變化、猜答、筆誤、計時不正確而造成的成績誤差。
隨機產生,無法預測。
4、無關變異量:
與測驗目的無關,如因受試者對題目及作答方式的不熟悉,所造成的誤差。
5、真實分數又稱為普遍性分數
(2)誤差:
1、系統誤差:
學生的學習、訓練、遺忘與生長,是一種固定、一致的方式影響測驗分數高低的測量誤差。
稱為偏誤(biasederror)
2、非系統誤差:
隨機、沒有規則、不可預測的方式,在不同情境中,隨時影響不同學生的測驗分數,如:
學生的身心狀況(動機、情緒、態度、意願)、施測情境(光線、噪音)和測驗試題(抽樣、計分、解釋)。
稱為隨機誤差。
(3)公式
1、信度=真實分數變異量/實得分數變異量
2、信度係數沒有負值。
3、信度的類型:
極常考!
請注意!
○測量標準誤:
相同的測驗重覆測驗單一受試者多次,分析受試者本身內在的變異。
例:
某生在一智力測驗上得到IQ130,該測驗的信度為.96,標準差為15,則某生的真實IQ有95.44%的機會落在下列哪一項分數之間?
(A)118-141(B)121-139(C)124-136(D)127-133()
測量標準誤=測量標準差×
=15×
=3
按照常態分配,95.44%的範圍剛好是平均值上下各兩個標準差
所以此題下限=130-3*2=124,上限=130+2*3=136
○相關係數:
使用相同的測驗測驗一群受試者二次,根據他們的分數在團體中的相對位置,分析受試者相互間的變異量。
(1)常模參照測驗的信度分析(再測法、複本法、內部一致性法、評分者法)
1、再測信度:
估計測驗分數是否穩定最直接的方法
(1)定義:
同一份測驗在不同時間對相同學生前後重複測量兩次,並根據這兩次測量分數求得相關係數,這係數即稱作重測信度係數。
(2)別稱:
穩定係數、重測信度
(3)誤差來源:
時間誤差,相隔時間越長,信度愈低,相隔時間越短,信度越高。
(1-2週最為恰當)
(4)優點:
A、適合動作技能方面的測驗
B、沒有內容抽樣誤差
(5)缺點:
A、所估計的信度偏高,通常比複本信度高
B、受「練習效應」和「累積性的成長」影響,分數有提高的傾向。
C、不適合認知和情意方面的測驗。
2、複本信度:
(1)定義:
兩份在試題格式、題數、難度、指導語說明、施測時限和例題等方面均相當,並且都用來測量相同潛在特質或屬性,但試題內容卻不相同的測驗。
(2)特點:
A、常根據雙向細目表,於同一時間分別獨立編製而成。
B、同一份測驗可以有好幾份複本。
C、誤差來源:
內容抽樣誤差。
(3)施測方式:
A、同一時間連續施測:
又稱等值係數,誤差來源:
內容抽樣誤差。
B、隔一段時間施測:
又稱穩定且等值係數,誤差來源:
時間誤差、內容抽樣誤差。
是估計信度最嚴謹的方法之一。
(4)缺點:
A、複本測驗的編製不易,費時、成本高,所以多數的測驗沒有複本。
B、測量易受練習影響,即使採用複本法,影響只能減少,但無法完全避免。
(5)重測與複本的差異
重測信度
複本信度
主要誤差來源
時間誤差
內容抽樣誤差
內容抽樣、時間誤差
別稱
再測信度、穩定係數
複本連續施測
複本隔一段時間施測
等值係數
穩定且等值係數
使用時機
做長時間的預測
推論某人在某一領域具有的知識程度
3、內部一致性信度:
以題目與總分的相關為指標
(1)折半法(折半信度)
A、定義:
利用單獨一次測驗結果,以隨機方式將其分成兩半,再求出這兩半測驗結果間的相關係數,這種相關即稱為折半相關。
B、誤差來源:
內容抽樣
C、缺點:
a、低估原來長度的測驗信度,想要了解未折半之信度,將題目倍數n設為2,代入公式即可。
b、對於難度偏低的試題,所求得之信度會偏高,需啟用重測法
D、校正方法(Spearman–Brown):
斯布公式
例題:
若某一心理測驗共有20個項目,其信度是0.6,要增加多少項目,才能使測驗信度變為0.75
rxx=重新估計後的信度
r=原先的信度
n=增加題目的倍數
故本題的解,是增加為原來兩倍的題目,即再增加20題。
(2)庫李法(K–R法):
庫德和李查遜提出
A、定義:
依據學生對所有試題的反應後,分析試題間的一致性,以確定測驗中的試題是否都測量到相同特質或相同單一能力的一種信度估計方法。
B、基本假設:
a、試題的計分是使用「對或錯」的二元化計分方式(是非題)
b、試題不受作答速度的影響
c、試題都是同質的,亦即都測量到一個相同的因素。
C、誤差來源:
內容抽樣誤差
D、同質性與異質性:
a、同質性:
題目中只含一種概念,如僅測加法。
b、異質性:
題目中,含多種概念,如加減乘除的四則運算。
c、同質性越高的題目,所測得的信度將越高。
E、最常用的為庫李20及庫李21號公式。
a、KR-20
如果假設測驗題目的每題的困難度都相同,亦即測驗中每題答對與答錯人數百分比的乘積都相等,則可以用庫李21號公式求得信度係數。
b、KR-21
庫李20與21號公式的差別就是對題目困難度的假設不同,當所有題目的困難度都相等,則兩個公式所計算出來的信度係數相同,如果題目困難度不一,則庫李21號公式所計算的信度係數會比20號公式要來的低(Crocker&Algina,1986)。
(3)Cronbach α係數(克朗巴賀提出)
A、適用於多元計分方式的評量,如選擇題。
B、誤差來源:
內容抽樣的誤差
C、是所有信度估計的下限,亦即真正的信度,一定比它高。
D、庫李法與α法的基本限制
a、僅適用於難度測驗而不適於速度測驗,因有高估的傾向。
b、無法反映時間取樣對測驗分數的影響,而只能指出內容取樣和內容差異的誤差。
4、評分者信度:
(1)屬主觀判斷的,缺乏客觀的評分標準。
(2)誤差來源:
評分者誤差
(3)評分者信度的估計方法:
A、從測驗中抽樣,單獨由兩位評分者(或若干位)對每一位試卷評分。
B、根據所評分數求相關
a、等級、等第分數:
如甲、乙、丙,採用Spearman等級相關係數。
b、連續性分數:
如85分,、90分,採用Pearson積差相關。
c、等級分數,評分者超過二位:
採Kendall和諧係數。
d、連續性分數,評分者超過二位:
採Hoyt變異數分析。
評分者人數
二名
二名以上
評
分
方
式
名
次
法
斯皮爾曼
等級相關係數
肯德爾和諧係數
(等級資料)
分
數
法
皮爾遜
積差相關係數
變異數分析
(Hoyt法)
(等距資料)
估計評分者信度可用的統計方法
《補充評分者的各種效應》
評分者因素常見者為:
評分標準不一、分數分配不同及分數的變異程度大。
造成這些因素的常見原因為:
1.月暈效應:
學生在其他方面的表現,會影響閱卷者對他寫作能力的評分判斷
2.項目間的遺留效應:
考生前一題的作答情形,會影響評分者對他下一題的評分
3.試卷間的遺留效應:
在連續低劣試卷之後被評分,分數往往較高;在連續優良試卷之後被評分,分數往往較低。
4.次序效應:
評分者給分會出現溜滑梯效應,較早批閱的分數較高,晚批閱的分數較低。
5.文字操作效應:
教師評分時無法單就內容評分,會受到錯別字、標點、文法、筆跡、字數的影響,如果錯字連篇、筆跡潦草、篇幅過短都不易獲得高分。
●教師在批閱論文題時,常因學生在第一題的表現而影響第二題的評分。
下列何者最符合這種效應?
(A)月暈效應(haloeffect)(B)溜滑梯效應(slideeffect)(C)文字操作效應(languagemechanicseffect)(D)遺留效應(carryovereffect)(ANS:
D)
●當評分者對受試者進行評定時,由於受到與評定特質無關之印象,影響到給分的判斷,係屬下列何種效應?
(A)月暈效應(B)遺留效應(C)次序效應(D)苛刻效應(ANS:
A)
《題目補充》
1.計算評分者信度的統計方法中,當評分方式是採名次法,且評分者人數在2名以上時,下列何種方法較為合適?
(A)Hoyt法(B)肯德爾和諧係數(C)皮爾遜積差相關係數(D)斯皮爾曼等級相關係數(ANS:
B)
2.林老師想了解學生成績及格與否和學生兩種不同入學方式(申請與基測)的關係,則應以何種相關係數表示?
(A)績差相關(product-momentcorrelation)(B)等級相關(rank-ordercorrelation)(C)Phi相關(phicorrelation)(D)直線相關(linearcorrelation)(ANS:
C)
(Phi相關(phicorrelation):
適用於兩變項都是二分名義變項)
3.如果兩個評分者評出來的分數資料都是等級的,那麼求信度係數時應該求什麼相關?
(A)積差相關(B)等級相關(C)二系列相關(D)肯德爾和諧係數。
(ANS:
B)
4.測驗手冊中所呈現的再測信度和複本信度之係數為:
(A)類別相關係數(B)二序列相關係數(C)等級相關係數(D)積差相關係數(ANS:
D)
(重測跟副本都是兩份測驗(只是相同或不同測驗的分別),計算"兩份"測驗之間的相關,而且每一份的分數都是連續的(例如1~100),既然是兩份又是連續,當然符合積差相關的定義)
5.如果兒童智商與數學成就測驗分數的積差相關係數r=.80;則智商對數學學習成就的預測力大約是(A)40(B)20(C)80(D)60(ANS:
D)
6.某教授為了驗證其「自編憂鬱量表」之效度,採用已經廣泛使用的「貝克憂鬱量表」總分與「自編憂鬱量表」得分之皮爾森積差相關係數來驗證,此作法稱為下列何者?
(A)區辨效度(B)聚斂效度(C)內容效度(D)效標關聯效度(ANS:
D)
7.比較適合用傳統求Pearson積差相關的方法,做信度估計的是(A)效標參照測驗(B)常模參照測驗(C)各項技能檢定測驗(D)各項事實普查測驗。
(ANS:
B)
8.在考驗研究工具的信度時,如果填答方式是採用李克特式填答方法,必須採用哪一種考驗方式?
(A)庫李信度(B)克朗巴赫(Cronbach)α係數信度(C)重測信度(D)複本信度。
(ANS:
B)
(在教育測驗中,有許多測驗的計分是屬於多元計分的方式,尤其是情意方面的測量,測驗學者常用「李克式五點評定量表」,像類似此種方式計分的測驗,就必須採用克朗巴賀(Cronbach)所發表的α係數)
9.最常用來估計態度量表的信度係數之方法為何?
(A)Rulon信度(B)Cronbach信度(C)Kuder-Richardson信度(D)Flanagan信度(ANS:
B)
10.教師編一份測驗,如果是以李克特(Likert)五點計分的方式來計分,那在求信度係數時會採用那一種方法?
(A)庫李法(B)折半法(C)Cronbachα係數(D)相關法(ANS:
C)
11.多重記分的測驗,如
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 测验 评量 嘉义 大学