期末考試分數(shù)線的決策信度探究
作者:西安外國語大學國際學院 陜西西安 吳耀武
發(fā)布時間:2015-03-20 11:34:52
【摘 要】期末考試的分數(shù)線劃分對學生的影響甚大。分數(shù)線的劃分合理、可靠與否取決于可靠性指數(shù)和平均分兩個因素。本文通過比較Cronbach Alpha系數(shù),ICC系數(shù)以及可靠性系數(shù)之間的異同,認為要保證分數(shù)線劃分的公正性,考試結果的可靠性指數(shù)必須達到0.8以上,同時分數(shù)線必須小于或者高于平均分,分數(shù)線與平均分的距離不超過一個標準差。
【關鍵詞】標準參照考試 Cronbach Alpha系數(shù) 可靠性指數(shù) ICC系數(shù) 分數(shù)線
期末考試是檢查每個學生對于所學內容掌握的具體情況,考試的內容可以按照教學大綱或者整個英語學習階段的學習目標來制訂(Hughes,1989;Bachman,1990)。期末考試不是關注每個學生在班上的排名,而是關注每個學生對于所學內容掌握的程度,因此,我們不能用常模參照考試方法來衡量考試結果,而必須使用標準參照考試來制訂詳細的成績報表,以診斷考生的問題所在(Brown and Hudson,2002;Brown,2005)。
從考試用途的廣義來講,期末考試在很大程度上決定考生的未來,因此,考試使用的公正性問題就顯得相當重要,教師們不得不慎重考慮期末考試的效度問題??荚嚨男Ф炔粌H僅指考試分數(shù)的可靠性,還指考試使用所產生的各種影響(Messick,1989)。如果學校的期末考試不算是一種大型的考試,那么就不會有考生期末作弊的現(xiàn)象出現(xiàn)。作為大學英語教師,我們必須高度重視考試設計、施測、評分、分數(shù)解釋、決策等各個環(huán)節(jié),同時考慮考試對考生產生的影響。但是目前我們對于期末考試使用的研究還相當?shù)牟恢匾暋?/p>
期末考試的效度
期末考試不是常模參照性考試,所以常模參照性考試的信度分析方法(試卷的內部關系)不完全適用于期末考試。我們不可能反復考試,也不可能采用分半計算(如作文考試怎么分半?)。對于作文考試,我們最好的就是采用多重評分(無論是分析法還是綜合法)。目前的許多實踐都是采用α系數(shù),它是一種折中辦法,沒有確定系數(shù)上下限的大小。如果是三個人對所有考生的作文分別評分,最后的結果就是三位教師評分信度估計的折中系數(shù)。其實SPSS信度計算中有組間相關系數(shù)(ICC),它可以確定一個評分者的信度大小和三個人平均的信度系數(shù)大小。一般線性模型也可以確定每一個評分者的一致性問題,還可以兩兩比較。但是,如果三個教師評閱所有學生的作文,計算出來的信度還是比較低怎么辦?傳統(tǒng)的辦法沒法告訴我們增加多少個教師才可以達到較為理想的信度大小,也不可能告訴我們評分者所產生的誤差大小是否可以接受。因此,我們需要借助概化理論來實現(xiàn)(Shavelson and Webb,1991)。概化理論在作文考試的應用在國外已經相當普遍(如Schoonen,2005),而在國內多數(shù)都是運用于英語教學以外的學科。
我們除了確保考試設計、開發(fā)、施測和試卷評閱等過程的一致性外,期末考試還需考慮分數(shù)線的劃分,正確地劃分“過關”與“不過關”的學生,同時要針對分數(shù)線對學生產生的影響進行研究。只有這樣我們才可以保證我們的考試使用是公正合理的,也就是說我們需要確定在多大程度上我們的劃分是可靠的,多大程度上我們的劃分是因為考試本身的因素,而不是偶然因素造成的結果(Brown and Hudson, 2002)。本文試圖比較Cronbach Alpha系數(shù)、ICC系數(shù)以及可靠性系數(shù)之間的異同,確定分數(shù)線劃分的條件。
實例
本文主要談論期末考試的信度問題,所以主要關注如何通過組內相關計算考試信度,如何通過概化理論來細化誤差大小,如何計算分數(shù)線所產生的門檻闕失值的大?。≒o,threshold-loss agreement)對學生的影響,從而最大限度降低決策錯誤給考生帶來的不利后果。對于概化理論的詳細闡述和公式,讀者可以參閱Shavelson and Webb(1991),以及楊志明和張雷(2003)的《測評的概化理論及其應用》。本文主要講解如何通過SPSS來實現(xiàn)概化理論的應用,解決期末考試分數(shù)線劃分的問題,以便廣大教師實踐操作。本文采用的作文考試數(shù)據來源于Brown(2005:186),55個學生參加了總分為100分的作文考試,然后由3位閱卷教師分別獨立對所有學生的作文進行評閱。首先我們需要用SPSS和概化理論來分析本次考試分數(shù)的信度、ICC系數(shù)和各個因素的方差大小,以確定評分者誤差是否可以接受。然后根據Brown和Hudson(2002)提供的公式來計算Po值和Kappa值的大小,從而確定分數(shù)線劃分可靠性比例,然后在此基礎上探討不同分數(shù)線的決策信度。
1.α系數(shù)和組間系數(shù)ICC
首先打開SPSS,在變量視窗里建立變量,然后切換到數(shù)據視窗,分別輸入所有的數(shù)據,并保存。仔細檢查,確保無一遺漏或者輸錯。找到分析工具(Analyze)欄下拉菜單(scale)中的信度分析(reliability analysis)工具。將評分者變量選入到右邊的方框里,點擊(Statistics)統(tǒng)計按鈕選擇要輸出的統(tǒng)計結果。點擊按鈕(Continue),返回信度分析框,按OK鍵,系統(tǒng)自動生成我們需要的結果。下面分析解釋輸入結果的含義。
圖1 標準化Cronbach Alpha系數(shù)
標準Cronbach Alpha系數(shù)是信度系數(shù)的折中,由圖1可以看出三位評分者所得出的信度系數(shù)為0.831。
圖2 評分者相關系數(shù)
圖2評分者相關系數(shù)實際上并不高,相關系數(shù)介于0.571—0.662之間。
圖3 評分者獨立性檢驗
圖3可以看出,三個評分者是獨立評分的,交互效應不明顯 (殘差值residual不顯著)。作文考試的平均分為70分。
圖4 組間相關系數(shù)(ICC)
組間相關系數(shù)(Interclass Correlation Coefficient)表明,如果只有一位教師評閱所有試卷,那么ICC=0.622,95%的置信區(qū)間為0.482—0.736;若是三位教師評分的話,ICC=0.831,95%的置信區(qū)間為0.736—0.896。也就是說ICC可以更加具體地刻畫信度系數(shù)的波動。
2.方差分量和可靠性系數(shù)
我們現(xiàn)在檢查評分者誤差的大小到底是否可以接受,進行概化理論G研究和D研究。采用同樣的數(shù)據,選擇一般線性模型的重復測量方法(repeated measures)來檢查評分者的方差分量。定義重復測量的變量(Within-Subject Factor name) 為rater,重復測量的次數(shù)(Number of levels) 為3次,點擊添加(Add)按鈕。然后點擊(Define)按鈕,分別定義變量和因素,選擇模型按鈕(Model)定義自定義模型(Custom)點擊(Continue)按鈕返回重復測量對話框(Repeated Measures),點擊(Options)按鈕,將左邊的因素移入右邊,以呈現(xiàn)所需的平均數(shù)。點擊(Continue)按鈕,返回,再點擊Ok按鈕,生成數(shù)據。從(Tests Within-Subjects Effects)和(Tests Between-Subjects Effects)提取我們所需的數(shù)據,如圖5所示,平均分為70分,95%置信區(qū)間,平均分范圍為65—75分之間。
圖5 平均分范圍
圖6 評分者內部一致性和評分者間差異比較
可以看出在95%的置信區(qū)間內,第一位評分者的評分在評閱所有考生的作文時,其尺度是相當一致的,標準誤差為零。第二位和第三位評分者的內部一致性就差遠了,而且95%的置信區(qū)間內,所有學生的平均分波動很大。
圖7 方差變異來源、類型以及均方差
根據公式,計算各個因素的方差分量大小:
圖8 方差分量
評分者方差分量為1.4477,再考察其yardstick值,即方差分量之平方根■,yardstick=1.2032。即是說,大約有95%的概率水平評分波動在±2■,即±2.4064之間。很顯然,與作文總分100分相比,此波動較小,是可以接受的。
絕對誤差:
評分者誤差遠遠小于絕對誤差,只有絕對誤差的九分之一。
可靠性指數(shù):
=63.3066/(63.3066+12.9295) = 0.8304
將可靠性指數(shù)開方后的大小為0.9112,這表明由三位教師評閱的學生作文成績的實得分數(shù)與學生的真實表現(xiàn)之間的相關為0.9112,也就是說3個評分者對學生的作文評定較為準確。如果可靠性指數(shù)要達到0.9的話,則需要6位教師分別評閱所有的試卷。在實際中,條件所限,不太可能。
但是,如果只有一個教師評閱的話,可靠性指數(shù)就只有0.62(表明由三位教師評閱的學生作文成績的實得分數(shù)與學生的真實表現(xiàn)之間的相關為0.7874),這樣通過概化理論計算得出的一位評卷教師閱卷,作文的可靠性指數(shù)和組間相關(Interclass Correlation)ICC系數(shù)是一致的。而三個評卷教師所得出的可靠性指數(shù)高于ICC系數(shù),而更加接近95%置信區(qū)間ICC系數(shù)的上限(0.896)。這說明,概化理論所刻畫的信度比ICC系數(shù)、Cronbach Alpha系數(shù)更加準確。
3.分數(shù)線的決策信度
現(xiàn)在我們需要分析分數(shù)線所產生的影響,決定分數(shù)線的可靠性大小。由SPSS得知平均分為70.1455分,我們就以70.1455的分數(shù)線來判斷門檻闕值(Threshold-loss agreement)的大小以決定70.1455分是否合適。Brown(2002:173)建議,如果期末考試只考一次,那么可以通過以下公式來計算:
其中Z表示標準分數(shù)線的值,C表示分數(shù)線的原始分,M為平均分,S為標準差,0.5為調節(jié)因子常數(shù)。
考生的最后得分為三位評分者分數(shù)的平均分,通過SPSS計算得出標準差S=8.6495,所以:Z = (70.1455-0.5-70.1455)/8.6495=0,查表(Brown和Hudson,2002:174—175),當Z=0,可靠性指數(shù)=0.8763(或者ICC= Cronbach Alpha=0.831)時, 0.8
但是分數(shù)線的決策信度到底如何呢?我們需要兩個公式來計算,最后根據實際情況決定劃分什么線。概化理論提供了兩種公式 (Brown and Hudson, 2002; Brown, 2005),當采用0,1記法,公式如下:
(公式1)
其中,?姿為以百分比計算的分數(shù)線,k為考試的題目數(shù),MP為百分比分數(shù)的平均分,SP為百分比分數(shù)的標準差。其他情況下采用下面的公式(楊志明,張雷,2003):
(公式2)
其中:?準(?姿)是phi (lambda)估計,?姿為分數(shù)線,?滓p2為被試(考生)的方差分量估計值,?滓r2為評分者方差分量估計值,?滓pr2為被試和評分者的交互效應估計值,XPR為全域分平均值,nr為評分者數(shù)?,F(xiàn)在我們根據第二個公式來計算分數(shù)線70.1445的決策信度。
?準(70)的決策信度為0.8304,這表示70分的分數(shù)線,其決策的可靠性為83%。當然不同的分數(shù)線,決策信度是不一樣的。一般來講,當分數(shù)線遠離平均分時,決策信度最高(Bachman,1990;Brown,2002)。當分數(shù)線與樣本平均分相等時(見表1),決策信度最低,即這時最有可能把學生歸入到錯誤的類別中去。本次作文考試的最低決策信度在0.8304以上,所以可以認為這次作文考試的質量較高。
結論
只有可靠性指數(shù)達到0.8以上,分數(shù)線劃分的公正線才得到起碼的保證。在此基礎上可以看出,本次作文的標準差為8.6495,那么在一個標準差內的分數(shù)線的可靠性較高,但是不能接近平均分。也就是說,本次作文課程需要重修的考生分數(shù)在M-1S前后,即62分以下的學生至少需要重修。當然,可以根據實際情況制訂比如64的分數(shù)線,但前提是保證較高的決策信度。
參考文獻:
[1]Bachman,Lyle F.Fundamental considerations in language testing[M].Oxford:Oxford University Press,1990.
[2]Brown,James Dean.Testing in language programs:a comprehensive guide to English language assessment[M].McGraw-Hill Companies, Inc.,2005.
[3]Brown,James Dean.& Thom Hudson.Criterion-referenced language testing[M].Cambridge:Cambridge University Press,2002.
[4]Hughes,Arthur.Testing for language teachers[M].Cambridge:Cambridge University Press,1989.
[5]Kunnan, A. J. (ed.). Fairness and Validation in Language Assessment[C].Cambridge: CUP,2000.
[6]Messick,Samuel.Validity[A].In Robert L.Linn(ed.).Educational measurement(3rd ed.).London:Collier Macmillan Publishers,1989.
[7]Shavelson, Richard J.& N.M.Webb.Generalizability theory:a primer[M]. California:Sage Publications, Inc.,1991.
[8]Rob Schoonen.Generalizability of writing scores:an application of structural equation modeling the effect of these facets is estimated in a generalizability study using variance analytic techniques[J].Language Testing, 2005,22(1).
[9]楊志明,張雷.測評的概化理論及其應用[M].北京:教育科學出版社,2003.
