效度(Validity)
效度(Validity),即有效性,反映已有證據(jù)可以在多大程度上支持根據(jù)測驗分數(shù)所作出的推論,是衡量考試質(zhì)量的重要的標志之一。編制一個考試,首先需要回答的問題是:“這個考試測試什么?”例如,一個數(shù)學能力考試測的是“數(shù)學能力”,考試分數(shù)就被視為是對考生數(shù)學能力的測量。而考生真實能力是否如實地反映在成績上,就是這場考試的“效度”。將標準化考試運用于人才選拔的邏輯依據(jù)主要是“效度資料”,即可以用事實說明:在這項考試中考高分的人平均能力高于考低分的人,以考試選拔的學生比隨即選拔的學生平均能力更強,考高分的人將來在大學的表現(xiàn)高于低分的人。甚至,考高分的人未來的職業(yè)發(fā)展水平好于低分的人。SAT(Scholastic Assessment Test)是一場能力測試,目前沒有確定的大綱范圍,對記憶力的要求不高,更多的著眼于潛力,用來普及高等教育,對于所有背景的學生提供了在大學是否能夠取得成功的公平而有效的預測。目前,SAT已經(jīng)成為對大學準備情況的高度可靠并且有效的衡量標準,被應用于美國基本所有四年制大學和學院,包括非強制性測驗機構的入學申請過程中。每年有將近300萬學生通過170多個國家的將近7,000個考試中心參加SAT考試。SAT考察內(nèi)容反映了高中課堂上所教授的閱讀、數(shù)學和寫作課程。不僅如此,SAT還衡量學生運用知識的能力,對大學和事業(yè)上的成功至關重要。SAT的歷史數(shù)據(jù)說明,SAT的高分與高中階段的學習類型和嚴謹性相關。比如,2012年College & Career Readiness的報告顯示,在美國有43%的高中畢業(yè)生具有充足的學術儲備,而這些學術儲備與學生大學階段成功與否高度相關。此項結(jié)論基于SAT成績的數(shù)據(jù)統(tǒng)計,SAT基準分數(shù)為1550分,符合此標準的考生大學一年級GPA及一年后的留存率都更高。此外,數(shù)據(jù)還證明,那些完成核心課程學習并參加榮譽或大學先修課程(AP)的學生在SAT考試中表現(xiàn)更佳。
信度(Reliability)
信度(reliability)是反映測驗結(jié)果受到隨機誤差影響程度的指標,是評價測驗質(zhì)量的基本指標。高信度是高效度的前提??荚囎鳛橐话殉咦樱瑧摼哂蟹€(wěn)定性和可靠性。如果同一個學生,今天考試得到一個成績,明天考試得到另外一個成績,這把尺子就是不可靠的。當然,像是中國的高考,考察一撥學生在一次考試中的排名,也具有人才選拔的作用。但是,因為高考題目的難度并不穩(wěn)定,不同年份的高考對于同一個考生而言成績可能并不一樣。而對于SAT這樣一年多次的考試,考試信度非常重要,力求不同月份的考試能同樣測量同學們的能力。所以在理論上,每一次SAT考試的每一個題目都是經(jīng)過精心測量的,力求總體的一致性,并不存在所謂“一月考題通常都比較難”之類的猜想。考生可能會在某次考試中“感覺”“閱讀比較難,語法比較簡單”之類。出現(xiàn)這種“感覺”,要么是學生自己的感覺標準問題,要么是本次考題在難度之間有了不均衡的平衡,換言之,感覺閱讀特別難,作為平衡,其他某一項應該會低于常見標準??傊?,總的難度應該是一致的。而ETS如何**難度的一致呢?從形式上,這是“多一個部分(section)的實驗題目”存在的原因,這個不計入成績的部分,給測算題目難度提供了大量的事實依據(jù)。
當然,客觀選擇題目的評分一向都比問答和作文之類的主觀題目更穩(wěn)定。寫作測試是評價學生綜合語言能力的有效工具,但在作文評分中,評分員容易出現(xiàn)“趨中評分”,即打“中間分”的現(xiàn)象。為了避免此類現(xiàn)象,ETS在題目設計、評分員選擇和統(tǒng)計模型對評分員進行評估等方面都做了很多努力,力求**成績的穩(wěn)定性和可靠性。SAT的作文采用6分制標準,數(shù)據(jù)統(tǒng)計表明作文分制標準越大,反而不好清晰界定,人為干擾因素越強。SAT作文每個分制之間界定明確清晰,那怕是兩個老師給出統(tǒng)一分數(shù)的概率都很高。此外,ETS對于評分員的選擇、培訓和監(jiān)管上,都做到了世界一流水平。一位SAT作文的評分員,只能來自美國本土各州,經(jīng)過選拔和培訓,完成網(wǎng)上閱卷,工作地點遍布美國。評分員網(wǎng)上所審閱的作文,隱匿了應試者的個人信息,原則上,并不存在“壓低亞太區(qū)考生作文成績”說法。那么,考生(尤其是2013年下半年的考生)為什么會感覺自己的作文被壓低了成績了呢?出現(xiàn)此種問題的原因有二:1,ETS遇到了越來越多的“八股式”作文,對于這種作文的評分標準已經(jīng)出現(xiàn)在例行的評分員培訓中,對于這種作文的評分標準趨于統(tǒng)一,渾水摸魚越來越困難;2,考生在兩次SAT考試中用了類似的例子、結(jié)構、文筆,兩次成績有差別,主要因為對于文章中心思想的論證(development)有差別。一個例子,碰巧非常契合論證主題,得分就高;同一個例子,換一篇作文,就不一定論證有力,得分自然有差別。在這一點上,還請考生多多審題,平時多積累素材,不要準備“一個例子通天下”。
2014亞洲區(qū)SAT
ETS作為測試學的忠實實踐者,秉承科學測試和公平測試原則,SAT題目的設計、測試、評估都極其嚴謹科學,其試題開發(fā)周期之長、成本之高超乎大多數(shù)人想象,幾乎做到了現(xiàn)有條件下的極致。但是,試題的組織上,尤其題目重復方面,在近些年卻出現(xiàn)了一些問題,有損考試的信度和效度。通常而言,ETS試題的重復使用按照考試本身的初衷和設計來看并無大礙,對College Board而言也是理性的選擇。在法理上,College Board擁有對SAT試題的版權與使用權,在沒有得到它授權時,其他機構,包括個人都不應該擅自搜集、使用或者傳播其題目。當然,他們也有責任**試題的重復使用控制在一定范圍內(nèi)??墒?,2014年5月的SAT考試,北美考區(qū)和國際考區(qū)的題目竟然一致:比如Critical Reading部分中的文章主題一致,Writing部分中的篇章改進題的主題也一致。另外,有證據(jù)表明2014年的AP化學北美和中國大陸使用的是同一套試題,我們都知道中國大陸與北美存在12個小時左右的時差。在5月5日考完AP化學的第二天,有考生在移動設備中的一款應用軟件中寫道:“剛考完搜了下看到昨天發(fā)的簡答部分回憶簡直驚呆了”,然后學生又寫道“不過我們走的是實力派路線的”。我們可以把這種現(xiàn)狀理解為試題循環(huán)使用的極端情況,即循環(huán)周期極短以至于同時使用。這在之前難以想象。以往的試題循環(huán)往往是國際考區(qū)循環(huán)使用一年甚至幾年前的某一套北美考區(qū)題目。如果某些考生或考試培訓機構試圖希望從中找到“捷徑”無異于危險的賭博,有誰愿意把可能影響自己命運的重要考試寄托在小概率事件上呢?但當在同一時間或者相當短的時間內(nèi)釋放的考試題目存在一致的可能性很大時,事情就會發(fā)生根本性的變化。
作為經(jīng)驗豐富的考試官方機構,理應考慮競爭性考試的試題循環(huán)一定是非常敏感的問題,并且在互聯(lián)網(wǎng)科技發(fā)達的今天,試題循環(huán)所帶來的考試不公的潛在風險將被無限放大。一旦這個微弱的可能性被驗證過一次,就會被再次關注甚至激起狂熱,考試的公平與機會均等的原則就會遭到破壞。我們可以理解,嚴謹?shù)腅TS對試題開發(fā)流程的關注,更多的精力和成本將被放到新SAT試題開放上,而現(xiàn)行SAT試題的開發(fā)力度將被降低,試題重復使用的可能性增加。我們不得不遺憾地說,如果試題循環(huán)使用的周期得不到有效的管理和調(diào)整,所有的考試相關利益者都是潛在的受害者:考生在考前不是認真?zhèn)淇级莾A向于上網(wǎng)搜索答案“線索”時,何以踐行delivering opportunity的偉大理念?有關考生分數(shù)統(tǒng)計的信度和效度又將如何體現(xiàn)?美國大學的招生官們——相關考試分數(shù)的使用者,又該如何有效評估這樣的分數(shù),以及如何建立學生之間、不同場次的考試之間分數(shù)的權衡標準?對于考試培訓機構而言,行業(yè)的使命、價值觀和規(guī)范將受到挑戰(zhàn),行業(yè)中誠實的企業(yè)和誠實的人的努力將被稀釋。是繼續(xù)堅守還是隨波逐流?所有這一切,都對考試的公平,個人的誠信,以及努力獲得收獲等基本理念的挑戰(zhàn)。這些影響遠遠超越了考試本身。在理想與現(xiàn)實、“應然”與“實然”的天平之間,我們的考生將站在何處?這將極大的影響我們未來社會的價值取向,值得我們深刻反省與思考。