效度(Validity)
效度(Validity),即有效性,反映已有證據(jù)可以在多大程度上支持根據(jù)測驗(yàn)分?jǐn)?shù)所作出的推論,是衡量考試質(zhì)量的重要的標(biāo)志之一。編制一個(gè)考試,首先需要回答的問題是:“這個(gè)考試測試什么?”例如,一個(gè)數(shù)學(xué)能力考試測的是“數(shù)學(xué)能力”,考試分?jǐn)?shù)就被視為是對考生數(shù)學(xué)能力的測量。而考生真實(shí)能力是否如實(shí)地反映在成績上,就是這場考試的“效度”。將標(biāo)準(zhǔn)化考試運(yùn)用于人才選拔的邏輯依據(jù)主要是“效度資料”,即可以用事實(shí)說明:在這項(xiàng)考試中考高分的人平均能力高于考低分的人,以考試選拔的學(xué)生比隨即選拔的學(xué)生平均能力更強(qiáng),考高分的人將來在大學(xué)的表現(xiàn)高于低分的人。甚至,考高分的人未來的職業(yè)發(fā)展水平好于低分的人。SAT(Scholastic Assessment Test)是一場能力測試,目前沒有確定的大綱范圍,對記憶力的要求不高,更多的著眼于潛力,用來普及高等教育,對于所有背景的學(xué)生提供了在大學(xué)是否能夠取得成功的公平而有效的預(yù)測。目前,SAT已經(jīng)成為對大學(xué)準(zhǔn)備情況的高度可靠并且有效的衡量標(biāo)準(zhǔn),被應(yīng)用于美國基本所有四年制大學(xué)和學(xué)院,包括非強(qiáng)制性測驗(yàn)機(jī)構(gòu)的入學(xué)申請過程中。每年有將近300萬學(xué)生通過170多個(gè)國家的將近7,000個(gè)考試中心參加SAT考試。SAT考察內(nèi)容反映了高中課堂上所教授的閱讀、數(shù)學(xué)和寫作課程。不僅如此,SAT還衡量學(xué)生運(yùn)用知識的能力,對大學(xué)和事業(yè)上的成功至關(guān)重要。SAT的歷史數(shù)據(jù)說明,SAT的高分與高中階段的學(xué)習(xí)類型和嚴(yán)謹(jǐn)性相關(guān)。比如,2012年College & Career Readiness的報(bào)告顯示,在美國有43%的高中畢業(yè)生具有充足的學(xué)術(shù)儲備,而這些學(xué)術(shù)儲備與學(xué)生大學(xué)階段成功與否高度相關(guān)。此項(xiàng)結(jié)論基于SAT成績的數(shù)據(jù)統(tǒng)計(jì),SAT基準(zhǔn)分?jǐn)?shù)為1550分,符合此標(biāo)準(zhǔn)的考生大學(xué)一年級GPA及一年后的留存率都更高。此外,數(shù)據(jù)還證明,那些完成核心課程學(xué)習(xí)并參加榮譽(yù)或大學(xué)先修課程(AP)的學(xué)生在SAT考試中表現(xiàn)更佳。
信度(Reliability)
信度(reliability)是反映測驗(yàn)結(jié)果受到隨機(jī)誤差影響程度的指標(biāo),是評價(jià)測驗(yàn)質(zhì)量的基本指標(biāo)。高信度是高效度的前提。考試作為一把尺子,應(yīng)該具有穩(wěn)定性和可靠性。如果同一個(gè)學(xué)生,今天考試得到一個(gè)成績,明天考試得到另外一個(gè)成績,這把尺子就是不可靠的。當(dāng)然,像是中國的高考,考察一撥學(xué)生在一次考試中的排名,也具有人才選拔的作用。但是,因?yàn)楦呖碱}目的難度并不穩(wěn)定,不同年份的高考對于同一個(gè)考生而言成績可能并不一樣。而對于SAT這樣一年多次的考試,考試信度非常重要,力求不同月份的考試能同樣測量同學(xué)們的能力。所以在理論上,每一次SAT考試的每一個(gè)題目都是經(jīng)過精心測量的,力求總體的一致性,并不存在所謂“一月考題通常都比較難”之類的猜想??忌赡軙谀炒慰荚囍小案杏X”“閱讀比較難,語法比較簡單”之類。出現(xiàn)這種“感覺”,要么是學(xué)生自己的感覺標(biāo)準(zhǔn)問題,要么是本次考題在難度之間有了不均衡的平衡,換言之,感覺閱讀特別難,作為平衡,其他某一項(xiàng)應(yīng)該會低于常見標(biāo)準(zhǔn)。總之,總的難度應(yīng)該是一致的。而ETS如何**難度的一致呢?從形式上,這是“多一個(gè)部分(section)的實(shí)驗(yàn)題目”存在的原因,這個(gè)不計(jì)入成績的部分,給測算題目難度提供了大量的事實(shí)依據(jù)。
當(dāng)然,客觀選擇題目的評分一向都比問答和作文之類的主觀題目更穩(wěn)定。寫作測試是評價(jià)學(xué)生綜合語言能力的有效工具,但在作文評分中,評分員容易出現(xiàn)“趨中評分”,即打“中間分”的現(xiàn)象。為了避免此類現(xiàn)象,ETS在題目設(shè)計(jì)、評分員選擇和統(tǒng)計(jì)模型對評分員進(jìn)行評估等方面都做了很多努力,力求**成績的穩(wěn)定性和可靠性。SAT的作文采用6分制標(biāo)準(zhǔn),數(shù)據(jù)統(tǒng)計(jì)表明作文分制標(biāo)準(zhǔn)越大,反而不好清晰界定,人為干擾因素越強(qiáng)。SAT作文每個(gè)分制之間界定明確清晰,那怕是兩個(gè)老師給出統(tǒng)一分?jǐn)?shù)的概率都很高。此外,ETS對于評分員的選擇、培訓(xùn)和監(jiān)管上,都做到了世界一流水平。一位SAT作文的評分員,只能來自美國本土各州,經(jīng)過選拔和培訓(xùn),完成網(wǎng)上閱卷,工作地點(diǎn)遍布美國。評分員網(wǎng)上所審閱的作文,隱匿了應(yīng)試者的個(gè)人信息,原則上,并不存在“壓低亞太區(qū)考生作文成績”說法。那么,考生(尤其是2013年下半年的考生)為什么會感覺自己的作文被壓低了成績了呢?出現(xiàn)此種問題的原因有二:1,ETS遇到了越來越多的“八股式”作文,對于這種作文的評分標(biāo)準(zhǔn)已經(jīng)出現(xiàn)在例行的評分員培訓(xùn)中,對于這種作文的評分標(biāo)準(zhǔn)趨于統(tǒng)一,渾水摸魚越來越困難;2,考生在兩次SAT考試中用了類似的例子、結(jié)構(gòu)、文筆,兩次成績有差別,主要因?yàn)閷τ谖恼轮行乃枷氲恼撟C(development)有差別。一個(gè)例子,碰巧非常契合論證主題,得分就高;同一個(gè)例子,換一篇作文,就不一定論證有力,得分自然有差別。在這一點(diǎn)上,還請考生多多審題,平時(shí)多積累素材,不要準(zhǔn)備“一個(gè)例子通天下”。
2014亞洲區(qū)SAT
ETS作為測試學(xué)的忠實(shí)實(shí)踐者,秉承科學(xué)測試和公平測試原則,SAT題目的設(shè)計(jì)、測試、評估都極其嚴(yán)謹(jǐn)科學(xué),其試題開發(fā)周期之長、成本之高超乎大多數(shù)人想象,幾乎做到了現(xiàn)有條件下的極致。但是,試題的組織上,尤其題目重復(fù)方面,在近些年卻出現(xiàn)了一些問題,有損考試的信度和效度。通常而言,ETS試題的重復(fù)使用按照考試本身的初衷和設(shè)計(jì)來看并無大礙,對College Board而言也是理性的選擇。在法理上,College Board擁有對SAT試題的版權(quán)與使用權(quán),在沒有得到它授權(quán)時(shí),其他機(jī)構(gòu),包括個(gè)人都不應(yīng)該擅自搜集、使用或者傳播其題目。當(dāng)然,他們也有責(zé)任**試題的重復(fù)使用控制在一定范圍內(nèi)??墒牵?014年5月的SAT考試,北美考區(qū)和國際考區(qū)的題目竟然一致:比如Critical Reading部分中的文章主題一致,Writing部分中的篇章改進(jìn)題的主題也一致。另外,有證據(jù)表明2014年的AP化學(xué)北美和中國大陸使用的是同一套試題,我們都知道中國大陸與北美存在12個(gè)小時(shí)左右的時(shí)差。在5月5日考完AP化學(xué)的第二天,有考生在移動設(shè)備中的一款應(yīng)用軟件中寫道:“剛考完搜了下看到昨天發(fā)的簡答部分回憶簡直驚呆了”,然后學(xué)生又寫道“不過我們走的是實(shí)力派路線的”。我們可以把這種現(xiàn)狀理解為試題循環(huán)使用的極端情況,即循環(huán)周期極短以至于同時(shí)使用。這在之前難以想象。以往的試題循環(huán)往往是國際考區(qū)循環(huán)使用一年甚至幾年前的某一套北美考區(qū)題目。如果某些考生或考試培訓(xùn)機(jī)構(gòu)試圖希望從中找到“捷徑”無異于危險(xiǎn)的賭博,有誰愿意把可能影響自己命運(yùn)的重要考試寄托在小概率事件上呢?但當(dāng)在同一時(shí)間或者相當(dāng)短的時(shí)間內(nèi)釋放的考試題目存在一致的可能性很大時(shí),事情就會發(fā)生根本性的變化。
作為經(jīng)驗(yàn)豐富的考試官方機(jī)構(gòu),理應(yīng)考慮競爭性考試的試題循環(huán)一定是非常敏感的問題,并且在互聯(lián)網(wǎng)科技發(fā)達(dá)的今天,試題循環(huán)所帶來的考試不公的潛在風(fēng)險(xiǎn)將被無限放大。一旦這個(gè)微弱的可能性被驗(yàn)證過一次,就會被再次關(guān)注甚至激起狂熱,考試的公平與機(jī)會均等的原則就會遭到破壞。我們可以理解,嚴(yán)謹(jǐn)?shù)腅TS對試題開發(fā)流程的關(guān)注,更多的精力和成本將被放到新SAT試題開放上,而現(xiàn)行SAT試題的開發(fā)力度將被降低,試題重復(fù)使用的可能性增加。我們不得不遺憾地說,如果試題循環(huán)使用的周期得不到有效的管理和調(diào)整,所有的考試相關(guān)利益者都是潛在的受害者:考生在考前不是認(rèn)真?zhèn)淇级莾A向于上網(wǎng)搜索答案“線索”時(shí),何以踐行delivering opportunity的偉大理念?有關(guān)考生分?jǐn)?shù)統(tǒng)計(jì)的信度和效度又將如何體現(xiàn)?美國大學(xué)的招生官們——相關(guān)考試分?jǐn)?shù)的使用者,又該如何有效評估這樣的分?jǐn)?shù),以及如何建立學(xué)生之間、不同場次的考試之間分?jǐn)?shù)的權(quán)衡標(biāo)準(zhǔn)?對于考試培訓(xùn)機(jī)構(gòu)而言,行業(yè)的使命、價(jià)值觀和規(guī)范將受到挑戰(zhàn),行業(yè)中誠實(shí)的企業(yè)和誠實(shí)的人的努力將被稀釋。是繼續(xù)堅(jiān)守還是隨波逐流?所有這一切,都對考試的公平,個(gè)人的誠信,以及努力獲得收獲等基本理念的挑戰(zhàn)。這些影響遠(yuǎn)遠(yuǎn)超越了考試本身。在理想與現(xiàn)實(shí)、“應(yīng)然”與“實(shí)然”的天平之間,我們的考生將站在何處?這將極大的影響我們未來社會的價(jià)值取向,值得我們深刻反省與思考。