當(dāng)前位置 : 好學(xué)校  天道教育廣州分公司  學(xué)習(xí)資訊  資訊詳情

【亞洲SAT考試分析】標(biāo)準(zhǔn)化考試的信度與效度該何去何從

2015-02-03

效度(Validity)

效度(Validity)，即有效性，反映已有證據(jù)可以在多大程度上支持根據(jù)測驗(yàn)分?jǐn)?shù)所作出的推論，是衡量考試質(zhì)量的重要的標(biāo)志之一。編制一個(gè)考試，首先需要回答的問題是：“這個(gè)考試測試什么?”例如，一個(gè)數(shù)學(xué)能力考試測的是“數(shù)學(xué)能力”，考試分?jǐn)?shù)就被視為是對考生數(shù)學(xué)能力的測量。而考生真實(shí)能力是否如實(shí)地反映在成績上，就是這場考試的“效度”。將標(biāo)準(zhǔn)化考試運(yùn)用于人才選拔的邏輯依據(jù)主要是“效度資料”，即可以用事實(shí)說明：在這項(xiàng)考試中考高分的人平均能力高于考低分的人，以考試選拔的學(xué)生比隨即選拔的學(xué)生平均能力更強(qiáng)，考高分的人將來在大學(xué)的表現(xiàn)高于低分的人。甚至，考高分的人未來的職業(yè)發(fā)展水平好于低分的人。SAT(Scholastic Assessment Test)是一場能力測試，目前沒有確定的大綱范圍，對記憶力的要求不高，更多的著眼于潛力，用來普及高等教育，對于所有背景的學(xué)生提供了在大學(xué)是否能夠取得成功的公平而有效的預(yù)測。目前，SAT已經(jīng)成為對大學(xué)準(zhǔn)備情況的高度可靠并且有效的衡量標(biāo)準(zhǔn)，被應(yīng)用于美國基本所有四年制大學(xué)和學(xué)院，包括非強(qiáng)制性測驗(yàn)機(jī)構(gòu)的入學(xué)申請過程中。每年有將近300萬學(xué)生通過170多個(gè)國家的將近7,000個(gè)考試中心參加SAT考試。SAT考察內(nèi)容反映了高中課堂上所教授的閱讀、數(shù)學(xué)和寫作課程。不僅如此，SAT還衡量學(xué)生運(yùn)用知識的能力，對大學(xué)和事業(yè)上的成功至關(guān)重要。SAT的歷史數(shù)據(jù)說明，SAT的高分與高中階段的學(xué)習(xí)類型和嚴(yán)謹(jǐn)性相關(guān)。比如，2012年College & Career Readiness的報(bào)告顯示，在美國有43%的高中畢業(yè)生具有充足的學(xué)術(shù)儲備，而這些學(xué)術(shù)儲備與學(xué)生大學(xué)階段成功與否高度相關(guān)。此項(xiàng)結(jié)論基于SAT成績的數(shù)據(jù)統(tǒng)計(jì)，SAT基準(zhǔn)分?jǐn)?shù)為1550分，符合此標(biāo)準(zhǔn)的考生大學(xué)一年級GPA及一年后的留存率都更高。此外，數(shù)據(jù)還證明，那些完成核心課程學(xué)習(xí)并參加榮譽(yù)或大學(xué)先修課程(AP)的學(xué)生在SAT考試中表現(xiàn)更佳。

信度(Reliability)

信度(reliability)是反映測驗(yàn)結(jié)果受到隨機(jī)誤差影響程度的指標(biāo)，是評價(jià)測驗(yàn)質(zhì)量的基本指標(biāo)。高信度是高效度的前提。考試作為一把尺子，應(yīng)該具有穩(wěn)定性和可靠性。如果同一個(gè)學(xué)生，今天考試得到一個(gè)成績，明天考試得到另外一個(gè)成績，這把尺子就是不可靠的。當(dāng)然，像是中國的高考，考察一撥學(xué)生在一次考試中的排名，也具有人才選拔的作用。但是，因?yàn)楦呖碱}目的難度并不穩(wěn)定，不同年份的高考對于同一個(gè)考生而言成績可能并不一樣。而對于SAT這樣一年多次的考試，考試信度非常重要，力求不同月份的考試能同樣測量同學(xué)們的能力。所以在理論上，每一次SAT考試的每一個(gè)題目都是經(jīng)過精心測量的，力求總體的一致性，并不存在所謂“一月考題通常都比較難”之類的猜想?？忌赡軙谀炒慰荚囍小案杏X”“閱讀比較難，語法比較簡單”之類。出現(xiàn)這種“感覺”，要么是學(xué)生自己的感覺標(biāo)準(zhǔn)問題，要么是本次考題在難度之間有了不均衡的平衡，換言之，感覺閱讀特別難，作為平衡，其他某一項(xiàng)應(yīng)該會低于常見標(biāo)準(zhǔn)。總之，總的難度應(yīng)該是一致的。而ETS如何**難度的一致呢?從形式上，這是“多一個(gè)部分(section)的實(shí)驗(yàn)題目”存在的原因，這個(gè)不計(jì)入成績的部分，給測算題目難度提供了大量的事實(shí)依據(jù)。

當(dāng)然，客觀選擇題目的評分一向都比問答和作文之類的主觀題目更穩(wěn)定。寫作測試是評價(jià)學(xué)生綜合語言能力的有效工具，但在作文評分中，評分員容易出現(xiàn)“趨中評分”，即打“中間分”的現(xiàn)象。為了避免此類現(xiàn)象，ETS在題目設(shè)計(jì)、評分員選擇和統(tǒng)計(jì)模型對評分員進(jìn)行評估等方面都做了很多努力，力求**成績的穩(wěn)定性和可靠性。SAT的作文采用6分制標(biāo)準(zhǔn)，數(shù)據(jù)統(tǒng)計(jì)表明作文分制標(biāo)準(zhǔn)越大，反而不好清晰界定，人為干擾因素越強(qiáng)。SAT作文每個(gè)分制之間界定明確清晰，那怕是兩個(gè)老師給出統(tǒng)一分?jǐn)?shù)的概率都很高。此外，ETS對于評分員的選擇、培訓(xùn)和監(jiān)管上，都做到了世界一流水平。一位SAT作文的評分員，只能來自美國本土各州，經(jīng)過選拔和培訓(xùn)，完成網(wǎng)上閱卷，工作地點(diǎn)遍布美國。評分員網(wǎng)上所審閱的作文，隱匿了應(yīng)試者的個(gè)人信息，原則上，并不存在“壓低亞太區(qū)考生作文成績”說法。那么，考生(尤其是2013年下半年的考生)為什么會感覺自己的作文被壓低了成績了呢?出現(xiàn)此種問題的原因有二：1，ETS遇到了越來越多的“八股式”作文，對于這種作文的評分標(biāo)準(zhǔn)已經(jīng)出現(xiàn)在例行的評分員培訓(xùn)中，對于這種作文的評分標(biāo)準(zhǔn)趨于統(tǒng)一，渾水摸魚越來越困難;2，考生在兩次SAT考試中用了類似的例子、結(jié)構(gòu)、文筆，兩次成績有差別，主要因?yàn)閷τ谖恼轮行乃枷氲恼撟C(development)有差別。一個(gè)例子，碰巧非常契合論證主題，得分就高;同一個(gè)例子，換一篇作文，就不一定論證有力，得分自然有差別。在這一點(diǎn)上，還請考生多多審題，平時(shí)多積累素材，不要準(zhǔn)備“一個(gè)例子通天下”。

2014亞洲區(qū)SAT

ETS作為測試學(xué)的忠實(shí)實(shí)踐者，秉承科學(xué)測試和公平測試原則，SAT題目的設(shè)計(jì)、測試、評估都極其嚴(yán)謹(jǐn)科學(xué)，其試題開發(fā)周期之長、成本之高超乎大多數(shù)人想象，幾乎做到了現(xiàn)有條件下的極致。但是，試題的組織上，尤其題目重復(fù)方面，在近些年卻出現(xiàn)了一些問題，有損考試的信度和效度。通常而言，ETS試題的重復(fù)使用按照考試本身的初衷和設(shè)計(jì)來看并無大礙，對College Board而言也是理性的選擇。在法理上，College Board擁有對SAT試題的版權(quán)與使用權(quán)，在沒有得到它授權(quán)時(shí)，其他機(jī)構(gòu)，包括個(gè)人都不應(yīng)該擅自搜集、使用或者傳播其題目。當(dāng)然，他們也有責(zé)任**試題的重復(fù)使用控制在一定范圍內(nèi)?？墒牵?014年5月的SAT考試，北美考區(qū)和國際考區(qū)的題目竟然一致：比如Critical Reading部分中的文章主題一致，Writing部分中的篇章改進(jìn)題的主題也一致。另外，有證據(jù)表明2014年的AP化學(xué)北美和中國大陸使用的是同一套試題，我們都知道中國大陸與北美存在12個(gè)小時(shí)左右的時(shí)差。在5月5日考完AP化學(xué)的第二天，有考生在移動設(shè)備中的一款應(yīng)用軟件中寫道：“剛考完搜了下看到昨天發(fā)的簡答部分回憶簡直驚呆了”，然后學(xué)生又寫道“不過我們走的是實(shí)力派路線的”。我們可以把這種現(xiàn)狀理解為試題循環(huán)使用的極端情況，即循環(huán)周期極短以至于同時(shí)使用。這在之前難以想象。以往的試題循環(huán)往往是國際考區(qū)循環(huán)使用一年甚至幾年前的某一套北美考區(qū)題目。如果某些考生或考試培訓(xùn)機(jī)構(gòu)試圖希望從中找到“捷徑”無異于危險(xiǎn)的賭博，有誰愿意把可能影響自己命運(yùn)的重要考試寄托在小概率事件上呢?但當(dāng)在同一時(shí)間或者相當(dāng)短的時(shí)間內(nèi)釋放的考試題目存在一致的可能性很大時(shí)，事情就會發(fā)生根本性的變化。

作為經(jīng)驗(yàn)豐富的考試官方機(jī)構(gòu)，理應(yīng)考慮競爭性考試的試題循環(huán)一定是非常敏感的問題，并且在互聯(lián)網(wǎng)科技發(fā)達(dá)的今天，試題循環(huán)所帶來的考試不公的潛在風(fēng)險(xiǎn)將被無限放大。一旦這個(gè)微弱的可能性被驗(yàn)證過一次，就會被再次關(guān)注甚至激起狂熱，考試的公平與機(jī)會均等的原則就會遭到破壞。我們可以理解，嚴(yán)謹(jǐn)?shù)腅TS對試題開發(fā)流程的關(guān)注，更多的精力和成本將被放到新SAT試題開放上，而現(xiàn)行SAT試題的開發(fā)力度將被降低，試題重復(fù)使用的可能性增加。我們不得不遺憾地說，如果試題循環(huán)使用的周期得不到有效的管理和調(diào)整，所有的考試相關(guān)利益者都是潛在的受害者：考生在考前不是認(rèn)真?zhèn)淇级莾A向于上網(wǎng)搜索答案“線索”時(shí)，何以踐行delivering opportunity的偉大理念?有關(guān)考生分?jǐn)?shù)統(tǒng)計(jì)的信度和效度又將如何體現(xiàn)?美國大學(xué)的招生官們——相關(guān)考試分?jǐn)?shù)的使用者，又該如何有效評估這樣的分?jǐn)?shù)，以及如何建立學(xué)生之間、不同場次的考試之間分?jǐn)?shù)的權(quán)衡標(biāo)準(zhǔn)?對于考試培訓(xùn)機(jī)構(gòu)而言，行業(yè)的使命、價(jià)值觀和規(guī)范將受到挑戰(zhàn)，行業(yè)中誠實(shí)的企業(yè)和誠實(shí)的人的努力將被稀釋。是繼續(xù)堅(jiān)守還是隨波逐流?所有這一切，都對考試的公平，個(gè)人的誠信，以及努力獲得收獲等基本理念的挑戰(zhàn)。這些影響遠(yuǎn)遠(yuǎn)超越了考試本身。在理想與現(xiàn)實(shí)、“應(yīng)然”與“實(shí)然”的天平之間，我們的考生將站在何處?這將極大的影響我們未來社會的價(jià)值取向，值得我們深刻反省與思考。

收藏0 贊0

分享到：

相關(guān)課程