基于非統(tǒng)計約束的計算機化自適應(yīng)測驗選題策略
0 引言
與傳統(tǒng)考試相比,計算機化自適應(yīng)測驗(CAT)它使用更少的項目來確定對考生同樣有用的分數(shù),使用CAT來評估學(xué)生在標準化考試(如GMAT和GRE)中的能力已經(jīng)越來越受歡迎,因為它能夠自適應(yīng)地尋找最適合每個學(xué)生的問題。CAT是一種個性化測試,與標準測試/評估系統(tǒng)不同,它根據(jù)學(xué)生對前幾道題的反應(yīng)自適應(yīng)地選擇下一道題,從而成功縮短了測試長度。CAT系統(tǒng)通常構(gòu)成如下:知識水平評估器,根據(jù)學(xué)生對先前問題的回答確定學(xué)生當前的知識水平;回答模型:根據(jù)知識水平估計和問題特征,確定學(xué)生正確回答問題的可能性;以及一種問題選擇算法,根據(jù)響應(yīng)模型的輸出選擇最具適應(yīng)性的問題作答。
在考試期間,計算機化的自適應(yīng)測試可以訪問有組織的項目池。這些項目從容易到復(fù)雜,根據(jù)收集的數(shù)據(jù)計算的難度值。一個更好的項目池將在每個困難級別有很多項目。在回答問題時,CAT算法將從池中提取一個項目,這個項目或多或少與考生最新的估計能力相匹配--這將持續(xù)到測試結(jié)束。簡而言之,當考生回答一個項目時,計算機重新估計測試人員的能力,并從項目庫中選擇一個不同的問題,即考生應(yīng)該有50%的機會正確回答,這樣做是為了在一個共同的尺度上更準確地衡量考生的能力。
一般而言,在測試期間,如果一個人的估計能力很高(也就是說,在較困難的問題上回答得很好),CAT會估計他們的能力是“高”的,并從池中的“困難題庫”中挑選和呈現(xiàn)一個項目。從低到高的每一估計能力水平,以及從窄到寬的任何數(shù)量的能力水平,都是相同的過程。
當有足夠的問題被問和被回答時就會計算出考生的可靠分數(shù)。得分的依據(jù)不是正確回答的問題數(shù)量,而是人能夠正確回答的項目的難度水平。
這種計算機化自適應(yīng)測驗帶來了以下具體好處:一是測試花費的時間更少??忌ㄔ诳荚嚿系臅r間將會減少,有時會比平時的考試時間減少50%甚至更多;二是降低測試成本。節(jié)省時間等同于降低考試管理費用;三是提高了測試安全性。向每位考生披露較少的項目降低了池中項目的總體平均曝光率[1]。這使得在現(xiàn)場考試管理中很難通過抄襲答案來作弊;四是減少疲勞和無聊。對于每個考生來說,不需要回答簡單和困難的問題,會讓大部分問題都具有適度的挑戰(zhàn)性,這是一個更愉快的測試體驗。
相對于0-1評分,多級評分的選題策略就相對比較匱乏和不成熟,國內(nèi)外對于多級評分的研究成果也屈指可數(shù),包括四種難度匹配法和加入曝光率控制因子法如引入影子題庫法[3]等。然而多級評分CAT有0-1評分CAT無法比擬的優(yōu)勢,比如項目區(qū)分度相同時,多級評分項目比0-1評分項目往往可以獲得更多的信息量等。所以為了提高測驗的質(zhì)量,對多級評分模型下的CAT研究就顯得很有必要。
選題策略是CAT最為重要的部分具體算法包括Kullback-Leibler信息量(KLI)、最大Fisher信息(MFI)及其多變量擴展,最初都是專門為IRT模型創(chuàng)建的。最近,MAAT和BOBCAT算法在基于深度神經(jīng)網(wǎng)絡(luò)中表現(xiàn)出良好的性能和靈活性。NCA是一種基于強化學(xué)習(xí)的技術(shù),它根據(jù)注意力來選擇問題。通過從Boltsmann分布中選取樣本,而NCAT可以進一步調(diào)節(jié)問題暴光度,降低題目的曝光率。RAT通過捕捉學(xué)生資質(zhì)的許多特征來幫助選擇算法。此外,還有更多基于數(shù)據(jù)驅(qū)動和深度學(xué)習(xí)的算法被開發(fā)出來。
1 基于等級反應(yīng)模型下的選題策略
1.1 多級評分選題策略
(1)平均難度匹配法:即,其中滿足以下要求,
(2)去兩端平均數(shù)匹配法:即,滿足以下要求,
(3)等級難度匹配法:即。
(4)中位數(shù)匹配法:即,其中滿足以下要求,
(5)最大Fisher信息量法。
(6)結(jié)合按區(qū)分度分層能力匹配法。
1.2 新的選題策略
實際研究表明,提高測驗的效率和降低項目的曝光率這兩項指標往往是相沖突的,所以關(guān)鍵是找到能同時兼顧這兩項指標的新的選題策略,即在測驗效率沒有明顯降低的前提下較明顯的降低項目曝光率亦或是沒有明顯提高項目曝光率的同時較明顯的提高測驗效率。由于項目反應(yīng)理論(IRT)多級評分的數(shù)學(xué)模型中不止一個單獨的難度參數(shù),而需要多個難度等級步驟參數(shù),涉及到不同類型特征曲線間的組合運算及這些組合的累加運算,其函數(shù)關(guān)系遠比0-1評分來得復(fù)雜。目前也很難找到一種在不加入曝光率控制因子的前提下較好的兼顧以上兩項指標的選題策略。
在CAT問題中,選擇測試項策略的主要目標之一是準確地估計個體盡量少的測試項下的水平,并提供覆蓋所有測試項的最佳策略。因此,研究問題可以分為兩個子問題(即估計個體的水平和根據(jù)預(yù)測的水平確定選擇測試項目的策略)。因此,通過非統(tǒng)計約束方法,探索既能滿足測量精度又不降低題庫安全性和測驗效率的選題策略是本文的研究目標。
定義: 區(qū)分度近似分布分層法(A-ADS):選題按區(qū)分度遞增排序,從預(yù)備題庫的第一個題目開始每間隔n選取一個他題目組成一層,以此類推組成n層,再運用多級評分的三種難度匹配法進行選題。這樣分層的好處在于將一個大的題庫按相近的分布分成了n個小題庫,相當于把一次大測驗分成了n次小的測驗讓被試施測,而每次小測驗被試都有機會選取不同區(qū)分度大小的項目,從而避開了按區(qū)分度分層法中每層只能選取區(qū)分度值域較小的項目。
2 MonteCarlo模擬實驗
本實驗采用Matlab進行Monte Carlo模擬實驗,以考察新方法的表現(xiàn)。
2.1 施測過程
隨機選三個項目施測計算出被試能力初值,后實施能力精確估算,并用貝葉斯后驗期望估算出被試能力值。重復(fù)以上步驟,直到滿足測驗結(jié)束條件。為了降低模擬實驗的誤差,每一種實驗方法重復(fù)30次。
2.2 評價指標
本文分別用(1) 平均偏差(Bias)、(2)能力估計的準確性(ABS)、(3)能力估計標準差(SD)這三項指標來評價能力估計情況,其中Bias越小越好,ABS和SD越小說明估計的精度越高[7];用(4)人均用題數(shù)(Nf)、(5)測驗效率(Eff)這兩項指標來評價效率,Nf越小越好,Eff越大約好;用(6)項目調(diào)用的均勻性(SE)、(7)卡方檢驗統(tǒng)計量()和(8)測試重疊率(Rt)這三項指標來評價項目曝光率,SE、和Rt越小說明項目的曝光率越均勻。
3 實驗結(jié)果與分析
表1區(qū)分度近似分布分層法與區(qū)分度分層能力匹配法結(jié)果對比表
項目參數(shù)分別 評價
指標 平均數(shù)法 等級難度匹配法 中位數(shù)法
A-STR A-ADS A-STR A-ADS A-STR A-ADS
區(qū)分度服從對數(shù)標準正態(tài)分布,難度服從(-3,3)上的均勻分布 I1 0.0017 -0.0011 -0.0011 -0.0020 0.0043 -0.0011
I2 0.1863 0.1816 0.1886 0.1715 0.1885 0.1879
I3 0.2215 0.2137 0.2150 0.2118 0.2247 0.2257
I4 27.5924 20.3456 26.2821 16.1031 26.1509 16.7951
I5 0.6252 0.8367 0.6695 1.0685 0.6684 1.0217
I6 24.8609 19.1301 24.3218 16.2476 30.6271 21.7965
I7 21.3061 15.7853 20.3742 13.8673 32.6481 21.6831
I8 0.0553 0.0447 0.0551 0.0398 0.0687 0.0489
區(qū)分度服從對數(shù)標準正態(tài)分布,難度服從標準正態(tài)分布 I1 -0.0015 0.0009 -0.0011 -0.0007 0.0049 0.0021
I2 0.1864 0.1858 0.1875 0.1708 0.1865 0.1776
I3 0.2232 0.2215 0.2246 0.2211 0.2221 0.2214
I4 24.6657 15.6158 23.6463 15.5762 24.8267 15.6427
I5 0.7261 1.0893 0.7462 1.1163 0.7087 1.1212
I6 35.1847 28.5406 17.4204 12.9561 26.8289 22.2614
I7 44.7342 43.4021 11.3844 9.1809 25.8226 26.4090
I8 0.0851 0.0739 0.0425 0.0327 0.0595 0.0534
區(qū)分度服從(0.2,2.5)上的均勻分布,難度服從(-3,3)上的均勻分布 I1 -0.0040 0.0024 0.0002 -00010 -0.0018 -0.0013
I2 0.1862 0.1851 0.1878 0.1856 0.1880 0.1796
I3 0.2225 0.2133 0.2245 0.2147 0.2241 0.2193
I4 15.1647 12.9514 13.1231 10.3393 13.9585 10.6573
I5 1.1678 1.3324 1.3545 1.6820 1.2794 1.6548
I6 16.5568 15.6182 14.8796 13.1705 18.7264 14.6131
I7 16.1456 15.4561 13.7175 13.1125 20.6512 15.6087
I8 0.0387 0.0375 0.0365 0.0331 0.0456 0.0371
區(qū)分度服從(0.2,2.5)上的均勻分布,難度服從標準正態(tài)分布 I1 -0.0012 0.0024 -0.0031 0.0036 0.0032 0.0012
I2 0.1865 0.1843 0.1865 0.1853 0.1873 0.1864
I3 0.2214 0.2212 0.2237 0.2254 0.2224 0.2253
I4 13.2295 10.4888 13.3045 10.6011 12.4458 9.9768
I5 1.3484 1.6627 1.3654 1.6553 1.4559 1.7668
I6 24.3461 20.1598 11.9171 11.1799 19.5561 17.4009
I7 36.8494 30.4381 8.7140 9.2052 24.6566 23.0712
I8 0.0641 0.0545 0.0295 0.0271 0.0489 0.0431
為了描述方便,I1-I8依次代表Bias、ABS、SD、Nf、Eff、SE、和Rt這八項評價指標。
從表1得出,偏差值((1) 平均偏差、(2)能力估計的準確性、(3)能力估計標準差均很接近于零,說明這幾種方法的估計均接近于無偏估計,相比較而言區(qū)分度近似分布分層法(A-ADS)更接近于0,說明該方法的更接近于無偏估計;在人均用題數(shù)指標上A-ADS均優(yōu)于A-STR,處區(qū)分度服從(0.2,2.5)上的均勻分布的圖庫外測驗效率指標上A-ADS均優(yōu)于A-STR,特別是前兩個題庫,其優(yōu)勢更為明顯;此外,在項目調(diào)用的均勻性、卡方檢驗統(tǒng)計量和測試重疊率這三個指標上,除了第二個題庫外,A-ADS法均較明顯優(yōu)于A-STR法。
4 結(jié) 語
總結(jié)以上論述可以認為A-ADS該方法在曝光率方面,與按區(qū)分度分層和能力匹配法結(jié)合的結(jié)果相接近的條件下,較明顯的提高了測驗的效率。
本文來源:《上海輕工業(yè)》http://m.00559.cn/w/kj/30978.html
- 新媒體語境下地方文化故事化傳播的策略研究
- 博物館數(shù)字化傳播對文化遺產(chǎn)保護的影響
- 數(shù)字化轉(zhuǎn)型背景下文化創(chuàng)意產(chǎn)業(yè)人才供需匹配研究
- 公共圖書館詩詞閱讀推廣研究
- 基于“工匠精神”培養(yǎng)的高職院校圖書館閱讀推廣策略研究
- 剪紙和文學(xué)在文旅融合中的發(fā)展研究
- “書磚”古籍的修復(fù)研究——以《及第征祥錄》為例
- 基于OBE教學(xué)理念的工業(yè)物聯(lián)網(wǎng)課程人才培養(yǎng)模式研究
- 紙質(zhì)在文化創(chuàng)意產(chǎn)品設(shè)計中的應(yīng)用
- 數(shù)字經(jīng)濟驅(qū)動下的制造業(yè)轉(zhuǎn)型路徑與企業(yè)績效關(guān)系研究
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認可省市級黨報?是否有什么說據(jù)?還有哪些機構(gòu)認可黨報?
- 《農(nóng)業(yè)經(jīng)濟》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!