人(rén)工智能參與高(gāo)考閱卷,給1078萬考生(shēng)批卷的,可(kě)能不是個(gè)人(rén)

發布日期:2021-06-08

目前人(rén)工智能已經與教育領域深度融合,利用大(dà)數(shù)據開(kāi)展的個(gè)性化學習覆蓋學生(shēng)已超千萬。

又一年高(gāo)考開(kāi)始了,4000餘萬份高(gāo)考試卷成績,還(hái)有(yǒu)背後1078萬考生(shēng)的命運,都在各位閱卷組老師(shī)手中。

自1978年恢複高(gāo)考,至今已有(yǒu)43年,高(gāo)考閱卷抛棄了上(shàng)世紀傳統的手改手核的方式,換上(shàng)電(diàn)腦(nǎo)開(kāi)始無紙化閱卷。近幾年,全國多(duō)省陸續試點人(rén)工智能閱卷。采用人(rén)工智能輔助網上(shàng)評卷質量監控系統,最大(dà)限度考分的真實性。人(rén)工智能輔助網上(shàng)評卷質量監控系統主要使用在作(zuò)文評卷方面,它會(huì)在後台對試卷進行(xíng)評判,将其結果與人(rén)工教師(shī)評卷結果進行(xíng)對照,如果發現偏差較大(dà),就會(huì)對現場(chǎng)的人(rén)工評卷進行(xíng)提醒,保證評卷按照标準化操作(zuò)繼續處理(lǐ)、進行(xíng)。未來(lái),高(gāo)考或許會(huì)抛棄人(rén)工,讓機器(qì)獨立閱卷。

近年來(lái),人(rén)工智能技(jì)術(shù)快速發展,或許會(huì)成為(wèi)解救閱卷老師(shī)的希望。

誰在雇傭AI閱卷?

人(rén)工智能閱卷的曆史,最早可(kě)以追溯到1996年。

美國杜克大(dà)學的埃利斯·佩奇設計(jì)開(kāi)發出一款名為(wèi)PEG的作(zuò)文評分系統,是世界上(shàng)最早智能評分系統。

到2005年,美國一家(jiā)非盈利性考試服務中心Educational Testing Service(簡稱ETS)便推出了一個(gè)名為(wèi)E-rater的機器(qì)評分系統,應用于GRE、TOFEL等考試。

該組織官網資料,該系統用到了人(rén)工智能技(jì)術(shù)給試卷打分。這個(gè)AI系統不光能指出考生(shēng)的語法、用詞和(hé)拼寫錯誤,在作(zuò)文題中還(hái)可(kě)以評價考生(shēng)的文章立意、組織結構和(hé)語言風格[7]。

2016年,日本文部科學省宣布,考慮引入AI為(wèi)日本高(gāo)考判卷[8]。

而國內(nèi)涉足AI評卷的科技(jì)公司,有(yǒu)兩家(jiā)。

一家(jiā)是阿裏。2017年,浙江外國語學院在一次考試中,用阿裏的人(rén)工智能系統為(wèi)外國留學生(shēng)的中文試卷閱卷,并宣稱AI閱卷準确率已超過人(rén)類[9]。

次年9月,阿裏又發起一場(chǎng)全球數(shù)學比賽,“閱卷老師(shī)”同樣是阿裏自研的人(rén)工智能。

另一家(jiā),則是發迹于教育的科大(dà)訊飛。

科大(dà)訊飛在早年便開(kāi)發出口語測評系統,為(wèi)多(duō)地普通(tōng)話(huà)考試提供智能評分服務。後來(lái),訊飛又把注意力從口語轉向文字,研究智能批改技(jì)術(shù)。

2015年11月,科大(dà)訊飛曾在安慶、合肥等地的學校(xiào)試點用AI批改作(zuò)文[11];一個(gè)月後的科大(dà)訊飛年度發布會(huì)上(shàng),董事長劉慶峰又推出智學網,宣稱能實現全科閱卷、智能批改。

語文作(zuò)文智能評分流程 | 來(lái)源:科大(dà)訊飛智慧教育

2017年中考,湖(hú)北襄陽首次引入訊飛的人(rén)工智能閱卷系統。一年後,安徽首次把該系統應用于高(gāo)考。

茲事體(tǐ)大(dà),安徽教育考試院沒敢讓AI在高(gāo)考中挑大(dà)梁,該系統主要用于作(zuò)文題輔助閱卷,給老師(shī)“打打下手”。中安在線曾報道(dào),“它在後台對試卷進行(xíng)評判,與老師(shī)的閱卷結果進行(xíng)對照,如果偏差較大(dà),會(huì)進行(xíng)提醒。”[13]

雖然人(rén)工智能暫時(shí)還(hái)是“輔助”角色,但(dàn)并不影(yǐng)響各地教育考試院的采購熱情。自2018年起,科大(dà)訊飛先後中标安徽、河(hé)北、湖(hú)北等地的采購需求。科大(dà)訊飛智慧教育公衆号文章中稱,該技(jì)術(shù)每年服務的中高(gāo)考考生(shēng),已超過600萬。

訊飛子公司——訊飛啓明(míng)中标湖(hú)北省教育考試院人(rén)工智能閱卷項目 | 來(lái)源:中國政府采購網[15]

Z老師(shī)也表示,當地高(gāo)考雖然未曾使用過人(rén)工智能閱卷,但(dàn)教育考試院的技(jì)術(shù)部門(mén)确實在對接相關事宜。

雖然暫時(shí)派不上(shàng)什麽用處,但(dàn)往好處看,這些(xiē)系統的采購價格都不貴——

2018年8月,安徽省教育招生(shēng)考試院采購智能閱卷網評質量控制(zhì)服務,價格為(wèi)15.8萬元;

2020年7月,湖(hú)北省教育考試院采購高(gāo)考人(rén)工智能評卷服務和(hé)研考人(rén)工智能評卷檢測服務,價格為(wèi)20.3萬元;

2020年10月,河(hé)北省教育考試院采購人(rén)工智能AI質檢技(jì)術(shù)測試服務,價格為(wèi)19.76萬元。

若按照每個(gè)高(gāo)考閱卷老師(shī)補貼2000元計(jì)算(suàn),20萬元不過是100個(gè)老師(shī)的成本。一旦投入使用,将給教育考試院節省大(dà)量人(rén)力支出。

誰更有(yǒu)資格決定考生(shēng)命運?

從前,考生(shēng)的命運掌握在閱卷老師(shī)手心,他們答(dá)個(gè)卷都得(de)想着閱卷老師(shī)的體(tǐ)驗——

答(dá)卷要用黑(hēi)色簽字筆,閱卷老師(shī)看得(de)更清楚;

寫字要寫楷體(tǐ)(至少(shǎo)要整潔),方便閱卷老師(shī)分辨;

答(dá)題卡要嚴格分區(qū),讓閱卷老師(shī)理(lǐ)解作(zuò)答(dá)順序。

即便如此,人(rén)工閱卷仍然不盡人(rén)意。

2014年高(gāo)考,有(yǒu)浙江閱卷老師(shī)反映閱卷速度過快,“主觀題平均用時(shí)9秒(miǎo),作(zuò)文平均1分鍾判閱完成”。上(shàng)海交通(tōng)大(dà)學教授、21世紀教育研究院副院長熊丙奇稱此類問題普遍存在,甚至有(yǒu)人(rén)直言高(gāo)考閱卷是“草菅人(rén)命”[16]。

2020年,一篇名為(wèi)《生(shēng)活在樹(shù)上(shàng)》的滿分作(zuò)文引發争議,浙江語文評卷組作(zuò)文組組長被舉報開(kāi)課賣書(shū),“既做(zuò)教練,又當裁判”。

把閱卷任務交給AI,對考生(shēng)來(lái)說就是好事嗎?

與人(rén)工閱卷相比,AI不知疲倦、閱卷速度快,而且有(yǒu)标準統一,犯錯幾率也小(xiǎo)。但(dàn)是,AI“眼中”的标準,一定适用于高(gāo)考嗎?

一方面,AI的偏見在閱卷中已有(yǒu)先例。

Vice曾指出,前述ETS的智能評分系統E-rater存在算(suàn)法偏見——它更傾向于給中國學生(shēng)高(gāo)分,而給非裔美國學生(shēng)、阿拉伯學生(shēng)和(hé)西班牙學生(shēng)低(dī)分。後經ETS研究,發現這是由于中國學生(shēng)作(zuò)文篇幅更長,使用的句式和(hé)詞彙更加複雜[18]。但(dàn)拗口的句子和(hé)華麗(lì)的辭藻,顯然不是高(gāo)考作(zuò)文的“金标準”。

另一方面,AI閱卷系統的“智能程度”,還(hái)有(yǒu)待檢驗。

2020年,美國一款服務于兩萬所學校(xiào)的AI閱卷系統被指存在漏洞,考生(shēng)隻要列出相應關鍵詞,就能被系統識别并獲得(de)高(gāo)分[19]。事實上(shàng),在中國高(gāo)三學生(shēng)群體(tǐ)中,“高(gāo)分作(zuò)文模闆”也已流行(xíng)多(duō)年,AI到底能給高(gāo)分還(hái)是判定“抄襲”?一旦再出一篇半文半白的文章,AI讀得(de)懂嗎?

根據科大(dà)訊飛在2021年4月公布的數(shù)據,人(rén)工智能評閱語文作(zuò)文的人(rén)機評分一緻率為(wèi)99.33%。但(dàn)若全國均使用人(rén)工智能閱卷,今年上(shàng)千萬的考生(shēng)中,最終也會(huì)有(yǒu)7.2萬人(rén)受到AI的不公正對待,誰來(lái)保證少(shǎo)數(shù)考生(shēng)的利益?

2020年8月,教育部考試中心稱要“堅決維護高(gāo)考評卷和(hé)命題工作(zuò)公平公正”,但(dàn)是要做(zuò)到絕對的公平,靠人(rén)很(hěn)難,靠AI也還(hái)需要時(shí)日。

目前已有(yǒu)多(duō)個(gè)省市針對語文、英語作(zuò)文等主觀性命題引入了機器(qì)閱卷。将機器(qì)閱卷與人(rén)工閱卷結合,當機器(qì)與人(rén)工閱卷結果分差較大(dà)時(shí),會(huì)自動挑選出來(lái)交給專家(jiā)組進行(xíng)最後判别,從而減少(shǎo)主觀評價的差異性,使得(de)主觀題的評價更加客觀、公平。


分享到: