人(rén)工智能參與高(gāo)考閱卷，給1078萬考生(shēng)批卷的，可(kě)能不是個(gè)人(rén)-鼎佑教育科技（北京）有限公司

人(rén)工智能參與高(gāo)考閱卷，給1078萬考生(shēng)批卷的，可(kě)能不是個(gè)人(rén)

發布日期：2021-06-08

目前人(rén)工智能已經與教育領域深度融合，利用大(dà)數(shù)據開(kāi)展的個(gè)性化學習覆蓋學生(shēng)已超千萬。

又一年高(gāo)考開(kāi)始了，4000餘萬份高(gāo)考試卷成績，還(hái)有(yǒu)背後1078萬考生(shēng)的命運，都在各位閱卷組老師(shī)手中。

自1978年恢複高(gāo)考，至今已有(yǒu)43年，高(gāo)考閱卷抛棄了上(shàng)世紀傳統的手改手核的方式，換上(shàng)電(diàn)腦(nǎo)開(kāi)始無紙化閱卷。近幾年，全國多(duō)省陸續試點人(rén)工智能閱卷。采用人(rén)工智能輔助網上(shàng)評卷質量監控系統，最大(dà)限度考分的真實性。人(rén)工智能輔助網上(shàng)評卷質量監控系統主要使用在作(zuò)文評卷方面，它會(huì)在後台對試卷進行(xíng)評判，将其結果與人(rén)工教師(shī)評卷結果進行(xíng)對照，如果發現偏差較大(dà)，就會(huì)對現場(chǎng)的人(rén)工評卷進行(xíng)提醒，保證評卷按照标準化操作(zuò)繼續處理(lǐ)、進行(xíng)。未來(lái)，高(gāo)考或許會(huì)抛棄人(rén)工，讓機器(qì)獨立閱卷。

近年來(lái)，人(rén)工智能技(jì)術(shù)快速發展，或許會(huì)成為(wèi)解救閱卷老師(shī)的希望。

誰在雇傭AI閱卷?

人(rén)工智能閱卷的曆史，最早可(kě)以追溯到1996年。

美國杜克大(dà)學的埃利斯·佩奇設計(jì)開(kāi)發出一款名為(wèi)PEG的作(zuò)文評分系統，是世界上(shàng)最早智能評分系統。

到2005年，美國一家(jiā)非盈利性考試服務中心Educational Testing Service(簡稱ETS)便推出了一個(gè)名為(wèi)E-rater的機器(qì)評分系統，應用于GRE、TOFEL等考試。

該組織官網資料，該系統用到了人(rén)工智能技(jì)術(shù)給試卷打分。這個(gè)AI系統不光能指出考生(shēng)的語法、用詞和(hé)拼寫錯誤，在作(zuò)文題中還(hái)可(kě)以評價考生(shēng)的文章立意、組織結構和(hé)語言風格[7]。

2016年，日本文部科學省宣布，考慮引入AI為(wèi)日本高(gāo)考判卷[8]。

而國內(nèi)涉足AI評卷的科技(jì)公司，有(yǒu)兩家(jiā)。

一家(jiā)是阿裏。2017年，浙江外國語學院在一次考試中，用阿裏的人(rén)工智能系統為(wèi)外國留學生(shēng)的中文試卷閱卷，并宣稱AI閱卷準确率已超過人(rén)類[9]。

次年9月，阿裏又發起一場(chǎng)全球數(shù)學比賽，“閱卷老師(shī)”同樣是阿裏自研的人(rén)工智能。

另一家(jiā)，則是發迹于教育的科大(dà)訊飛。

科大(dà)訊飛在早年便開(kāi)發出口語測評系統，為(wèi)多(duō)地普通(tōng)話(huà)考試提供智能評分服務。後來(lái)，訊飛又把注意力從口語轉向文字，研究智能批改技(jì)術(shù)。

2015年11月，科大(dà)訊飛曾在安慶、合肥等地的學校(xiào)試點用AI批改作(zuò)文[11];一個(gè)月後的科大(dà)訊飛年度發布會(huì)上(shàng)，董事長劉慶峰又推出智學網，宣稱能實現全科閱卷、智能批改。

語文作(zuò)文智能評分流程 | 來(lái)源：科大(dà)訊飛智慧教育

2017年中考，湖(hú)北襄陽首次引入訊飛的人(rén)工智能閱卷系統。一年後，安徽首次把該系統應用于高(gāo)考。

茲事體(tǐ)大(dà)，安徽教育考試院沒敢讓AI在高(gāo)考中挑大(dà)梁，該系統主要用于作(zuò)文題輔助閱卷，給老師(shī)“打打下手”。中安在線曾報道(dào)，“它在後台對試卷進行(xíng)評判，與老師(shī)的閱卷結果進行(xíng)對照，如果偏差較大(dà)，會(huì)進行(xíng)提醒。”[13]

雖然人(rén)工智能暫時(shí)還(hái)是“輔助”角色，但(dàn)并不影(yǐng)響各地教育考試院的采購熱情。自2018年起，科大(dà)訊飛先後中标安徽、河(hé)北、湖(hú)北等地的采購需求。科大(dà)訊飛智慧教育公衆号文章中稱，該技(jì)術(shù)每年服務的中高(gāo)考考生(shēng)，已超過600萬。

訊飛子公司——訊飛啓明(míng)中标湖(hú)北省教育考試院人(rén)工智能閱卷項目 | 來(lái)源：中國政府采購網[15]

Z老師(shī)也表示，當地高(gāo)考雖然未曾使用過人(rén)工智能閱卷，但(dàn)教育考試院的技(jì)術(shù)部門(mén)确實在對接相關事宜。

雖然暫時(shí)派不上(shàng)什麽用處，但(dàn)往好處看，這些(xiē)系統的采購價格都不貴——

2018年8月，安徽省教育招生(shēng)考試院采購智能閱卷網評質量控制(zhì)服務，價格為(wèi)15.8萬元;

2020年7月，湖(hú)北省教育考試院采購高(gāo)考人(rén)工智能評卷服務和(hé)研考人(rén)工智能評卷檢測服務，價格為(wèi)20.3萬元;

2020年10月，河(hé)北省教育考試院采購人(rén)工智能AI質檢技(jì)術(shù)測試服務，價格為(wèi)19.76萬元。

若按照每個(gè)高(gāo)考閱卷老師(shī)補貼2000元計(jì)算(suàn)，20萬元不過是100個(gè)老師(shī)的成本。一旦投入使用，将給教育考試院節省大(dà)量人(rén)力支出。

誰更有(yǒu)資格決定考生(shēng)命運?

從前，考生(shēng)的命運掌握在閱卷老師(shī)手心，他們答(dá)個(gè)卷都得(de)想着閱卷老師(shī)的體(tǐ)驗——

答(dá)卷要用黑(hēi)色簽字筆，閱卷老師(shī)看得(de)更清楚;

寫字要寫楷體(tǐ)(至少(shǎo)要整潔)，方便閱卷老師(shī)分辨;

答(dá)題卡要嚴格分區(qū)，讓閱卷老師(shī)理(lǐ)解作(zuò)答(dá)順序。

即便如此，人(rén)工閱卷仍然不盡人(rén)意。

2014年高(gāo)考，有(yǒu)浙江閱卷老師(shī)反映閱卷速度過快，“主觀題平均用時(shí)9秒(miǎo)，作(zuò)文平均1分鍾判閱完成”。上(shàng)海交通(tōng)大(dà)學教授、21世紀教育研究院副院長熊丙奇稱此類問題普遍存在，甚至有(yǒu)人(rén)直言高(gāo)考閱卷是“草菅人(rén)命”[16]。

2020年，一篇名為(wèi)《生(shēng)活在樹(shù)上(shàng)》的滿分作(zuò)文引發争議，浙江語文評卷組作(zuò)文組組長被舉報開(kāi)課賣書(shū)，“既做(zuò)教練，又當裁判”。

把閱卷任務交給AI，對考生(shēng)來(lái)說就是好事嗎?

與人(rén)工閱卷相比，AI不知疲倦、閱卷速度快，而且有(yǒu)标準統一，犯錯幾率也小(xiǎo)。但(dàn)是，AI“眼中”的标準，一定适用于高(gāo)考嗎?

一方面，AI的偏見在閱卷中已有(yǒu)先例。

Vice曾指出，前述ETS的智能評分系統E-rater存在算(suàn)法偏見——它更傾向于給中國學生(shēng)高(gāo)分，而給非裔美國學生(shēng)、阿拉伯學生(shēng)和(hé)西班牙學生(shēng)低(dī)分。後經ETS研究，發現這是由于中國學生(shēng)作(zuò)文篇幅更長，使用的句式和(hé)詞彙更加複雜[18]。但(dàn)拗口的句子和(hé)華麗(lì)的辭藻，顯然不是高(gāo)考作(zuò)文的“金标準”。

另一方面，AI閱卷系統的“智能程度”，還(hái)有(yǒu)待檢驗。

2020年，美國一款服務于兩萬所學校(xiào)的AI閱卷系統被指存在漏洞，考生(shēng)隻要列出相應關鍵詞，就能被系統識别并獲得(de)高(gāo)分[19]。事實上(shàng)，在中國高(gāo)三學生(shēng)群體(tǐ)中，“高(gāo)分作(zuò)文模闆”也已流行(xíng)多(duō)年，AI到底能給高(gāo)分還(hái)是判定“抄襲”?一旦再出一篇半文半白的文章，AI讀得(de)懂嗎?

根據科大(dà)訊飛在2021年4月公布的數(shù)據，人(rén)工智能評閱語文作(zuò)文的人(rén)機評分一緻率為(wèi)99.33%。但(dàn)若全國均使用人(rén)工智能閱卷，今年上(shàng)千萬的考生(shēng)中，最終也會(huì)有(yǒu)7.2萬人(rén)受到AI的不公正對待，誰來(lái)保證少(shǎo)數(shù)考生(shēng)的利益?

2020年8月，教育部考試中心稱要“堅決維護高(gāo)考評卷和(hé)命題工作(zuò)公平公正”，但(dàn)是要做(zuò)到絕對的公平，靠人(rén)很(hěn)難，靠AI也還(hái)需要時(shí)日。

目前已有(yǒu)多(duō)個(gè)省市針對語文、英語作(zuò)文等主觀性命題引入了機器(qì)閱卷。将機器(qì)閱卷與人(rén)工閱卷結合，當機器(qì)與人(rén)工閱卷結果分差較大(dà)時(shí)，會(huì)自動挑選出來(lái)交給專家(jiā)組進行(xíng)最後判别，從而減少(shǎo)主觀評價的差異性，使得(de)主觀題的評價更加客觀、公平。

上(shàng)一篇：應急科普--暴雨天該如何保護自己?

下一篇：發明(míng)家(jiā)征戰RoboRave國際機器(qì)人(rén)大(dà)會(huì)亞洲賽斬獲亞軍