21調(diào)查丨“玄學(xué)”、誤判和偏見：高校檢測AI論文背后

2024年02月27日 13:04 21世紀(jì)經(jīng)濟(jì)報(bào)道 21財(cái)經(jīng)APP 肖瀟

21世紀(jì)經(jīng)濟(jì)報(bào)道見習(xí)記者肖瀟北京報(bào)道

AI中風(fēng)險(xiǎn)，疑似用ChatGPT生成——這是去年四月，學(xué)校查重系統(tǒng)對王宇畢業(yè)論文的判定。王宇一下慌了。

當(dāng)時(shí)ChatGPT驚艷亮相不到半年，教育界一度擔(dān)心學(xué)生有了“作弊神器”。在這一背景下，知名學(xué)術(shù)查重軟件Turnitin率先推出了AI文本檢測器，用來識(shí)別論文中的AI生成內(nèi)容。國內(nèi)的格子達(dá)、知網(wǎng)兩大查重系統(tǒng)也先后上線了AIGC檢測功能，王宇就是第一屆被檢測畢業(yè)論文AI率的學(xué)生。

隨著生成式AI快速迭代，規(guī)則和技術(shù)漸漸填上監(jiān)管真空期。去年8月提交審議的《學(xué)位法》（草案）擬定，人工智能代寫屬于學(xué)術(shù)不端行為，嚴(yán)重者可被撤銷學(xué)位證書。今年1月，Turnitin的AI文本檢測成為正式功能，開始像查重服務(wù)一樣向高校收取費(fèi)用，一定程度上意味著AI論文檢測步入正軌。

但這沒有阻擋學(xué)生的使用，高校學(xué)生依然是生成式AI的主要用戶群?！爸苯影杨}目扔給AI讓它寫一整篇論文，老師肯定一眼就能看出來，我身邊已經(jīng)沒什么人這么做了。”劉晨曦告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者，她的用法是讓ChatGPT總結(jié)文獻(xiàn)、降重、潤色，這也是許多學(xué)生現(xiàn)在的使用方式。

不過，劉晨曦的論文還是被標(biāo)記了25%的AI率，任課老師要求重寫。王宇在寫畢業(yè)論文的過程中沒有用到生成式AI，她曾經(jīng)自己嘗試找出有“AI風(fēng)格”的句子，改了兩輪后，“AI率越改越高?！?/p>

AI參與的論文能不能被準(zhǔn)確檢測？有沒有必要檢測？AI論文的監(jiān)管難題，正在困擾全球教育系統(tǒng)。

查重率低了，AI率高了

王宇去年畢業(yè)于湖南一所大學(xué)的商科專業(yè)。一開始看到自己的本科畢業(yè)論文被標(biāo)記為“AI中風(fēng)險(xiǎn)”，王宇還不知道問題出在哪里，因?yàn)樗龥]用過ChatGPT這樣的工具寫作。直到老師將教師版本的AI檢測報(bào)告發(fā)過來，王宇才明白，那些AI疑似度高的段落，大多是被自己“降重”過的。

“降重”指降低重復(fù)率。此前在學(xué)生中流行的一種降重方法是，用翻譯軟件多次轉(zhuǎn)換語言，把他人的話快速“轉(zhuǎn)述”為自己的觀點(diǎn)。王宇用的就是這種辦法，她把一段話先從中文翻譯成英文，再將英語譯成日文，最后譯回中文，以此更換詞語和語序，降低與原文的相似度。

不過辦法這一次失靈了?！安橹芈适堑土撕芏啵徽J(rèn)為是AI寫的。”

王宇學(xué)校使用的是格子達(dá)查重系統(tǒng)，去年四月開始運(yùn)行“類AI輔寫行為檢測”功能。在王宇的個(gè)人提交界面，論文被評級為AI中風(fēng)險(xiǎn)。在王宇老師的界面，可以更清晰地查看可疑文本，每一句的AI疑似度分高、中、低三檔，輔寫工具均判定為ChatGPT。

除了格子達(dá)和知網(wǎng)，AI檢測工具尚未在國內(nèi)高校全面鋪開。相比之下，Turnitin查重系統(tǒng)在海外應(yīng)用更廣，檢測也更細(xì)致。劉晨曦在加拿大上學(xué)，去年十二月，她的一篇論文在Turnitin中顯示AI率25%——意思是25%的文本疑似由AI生成。老師因此讓她重寫，并且無論如何都要扣除25%的分?jǐn)?shù)。

這篇論文是劉晨曦英語文學(xué)課的結(jié)課作業(yè)，主題是比較兩部文學(xué)作品。寫論文時(shí)，她先跟ChatGPT最新的GPT-4大模型討論寫作方向，得到了比較兩位俄國女詩人的靈感。接著讓GPT-4查找文獻(xiàn)，自己寫出大綱和草稿。最后再讓GPT-4降重、潤色。最終論文里有多少屬于AI，多少屬于自己，她很難區(qū)分清楚。

劉晨曦說，GPT-4直接輸出論文仍然很生硬，編造文獻(xiàn)不少，“還不如自己寫”。但比起傳統(tǒng)的降重方法，ChatGPT的優(yōu)勢是可以精準(zhǔn)“調(diào)教”，比如改寫特定的句子，或者解釋復(fù)雜概念。在找文獻(xiàn)上也更快捷，原本需要檢索兩到三天的文獻(xiàn)，GPT-4幾個(gè)小時(shí)就能整理完畢。

根據(jù)Nerdynav的調(diào)查，43%的大學(xué)生用過生成式AI完成作業(yè)。英國媒體The Lab統(tǒng)計(jì)發(fā)現(xiàn)，羅素大學(xué)集團(tuán)下的八所大學(xué)，對ChatGPT的訪問量在兩個(gè)月內(nèi)高達(dá)100萬。其中12月和1月是校園網(wǎng)絡(luò)訪問ChatGPT的高峰期，正是考試集中月。多位受訪學(xué)生告訴記者，AI一鍵生成的論文意義不大，基本達(dá)不到學(xué)校要求。學(xué)生現(xiàn)在的主要用法是總結(jié)文獻(xiàn)、降重、潤色語言，本質(zhì)還是他們曾經(jīng)抄過的一條“捷徑”。

劃下AI率紅線后，這條“捷徑”走不通了。從去年夏天起，小到隨堂感想，大到結(jié)課論文，劉晨曦的學(xué)校都要求AI率為0%。

王宇學(xué)校規(guī)定，畢業(yè)論文必須為AI低風(fēng)險(xiǎn)。她把被標(biāo)記為AI的句子用自己的“大白話”重新描述，在修改了6個(gè)版本后，論文終于變?yōu)锳I低風(fēng)險(xiǎn)。“這是個(gè)玄學(xué)?！蓖跤钚稳?。

上世紀(jì)論文也被判定為AI

多所高校都發(fā)布過AI論文禁令。最早開始的是美國紐約教育局，其限制在學(xué)校Wi-Fi網(wǎng)絡(luò)環(huán)境中訪問ChatGPT。英國大學(xué)尤其注重學(xué)術(shù)誠信，牛津、劍橋、帝國理工等28所英國大學(xué)都曾宣布，在論文和課程作業(yè)中不當(dāng)使用AI，將被視為違反學(xué)術(shù)誠信的行為，嚴(yán)重者可能被開除學(xué)籍。香港大學(xué)也表示，學(xué)生在課程作業(yè)中使用AI需要老師批準(zhǔn)，否則可以按作弊處理。

AI檢測技術(shù)的影響是立竿見影的。Tunitin上線AI檢測器的一個(gè)月內(nèi)，全球有超過一萬所中高等教育機(jī)構(gòu)激活了這款工具。除了Turnitin，市面上還流行GPT Zero、 Copyleak等AI檢測工具，大多向個(gè)人免費(fèi)開放。

一留學(xué)中介在社交媒體上分享，2023年在英國留學(xué)生中，AI代寫論文的學(xué)術(shù)聽證會(huì)數(shù)量，已經(jīng)超過人工代寫。“AI檢測率高是很石錘的學(xué)術(shù)不端?！?/strong>

但AI檢測器準(zhǔn)確嗎？石白在美國加州大學(xué)系統(tǒng)下的一所大學(xué)擔(dān)任助教，她告訴記者，如果論文全篇用AI生成，有經(jīng)驗(yàn)的助教一眼就能看出來。去年秋季學(xué)期，她的課上就有兩篇論文屬于這種情況。“用詞華麗空洞，而且引用的文獻(xiàn)基本不存在?！笔姿阉髁艘豢預(yù)I檢測工具，99%的檢測結(jié)果幫她肯定了自己的猜測。

被懷疑有AI參與的論文還有三到四篇，AI率在30%～40%之間，但石白沒有追究。一個(gè)原因是，她熟悉其中一位學(xué)生的寫作風(fēng)格，其寫法一直比較華麗；另一方面，有其他助教曾經(jīng)檢測了自己的原創(chuàng)論文，AI率也有30%～40%，這讓石白覺得AI檢測工具還不夠可靠。

劉晨曦用五篇AI參與程度不同的論文，測試了市面上的主流AI檢測工具，得出的結(jié)論是：除非完全不用任何工具，否則都有AI含量。比如，去年十二月，她讓GPT-4潤色了知名哲學(xué)家朱迪斯·巴特勒、斯拉沃熱·齊澤克的兩篇論文，前者在Turnitin檢測出的AI率為51%，后者為34%。

“而且巴特勒本人就喜歡用生僻詞語、長難句寫作，哪怕直接提交她在上個(gè)世紀(jì)發(fā)表的論文，也顯示有AI內(nèi)容?！眲⒊筷匮a(bǔ)充道。

盡管許多AI檢測工具聲稱誤判率在1%之內(nèi)，但在使用過程中，誤判概率似乎遠(yuǎn)高于官方數(shù)字。最大的誤判區(qū)是語法工具、翻譯軟件和潤色功能，一些固定的個(gè)人寫作風(fēng)格也可能被誤傷。

對于可能出現(xiàn)的誤判，Turnitin的解釋是：“AI檢測器會(huì)識(shí)別書寫過于一致、平均的模式，而許多人的寫作水平可能就屬于平均模式?！?這也是市面上大部分AI檢測器的說法。

簡單來說，人類往往會(huì)綜合使用長短句，而AI 的句子更單調(diào)。此外，人類的文本通常還有復(fù)雜的轉(zhuǎn)折、非典型的邏輯結(jié)構(gòu)，讓AI無法準(zhǔn)確工具測下一個(gè)詞語。這兩個(gè)影響因子決定了，一些遵循“寫作模板”的論文，可能被誤認(rèn)為是AI作品。至于這些模板究竟是什么，具體如何運(yùn)作，幾乎沒有AI檢測器能夠提供解釋。就像AI一樣，目前AI檢測的技術(shù)原理也處于黑箱之中。

考慮到存在誤差，許多AI檢測工具都發(fā)布了“免責(zé)聲明”。比如Turnitin建議，不把AI率當(dāng)作唯一標(biāo)準(zhǔn)，希望老師綜合專業(yè)經(jīng)驗(yàn)以及對學(xué)生的了解做判斷。

使用界限模糊

北京大學(xué)教育學(xué)院學(xué)習(xí)科學(xué)實(shí)驗(yàn)室執(zhí)行主任尚俊杰在采訪中告訴21記者，目前AI檢測器的意義，主要是監(jiān)督明顯的學(xué)術(shù)不端行為，比如直接用AI生成全文。

還有一種情況是，AI靈活應(yīng)用在整個(gè)研究和寫作過程中。此時(shí)的核心問題在于，哪些行為算學(xué)術(shù)不端，哪些行為算合理使用？簡單用數(shù)字高低判斷并不科學(xué)，劃分界限是個(gè)難題。

論文被檢測出25%的AI率、判定為抄襲后，劉晨曦將每一階段的草稿、文獻(xiàn)整理筆記、瀏覽器搜索歷史發(fā)給老師，證明論文是自己的原創(chuàng)作品，成功爭取到了老師的認(rèn)同。不過，申訴中介讓她不要跟老師提到ChatGPT，于是她謊稱用的是另一款老牌寫作工具Grammarly。

Grammarly是上一波人工智能浪潮的產(chǎn)物，主要用來糾正語病、潤色語句，不少歐美大學(xué)的寫作指導(dǎo)中心甚至?xí)膭?lì)學(xué)生先用Grammarly批改作業(yè)?！皣?yán)格意義上，用輔助工具都算作弊。但老師比較能理解這些軟件的作用，所以我只能這么說?！眲⒊筷亟忉?。

既是在讀博士，又為大一、大二學(xué)生授課的石白，一方面能理解學(xué)生用AI寫論文，因?yàn)樗渤Ｓ肅hatGPT做論文的前期準(zhǔn)備，比如做表格、搜文獻(xiàn)；另一方面，她認(rèn)為本科生無法把握使用的邊界，所以才會(huì)在教學(xué)大綱中完全禁止學(xué)生使用AI。

多位受訪學(xué)生提到，求助AI的一個(gè)原因是學(xué)術(shù)能力有限。“本科生的論文沒什么學(xué)術(shù)含金量，這種綜述性的作業(yè)，大家都是找?guī)灼撐臏愐粶愑^點(diǎn)，再找工具改一改。”王宇說，只要不涉及數(shù)據(jù)造假、文獻(xiàn)造假，她覺得用AI寫論文沒有什么問題。

但在石白看來，學(xué)術(shù)論文是觀察、思考、提問、論述的完整過程。一篇名為《感謝ChatGPT揭露本科論文的平庸》的文章寫道，本科論文的重點(diǎn)是教育，而不是知識(shí)的進(jìn)步。最關(guān)鍵的是訓(xùn)練和展示學(xué)生處理信息的能力，不是產(chǎn)出有價(jià)值的知識(shí)。“如果一直依賴ChatGPT得到結(jié)果，就不會(huì)經(jīng)歷批判思維的訓(xùn)練過程。而過程才是我想讓學(xué)生學(xué)習(xí)的。”石白說。

華盛頓大學(xué)的一位教授在《大西洋月刊》上表示，被識(shí)別出AI內(nèi)容的論文可能介于完全沒用AI，工具者100%用AI之間。學(xué)生究竟怎么使用、用法是否錯(cuò)誤，AI檢測工具無法回答，師生間誠實(shí)的溝通變得越來越重要。

教育規(guī)則的反思和變革

AI檢測器難以解決的監(jiān)管難題，反映出一個(gè)更深層次的困擾：如何處理AI和教育的關(guān)系？

尚俊杰告訴記者，技術(shù)革新一直在影響著教育系統(tǒng)。上世紀(jì)的學(xué)生需要去圖書館逐本翻閱文獻(xiàn)，一遍遍用手謄寫論文。搜索引擎和電子文稿軟件普及之后，學(xué)生可以直接在網(wǎng)上檢索文獻(xiàn)、復(fù)制粘貼、比較分析、歸納總結(jié)，大大提升了工作效率?？梢哉f，計(jì)算機(jī)在整個(gè)研究和論文寫作過程中起到了巨大作用，應(yīng)用AI是必然趨勢。

在尚俊杰看來，AI對高等教育是一次新的提升機(jī)會(huì)，也提出了更大的挑戰(zhàn)。引導(dǎo)學(xué)生合理使用AI，需要重新思考教育系統(tǒng)的“游戲規(guī)則”。

石白認(rèn)為，應(yīng)對生成式AI的沖擊，課程設(shè)置和考核方式很重要。她觀察到，學(xué)生用AI寫論文，往往跟論文難度有關(guān)。比如她發(fā)現(xiàn)有數(shù)篇AI論文的課程，“學(xué)生才剛接觸學(xué)術(shù)寫作，老師對論文字?jǐn)?shù)、文獻(xiàn)引用數(shù)量的要求又很高，其實(shí)超過了學(xué)生的能力范圍。” 另一門課的論文要求相對合理，而且著重于學(xué)生批判、思考的基礎(chǔ)能力，石白在這門課上幾乎沒有發(fā)現(xiàn)AI代寫論文。

近幾個(gè)月，包括西北大學(xué)、德克薩斯大學(xué)奧斯汀分校在內(nèi)的幾所美國高校宣布關(guān)閉Turnitin的AI檢測服務(wù)，并放寬對AI的限制。此前澳洲的多所大學(xué)嘗試轉(zhuǎn)變考核方式，減少標(biāo)準(zhǔn)考卷，采用更多的口頭報(bào)告、現(xiàn)場演示。

還有一些學(xué)校開始積極擁抱AI。今年1月，美國亞利桑那州立大學(xué)引入ChatGPT企業(yè)版，成為第一個(gè)與OpenAI合作的高等教育機(jī)構(gòu)。該校校長表示：“AI將成為幫助學(xué)生提高學(xué)習(xí)效率，更全面地理解學(xué)科的工具。此次合作反映了我們的理念和承諾——我們要直接參與到人工智能學(xué)習(xí)技術(shù)的發(fā)展過程中。”

尚俊杰指出，在人工智能時(shí)代，學(xué)生應(yīng)該做什么、學(xué)什么、怎么學(xué)，成為一個(gè)很重要的問題?！皩τ诂F(xiàn)在的高校學(xué)生，我們要求他們具有一定的計(jì)算機(jī)能力。在未來，什么能力是學(xué)生需要具備的？哪些能力將與AI掛鉤？” 斯坦福大學(xué)機(jī)器人及未來教育項(xiàng)目主任蔣里曾預(yù)測，未來學(xué)生的能力會(huì)被分成兩種：一種是單打獨(dú)斗的能力，不借助任何AI工具的幫助；另一種是AI加持下的能力，這可能是今后最為重要的能力。不同的能力要求，將重塑人才培養(yǎng)模式。

從更長遠(yuǎn)的尺度看，當(dāng)AI全面參與研究過程，學(xué)術(shù)規(guī)范等諸多規(guī)則也會(huì)迎來改變。例如尚俊杰提到，在文章中如何提及AI的貢獻(xiàn)，AI能否列為論文作者，乃至如何定義學(xué)術(shù)誠信、學(xué)術(shù)剽竊，都是未來會(huì)面臨的問題。

“AI應(yīng)用于高等教育已經(jīng)是必然趨勢，需要鼓勵(lì)正確使用，而不是一刀切的禁令。人類要探索的新問題是，在人工智能時(shí)代下，怎樣構(gòu)建新的學(xué)術(shù)規(guī)范和倫理規(guī)則?！鄙锌〗苷f。、

（應(yīng)受訪者要求，王宇、劉晨曦、石白為化名）

返回21經(jīng)濟(jì)網(wǎng)首頁 >>
分享到：

×
分享到微信朋友圈

打開微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

21調(diào)查丨“玄學(xué)”、誤判和偏見：高校檢測AI論文背后

2024年02月27日 13:04 21世紀(jì)經(jīng)濟(jì)報(bào)道 21財(cái)經(jīng)APP 肖瀟

查重率低了，AI率高了

上世紀(jì)論文也被判定為AI

使用界限模糊

教育規(guī)則的反思和變革

相關(guān)新聞

熱文排行

財(cái)經(jīng)日歷

數(shù)讀

每日智庫看點(diǎn)

關(guān)注我們

公告

21調(diào)查丨“玄學(xué)”、誤判和偏見：高校檢測AI論文背后

2024年02月27日 13:04 21世紀(jì)經(jīng)濟(jì)報(bào)道 21財(cái)經(jīng)APP 肖瀟

查重率低了，AI率高了

上世紀(jì)論文也被判定為AI

使用界限模糊

教育規(guī)則的反思和變革

相關(guān)新聞

熱文排行

財(cái)經(jīng)日歷

數(shù)讀

每日智庫看點(diǎn)

關(guān)注我們

公告

查重率低了，AI率高了