21世紀經濟報道見習記者肖瀟 北京報道
AI中風險,疑似用ChatGPT生成——這是去年四月,學校查重系統對王宇畢業論文的判定。王宇一下慌了。
當時ChatGPT驚艷亮相不到半年,教育界一度擔心學生有了“作弊神器”。在這一背景下,知名學術查重軟件Turnitin率先推出了AI文本檢測器,用來識別論文中的AI生成內容。國內的格子達、知網兩大查重系統也先后上線了AIGC檢測功能,王宇就是第一屆被檢測畢業論文AI率的學生。
隨著生成式AI快速迭代,規則和技術漸漸填上監管真空期。去年8月提交審議的《學位法》(草案)擬定,人工智能代寫屬于學術不端行為,嚴重者可被撤銷學位證書。今年1月,Turnitin的AI文本檢測成為正式功能,開始像查重服務一樣向高校收取費用,一定程度上意味著AI論文檢測步入正軌。
但這沒有阻擋學生的使用,高校學生依然是生成式AI的主要用戶群?!爸苯影杨}目扔給AI讓它寫一整篇論文,老師肯定一眼就能看出來,我身邊已經沒什么人這么做了?!眲⒊筷馗嬖V21世紀經濟報道記者,她的用法是讓ChatGPT總結文獻、降重、潤色,這也是許多學生現在的使用方式。
不過,劉晨曦的論文還是被標記了25%的AI率,任課老師要求重寫。王宇在寫畢業論文的過程中沒有用到生成式AI,她曾經自己嘗試找出有“AI風格”的句子,改了兩輪后,“AI率越改越高?!?/p>
AI參與的論文能不能被準確檢測?有沒有必要檢測?AI論文的監管難題,正在困擾全球教育系統。
查重率低了,AI率高了
王宇去年畢業于湖南一所大學的商科專業。一開始看到自己的本科畢業論文被標記為“AI中風險”,王宇還不知道問題出在哪里,因為她沒用過ChatGPT這樣的工具寫作。直到老師將教師版本的AI檢測報告發過來,王宇才明白,那些AI疑似度高的段落,大多是被自己“降重”過的。
“降重”指降低重復率。此前在學生中流行的一種降重方法是,用翻譯軟件多次轉換語言,把他人的話快速“轉述”為自己的觀點。王宇用的就是這種辦法,她把一段話先從中文翻譯成英文,再將英語譯成日文,最后譯回中文,以此更換詞語和語序,降低與原文的相似度。
不過辦法這一次失靈了?!安橹芈适堑土撕芏?,但被認為是AI寫的?!?/p>
王宇學校使用的是格子達查重系統,去年四月開始運行“類AI輔寫行為檢測”功能。在王宇的個人提交界面,論文被評級為AI中風險。在王宇老師的界面,可以更清晰地查看可疑文本,每一句的AI疑似度分高、中、低三檔,輔寫工具均判定為ChatGPT。
除了格子達和知網,AI檢測工具尚未在國內高校全面鋪開。相比之下,Turnitin查重系統在海外應用更廣,檢測也更細致。劉晨曦在加拿大上學,去年十二月,她的一篇論文在Turnitin中顯示AI率25%——意思是25%的文本疑似由AI生成。老師因此讓她重寫,并且無論如何都要扣除25%的分數。
這篇論文是劉晨曦英語文學課的結課作業,主題是比較兩部文學作品。寫論文時,她先跟ChatGPT最新的GPT-4大模型討論寫作方向,得到了比較兩位俄國女詩人的靈感。接著讓GPT-4查找文獻,自己寫出大綱和草稿。最后再讓GPT-4降重、潤色。最終論文里有多少屬于AI,多少屬于自己,她很難區分清楚。
劉晨曦說,GPT-4直接輸出論文仍然很生硬,編造文獻不少,“還不如自己寫”。但比起傳統的降重方法,ChatGPT的優勢是可以精準“調教”,比如改寫特定的句子,或者解釋復雜概念。在找文獻上也更快捷,原本需要檢索兩到三天的文獻,GPT-4幾個小時就能整理完畢。
根據Nerdynav的調查,43%的大學生用過生成式AI完成作業。英國媒體The Lab統計發現,羅素大學集團下的八所大學,對ChatGPT的訪問量在兩個月內高達100萬。其中12月和1月是校園網絡訪問ChatGPT的高峰期,正是考試集中月。多位受訪學生告訴記者,AI一鍵生成的論文意義不大,基本達不到學校要求。學生現在的主要用法是總結文獻、降重、潤色語言,本質還是他們曾經抄過的一條“捷徑”。
劃下AI率紅線后,這條“捷徑”走不通了。從去年夏天起,小到隨堂感想,大到結課論文,劉晨曦的學校都要求AI率為0%。
王宇學校規定,畢業論文必須為AI低風險。她把被標記為AI的句子用自己的“大白話”重新描述,在修改了6個版本后,論文終于變為AI低風險?!斑@是個玄學。”王宇形容。
上世紀論文也被判定為AI
多所高校都發布過AI論文禁令。最早開始的是美國紐約教育局,其限制在學校Wi-Fi網絡環境中訪問ChatGPT。英國大學尤其注重學術誠信,牛津、劍橋、帝國理工等28所英國大學都曾宣布,在論文和課程作業中不當使用AI,將被視為違反學術誠信的行為,嚴重者可能被開除學籍。香港大學也表示,學生在課程作業中使用AI需要老師批準,否則可以按作弊處理。
AI檢測技術的影響是立竿見影的。Tunitin上線AI檢測器的一個月內,全球有超過一萬所中高等教育機構激活了這款工具。除了Turnitin,市面上還流行GPT Zero、 Copyleak等AI檢測工具,大多向個人免費開放。
一留學中介在社交媒體上分享,2023年在英國留學生中,AI代寫論文的學術聽證會數量,已經超過人工代寫?!癆I檢測率高是很石錘的學術不端?!?/strong>
但AI檢測器準確嗎?石白在美國加州大學系統下的一所大學擔任助教,她告訴記者,如果論文全篇用AI生成,有經驗的助教一眼就能看出來。去年秋季學期,她的課上就有兩篇論文屬于這種情況?!坝迷~華麗空洞,而且引用的文獻基本不存在。”石白搜索了一款AI檢測工具,99%的檢測結果幫她肯定了自己的猜測。
被懷疑有AI參與的論文還有三到四篇,AI率在30%~40%之間,但石白沒有追究。一個原因是,她熟悉其中一位學生的寫作風格,其寫法一直比較華麗;另一方面,有其他助教曾經檢測了自己的原創論文,AI率也有30%~40%,這讓石白覺得AI檢測工具還不夠可靠。
劉晨曦用五篇AI參與程度不同的論文,測試了市面上的主流AI檢測工具,得出的結論是:除非完全不用任何工具,否則都有AI含量。比如,去年十二月,她讓GPT-4潤色了知名哲學家朱迪斯·巴特勒、斯拉沃熱·齊澤克的兩篇論文,前者在Turnitin檢測出的AI率為51%,后者為34%。
“而且巴特勒本人就喜歡用生僻詞語、長難句寫作,哪怕直接提交她在上個世紀發表的論文,也顯示有AI內容?!眲⒊筷匮a充道。
盡管許多AI檢測工具聲稱誤判率在1%之內,但在使用過程中,誤判概率似乎遠高于官方數字。最大的誤判區是語法工具、翻譯軟件和潤色功能,一些固定的個人寫作風格也可能被誤傷。
對于可能出現的誤判,Turnitin的解釋是:“AI檢測器會識別書寫過于一致、平均的模式,而許多人的寫作水平可能就屬于平均模式。” 這也是市面上大部分AI檢測器的說法。
簡單來說,人類往往會綜合使用長短句,而AI 的句子更單調。此外,人類的文本通常還有復雜的轉折、非典型的邏輯結構,讓AI無法準確工具測下一個詞語。這兩個影響因子決定了,一些遵循“寫作模板”的論文,可能被誤認為是AI作品。至于這些模板究竟是什么,具體如何運作,幾乎沒有AI檢測器能夠提供解釋。就像AI一樣,目前AI檢測的技術原理也處于黑箱之中。
考慮到存在誤差,許多AI檢測工具都發布了“免責聲明”。比如Turnitin建議,不把AI率當作唯一標準,希望老師綜合專業經驗以及對學生的了解做判斷。
使用界限模糊
北京大學教育學院學習科學實驗室執行主任尚俊杰在采訪中告訴21記者,目前AI檢測器的意義,主要是監督明顯的學術不端行為,比如直接用AI生成全文。
還有一種情況是,AI靈活應用在整個研究和寫作過程中。此時的核心問題在于,哪些行為算學術不端,哪些行為算合理使用?簡單用數字高低判斷并不科學,劃分界限是個難題。
論文被檢測出25%的AI率、判定為抄襲后,劉晨曦將每一階段的草稿、文獻整理筆記、瀏覽器搜索歷史發給老師,證明論文是自己的原創作品,成功爭取到了老師的認同。不過,申訴中介讓她不要跟老師提到ChatGPT,于是她謊稱用的是另一款老牌寫作工具Grammarly。
Grammarly是上一波人工智能浪潮的產物,主要用來糾正語病、潤色語句,不少歐美大學的寫作指導中心甚至會鼓勵學生先用Grammarly批改作業?!皣栏褚饬x上,用輔助工具都算作弊。但老師比較能理解這些軟件的作用,所以我只能這么說?!眲⒊筷亟忉尅?/p>
既是在讀博士,又為大一、大二學生授課的石白,一方面能理解學生用AI寫論文,因為她也常用ChatGPT做論文的前期準備,比如做表格、搜文獻;另一方面,她認為本科生無法把握使用的邊界,所以才會在教學大綱中完全禁止學生使用AI。
多位受訪學生提到,求助AI的一個原因是學術能力有限?!氨究粕恼撐臎]什么學術含金量,這種綜述性的作業,大家都是找幾篇論文湊一湊觀點,再找工具改一改。”王宇說,只要不涉及數據造假、文獻造假,她覺得用AI寫論文沒有什么問題。
但在石白看來,學術論文是觀察、思考、提問、論述的完整過程。一篇名為《感謝ChatGPT揭露本科論文的平庸》的文章寫道,本科論文的重點是教育,而不是知識的進步。最關鍵的是訓練和展示學生處理信息的能力,不是產出有價值的知識?!叭绻恢币蕾嘋hatGPT得到結果,就不會經歷批判思維的訓練過程。而過程才是我想讓學生學習的。”石白說。
華盛頓大學的一位教授在《大西洋月刊》上表示,被識別出AI內容的論文可能介于完全沒用AI,工具者100%用AI之間。學生究竟怎么使用、用法是否錯誤,AI檢測工具無法回答,師生間誠實的溝通變得越來越重要。
教育規則的反思和變革
AI檢測器難以解決的監管難題,反映出一個更深層次的困擾:如何處理AI和教育的關系?
尚俊杰告訴記者,技術革新一直在影響著教育系統。上世紀的學生需要去圖書館逐本翻閱文獻,一遍遍用手謄寫論文。搜索引擎和電子文稿軟件普及之后,學生可以直接在網上檢索文獻、復制粘貼、比較分析、歸納總結,大大提升了工作效率??梢哉f,計算機在整個研究和論文寫作過程中起到了巨大作用,應用AI是必然趨勢。
在尚俊杰看來,AI對高等教育是一次新的提升機會,也提出了更大的挑戰。引導學生合理使用AI,需要重新思考教育系統的“游戲規則”。
石白認為,應對生成式AI的沖擊,課程設置和考核方式很重要。她觀察到,學生用AI寫論文,往往跟論文難度有關。比如她發現有數篇AI論文的課程,“學生才剛接觸學術寫作,老師對論文字數、文獻引用數量的要求又很高,其實超過了學生的能力范圍?!?另一門課的論文要求相對合理,而且著重于學生批判、思考的基礎能力,石白在這門課上幾乎沒有發現AI代寫論文。
近幾個月,包括西北大學、德克薩斯大學奧斯汀分校在內的幾所美國高校宣布關閉Turnitin的AI檢測服務,并放寬對AI的限制。此前澳洲的多所大學嘗試轉變考核方式,減少標準考卷,采用更多的口頭報告、現場演示。
還有一些學校開始積極擁抱AI。今年1月,美國亞利桑那州立大學引入ChatGPT企業版,成為第一個與OpenAI合作的高等教育機構。該校校長表示:“AI將成為幫助學生提高學習效率,更全面地理解學科的工具。此次合作反映了我們的理念和承諾——我們要直接參與到人工智能學習技術的發展過程中?!?/p>
尚俊杰指出,在人工智能時代,學生應該做什么、學什么、怎么學,成為一個很重要的問題?!皩τ诂F在的高校學生,我們要求他們具有一定的計算機能力。在未來,什么能力是學生需要具備的?哪些能力將與AI掛鉤?” 斯坦福大學機器人及未來教育項目主任蔣里曾預測,未來學生的能力會被分成兩種:一種是單打獨斗的能力,不借助任何AI工具的幫助;另一種是AI加持下的能力,這可能是今后最為重要的能力。不同的能力要求,將重塑人才培養模式。
從更長遠的尺度看,當AI全面參與研究過程,學術規范等諸多規則也會迎來改變。例如尚俊杰提到,在文章中如何提及AI的貢獻,AI能否列為論文作者,乃至如何定義學術誠信、學術剽竊,都是未來會面臨的問題。
“AI應用于高等教育已經是必然趨勢,需要鼓勵正確使用,而不是一刀切的禁令。人類要探索的新問題是,在人工智能時代下,怎樣構建新的學術規范和倫理規則?!鄙锌〗苷f。、
(應受訪者要求,王宇、劉晨曦、石白為化名)