21世紀經濟報道記者王峰北京報道 語言文字是大模型的資源池,語料庫的質量決定著大模型的發展。而在大模型時代,語言文字已成為賦能產業發展的數據要素。
近日,教育部、國家語委、中央網信辦印發《關于加強數字中文建設 推進語言文字信息化發展的意見》(以下簡稱《意見》),全面謀劃數字中文建設。
在3月31日教育部新聞發布會上,教育部語言文字信息管理司司長劉培俊指出,《意見》創新應用自然語言處理、大語言模型、多模態信息處理、知識圖譜、語料加工等五項前沿技術,重點服務大語言模型等人工智能技術創新應用“制高點”,夯實國家關鍵語料基礎設施“新基建”。
數字中文推動產業升級
20世紀80年代,王選院士的團隊發明激光照排技術,并結合漢字的編碼標準,突破了中文數字化的空間限制,讓承載中華文化的中文在全球互聯網空間獲得新生。
當前,大語言模型技術對大規模高質量語料提出前所未有的需求,賦予了數據中文化新的歷史內涵和使命任務。
3月31日教育部新聞發布會 圖片來源:教育部官網
北京大學王選計算機研究所所長湯幟認為,新形勢下,語言文字將實現與信息技術的深度融合,要形成“技術突破—場景落地—生態繁榮”的良性循環,打造數字化引領品牌,有力服務教育發展、助力科技創新、賦能文化傳承、推動產業升級、促進社會進步。
《意見》特別提出,要實施數字中文推動產業升級行動。支持語言文字信息技術新產品、新職業和新業態發展,鼓勵傳統語言產業數字化轉型升級,培育基于數字中文的新型語言產業。推動語言資源、語言翻譯、智能機器人、中文內容服務等軟硬件產品研發應用,支持圍繞語音、語料、語言應用生態形成產業聚集,鼓勵創建語言產業應用示范品牌。
湯幟介紹,新形勢下,語言文字將實現從“靜態符號”向“動態數字資產”,從“信息載體”向“生產要素”的轉型,要重點推動語料庫、數據標注與評價等標準的研制,支持文本生成與理解、語言翻譯、情感分析等各種任務。
比如,廣東省教育廳在廣州大學設立粵語語料庫建設與大模型評測重點實驗室,為語料基礎設施建設、語言智能應用等提供堅實數據支撐,指導深圳大學建立語言障礙多模態數據庫,涵蓋漢語失語癥語料庫、兒童語言障礙語料庫,有力服務語言康復研究。
北京師范大學針對古漢語信息處理任務“低資源”“富知識”的特點,以解決領域知識學習需求為核心任務,使用1.8B(18億)參數量,訓練出“AI太炎”古漢語大語言模型。
北京師范大學副校長康震介紹,該模型在確保語料來源安全、語料內容安全、語料標注安全、模型安全等基礎上,能夠高質量完成古典文獻釋讀,支持字詞釋義、文白翻譯、句讀標點、用典分析等多種具有挑戰性的文言文理解任務。截至目前,該模型已廣泛應用于海內外的學術科研、基礎教育、編輯出版等多個領域,輔助古籍整理、語言研究、語文教育、辭書編纂等應用場景任務。
建設新型國家語料庫
《教育強國建設規劃綱要(2024—2035年)》提出,要建設新型國家語料庫。《意見》也提出,到2027年初步建成國家關鍵語料庫。語料庫在語言文字信息化工作中發揮什么樣的作用,下一步將如何推進?
劉培俊指出,將聚焦“需求”這一關鍵。在關鍵學科、重點行業、戰略區域、民生期待和社會急需領域,分批建設規范、安全、優質的國家關鍵語料庫。目前,教育部、國家語委已經支持建設了30余項關鍵領域的語料庫。
北京師范大學已建設了通用漢字全息數據庫,《說文》學數字資源庫、歷代碑刻與手寫文字屬性資源庫、甲骨文拓片資源庫等專業數字資源庫。
劉培俊指出,目前,教育部、國家語委已經支持布局了五個領域的自主安全可控大語言模型建設項目,下一步將根據需求穩步擴大建設范圍,提升建設成效。
下一步,將逐步建立健全語料共建共享新機制,研制語言資源、語言數據、基礎語料以及大語言模型的技術和管理標準,依托高校研究機構推進多學科交叉融合,為語言科技、語料建設以及人工智能創新應用培養高素質人才。
教育部語言文字應用管理司副司長王暉指出,當前以DeepSeek等為代表的人工智能技術創新不斷取得突破性的進展,在這個大背景下,國家提出這樣一個戰略部署,建設新型國家語料庫,凸顯了其重要性、必要性和緊要性,我們應當積極統籌、廣泛協同、大力推進。
“但是很多語料庫還處于單一文本模式和領域應用階段,在建設的理念、技術和方法、規模,以及數據多樣性、時效性尤其是與人工智能相結合的大規模應用方面還存在不足,難以滿足多元化、動態化尤其是智能化的語言數據需求。”王暉說。
對此,下一步將立足人工智能時代大背景,突破傳統語料庫單一文本模式和領域應用壁壘,以大模型訓練及性能評測、智能計算為核心,以新質態、多模態、多語言、大規模、全域性為突出特性,為通用領域和細分領域多場景應用及創新發展提供規范、可信、高質量的語言文化語料資源。
據介紹,目前已經啟動開發建設“中華文脈新型語料庫”“中華大閱讀體系語料庫”,以這兩個示范庫建設整體打造出標桿。
“中華文脈新型語料庫可以簡單理解為瞄準的是智慧教師,中華大閱讀體系語料庫瞄準的是智慧學伴。在此基礎上,探索建設系列教育、語言文化國家新型語料庫群,服務教育強國、文化強國建設。”王暉說。