21世紀經濟報道記者楊清清 北京報道
作為當前人工智能發展的重要方向,預訓練大模型已成為AI領域的技術新高地。
據不完全統計,目前AI大模型已經吸引了包括谷歌、微軟、英偉達、華為、百度、阿里等科技巨頭以及多個科研機構參與其中,各家大模型的參數量級也從千億、萬億,迅速提升至10萬億級別。
不過,在AI大模型熱度持續攀升的過程中,各家的布局重點有所不同。近日,鵬城實驗室與百度聯合召開發布會,正式發布雙方共同研發的鵬城-百度·文心(模型版本號:ERNIE 3.0 Titan)。據介紹,該模型參數規模達到2600億,是目前全球最大中文單體模型,也是全球首個知識增強千億大模型。
“如果將這個模型的特點總結為一條,就是知識增強。”在接受包括21世紀經濟報道在內的媒體采訪時,百度集團副總裁吳甜分析稱,“同時,在融入知識的基礎上,該模型也會進行跨語言學習、跨模態學習,從而體現出學習效率更高、學習能力更強的優勢。”
知識增強大模型
鵬城-百度·文心知識增強大模型的最大特點,在于其在學習過程中融入知識,進而實現將海量知識與海量數據進行同時融合的學習。
在吳甜看來,知識帶來的優勢在于學習效率更高。據介紹,鵬城-百度·文心知識增強大模型在包括機器閱讀理解、文本分類、語義相似度計算等60多項任務上取得最好效果,并在30余項小樣本和零樣本任務上刷新基準。
“這說明模型本身的效果足夠好。”吳甜分析稱,“我們看到那60多個任務是各種各樣的不同任務,體現出模型具備較好的通用性。同時在30多項小樣本、零樣本學習上,模型也取得了更好效果,意味著它的泛化能力更強,在看到不同場景和任務的時候可以通過少量數據標記就能實現良好效果?!?/p>
需要注意的是,早在今年1月,谷歌便發布了全球首個萬億級模型Switch Transformer,參數規模達到1.6萬億。11月,阿里巴巴達摩院公布的多模態大模型M6的參數規模更是躍升至10萬億級別,成為全球最大的AI預訓練模型。
相較之下,鵬城-百度·文心知識增強大模型的參數規模僅2600億,如何看待這樣的規模量級?
吳甜解釋稱,當前AI預訓練大模型分為“單體模型”和“混合專家模型”兩類。所謂單體模型也是稠密模型,具備稠密參數,將所有數據中習得的規律都記錄在一張網絡內,使用時網絡上的任何點位都會被計算到,鵬城-百度·文心知識增強大模型正屬于此類。
“混合專家模型”則是稀疏模型,是由多個不同網絡通過門控機制集成在一起,在單次計算中可能只會使用部分子網絡的參數。目前,兩類大模型也代表了不同的AI預訓練的技術方向。
“目前來說,我們能看到最大發布的單體模型是千億量級的,市面上的萬億、十萬億等都是混合專家模型?!眳翘鸨硎?,“到現在還沒有公開研究表明,萬億乃至十萬億的混合專家模型效果能夠媲美千億的單體模型,這個問題本身還值得進一步繼續研究。”
降低AI應用門檻
大模型近年來受到追捧,并非沒有原因。
本輪的第三次人工智能浪潮中,伴隨著高性能計算機、因特網、大數據、傳感器的普及,以及計算成本的下降,“機器學習”隨之興起。所謂機器學習(Machine leaning),是指讓計算機大量學習數據,使它可以像人類一樣辨識聲音及影像,或是針對問題做出合適的判斷。
其中,最受關注的莫過于深度學習,亦即透過模仿人腦的“類神經網絡”(Neural network)來學習大量數據的手法。深度學習的演進與發展則源自大數據、大算力、大模型三大支撐。
在吳甜看來,從某種程度而言,這三大支撐要素也構成了深度學習及人工智能技術的瓶頸所在,包括大量的數據標注背后高昂的成本、數據標注本身的天花板等都是難題所在。與之相對應的,預訓練技術則解決了讓算法在海量無標記數據中進行自監督學習,從而帶來技術上的突破與變化。
“隨著預訓練技術的突破,幾乎可以認為所有任務現在都是基于預訓練機制實現全面的效果提升?!眳翘鸾忉尫Q,“而通過大算力平臺支撐,實現時間、模型體積、參數規模的增長,進而便形成當前一系列大模型的誕生?!?/p>
從這個角度而言,預訓練大模型具備相當的價值?!按竽P蛯τ诋a業而言,其意義在于降低了AI應用門檻?!眳翘鸨硎尽?/p>
在吳甜看來,目前行業內的AI技術應用存在兩大困難。首先在于數據標注非常昂貴,甚至在特定場景內無法完成大批量批注,另一方面在行業應用中,行業自身的知識積累至關重要。預訓練大模型的推出,則能夠在不具備大量數據標注的同時保證了技術基礎底座,疊加行業“基本功”便能夠實現AI技術的快速落地。
據介紹,目前百度文心通過百度飛槳平臺陸續對外開源開放,并已大規模應用于百度搜索、信息流、智能音箱等互聯網產品,同時通過百度智能云賦能工業、能源、金融、通信、媒體、教育等各行各業。