21世紀經濟報道記者 周瀟梟 北京報道 政府工作報告指出,制定支持數字經濟高質量發展政策,積極推進數字產業化、產業數字化,促進數字技術和實體經濟深度融合。深化大數據、人工智能等研發應用,開展“人工智能+”行動,打造具有國際競爭力的數字產業集群。
全國政協委員、中國科學院院士、北京大學講席教授陳松蹊今年兩會帶來的提案跟“數字中國”建設相關,他建議加強數據分析人才培養、推進公共數據開放,這樣中國才能在全球數據賦能競賽中成為“領跑者”,才能更好地推動實現科技自立自強。
近日,21世紀經濟報道記者帶著相關問題專訪了陳松蹊。陳松蹊表示,中國發展人工智能要走自己的路,可以把深度學習和統計學結合起來,走一條更效能更綠色的發展之路。
(全國政協委員、中國科學院院士、北京大學講席教授陳松蹊,采訪者供圖)
數據驅動經濟騰飛有經典案例
《21世紀》:今年兩會你帶來的提案,有一份是關于加強數據分析人才培養。在推進人工智能發展過程中,數據起到什么作用?數據分析起到什么作用?
陳松蹊:人工智能的算法是基于數據,基于高質量數據。人工智能的基礎,一個是計算機,一個是統計學。像人工智能大模型,就是基于大量的、無序的、有偏差的數據,應用統計思想、統計分析方法,構建的分析決策模型。
近些年,人力資源部發布的數據顯示,我國數據分析人才非常欠缺。大量數據要真正實現“賦能”,需要經過數據分析,因為數據存在隨機性、誤差等特征。只有通過分析數據才知道其質量、價值、是否可以賦能;只有經過統計分析才能真正用于決策。
統計學是一門基礎學科,各個學科的實證分析,都需要用到統計學。統計學科數據賦能的歷史已有150年,在農業、工業、生物制藥、醫學、金融等領域都有廣泛的應用。
像日本經濟實現騰飛很關鍵的一環在于1950年代開始使用統計學的質量控制,在數據分析的基礎上提升了工業產品質量,是數據驅動經濟騰飛的經典案例。藥物臨床試驗要做的實證分析,是通過實驗組和對照組來對比驗證藥物是否有效,這里面數據的采集分析需要用到統計學方法。美國幾個大的藥廠都雇傭600名統計博士。另外一個數據賦能的成功案例是信用卡公司,信用卡個人信用風險評估,就是基于大量個人數據,應用統計學方法建模分析對不同客戶進行風險打分。近年來,部分統計學畢業生進入互聯網公司,跟算法工程師一起完善算法。
我們團隊之前監測大氣污染的治理效果,就在考慮統計團隊可以貢獻什么。因為此前評估空氣污染治理效果,主要基于觀測到的大氣污染平均濃度,但是大氣污染受到排放、氣象條件等多因素影響。我們應用統計學方法剔除掉氣象因素,排除掉“天幫忙”的情形,基于排放來監測大氣狀況,來評估地方大氣治理的效果,這樣的評估會更加公平有效。
加強統計分析來挖掘數據生產力
《21世紀》:我國大數據產業發展多年,但很多大數據公司似乎難以盈利,在你看來背后的原因是什么?
陳松蹊:我國大數據產業發展有十多年了,此前很多公司側重在賣硬件,在顯示、存儲、算力等方面投入較多,但是在數據分析這塊還比較欠缺。要真正實現數據賦能,不能只是配備硬件,需要在某個領域里深耕,真正利用數據分析實現科學決策,這樣才能真正盈利?,F在要補齊數據分析能力,基于行業特點通過數據分析,才能判斷數據的質量和價值,才能摸索出數據賦能的路徑,才能釋放數據的生產力。
數據賦能現在有兩條路,一條是自上而下,一條是自下而上。“自上而下”就是大模型的應用,使用通用模型來解決問題。但是,大模型耗電量很大,需要使用很多超算,訓練模式也比較復雜,通用大模型下沉到具體企業還有很長的路要走。對于企業而言,其實更適合“自下而上”,就是企業把自己產生的數據先分析利用起來,在此基礎上解決企業、行業現實的問題。數據賦能是一個長期事業,需要企業有自己的數據分析師,而不是只是找短期咨詢師,咨詢完后就走人。
數據是國家或企業的戰略資源,但是數據本身不會自動賦能,要通過數據分析才能實現。通過數據分析挖掘數據生產力,是數字中國建設的一個關鍵。
統計分析讓人工智能更高效更綠色
《21世紀》:去年美國的ChatGPT,今年開年的Sora,都讓大家驚訝于人工智能的發展。中國的人工智能應該朝著什么方向努力?
陳松蹊:中國需要走出自己的路,不然總是跟在別人后面。現在大模型主要靠算力,也消耗很多能源,中國可以考慮是否能讓人工智能變得更綠色,比如把深度學習和統計分析結合起來,在前端做更多聰明的事情,減少一些蠻力投入,這樣對能源的消耗不會那么大,讓人工智能的發展路徑更加綠色高效。
公共數據開放需建立規范機制
《21世紀》:你今年還有一份提案,建議“加強公共數據共享,推動科技數據自立自強”。公共數據的開放,現在是否變得更迫切?在推動公共數據開放共享方面,有何建議?
陳松蹊:數據是最新的生產要素,新質生產力的發展往往需要數據驅動。要想數據賦能,要想彎道超車,需要有頂層設計,需要在數據標準、交易制度、數據開放等方面做更多工作。2023年專門成立國家數據局,就是為了更好推動相關基礎工作。
科學家和企業對公共數據都有需求。比如,智慧農業對氣象、地表、土壤等數據都有需求。科學家們需要穩定的數據來源,因為做科研發表時所用數據其他人也要可以獲取,用于重復驗證,因此公共數據對外公開的標準和格式都應該有規范,不要隨意更改。
要推動實現高水平科技自立自強,首先需要提高公共數據的開放度。中國科學家可以基于中國海量數據,構建高質量的數據集,進而推動相關研究、人工智能往前發展。
因為國內公共數據獲取存在困難,我國科學家大量使用國外的公共數據進行科學研究。比如英國生物銀行基于30萬大樣本人群的遺傳、生活環境和健康數據,是腦科學、生物統計、人口遺傳等學科研究常用的數據來源。華為的盤古氣象大模型,是基于歐洲氣象中心的數據,構建了再分析數據集,進而訓練成功的。世界衛生組織發布的各國流行病數據,也是開展相關研究的重要公共數據來源。
在公共數據開放方面,政府可以帶個頭。那些不涉及國家安全的數據,諸如經濟、地球科學、交通、氣象等數據,應該盡可能多地公開共享。建議建立一套公共數據公開透明的機制,明確哪些可以對外公開,哪些做了風險評估后公開,哪些需要簽訂保密協議等。當然,搜集采集數據是有成本,有些數據的獲取可以收費。