專訪全國政協委員陳松蹊：深度學習和統計分析相結合，推動人工智能的高效綠色發展

2024年03月11日 11:53 21世紀經濟報道 21財經APP 周瀟梟

21世紀經濟報道記者周瀟梟北京報道 政府工作報告指出，制定支持數字經濟高質量發展政策，積極推進數字產業化、產業數字化，促進數字技術和實體經濟深度融合。深化大數據、人工智能等研發應用，開展“人工智能+”行動，打造具有國際競爭力的數字產業集群。

全國政協委員、中國科學院院士、北京大學講席教授陳松蹊今年兩會帶來的提案跟“數字中國”建設相關，他建議加強數據分析人才培養、推進公共數據開放，這樣中國才能在全球數據賦能競賽中成為“領跑者”，才能更好地推動實現科技自立自強。

近日，21世紀經濟報道記者帶著相關問題專訪了陳松蹊。陳松蹊表示，中國發展人工智能要走自己的路，可以把深度學習和統計學結合起來，走一條更效能更綠色的發展之路。

（全國政協委員、中國科學院院士、北京大學講席教授陳松蹊，采訪者供圖）

數據驅動經濟騰飛有經典案例

《21世紀》：今年兩會你帶來的提案，有一份是關于加強數據分析人才培養。在推進人工智能發展過程中，數據起到什么作用？數據分析起到什么作用？

陳松蹊：人工智能的算法是基于數據，基于高質量數據。人工智能的基礎，一個是計算機，一個是統計學。像人工智能大模型，就是基于大量的、無序的、有偏差的數據，應用統計思想、統計分析方法，構建的分析決策模型。

近些年，人力資源部發布的數據顯示，我國數據分析人才非常欠缺。大量數據要真正實現“賦能”，需要經過數據分析，因為數據存在隨機性、誤差等特征。只有通過分析數據才知道其質量、價值、是否可以賦能；只有經過統計分析才能真正用于決策。

統計學是一門基礎學科，各個學科的實證分析，都需要用到統計學。統計學科數據賦能的歷史已有150年，在農業、工業、生物制藥、醫學、金融等領域都有廣泛的應用。

像日本經濟實現騰飛很關鍵的一環在于1950年代開始使用統計學的質量控制，在數據分析的基礎上提升了工業產品質量，是數據驅動經濟騰飛的經典案例。藥物臨床試驗要做的實證分析，是通過實驗組和對照組來對比驗證藥物是否有效，這里面數據的采集分析需要用到統計學方法。美國幾個大的藥廠都雇傭600名統計博士。另外一個數據賦能的成功案例是信用卡公司，信用卡個人信用風險評估，就是基于大量個人數據，應用統計學方法建模分析對不同客戶進行風險打分。近年來，部分統計學畢業生進入互聯網公司，跟算法工程師一起完善算法。

我們團隊之前監測大氣污染的治理效果，就在考慮統計團隊可以貢獻什么。因為此前評估空氣污染治理效果，主要基于觀測到的大氣污染平均濃度，但是大氣污染受到排放、氣象條件等多因素影響。我們應用統計學方法剔除掉氣象因素，排除掉“天幫忙”的情形，基于排放來監測大氣狀況，來評估地方大氣治理的效果，這樣的評估會更加公平有效。

加強統計分析來挖掘數據生產力

《21世紀》：我國大數據產業發展多年，但很多大數據公司似乎難以盈利，在你看來背后的原因是什么？

陳松蹊：我國大數據產業發展有十多年了，此前很多公司側重在賣硬件，在顯示、存儲、算力等方面投入較多，但是在數據分析這塊還比較欠缺。要真正實現數據賦能，不能只是配備硬件，需要在某個領域里深耕，真正利用數據分析實現科學決策，這樣才能真正盈利。現在要補齊數據分析能力，基于行業特點通過數據分析，才能判斷數據的質量和價值，才能摸索出數據賦能的路徑，才能釋放數據的生產力。

數據賦能現在有兩條路，一條是自上而下，一條是自下而上。“自上而下”就是大模型的應用，使用通用模型來解決問題。但是，大模型耗電量很大，需要使用很多超算，訓練模式也比較復雜，通用大模型下沉到具體企業還有很長的路要走。對于企業而言，其實更適合“自下而上”，就是企業把自己產生的數據先分析利用起來，在此基礎上解決企業、行業現實的問題。數據賦能是一個長期事業，需要企業有自己的數據分析師，而不是只是找短期咨詢師，咨詢完后就走人。

數據是國家或企業的戰略資源，但是數據本身不會自動賦能，要通過數據分析才能實現。通過數據分析挖掘數據生產力，是數字中國建設的一個關鍵。

統計分析讓人工智能更高效更綠色

《21世紀》：去年美國的ChatGPT，今年開年的Sora，都讓大家驚訝于人工智能的發展。中國的人工智能應該朝著什么方向努力？

陳松蹊：中國需要走出自己的路，不然總是跟在別人后面。現在大模型主要靠算力，也消耗很多能源，中國可以考慮是否能讓人工智能變得更綠色，比如把深度學習和統計分析結合起來，在前端做更多聰明的事情，減少一些蠻力投入，這樣對能源的消耗不會那么大，讓人工智能的發展路徑更加綠色高效。

公共數據開放需建立規范機制

《21世紀》：你今年還有一份提案，建議“加強公共數據共享，推動科技數據自立自強”。公共數據的開放，現在是否變得更迫切？在推動公共數據開放共享方面，有何建議？

陳松蹊：數據是最新的生產要素，新質生產力的發展往往需要數據驅動。要想數據賦能，要想彎道超車，需要有頂層設計，需要在數據標準、交易制度、數據開放等方面做更多工作。2023年專門成立國家數據局，就是為了更好推動相關基礎工作。

科學家和企業對公共數據都有需求。比如，智慧農業對氣象、地表、土壤等數據都有需求。科學家們需要穩定的數據來源，因為做科研發表時所用數據其他人也要可以獲取，用于重復驗證，因此公共數據對外公開的標準和格式都應該有規范，不要隨意更改。

要推動實現高水平科技自立自強，首先需要提高公共數據的開放度。中國科學家可以基于中國海量數據，構建高質量的數據集，進而推動相關研究、人工智能往前發展。

因為國內公共數據獲取存在困難，我國科學家大量使用國外的公共數據進行科學研究。比如英國生物銀行基于30萬大樣本人群的遺傳、生活環境和健康數據，是腦科學、生物統計、人口遺傳等學科研究常用的數據來源。華為的盤古氣象大模型，是基于歐洲氣象中心的數據，構建了再分析數據集，進而訓練成功的。世界衛生組織發布的各國流行病數據，也是開展相關研究的重要公共數據來源。

在公共數據開放方面，政府可以帶個頭。那些不涉及國家安全的數據，諸如經濟、地球科學、交通、氣象等數據，應該盡可能多地公開共享。建議建立一套公共數據公開透明的機制，明確哪些可以對外公開，哪些做了風險評估后公開，哪些需要簽訂保密協議等。當然，搜集采集數據是有成本，有些數據的獲取可以收費。

專訪全國政協委員陳松蹊：深度學習和統計分析相結合，推動人工智能的高效綠色發展

2024年03月11日 11:53 21世紀經濟報道 21財經APP 周瀟梟

數據驅動經濟騰飛有經典案例

加強統計分析來挖掘數據生產力

統計分析讓人工智能更高效更綠色

公共數據開放需建立規范機制

相關新聞

熱文排行

財經日歷

數讀

每日智庫看點

關注我們

公告