21世紀經濟報道記者孔海麗 北京報道
一支來自“中國的神秘力量”,一再震撼硅谷和華爾街,以算法打破了算力神話,重構AI敘事。
當地時間1月27日,美股芯片板塊大幅調整,英偉達暴跌16.86%,創市值最大蒸發紀錄;博通大跌逾17%,甲骨文下跌近14%,納斯達克下挫3.07%。
很多投資者將這次的調整歸因于DeepSeek的崛起。這家位于杭州的人工智能公司,最近推出了最新開源大模型R1,其性能直追OpenAI大模型o1。
該公司去年12月推出的大模型DeepSeek-V3,多項測試性能比肩Anthropic的Claude-3.5和OpenAI的閉源模型GPT-4o,個別項目甚至有所超越。
正當一批AI分析師認為DeepSeek只聚焦于語言大模型而暫時放棄開發多模態模型時,該公司卻于1月28日發布了一款多模態大模型Janus-Pro,而該模型在圖像生成基準測試中超過了OpenAI的DALL-E3,令人驚艷。
最令硅谷震驚的是,DeepSeek的開源大模型,性能卓越,卻是在更低成本、更短時間、更少算力的基礎上實現的。V3和R1的訓練成本均只有550萬美元左右,不及Anthropic和OpenAI同類模型成本的十分之一。
1月27日,DeepSeek登頂蘋果中國地區和美國地區應用商店免費App下載排行榜,超越了ChatGPT。
這當然是不折不扣的奇跡。
美國總統特朗普當地時間27日在佛羅里達州邁阿密舉行的共和黨會議上表示,中國人工智能初創公司DeepSeek的崛起應當為美國企業敲響“警鐘”,“這可能是非常積極的發展。因此,與其投入數十億資金,不如花費更少的(資源),但愿能得出同樣的解決方案?!?/p>
人工智能國際大佬又是如何看待這一奇跡?
微軟首席執行官薩蒂亞·納德拉(Satya Nadella)日前在達沃斯世界經濟論壇上談到DeepSeek時表示:“DeepSeek的新模型令人印象深刻,他們不僅有效地構建了一個開源模型,能夠在推理計算時高效運行,而且在計算效率方面表現出色。我們必須非常非常認真地對待中國的AI進步?!?/p>
創立于2022年的Perplexity,估值90億美元,是僅次于Anthropic和OpenAI等第一梯隊的人工智能新創企業。近日,Perplexity首席執行官Aravind Srinivas(阿拉溫德·斯里尼瓦斯)在一次訪談中詳談了對DeepSeek的看法。
斯里尼瓦斯表示,需求是發明之母。由于硬件資源條件受限,中國企業不得不尋找變通方案,最終,“他們(DeepSeek)以更高效、更低成本的方式開發了類似(Anthropic和OpenAI)的技術。這確實讓人感到壓力”。如果說Meta正在趕上OpenAI或Anthropic,那么同樣的說法也可以用于中國趕上美國。
但是,為DeepSeek的成就感到興奮自豪之余,也要對世界人工智能永不停歇的發展勢頭保持客觀理性的認識,不可盲目自滿。記者近期采訪了多位國內專家和相關從業人員、投資者,關于DeepSeek現象,有以下共識:
其一,V3和R1的重大突破,并不能證明算力不重要。
近幾年以OpenAI為代表的美國人工智能發展,是建立在更強的算力、更大的參數、更高的成本之上。某種程度上,它可稱之為人工智能的“硅谷敘事”。這個粗放豪橫的模式講到極致,就是5000億美元的星際之門計劃。
但中國企業無法獲得高性能的芯片,也沒有那么多的資金。客觀條件受限,只能在底層算力基礎上進行架構、算法和數據利用方面的探索,在特定領域走出一條高效率、低成本的實用主義路子。
這條路子就是如浙江大學計算機博士、美國南加州大學訪問學者傅聰所說的,在“后訓練”過程中,通過學習CoT(思維鏈)的方式,一步一步推理得出結果,而不是直接預測答案,“這一方案,也是圈子內對OpenAI o1模型實現路徑的猜測,而Deepseek用極快的速度,驗證了這一路徑的可行性!”
事實上,DeepSeek創始人梁文鋒透露,此前該公司已儲備了萬張A100芯片等。這比一般初創公司強多了。只不過,在開發V3和R1時,由于效率超出預期,他們無須使用那么多算力罷了。
其二,英偉達等芯片股的調整,主要是市場風險的釋放,與DeepSeek的重大突破之間,邏輯上沒有必然聯系。
以英偉達為代表的人工智能板塊,已持續上漲幾年。中間雖然偶有波動,但調整并不充分。英偉達PE長期橫移在40倍上方,17日收盤后仍有45倍。
1月17日納斯達克芯片股的大跌,更多是在高估值風險預期之下一種市場情緒的釋放。DeepSeek只是提供或者觸發了風險情緒釋放的媒介?,F在沒有證據足以表明,全球算力尤其是高端算力資源已經過剩。更大的可能是,如果2025年打開了人工智能應用的空間,算力需求也會隨之增加,只不過,像DeepSeek這樣高效率利用算力,將會被更多企業借鑒。AI硬件仍有很大的增長空間,算力敘事沒有過時。
當地時間1月27日,英偉達發表聲明表示,DeepSeek所取得的進展,顯示出其芯片在中國市場的實用價值,且未來為滿足DeepSeek的服務需求,將需要更多英偉達芯片。
其三,探索與追趕:中國企業的創新能力在增強。
梁文鋒去年7月在接受媒體采訪時說,硅谷習慣于將中國AI公司視為follow的角色,當一個中國公司以創新貢獻者的身份,加入到他們游戲里去,而且表現優異時,他們就很震驚。
毫無疑問,在大模型開發路徑上,DeepSeek扮演了一種創新者的角色,亦即低成本、少算力的高效集成之路。
作為追趕者,存在后發優勢。1月26日,在拾象創始人兼CEO李廣密組織的關于 DeepSeek的閉門討論會上,專家提出,AI 類似階躍函數,現在做追趕者的算力需求少了 10 倍。追趕者的算力成本一直不太高,而探索者還是要訓練很多模型,有大量試錯成本。
后發者可以聰明地進行創新。舉個例子。大模型開發需要龐大的數據集(數據庫)。而數據有沒有標注,其精確度是不一樣的。前述專家透露,DeepSeek 非常重視數據標注,聽說梁文鋒自己也會打標簽,這就大大提高了他們數據的精確度。再比如,DeepSeek還善于做數據蒸餾(優化篩選),當然如果是開發通用大模型就不能做數據蒸餾。這些都是?該公司Post-training更高效率的體現。
DeepSeek給國內同行的其他啟示還包括,大模型開發在降低成本的同時也可以探索智能的邊界,在Transformer之外尋找其他架構;產品上,AI agent在未獲得大規模應用之前,有很大的探索空間,存在多領域商用的機會,今年在多模態方面,可能會出現能挑戰ChatGPT形態的產品。
硅谷一位華裔資深AI工程師對21世紀經濟報道記者說,DeepSeek以低成本、高效率開發了幾款了不起的產品,探索出了一條全新的路徑,讓國際同行也不得不佩服,但我們在自豪之余,也要客觀認識到,DeepSeek等中國AI新創企業,目前還不具備全面挑戰OpenAI、Anthropic這些巨頭的實力。人工智能的競爭才剛剛開始,前面有無限可能。