21世紀(jì)經(jīng)濟(jì)報道記者白楊 北京報道
在由ChatGPT掀起的大模型創(chuàng)業(yè)熱潮中,面壁智能是相對低調(diào)的一家創(chuàng)業(yè)公司。雖然沒有被列入大模型創(chuàng)業(yè)“六小虎”,但它的實力,依然不容忽視。
今年DeepSeek崛起后,《麻省理工科技評論》刊發(fā)了一篇題為《關(guān)注DeepSeek之外的4家中國人工智能初創(chuàng)公司》的報道,指出階躍星辰、面壁智能、智譜AI、無問芯穹4家企業(yè)同樣展現(xiàn)出不遜于DeepSeek的技術(shù)實力與全球競爭力。
在近日召開的2025中關(guān)村論壇年會期間,21世紀(jì)經(jīng)濟(jì)報道記者獨家專訪了面壁智能CEO李大海。
他向記者表示,DeepSeek今年的崛起,再一次證明了面壁智能在2024年6月份提出的知識密度定律(大模型的知識密度每100天會提升一倍)。不管是云側(cè)模型還是端側(cè)模型,提高模型的知識密度都很重要。
2024年初,面壁智能正式發(fā)布了被稱為“小鋼炮”的MiniCPM端側(cè)模型,目前累計下載量接近700萬。
李大海表示,端側(cè)AI未來的主要發(fā)展趨勢仍然是小型化,然后逐步的端側(cè)原生化,以及由端側(cè)原生化帶來的逐步個性。在具體落地場景上,他認(rèn)為汽車和手機是最重要的方向。
在2025中關(guān)村論壇年會上,李大海面向汽車場景發(fā)布了全新的純端側(cè)智能助手cpmGO。去年12月,面壁智能還成功部署了首個純端側(cè)屏幕助手,并已進(jìn)入量產(chǎn)序列。
另外,面壁也是大模型開源的擁護(hù)者。李大海表示,當(dāng)前的AI開發(fā)模式下,開源本身就是一個商業(yè)模式。DeepSeek已經(jīng)非常形象地向大家展示了這一點。
同時,他認(rèn)為,商業(yè)化與開源并不矛盾,商業(yè)化反而會由于開源得到最大化。
以下是對李大海的采訪(內(nèi)容略有刪減):
21世紀(jì):你如何看待今年DeepSeek的崛起?它對面壁智能以及端側(cè)AI的發(fā)展帶來哪些影響?
李大海:DeepSeek展示了高效大模型的魅力。高效,意味著更高的知識密度,和更低的成本。我們看到,DeepSeek的模型相比o1,知識密度大概有了10倍的提升,又免費開放給全世界人們使用,確實從智能感觀上比較震撼。面壁在2024年6月提出了知識密度定律(大模型的知識密度每100天翻一番),這一規(guī)律也再一次得到了印證。
尤其在端側(cè),知識密度的提升尤為重要。因為云端知識密度的高低可能只影響著成本,尚可通過補貼等方式抹平。但在終端上,知識密度越高,則意味著可用性越強。在終端需要平衡性能與功耗,就像戴著鐐銬跳舞—— 更輕量高性能的模型,才能將功耗極致控制在臨界值以下,使得其可以在終端運行使用。
21世紀(jì):這個密度定律,你覺得今年是否會依然有效?未來這種以小博大的技術(shù)路徑,要如何突破云端模型的算力壁壘?
李大海:我相信它在未來很長一段時間都會持續(xù)有效,就像摩爾定律已經(jīng)持續(xù)有效了半個世紀(jì)一樣。
在我看來,端側(cè)模型跟云端模型的分工是不同的。端側(cè)模型信息安全保護(hù)和貼近用戶的先天優(yōu)勢,所以更適合用來做貼身服務(wù)的個性化工作。
而云端模型規(guī)模更大,Scaling Law也仍然有效,所以它可以去做更復(fù)雜的、需要深度思考的工作。現(xiàn)在我們看到很多類似DeepResearch的功能,他要工作好幾個小時,然后輸出復(fù)雜的報告,這些就是云端該做的事情。
端側(cè)要足夠快、足夠敏捷、足夠符合直覺,快速給出盡可能精準(zhǔn)的決策行動。他們倆分工是不一樣的,端側(cè)模型也不需要去擊敗云端模型。
21世紀(jì):面壁一直在走堅持開源的路線,請你談一下對于開源的思考?
李大海:當(dāng)前的AI開發(fā)模式下,開源本身就是一個商業(yè)模式。DeepSeek已經(jīng)非常形象地向大家展示了,為什么開源是一個好的商業(yè)模式。因為一個優(yōu)秀的模型,通過開源的方式,能夠迅速讓對它感興趣的人接觸、使用、下載,讓市場成本變得足夠低。這便是開源的魅力。
面壁一直是開源的擁護(hù)者。幾乎每一款模型都進(jìn)行了開源。我們的端側(cè)模型從2024年1月份到現(xiàn)在已經(jīng)積攢了近700萬的下載,是2024年HuggingFace最受歡迎、最多下載量的中國大模型,我們骨子里就是崇尚開源和相信開源的。
另外,我認(rèn)為開源是一種信仰, 除了非常務(wù)實的去講它是一個商業(yè)模式外,開源本身也是AI領(lǐng)域能夠快速發(fā)展的底層原因。在AI領(lǐng)域,大家都非常開放,有什么樣的想法都會第一時間發(fā)論文,把代碼開源出來,這樣才能夠讓行業(yè)里面每個人都能站在別人的肩膀上,能夠跑得更快。
舉個例子,面壁2024年1月發(fā)布MiniCPM-1,使用了WSD學(xué)習(xí)率調(diào)度器,后續(xù)被Huggingface Transformer庫集成,Llama、Deepseek均也采用了類似技術(shù)進(jìn)行模型訓(xùn)練。
面壁一方面在行業(yè)里去做這樣的貢獻(xiàn),同時也會非常積極地學(xué)習(xí)開源領(lǐng)域中最新發(fā)布的技術(shù)。眾人拾柴火焰高,才能讓AI發(fā)展日新月異。
21世紀(jì):你怎么理解開源和商業(yè)化之間的矛盾,如何平衡這二者關(guān)系?
李大海:我覺得商業(yè)化這件事情不是受開源影響,反過來,商業(yè)化會由于開源這個模式得到最大化。
我們看DeepSeek,它其實就從開源這件事里把自己技術(shù)優(yōu)勢的商業(yè)利益最大化。如果DeepSeek做出R1時選擇閉源,那他變現(xiàn)技術(shù)優(yōu)勢的速度會非常慢。而現(xiàn)在,他用開源的方式一下子把全球點燃了。所以開源用的好,其實能夠讓商業(yè)利益更大化。
21世紀(jì):你認(rèn)為今年端測AI的發(fā)展會有哪些趨勢?還會面臨哪些挑戰(zhàn)?
李大海:端側(cè)AI的發(fā)展趨勢一定仍然是小型化,然后逐步的端側(cè)原生化,以及由端側(cè)原生化帶來的逐步個性化。
當(dāng)然我們也相信,云端的高階推理技術(shù)會逐步在端上實現(xiàn)。但是由于端和云各自固有的不同特點,所以端上不需要所有場景都用高階推理。慢思考對于有些場景來說反而是不適用的,所以在端上我們也會更審慎的去使用高階推理能力。
21世紀(jì):你曾表示AGI的實現(xiàn)需要7到10年,現(xiàn)在這個預(yù)測是否有變化?對面壁智能而言,今年的工作重心是什么?
李大海:我們拿知識密度定律的周期跟摩爾定律的周期去做對比,因為知識密度定律的周期是100天,摩爾定律是18個月,二者大概是六倍的關(guān)系。
整個計算的發(fā)展經(jīng)歷了半個多世紀(jì),經(jīng)歷了50-100個周期的迭代,我們覺得在AI領(lǐng)域,可能也需要接近50到100次周期迭代,才能夠達(dá)到非常理想的狀態(tài)。
從2018年BERT發(fā)布,以此為元年算起,其實已經(jīng)經(jīng)歷了五六年,所以全部算下來,差不多就是7到10年,這是一個底層邏輯。但是我們也相信人類的技術(shù)發(fā)展是非線性的,當(dāng)模型越來越好的時候,這個過程會被加速。
面壁智能今年的工作重心仍然是端側(cè)。我們會重點把端側(cè)模型做好,讓它更加個性化,能夠去更好地服務(wù)用戶。在具體場景上,現(xiàn)在汽車跟手機一定是最重要的方向,另外我們也在同步探索很多新方向,比如我們的端測模型已經(jīng)部署在了機器人上。