文/楊松 編輯/鄢子為
8月底,在北京一家餐廳,《21CBR》記者見到跨維智能創始人賈奎??蒲小⒔虒W、創業……他的日程表排得滿滿當當。
“晚上10點前,我都有事情做?!彼麆摌I后,工作量大增。
賈奎是學者型創業者。他畢業于倫敦大學,獲得計算機科學博士學位,曾在多家高校執教,是人工智能、計算機視覺等領域專家,發表論文百余篇,在TIP、TMLR等學術期刊擔任副主編。
2021年6月,賈奎創立跨維智能。從學者到創業者,從技術到產業,賈奎稱,轉型有兩個原因:
一是,近年來,AI“大廠”以豐厚的算力、數據資本發力,學界有滯后于產業界的趨勢。
二是自己也想嘗試新方法。“學術上,只要論證長期有用就行了,而企業的創新,要產生真正的社會價值,要考慮針對的人群,滿足的需求,產品的功能、性價比等因素?!?/p>
賈奎帶領的跨維智能團隊,研發人員占比達70%以上,核心團隊成員多擁有頂尖高校人工智能專業博士、碩士學位。
以自研的DexVerse?具身智能引擎為技術底座,跨維智能已形成包括純視覺空間與具身智能傳感器、新一代機器人控制器、PickWiz軟件、高精度通用移動操作機器人等在內的產品矩陣,并實現商業落地。
賈奎坦言,每天都在思考,產品如何卡準位置,實現商業化。
以下為其自述,經整理:
歸國創業
2016年,我啟程回國,進入華南理工大學,做計算機視覺方面的研究。
彼時,在人臉識別、圖像理解領域,國內“AI四小龍”做得很好。
我選擇了一條小眾賽道,將人工智能技術應用于三維空間。圖像是一個二維平面,三維就像一個杯子,是曲面、不規則圖像。如何處理這樣的信號?
這需要運用機器學習、計算機視覺、圖形學、機器人等交叉學科的知識。直至2015年,學術界才開始研究此類問題。
早期,團隊成立了“幾何感知與智能實驗室”。當時,大廠尚未涉足這一領域,我們是國內最早將AI應用到三維空間的團隊。
文本、圖像,是二維的,互聯網上有現成的海量數據。三維空間,是立體的,包含位置、角度、尺寸等信息,需要精準標定,不能采用之前的方式獲取數據。
舉個例子,如果目標是讓機器人抓取世界上任何一個鼠標,團隊就需要集合成千上萬、甚至世界上所有鼠標的數據。這意味著,實驗室需要從早到晚,去不同的環境里采集數據。
Sim2Real是適合空間智能、具身智能、機器人的范式,借助物理引擎、物理仿真,它能夠自動計算、自動生成數據,來訓練大模型。
就是說,鼠標上面的顏色、紋理、材質,全部是解耦的。在引擎空間,你只用改變材質空間參數,就可以把一個木頭鼠標變成金屬的。
到了2020年,我發現,做AI研究,需要足夠多的算力、數據以及場景,高校能做的事情有限,不如大廠。
隨著技術逐步成熟,我于2021年開啟創業之路。創業三年多,我逐漸適應了企業家身份。
初期,我像一個學者;現在,更看重商業化場景,解決客戶痛點才是最重要的。
創業艱難,我每天都在踩坑。碰到問題后,在實踐中學習。
經過多年歷練,我的能力變得更綜合、全面,臉皮厚了。有些性格弱點,克服不了的,可以通過其他人彌補,認清自己,有所不為,有所不能。
沿途下蛋
團隊研究的技術方向,跟具身智能、空間智能有關。
我們一開始就是按照Sim2Real(simulation to reality,從仿真到現實)的方式,希望通過智能的“眼睛”,感知空間,實現通用的技能。
一家公司的CEO,需要具備技術洞察力,選擇恰當的技術路徑,針對某個場景或痛點,拿出解決方案。在走訪一系列應用領域后,我選擇從智能制造開始。辦公司、在大廠上班與教書,是三種完全不同的生活。我既要找準商業化場景,也要找到合伙人。
跨維智能聯合創始人吳迪,是相機硬件專家,曾在華為、騰訊等公司工作,擁有十余件發明專利。依托原有經驗及技術積淀,跨維推出了一系列3D成像和感知設備。
做銷售業務,需要找有經驗的。聯合創始人解銳,是一名連續創業者,曾擔任動視云科技聯合創始人,為通信、云計算與人工智能領域專家。
幾人組團創業,致力于給機器人安裝智能“眼睛”,提升空間感知能力,錘煉智慧的“大腦”,習得“具身智能”技能。
沿著這條路徑走,我們逐步實現了規?;虡I落地。
目前,在多個商業場景中,跨維智能已經實現了利用100%合成數據,在毫米/亞毫米的操作精度要求下,達到99.9%以上的任務成功率。
在虛擬空間層面,我們不斷錘煉“大腦”——底層自研的DexVerse?具身智能引擎。這是公司的技術底座。
在工業和一些商業場景中,我們已實現了無需研發人員介入的自動化操作。只需輸入一個操作對象,系統就能自動生成數據、標注計算,并在線傳遞給相應的AI模型進行訓練。
整個過程無需存儲數據,高效且精準,是當前實現具身智能通用化技能的最佳路徑之一。
我們還持續升級“眼睛”——純視覺空間智能傳感器。
傳統的3D相機,需要光線投射,才能獲得3D信號,作用距離有限,且容易受環境光的影響而跨維自研的純視覺空間智能傳感器,利用兩個相機從不同角度捕捉圖像,可以在復雜或半室外強光條件下成像,提升視覺系統的穩定性。
其最快可以實現每秒30幀頻率,接近人眼感知世界的方式。
這套3D成像和感知設備,可以安裝在機器人身上,適配主流機械臂與機器人,指揮其在工業和商業場景里運作。
以終為始
上一代的控制器,做一個從A點到B點的簡單動作,都需要機器人工程師單獨寫一個程序。它沒有眼睛,通過特定程序,精確地做動作。
新一代機器人控制器,像人一樣有大腦、眼睛,可以指揮胳膊和手的動作,理解自然語言。
我們在研的新一代機器人控制器,有眼睛,還能通過自然語言的方式溝通,自動理解任務,并將其轉換成機器人可以執行的代碼。
其將會落地兩個場景:工業柔性裝配和室內清潔操作。
在工業柔性裝配領域,即使要抓取的東西是無序的,Ropilot也可以指揮機械臂去完成動作。
如果機器人需要做好幾個動作,比如把內存條插入電腦,中間有幾根線擋著,其也能靈巧地撥開線,完成任務。
舉個例子,目前室內掃地機器人沒有胳膊,只能在地上操作。基于Ropilot產品,其在酒店場景下,可以完成清掃馬桶、更換牙刷等復雜動作。
終端客戶不關心技術路線,重視價格。
市場上存在著大量人不愿意干或者不能干的場景?,F在,年輕人寧愿送外賣,也不去工廠干活。這種情況下,客戶有強烈的需求,將機器人變得自動化、智能化、無人化。
這是一個不可逆轉的趨勢。
商業變現上,跨維智能出售成像感知套件,供應給集成商,安裝到機械臂、靈巧手上,再應用到家電、汽車零部件等行業。
隨著能力的增強,公司未來能夠支撐更多機器人的技能,這個市場會越來越大,工業、農業、商業……人類總是希望智能體在生活中輔助我們。
為什么用具身智能的范式做傳統的事?因為它是剛需,是痛點。
公司預計,今年營收可達數千萬元人民幣,下一年有望過億。
對一個CEO來說,最重要的是具備洞察力,選擇合適的技術路徑,找到志同道合的人,把產品做出來。
對一個企業來說,永遠的話題是:下一個利潤增長點在哪里?要找到有決定價值的商業場景,在關鍵時間節點,找清自己的生態位,每一步都要看準。