文|硅谷101
最近,人形機器人賽道再次被推向了輿論的風口浪尖,依然在“泡沫”與“前夜”的爭論中搖擺。
在硅谷,初創(chuàng)公司1X近期發(fā)布了Neo的演示視頻。在這支拍攝精美的廣告片中,Neo似乎能像人類一樣自然地做家務,視頻瞬間在X和YouTube上引發(fā)熱議。但贊嘆聲未落,質疑聲便鋪天蓋地而來——外界指出其流暢動作的背后,其實嚴重依賴遠程操控(Teleoperation),而非機器人的自主智能。這讓人不禁聯(lián)想到2023年那些聲稱擁有AI能力、實則依賴人工后臺處理的初創(chuàng)公司,“人工”智能的幽靈再次出現(xiàn)。
與此同時,高盛在一份最新調研報告中,無情地指出機器人供應鏈的“現(xiàn)實溫差”。盡管資本市場情緒高漲,企業(yè)產(chǎn)能規(guī)劃激進——普遍在年產(chǎn)10萬至100萬臺之間——但實際的大規(guī)模訂單尚未落地。高盛甚至預測,即便到了2035年,全球人形機器人總出貨量或僅為138萬臺。
盡管面臨“造假”質疑與“產(chǎn)能過?!钡娘L險,具身智能賽道在過去兩三年間仍吸引了巨額資本注入,并展現(xiàn)出與AI技術同步演進的強勁勢頭。
本期《硅谷101》,特約研究員劉一鳴邀請了兩位深耕中美市場的資深投資人——華映資本海外合伙人Jonathan邱諄,Shanda Group合伙人/投資副總裁Christine Qing,透過資本的迷霧,審視具身智能賽道的真實格局。當下的繁榮究竟是泡沫的預演,還是技術爆發(fā)的前夜?中美企業(yè)在戰(zhàn)略布局與核心優(yōu)勢上呈現(xiàn)何種差異?在商業(yè)化落地的競賽中,哪些場景有望率先突圍?
以下是這次對話內容的精選:
01、當下的機器人賽道處于泡沫破裂前夕嗎?
一鳴:我們先來構建一個全景圖。最近1X發(fā)布的視頻引發(fā)了很大爭議,被稱為“人工”智能,同時高盛的報告也指出產(chǎn)能與訂單的巨大落差。從投資視角來看,2025年的人形機器人賽道,究竟是處于一個類似“ChatGPT”爆發(fā)的前夜,還是已經(jīng)明顯過熱,甚至是泡沫破裂的前夕?
邱諄:我們內部一直也在非常激烈地討論這個話題。一個核心觀點是:一定會有一定的過熱,但是我們覺得任何一個大的技術爆發(fā)的前夜都會過熱。所以作為投資人,我們其實還是希望能夠在這個過熱當中,找到比較清晰的一些機會,而不是因為過熱就完全否定它。
如果你問我現(xiàn)在的具體定位,我是把目前定義成“BERT時期”。
大家可能記得,Transformer架構是2017年剛出來的,然后2018年的時候Google推出了BERT模型。BERT時期的意義在于,我們已經(jīng)有了一個比較清晰的技術路線了,大致知道是往這個方向走。映射到今天的機器人領域,我們看到了包括VLA(Vision-Language-Action)、RT-2、Pi0等模型,其實都有一個看上去很清晰的技術路線。
我們要區(qū)分兩個概念,其實所謂的“GPT時刻”有兩個階段。
第一個階段是GPT-3時刻,發(fā)生在2020年。它的標志就是出現(xiàn)了一次“涌現(xiàn)”。簡單來說,就是之前積累的大量的互聯(lián)網(wǎng)數(shù)據(jù)現(xiàn)在終于能夠用上了,被訓練進模型里了。其實在BERT時代,大家如果還能記得的話,那時候我們看一堆BERT的項目,它的意義是定義了預訓練(Pre-train)這個技術路線——GPT中的“P”(Pre-train)其實從BERT時候就已經(jīng)定義了。但是因為它不是生成式的,所以很多數(shù)據(jù)是訓練不進去的。
直到GPT-3在2020年出現(xiàn),才把所有的數(shù)據(jù)一下訓練出來,搞出了一個175B參數(shù)量的超級大模型。我覺得這個(數(shù)據(jù)涌現(xiàn))是我們現(xiàn)在對機器人領域很期望的一個標志。
我一直的觀點就是:所有東西都是訓練數(shù)據(jù)驅動的。今天雖然有這么多種收集訓練數(shù)據(jù)的方法——遙操、動捕、仿真等等——但事實上,行業(yè)內還沒有訓練出來一個真正的、從參數(shù)到性能都能夠有一定規(guī)模的模型。
第二個階段才是ChatGPT時刻。其實剛涌現(xiàn)的時候(GPT-3),大家并沒有真正能大規(guī)模用起來,實話說,因為它的回答很多時候其實還是不那么準確的。直到ChatGPT出來,做了RLHF(人類反饋強化學習)等后訓練調優(yōu)之后,大家發(fā)現(xiàn)一下子這個效果立刻就很亮眼了,真的能用了。
所以回到機器人,我們還在等第一個時刻,即GPT-3時刻。我們很期待有一個涌現(xiàn)的出現(xiàn)。如果運氣好的話,參考當年從2018年到2020年也就兩年的時間,可能我們離這個時刻已經(jīng)很近了。
Christine:我非常同意Jonathan的觀點,這肯定是分兩個階段爆發(fā)的。
我們在第一個階段的確是做了一些深入到技術節(jié)點的思考。如果說第一階段在技術上有了GPT時刻,它的標志是什么?我覺得可能是這個時候的具身智能機器人,已經(jīng)擁有了長期動作鏈的泛化能力。
這就意味著,機器人可以直接通過語言和視覺接收到人類的直接指令,然后將它分解為一系列復雜的動作去完成它。
舉個例子,比如說我現(xiàn)在說:“你去廚房拿個杯子,倒水,然后放回桌子上?!边@里面的整個能力其實是涉及到從L0、L1甚至有一些L3的能力在里面。這已經(jīng)不是一個簡單的腳本指令操作了,它是一個端到端的泛化。當這個能力出現(xiàn)的時候,我們就可以說非常接近、甚至是達到了GPT爆發(fā)的第一步。
第二步,我覺得是一個類似ChatBot甚至iPhone的時刻。它最實質性的標志是:在C端的使用量有了一個在產(chǎn)品上面的規(guī)模性爆發(fā)。
在機器人上會不會復制軟件這種爆發(fā)規(guī)模?我覺得是有難度的,因為它畢竟是一個軟件和一個軟硬一體的東西,甚至要落到一個具體的使用場景里面去落地。但是我覺得另外一個可能我們可以去類比的模型是蘋果手機。它一開始是慢的,但是一旦開始有了數(shù)據(jù),甚至是使用場景建立起來了,它就會變得非常的快,然后它這個市場是非常的穩(wěn)定且龐大的。
至于“過熱”這個問題,我是從兩個維度來看的。從產(chǎn)品或者Demo的實際能力(比如1X的視頻)以及技術成熟度來講,的確是不能和今天的估值做匹配的,現(xiàn)在的估值確實有些高。但是,如果我們是向前看,看這個未來的市場規(guī)模,那我們現(xiàn)在僅僅是開始了接近“物理AI”的可能性,這個市場的潛力是巨大的。對于風險投資來講,這種估值絕對是一個可消化的,也是一個必須提前占位的布局。
02、中美機器人故事:硅谷的“大腦”與深圳的“身體”
一鳴:兩位都是經(jīng)常在中美兩邊跑,看過很多創(chuàng)業(yè)公司和上市公司。大家都在談中美對比,無論在AI還是在機器人領域。在您看來,美國以特斯拉Optimus、Figure、Pi為代表的公司,跟中國像宇樹、智元、優(yōu)必選這些公司,它們在戰(zhàn)略打法或者說一些核心優(yōu)勢上,有哪些異同?誰更領先?
邱諄:我們確實今年投國內的具身項目投得比較多,從二月份開始已經(jīng)投了八九家了。因為我自己一直在硅谷,跟這邊大部分的具身公司也都有交流。
嚴格來講,我覺得兩邊在很多方面還是比較接近的。
不論中美,確實都有不少公司是偏融資屬性、營銷屬性的打法。其實很多視頻也是會有很多CGI或者加速在里面,或者用比較糙的辦法,拍很多次通過一次這樣,這是一類。當然也有潛心不停地發(fā)論文、很學院派的,可能很多時候是以論文取勝,會不斷地有新的架構、模型能夠跑出來。
中美的不同點,可能更多是在技術棧上面的切分。
美國肯定相對還是偏“軟”一些,尤其是在大模型這一塊。從基座模型(Foundation Model)去驅動具身模型的進步這一塊,美國還是會領先的。不管是Pi也好、Skild AI也好,包括李飛飛的公司,都帶有很強的學院派色彩,強調從底層模型突破。
而從硬件的迭代上來說,中國是有巨大優(yōu)勢的。但我的觀點是,最后肯定是要融合,兩邊還是要融合的。很多機器人通用基礎模型的進步一定也會推動整個技術棧,包括硬件的進步。所以兩邊的交流我看還是很多的,國內會非常關注美國這邊最新的模型進展,美國事實上在很多時候也是需要依賴國內供應鏈的更加成熟。
Christine:我完全同意Jonathan的看法。美國它肯定是先得要走通用的基礎模型,在他們的認知里,硬件這個東西本身只是一個動作的物理載體。
但是在中國,因為今年我在中國完全是一個學習心態(tài),我更多的是回中國去學習,看這個“硬科技”都已經(jīng)發(fā)展到一個什么樣的水平了。
這周我剛剛從深圳回來,走訪了很多上下游企業(yè),包括做硬件的、軟件的、到做整機的。我聽到最多的一句話,我覺得很有意思,就是說:產(chǎn)品在深圳這個地方,機器人硬件產(chǎn)品甚至可以一天迭代三次。
我覺得這個速度是在硅谷想都不敢想的一件事情。硅谷既沒有膽量去做這件事情,也沒有能力去做這件事情。
所以我覺得他們是各有所長。但是這個“長”最后怎么變成一個綜合能力,也是我們一直在持續(xù)思考的一件事情。具身智能,既有“身體”又有“智能”,最終它落到場景的時候,應該怎么去融合?
在這件事情上,我覺得學得最好的其實還是特斯拉。畢竟埃隆·馬斯克在上海超級工廠學習中國生產(chǎn)、學習了那么多年,他肯定是有所得的。他知道如何將極致的制造效率與頂尖的軟件能力結合,所以特斯拉的確是目前為止做得最好的。
一鳴:其實現(xiàn)階段因為軟件的很多泛化性還沒有得到更廣泛的運用,可能硬件上的一些創(chuàng)新在這個時間點是能更出一些現(xiàn)成的結果的。在商業(yè)化應用上,你覺得是硬件公司會走得更往前一點,還是說兩方面都得等互相的進展才行?
邱諄:最后一定是垂直整合(Vertical Integration)。
當然商業(yè)化也分幾種。第一種是短期的商業(yè)化,你手上有啥硬件,你就試圖去賣,找短期的客戶,這當然也算是商業(yè)化。但我們作為風險投資,看的是Long Capital,是一個跨周期的、最后能夠實現(xiàn)具身智能爆發(fā)性技術突破的商業(yè)化。
從這個角度講,兩邊肯定還是要一起的。
美國它確實是需要供應鏈的推動。其實這個已經(jīng)很多年了,美國從最近才開始說我要供應鏈回流,自己要有國產(chǎn)替代的供應鏈。但大概至少在十幾二十年時間之內,其實還是嚴重依賴的。
其實十幾年前,美國當時做智能硬件最有名的一個孵化器叫Highway1,還有一個叫PCH。他們每年或者每半年有一個批次,所有的十幾二十個初創(chuàng)公司都得拉到中國去。當時其實華人創(chuàng)業(yè)者還不是很多,大部分是白人或者本地創(chuàng)業(yè)者,都被拉到華強北的一棟樓里面,必須在那邊待上三個月。
為什么?因為他所有硬件的迭代都要求:我必須得能夠下到樓下,能夠買一個他要的零件,去調他新的硬件的架構,去買一個新的電阻、電容。要在美國,你就很難做到這一點。實際上直到今天,很多人還是在淘寶上下單,然后等著轉一大圈物流配送到美國。確實,硬件迭代這個事情在美國是挺難的,這個確實會阻礙到它的商業(yè)化。
而在國內,雖然硬件供應鏈很強,但是我一直的一個觀點叫“軟件定義、軟件驅動”——如果你沒有基座模型,沒有VLA這種大模型的支持,你只靠供應鏈的進步也是無法實現(xiàn)充分的商業(yè)化的。
所以最后兩邊很可能還是一個互通、并駕齊驅,互相借鑒、互相融合。
Christine:中國現(xiàn)在在進入一個商業(yè)化的初期,但是結論其實是一樣的。誰會進入規(guī)?;纳虡I(yè)化?現(xiàn)在很難講。
中國的供應鏈、成本、場景、數(shù)據(jù)這個優(yōu)勢,我覺得最大的一個優(yōu)勢其實是場景和數(shù)據(jù)的開放性。
我舉一個例子,有一家機器人公司在奔馳的產(chǎn)線上面做試點。他們的Demo是怎么做的?因為國外的產(chǎn)線數(shù)據(jù)非常敏感,所以它是在那個產(chǎn)線上做了一個小的黑屋,就像一個帳篷一樣,就讓這個機器人在這個小黑屋里面做一個復制性的動作。這就是美國的生產(chǎn)線或者生產(chǎn)場景,它對它的數(shù)據(jù)、對它執(zhí)行的任務本身就是這么的敏感。
但是在中國沒有這個問題。如果你有能力可以部署一萬臺這個機器人到我的產(chǎn)線上來干活,那我這個數(shù)據(jù)是可以開放給你用的,或者這是一個互幫互助的過程。所以那就說明了我們一直在說的數(shù)據(jù)、數(shù)據(jù)、數(shù)據(jù),那它的數(shù)據(jù)飛輪是不是就會先于美國第一步開始?
因為我們也知道OpenAI最開始是想要做機器人的基模的,為什么做不下去?因為他拿不到數(shù)據(jù),這是一個非常大的問題。
在美國的數(shù)據(jù)保護,其實對機器人具身數(shù)據(jù)的使用、收集都是非常的挫敗。但是美國的能力確實是在于他們的軟件、大模型能力這塊。那就注定了他們從開始做這件事情的時候,他們就是以底層能力去定義機器人,就是用軟件、用大模型能力去定義機器人,而不是說我要一步一步地商業(yè)化去掙錢,把它作為一個里程碑。
另外,說到商業(yè)化,我們要看市場在哪里。美國市場的ROI(投資回報率)的確對于機器人來講是最高的。一旦它替代人了以后,它的市場價值以及它可以去商業(yè)化的場景,在物流,如果是To C端的話肯定就是養(yǎng)老的這些場景,它都是有大量的需求,并且付費力是非常強的。
03、投資邏輯大辯論:泛化能力是分水嶺
一鳴:現(xiàn)在市場上有一類公司,可能它沒有到泛化性的那種智能,它可能用一些原來的那種工業(yè)機器人,再結合一些智能化做了一些改進,也許在產(chǎn)線也能用,但這些公司也許它有現(xiàn)金流,也許它能在未來融到更多錢。另一類是講究全棧、講究泛化的具身智能。這兩派,你覺得哪一派可能更現(xiàn)實一點,或者說更有可能能成功?
邱諄:我不覺得這是兩派,這是兩個完全不同的投資邏輯。
第一類,我們稱之為“先進制造”或者“智能硬件”。比如掃地機器人、協(xié)作機械臂、AGV。它們是專用設備,解決特定問題。你可以給它加芯片、跑控制算法去智能化,但它不需要訓練那么大個模型,去搜集海量的人類數(shù)據(jù)。
第二類才是真正的“具身智能”(Embodied AI)。具身其實應該是有一個比較清晰的定義的:具身一定是數(shù)據(jù)驅動的,而且具身大概率是人形的。
很多人可能不理解為什么要做人形,其實都是因為數(shù)據(jù)驅動。因為我們最后發(fā)現(xiàn),不管你用什么樣的數(shù)據(jù),只要你到一定的數(shù)據(jù)量,大概率都是跟人相關的。不管你是用大量的互聯(lián)網(wǎng)視頻,還是遙操、動捕、示教,其實你會發(fā)現(xiàn)畫面里都是個人在操作。
如果你只是一個機械臂,那你就不是具身了。
最后區(qū)分兩者的一個很簡單的方法就是:我看他要不要數(shù)據(jù)?
如果我是一個機械臂,我可以裝攝像頭,但我不需要那么多人類的數(shù)據(jù)去訓練我這么大個模型,那我就是第一類。
第一類“先進制造”的結果其實還是個專用設備。在很多專用的場合,包括AGV、協(xié)作機器人,它們解決的是專用問題。這類公司非常多,上市公司里就有,它們可以產(chǎn)生巨大的投資回報,但是它們的投資策略、邏輯和對團隊的評估,和第二類是完全不一樣的。
第二類具身智能,是最近這一兩年,尤其GPT出來之后才有的。馬斯克為什么能做Optimus?也是因為他有大模型,他有Grok、有xAI,所以他才敢做這個事情。
做具身的人,一定不會做“三個手臂”的機器人。理論上講,三個手臂肯定比兩個手臂效率高,但為什么不做?唯一的原因就是:我無法去收集三個手臂的數(shù)據(jù)。我要遙操,我也找不到一個人能夠同時控制三個手臂;我所有的視頻訓練數(shù)據(jù)里,都找不到三個手臂的人類。這是個很重要的點。
所以,這是兩個不同的賽道。先進制造也能成功,但它不具備具身智能那種通過海量數(shù)據(jù)訓練出的泛化能力。
04、先投“上半身”(大腦/靈巧手)還是“下半身”(運動控制)
一鳴:這其實也帶來了一個很有趣的投資思路上的分階段。我記得去年行業(yè)里還有些討論,說我們應該是先投“上半身”(包括靈巧手、視覺,解決靈巧性問題),還是投資“下半身”(運動控制,也就是投腿和底盤)?您覺得在不同的年份,可能在今年也許更關注哪一個方向?
邱諄:我剛才提到一個詞叫“垂直整合”(Vertical Integration),通俗點說就是全身。
我其實不覺得具身是一個能分成上半身、下半身或者是個腰、腿的。我覺得最后其實都是全身。當然可能最后是個大腦驅動的事,小腦這些都是為大腦服務的。或者我們說技術一點,其實還是一個軟件定義、軟件驅動的概念,最后還是所有的這些算法和數(shù)據(jù)決定了這個事情能不能做出來。
具身這個事情是能做出來還是不能做出來,關鍵在于所謂“大腦”,就是基座模型的研發(fā)。所以理論上來講,最有價值的應該還是集中在這一塊。
當然不同的人可能有不同的切入點。比如有的團隊偏控制算法(小腦),但他現(xiàn)在也得找人訓練VLA,把視覺語言融進來,做成端到端。
如果你只做下半身,那大概率你會變成一個硬件的供應鏈。這也沒有問題,但如果上層的軟件定義的邏輯變了——因為它定義你嘛——如果它定義你最后把你定義出去了,那你可能就出局了。就是說你的這個腿到底是怎么做的?其實你要很緊密地跟隨著技術棧的上層,最后還是做大腦這一層去。
一鳴:從商業(yè)價值上,像宇樹在2023年之前,其實它的估值一直是上不去的,可能只有智元的一半都不到。但智元因為它是講了一個更全棧、更偏軟件更強的故事,所以它整體估值一下子漲得很猛。
邱諄:沒錯。商業(yè)價值而言,宇樹是不小的。但宇樹的一個風險就是說,一旦技術棧發(fā)生變化了——當然它好在現(xiàn)在都是科研——但如果下游客戶都商業(yè)化之后,發(fā)現(xiàn)原來的方案不行,它還能不能繼續(xù)出貨量產(chǎn)?這個還沒有被完全證實。
就是有可能最后技術路線大家都用你做科研,最后科研完了之后發(fā)現(xiàn)其實應該用另外一種方案。所以我認為,大而全也未必是正確的,還是要找一個很清晰的切入點,比如你有一個很強的VLA算法,或者端到端的解決方案。
Christine:我們是做早期投資,所以對于早期我們現(xiàn)在來講的話,我一定是關注大腦,甚至運動算法都只是為大腦而做輔助的。這個事情是非常非常明確的。如果分成上半身、下半身,我們一定是上半身。
我最近關注的公司基本上一個是大腦、端到端的算法,然后數(shù)據(jù)的獲取。大家都在找一個切入口。但是我覺得大腦從它的基模感知到規(guī)劃,其實感知到規(guī)劃已經(jīng)是機器人的L2定義了,都沒太有人真正地做好這件事。Optimus秀了一個Demo,但其他的我覺得還沒有真正做好。
另外一個就是它的手,手的靈巧性。我們現(xiàn)在也在關注手它現(xiàn)版的上下游的成熟度,因為指頭也是大腦在控制,所以這塊操控也是一個從軟件到硬件的一整個能力,我們也是在關注的。
05、沒有觸覺數(shù)據(jù),機器人學不會靈巧性?
一鳴:機器人先驅Rodney Brooks最近有一篇論文,觀點很犀利。他覺得現(xiàn)階段的機器人是很難真正學會靈巧性和泛化性的。他的核心論點在于:我們現(xiàn)在都在靠視覺數(shù)據(jù)來做,但其實人體觸覺數(shù)據(jù)非常重要,而觸覺數(shù)據(jù)現(xiàn)在幾乎是零。所以他也覺得這一波的所謂的泛化性是很難在短期內實現(xiàn)的。您怎么看這個風險?
邱諄:這個可能是泡沫風險的一部分。但對于早期投資來說,我們就是冒險,其實有風險的地方就有冒險。
我其實非常同意他那篇論文里面說的所有的觀點,但這恰恰就是冒險,就是現(xiàn)在想解決的這些問題。
事實上我們不僅是觸覺,所有這些力反饋、變形、人類具有的這些傳感器的信息,其實都是缺乏的。但是,現(xiàn)實上最后能夠實現(xiàn)的這個方案,不會是完全仿生的一種方案,它一定會走一些捷徑。就像當年做飛機的時候,人們發(fā)現(xiàn)不是把鳥的翅膀的所有的動作全都能夠模仿了之后才能飛,那不然當時可能會說飛機永遠是造不出來的。但事實上你最后會發(fā)現(xiàn)你能走一些捷徑。
就比如說現(xiàn)在VLA的一個核心點就是:我最后輸出的還是Token,我還是做下一個Token預測。雖然它跟人是很不一樣的,但核心點就是說你要怎么樣去搜到大量的數(shù)據(jù)。
我覺得觸覺是一個挺難的點,因為歷史上也沒有這些數(shù)據(jù)。VLA的好處是視覺(V)和語言(L)都是有的,互聯(lián)網(wǎng)上有大量數(shù)據(jù)。如果數(shù)據(jù)要從0開始,這確實比較難。
但我還是覺得,現(xiàn)在的具身,最后就是把你已經(jīng)有的這些數(shù)據(jù)能夠灌到一個模型里面。為什么我們在等GPT-3時刻?只要有了這一堆數(shù)據(jù),能夠訓練出來一個規(guī)模至少是不錯的一個模型出來,這個時刻到了就行了,不用太糾結一定要有觸覺數(shù)據(jù)。如果糾結這個事情上,我覺得GPT可能當年就出不來了。
Christine:我看下來覺得Brooks其實講了三個比較重要的問題:第一是數(shù)據(jù)的成本太高;第二是數(shù)據(jù)的結構太稀缺(尤其是觸覺);第三是模型的形態(tài)還不到。
但是說機器人還是最終學不會嗎?我覺得不是這樣子的。這只能說是今天的實際困境,但他不能預測未來一定會卡在這里。
06、數(shù)據(jù)冷啟動的困局,遠程操控是“造假”還是“特洛伊木馬”?
一鳴:這就回到了我們開頭的1X Neo機器人。它進入家庭卻依賴遠程操控,被質疑是“假智能”。但這是否也是一種數(shù)據(jù)收集的策略?通過這種手段先進入家庭,收集數(shù)據(jù),然后再迭代?
邱諄:這就是最經(jīng)典的“數(shù)據(jù)冷啟動”問題(Data Bootstrapping)。你沒有數(shù)據(jù),所以你的效果不好;效果不好就沒有人用;沒人用你就更沒數(shù)據(jù)。這是一個死循環(huán)。
1X想從這突破,其實大方向我是認可的。這就像自動駕駛早期的影子模式。
但事實上,很多自動駕駛公司到今天也沒有真正突破。唯獨有一家多少算是突破了,就是特斯拉。但是,特斯拉是賣車的。首先很多人買它的車不是說我就為了用你FSD,我就是買一輛很牛的電車。所以你先得有一個“特洛伊木馬”,你總得先有一個東西能進到他家里去。
我覺得對1X,它難的點就是說它現(xiàn)在還沒有一個“車”這么一個東西。它一上來就跳到了FSD了相當于。特斯拉是經(jīng)過了至少兩個階段,第一階段我先賣車,第二階段再升級FSD。如果你能做到這一點,我覺得是有可能的。
但是,如果第一天就買一個說會自動駕駛的汽車,但這車本身沒什么用,而且還需要家里有個攝像頭實時被人盯著——這在C端太難以想象了。
Christine:其實我對1X這次出這個Neo機器人也是持有一定的保留意見的。我的一個最核心的問題就是說:你有沒有足夠的數(shù)據(jù)去支撐它是可以和人共處的?
參考自動駕駛的邏輯,安全是一個漸進的狀態(tài)。你要證明你的駕駛記錄到底有多少人工接管,中間至少花了三四年的時間去監(jiān)督這個車。有了足夠的數(shù)據(jù)累積了以后,才會跟監(jiān)管說我可以做無人駕駛了。
那么最后機器人和人的互動,怎么樣才能夠界定這個安全的邊界?如果1X直接推向C端家庭,這是一定要去做的一件事情?,F(xiàn)在落地肯定會先落到B端,在一個更結構化的環(huán)境里面,風險性更可控,建立安全記錄。
一鳴:所以1X那個Neo實際銷量怎么樣?
邱諄:我沒有數(shù)據(jù),但我很懷疑,非常懷疑。至少C端我覺得太難以想象了。這不僅僅是隱私問題,它是實時就得有個人在后面盯著你,這已經(jīng)把隱私推到另外一個層面了。
07、真實的商業(yè)化落地:誰在買單?
一鳴:Christine,你最近去深圳調研,像智元跟比亞迪也有合作。你覺得具體的無論小B還是大B,或者工廠這種場景,你有看到什么好的實際落地的應用?之前很多演示都有“擰螺絲”這個環(huán)節(jié),這有意義嗎?
Christine:擰螺絲我認為可以通過自動化專用設備來完成,不一定非要具身智能。
但是,目前確實有一些場景在嘗試。我覺得工業(yè)場景肯定是非常有意義的,然后零售場景也是很有意義的。因為在美國和日本,零售場景對于上貨、下貨以及點貨、理貨,是有真實需求的。
現(xiàn)在的狀態(tài)是,大家都在嘗試,但能力還沒有到?,F(xiàn)在全部都是演示階段,且是一個不穩(wěn)定的演示,故障率很高。
我在亞馬遜那里看到一個場景:翻箱子。這個動作目前應該是亞馬遜在物流上用人形機器人在做。
一鳴:翻箱子是為了什么?
Christine:為了貼標簽和掃描條形碼。它需要必須某一面是朝上的,但箱子進來時不一定完全是那樣的,所以就讓機器人來翻箱子,依靠視覺判斷條形碼位置。
一鳴:這聽起來跟具身好像也沒什么關聯(lián),更像個專用設備?
邱諄:擰螺絲我可以補充一下。很多工廠里的擰螺絲,如果位置固定,用專用設備確實可以做。但是很多車廠的擰螺絲其實是需要很強的泛化能力的。因為它那個螺絲的位置、松緊度其實是挺不確定的。
現(xiàn)在哪一家具身說已經(jīng)把擰螺絲解決了?我感覺好像還沒有。這個場景可能他們還是得做。但是這個場景怎么選?現(xiàn)在就是冷啟動的問題,你沒有擰螺絲的數(shù)據(jù)?,F(xiàn)在很多公司讓工人戴著動捕設備、或者用遙操去收集數(shù)據(jù)。大家確實比較看好這個場景,比亞迪這些車廠也有需求,但目前還在收數(shù)據(jù)和訓練的過程中。
我覺得像Figure這種也不一定真正的能夠實現(xiàn)。
一鳴:物流場景需要泛化能力的機器人嗎?
邱諄:事實上,工業(yè)場景和倉儲物流的自動化已經(jīng)做得挺充分了。傳送帶、AGV都很成熟。但是你會發(fā)現(xiàn)中間還是需要人。
這個點就是具身想做的事情。自動化已經(jīng)做了很多,但直到今天,在很多的環(huán)節(jié)里面還是需要一個人在那個地方做。新的需求就是希望能代替這個人,這就對泛化能力要求很高了。
Christine:對,這個倒讓我想起來了一個案子。我也是在富士康的工廠里面看到的,在他們的物流中心,其實他的內倉庫是100%自動化的,但是他外倉庫的話永遠會占兩到三個人。他們要負責抽箱、檢查、蓋箱、封箱。其實他們是非常希望用具身智能來解決這個問題的,這就是非結構化場景的機會。
08、硬件的未來:機器人產(chǎn)業(yè)鏈會像手機一樣“模塊化”嗎?
一鳴:我們看到現(xiàn)在機器人有很多核心零部件,比如減速器、靈巧手。目前這個供應鏈的成熟度如何?未來硬件有沒有可能像智能手機產(chǎn)業(yè)鏈那樣,大家買個胳膊、買個腿,就能很容易攢出一臺機器人?
邱諄:先說一下我的觀點:雖然我們在看硬件,其實還是軟件定義的這個概念。
硬件一定會進步,但硬件的進步往往是線性的,你很難一下指望它有一個指數(shù)性的大的爆發(fā)。其實我們今天看減速器或者電機,跟多少年前并沒有極其巨大的實質性突破。
最后大部分時候是出現(xiàn)一個什么情況呢?軟件會說:無論什么硬件,只要有的,我的算法剛好就能用上。
軟件定義的一個核心點就是說:我的突破是盡量去靠軟件實現(xiàn)的,我甚至可以把硬件做得很down(低配),甚至有個詞叫“現(xiàn)貨供應”(COTS),我就買這種最一般的硬件,我也能把這個事情搭出來。
實話說,我們今天看的激光雷達,跟最早那個Velodyne相比,其實原理沒變。但為什么當年不行?就是因為現(xiàn)在的軟件算法突然能把你的傳感器數(shù)據(jù)用上了,能夠進到訓練流程里了,這下把你推起來了。
所以,不要太指望硬件本身有巨大的迭代。今天的大模型基本上是在現(xiàn)有的“樂高積木”上去搭。你要突然發(fā)明一個新的硬件,它要經(jīng)過整個量產(chǎn)的周期,其實這個時間成本也是比較長的。
Christine:我大概是分三步來看這件事情的:
第一個是供應鏈。我同意Jonathan的點,其實它是已經(jīng)存在的一個行業(yè),只是我們在做一個重新整合。
第二個點其實就來到了整合,和機器人公司對硬件的設計定義。我覺得現(xiàn)在這個設計其實還沒有完全迭代成為我們最終看到的版本。包括其實我今年上半年聽說Optimus在硬件設計上的確是有一些短板的,所以它年中推翻了,現(xiàn)在重新設計。所以硬件的設計和定義可能還會進行很快速度的演變。
第三步,最重要的智力(大腦)其實跟本體也是相關的。這是一個互相依靠的關系。做出來的大腦,你要有一個非常可靠的硬件才可以?,F(xiàn)在的返修率還很高,下一步其實就是怎么把一個人形機器人做到夠堅固、夠有魯棒性。我覺得明年可能會有更好的一個硬件迭代。
一鳴:如果軟件統(tǒng)治一切,那投資邏輯是不是應該滿倉特斯拉?
Christine:我覺得它有兩個絕對的壁壘:第一個軟件它是絕對的壁壘,第二個壁壘我認為其實是整合能力。軟硬整合、技術到產(chǎn)品落地整合、應用場景整合。這也是為什么特斯拉目前看來最強,因為它是Vertical Integrated(垂直整合)。
邱諄:確實。不過如果我們非常看重軟件,其實Google在這方面倒不一定比不過特斯拉。因為對具身來說,更重要的還是基模這一塊。Google從DeepMind到Gemini的積累是非常深厚的。如果真的是軟件能夠決定一切的話,Google可能會有優(yōu)勢;但是如果最后還是靠垂直整合的話,那特斯拉是有優(yōu)勢。這有兩面性。
09、大膽預測未來5年的機器人世界
一鳴:最后我們做一個大膽的預測。我們離機器人真正進家庭、幫人類干活,還有多遠?
邱諄:預測越遠越不準。如果看5年:
現(xiàn)在我們處于“BERT時刻”。大概2-3年后,我們應該會看到機器人的“GPT-3時刻”。也就是說,我們能看到今天的這么多的具身數(shù)據(jù),能夠出現(xiàn)一個涌現(xiàn)的狀態(tài),能夠訓練出來一個收斂的模型了。
然后再過個2-3年(即5年后),可能會迎來機器人的“ChatGPT時刻”。
但這不代表機器人滿街跑。因為大家看一下今天的ChatGPT,直到今天它也并不是說應用滿大街爆發(fā)的,實話說真正的一個殺手級應用可能還是ChatGPT自己。
很有可能五年以后,我們看到第一個實際的、泛化的應用場景出現(xiàn),機器人讓大家能夠接受它了,它的執(zhí)行準確率和安全性讓你開始用了。我覺得可能五年后能到這一點。
就真的你要等到它能夠比較安全、便宜、進到你家里頭,那可能真的還要再過蠻久的時間。
Christine:我同意。采用曲線一定是:第一個肯定是到ToB的生產(chǎn)場景里面,非常結構化的環(huán)境。
第二個我覺得它應該是到餐廳里面去,可以做一些細碎的工作,但還是在B端,在人控制的半結構化場景。
最后人們開始跟它接觸了以后才會對它產(chǎn)生信任感,然后才會說到C端家庭。
我最近可能在往機器人方向看得多一點的是“世界模型”這個方向。通過游戲或模擬環(huán)境,讓用戶互動來標注數(shù)據(jù),這可能是解決數(shù)據(jù)稀缺的一個新穎路徑。我覺得明年世界模型會有一個比較明確的收斂方向。
來源:硅谷101

