掃一掃下載界面新聞APP

機器人泡沫大討論：揭秘“虛火”下的真實邏輯

透過迷霧，審視具身智能賽道的真實格局。

硅谷101 ·

文｜硅谷101

最近，人形機器人賽道再次被推向了輿論的風口浪尖，依然在“泡沫”與“前夜”的爭論中搖擺。

在硅谷，初創(chuàng)公司1X近期發(fā)布了Neo的演示視頻。在這支拍攝精美的廣告片中，Neo似乎能像人類一樣自然地做家務，視頻瞬間在X和YouTube上引發(fā)熱議。但贊嘆聲未落，質疑聲便鋪天蓋地而來——外界指出其流暢動作的背后，其實嚴重依賴遠程操控（Teleoperation），而非機器人的自主智能。這讓人不禁聯(lián)想到2023年那些聲稱擁有AI能力、實則依賴人工后臺處理的初創(chuàng)公司，“人工”智能的幽靈再次出現(xiàn)。

與此同時，高盛在一份最新調研報告中，無情地指出機器人供應鏈的“現(xiàn)實溫差”。盡管資本市場情緒高漲，企業(yè)產(chǎn)能規(guī)劃激進——普遍在年產(chǎn)10萬至100萬臺之間——但實際的大規(guī)模訂單尚未落地。高盛甚至預測，即便到了2035年，全球人形機器人總出貨量或僅為138萬臺。

盡管面臨“造假”質疑與“產(chǎn)能過?！钡娘L險，具身智能賽道在過去兩三年間仍吸引了巨額資本注入，并展現(xiàn)出與AI技術同步演進的強勁勢頭。

本期《硅谷101》，特約研究員劉一鳴邀請了兩位深耕中美市場的資深投資人——華映資本海外合伙人Jonathan邱諄，Shanda Group合伙人/投資副總裁Christine Qing，透過資本的迷霧，審視具身智能賽道的真實格局。當下的繁榮究竟是泡沫的預演，還是技術爆發(fā)的前夜？中美企業(yè)在戰(zhàn)略布局與核心優(yōu)勢上呈現(xiàn)何種差異？在商業(yè)化落地的競賽中，哪些場景有望率先突圍？

以下是這次對話內容的精選：

01、當下的機器人賽道處于泡沫破裂前夕嗎？

一鳴：我們先來構建一個全景圖。最近1X發(fā)布的視頻引發(fā)了很大爭議，被稱為“人工”智能，同時高盛的報告也指出產(chǎn)能與訂單的巨大落差。從投資視角來看，2025年的人形機器人賽道，究竟是處于一個類似“ChatGPT”爆發(fā)的前夜，還是已經(jīng)明顯過熱，甚至是泡沫破裂的前夕？

邱諄：我們內部一直也在非常激烈地討論這個話題。一個核心觀點是：一定會有一定的過熱，但是我們覺得任何一個大的技術爆發(fā)的前夜都會過熱。所以作為投資人，我們其實還是希望能夠在這個過熱當中，找到比較清晰的一些機會，而不是因為過熱就完全否定它。

如果你問我現(xiàn)在的具體定位，我是把目前定義成“BERT時期”。

大家可能記得，Transformer架構是2017年剛出來的，然后2018年的時候Google推出了BERT模型。BERT時期的意義在于，我們已經(jīng)有了一個比較清晰的技術路線了，大致知道是往這個方向走。映射到今天的機器人領域，我們看到了包括VLA（Vision-Language-Action）、RT-2、Pi0等模型，其實都有一個看上去很清晰的技術路線。

我們要區(qū)分兩個概念，其實所謂的“GPT時刻”有兩個階段。

第一個階段是GPT-3時刻，發(fā)生在2020年。它的標志就是出現(xiàn)了一次“涌現(xiàn)”。簡單來說，就是之前積累的大量的互聯(lián)網(wǎng)數(shù)據(jù)現(xiàn)在終于能夠用上了，被訓練進模型里了。其實在BERT時代，大家如果還能記得的話，那時候我們看一堆BERT的項目，它的意義是定義了預訓練（Pre-train）這個技術路線——GPT中的“P”（Pre-train）其實從BERT時候就已經(jīng)定義了。但是因為它不是生成式的，所以很多數(shù)據(jù)是訓練不進去的。

直到GPT-3在2020年出現(xiàn)，才把所有的數(shù)據(jù)一下訓練出來，搞出了一個175B參數(shù)量的超級大模型。我覺得這個（數(shù)據(jù)涌現(xiàn)）是我們現(xiàn)在對機器人領域很期望的一個標志。

我一直的觀點就是：所有東西都是訓練數(shù)據(jù)驅動的。今天雖然有這么多種收集訓練數(shù)據(jù)的方法——遙操、動捕、仿真等等——但事實上，行業(yè)內還沒有訓練出來一個真正的、從參數(shù)到性能都能夠有一定規(guī)模的模型。

第二個階段才是ChatGPT時刻。其實剛涌現(xiàn)的時候（GPT-3），大家并沒有真正能大規(guī)模用起來，實話說，因為它的回答很多時候其實還是不那么準確的。直到ChatGPT出來，做了RLHF（人類反饋強化學習）等后訓練調優(yōu)之后，大家發(fā)現(xiàn)一下子這個效果立刻就很亮眼了，真的能用了。

所以回到機器人，我們還在等第一個時刻，即GPT-3時刻。我們很期待有一個涌現(xiàn)的出現(xiàn)。如果運氣好的話，參考當年從2018年到2020年也就兩年的時間，可能我們離這個時刻已經(jīng)很近了。

Christine：我非常同意Jonathan的觀點，這肯定是分兩個階段爆發(fā)的。

我們在第一個階段的確是做了一些深入到技術節(jié)點的思考。如果說第一階段在技術上有了GPT時刻，它的標志是什么？我覺得可能是這個時候的具身智能機器人，已經(jīng)擁有了長期動作鏈的泛化能力。

這就意味著，機器人可以直接通過語言和視覺接收到人類的直接指令，然后將它分解為一系列復雜的動作去完成它。

舉個例子，比如說我現(xiàn)在說：“你去廚房拿個杯子，倒水，然后放回桌子上?！边@里面的整個能力其實是涉及到從L0、L1甚至有一些L3的能力在里面。這已經(jīng)不是一個簡單的腳本指令操作了，它是一個端到端的泛化。當這個能力出現(xiàn)的時候，我們就可以說非常接近、甚至是達到了GPT爆發(fā)的第一步。

第二步，我覺得是一個類似ChatBot甚至iPhone的時刻。它最實質性的標志是：在C端的使用量有了一個在產(chǎn)品上面的規(guī)模性爆發(fā)。

在機器人上會不會復制軟件這種爆發(fā)規(guī)模？我覺得是有難度的，因為它畢竟是一個軟件和一個軟硬一體的東西，甚至要落到一個具體的使用場景里面去落地。但是我覺得另外一個可能我們可以去類比的模型是蘋果手機。它一開始是慢的，但是一旦開始有了數(shù)據(jù)，甚至是使用場景建立起來了，它就會變得非常的快，然后它這個市場是非常的穩(wěn)定且龐大的。

至于“過熱”這個問題，我是從兩個維度來看的。從產(chǎn)品或者Demo的實際能力（比如1X的視頻）以及技術成熟度來講，的確是不能和今天的估值做匹配的，現(xiàn)在的估值確實有些高。但是，如果我們是向前看，看這個未來的市場規(guī)模，那我們現(xiàn)在僅僅是開始了接近“物理AI”的可能性，這個市場的潛力是巨大的。對于風險投資來講，這種估值絕對是一個可消化的，也是一個必須提前占位的布局。

02、中美機器人故事：硅谷的“大腦”與深圳的“身體”

一鳴：兩位都是經(jīng)常在中美兩邊跑，看過很多創(chuàng)業(yè)公司和上市公司。大家都在談中美對比，無論在AI還是在機器人領域。在您看來，美國以特斯拉Optimus、Figure、Pi為代表的公司，跟中國像宇樹、智元、優(yōu)必選這些公司，它們在戰(zhàn)略打法或者說一些核心優(yōu)勢上，有哪些異同？誰更領先？

邱諄：我們確實今年投國內的具身項目投得比較多，從二月份開始已經(jīng)投了八九家了。因為我自己一直在硅谷，跟這邊大部分的具身公司也都有交流。

嚴格來講，我覺得兩邊在很多方面還是比較接近的。

不論中美，確實都有不少公司是偏融資屬性、營銷屬性的打法。其實很多視頻也是會有很多CGI或者加速在里面，或者用比較糙的辦法，拍很多次通過一次這樣，這是一類。當然也有潛心不停地發(fā)論文、很學院派的，可能很多時候是以論文取勝，會不斷地有新的架構、模型能夠跑出來。

中美的不同點，可能更多是在技術棧上面的切分。

美國肯定相對還是偏“軟”一些，尤其是在大模型這一塊。從基座模型（Foundation Model）去驅動具身模型的進步這一塊，美國還是會領先的。不管是Pi也好、Skild AI也好，包括李飛飛的公司，都帶有很強的學院派色彩，強調從底層模型突破。

而從硬件的迭代上來說，中國是有巨大優(yōu)勢的。但我的觀點是，最后肯定是要融合，兩邊還是要融合的。很多機器人通用基礎模型的進步一定也會推動整個技術棧，包括硬件的進步。所以兩邊的交流我看還是很多的，國內會非常關注美國這邊最新的模型進展，美國事實上在很多時候也是需要依賴國內供應鏈的更加成熟。

Christine：我完全同意Jonathan的看法。美國它肯定是先得要走通用的基礎模型，在他們的認知里，硬件這個東西本身只是一個動作的物理載體。

但是在中國，因為今年我在中國完全是一個學習心態(tài)，我更多的是回中國去學習，看這個“硬科技”都已經(jīng)發(fā)展到一個什么樣的水平了。

這周我剛剛從深圳回來，走訪了很多上下游企業(yè)，包括做硬件的、軟件的、到做整機的。我聽到最多的一句話，我覺得很有意思，就是說：產(chǎn)品在深圳這個地方，機器人硬件產(chǎn)品甚至可以一天迭代三次。

我覺得這個速度是在硅谷想都不敢想的一件事情。硅谷既沒有膽量去做這件事情，也沒有能力去做這件事情。

所以我覺得他們是各有所長。但是這個“長”最后怎么變成一個綜合能力，也是我們一直在持續(xù)思考的一件事情。具身智能，既有“身體”又有“智能”，最終它落到場景的時候，應該怎么去融合？

在這件事情上，我覺得學得最好的其實還是特斯拉。畢竟埃隆·馬斯克在上海超級工廠學習中國生產(chǎn)、學習了那么多年，他肯定是有所得的。他知道如何將極致的制造效率與頂尖的軟件能力結合，所以特斯拉的確是目前為止做得最好的。

一鳴：其實現(xiàn)階段因為軟件的很多泛化性還沒有得到更廣泛的運用，可能硬件上的一些創(chuàng)新在這個時間點是能更出一些現(xiàn)成的結果的。在商業(yè)化應用上，你覺得是硬件公司會走得更往前一點，還是說兩方面都得等互相的進展才行？

邱諄：最后一定是垂直整合（Vertical Integration）。

當然商業(yè)化也分幾種。第一種是短期的商業(yè)化，你手上有啥硬件，你就試圖去賣，找短期的客戶，這當然也算是商業(yè)化。但我們作為風險投資，看的是Long Capital，是一個跨周期的、最后能夠實現(xiàn)具身智能爆發(fā)性技術突破的商業(yè)化。

從這個角度講，兩邊肯定還是要一起的。

美國它確實是需要供應鏈的推動。其實這個已經(jīng)很多年了，美國從最近才開始說我要供應鏈回流，自己要有國產(chǎn)替代的供應鏈。但大概至少在十幾二十年時間之內，其實還是嚴重依賴的。

其實十幾年前，美國當時做智能硬件最有名的一個孵化器叫Highway1，還有一個叫PCH。他們每年或者每半年有一個批次，所有的十幾二十個初創(chuàng)公司都得拉到中國去。當時其實華人創(chuàng)業(yè)者還不是很多，大部分是白人或者本地創(chuàng)業(yè)者，都被拉到華強北的一棟樓里面，必須在那邊待上三個月。

為什么？因為他所有硬件的迭代都要求：我必須得能夠下到樓下，能夠買一個他要的零件，去調他新的硬件的架構，去買一個新的電阻、電容。要在美國，你就很難做到這一點。實際上直到今天，很多人還是在淘寶上下單，然后等著轉一大圈物流配送到美國。確實，硬件迭代這個事情在美國是挺難的，這個確實會阻礙到它的商業(yè)化。

而在國內，雖然硬件供應鏈很強，但是我一直的一個觀點叫“軟件定義、軟件驅動”——如果你沒有基座模型，沒有VLA這種大模型的支持，你只靠供應鏈的進步也是無法實現(xiàn)充分的商業(yè)化的。

所以最后兩邊很可能還是一個互通、并駕齊驅，互相借鑒、互相融合。

Christine：中國現(xiàn)在在進入一個商業(yè)化的初期，但是結論其實是一樣的。誰會進入規(guī)?；纳虡I(yè)化？現(xiàn)在很難講。

中國的供應鏈、成本、場景、數(shù)據(jù)這個優(yōu)勢，我覺得最大的一個優(yōu)勢其實是場景和數(shù)據(jù)的開放性。

我舉一個例子，有一家機器人公司在奔馳的產(chǎn)線上面做試點。他們的Demo是怎么做的？因為國外的產(chǎn)線數(shù)據(jù)非常敏感，所以它是在那個產(chǎn)線上做了一個小的黑屋，就像一個帳篷一樣，就讓這個機器人在這個小黑屋里面做一個復制性的動作。這就是美國的生產(chǎn)線或者生產(chǎn)場景，它對它的數(shù)據(jù)、對它執(zhí)行的任務本身就是這么的敏感。

但是在中國沒有這個問題。如果你有能力可以部署一萬臺這個機器人到我的產(chǎn)線上來干活，那我這個數(shù)據(jù)是可以開放給你用的，或者這是一個互幫互助的過程。所以那就說明了我們一直在說的數(shù)據(jù)、數(shù)據(jù)、數(shù)據(jù)，那它的數(shù)據(jù)飛輪是不是就會先于美國第一步開始？

因為我們也知道OpenAI最開始是想要做機器人的基模的，為什么做不下去？因為他拿不到數(shù)據(jù)，這是一個非常大的問題。

在美國的數(shù)據(jù)保護，其實對機器人具身數(shù)據(jù)的使用、收集都是非常的挫敗。但是美國的能力確實是在于他們的軟件、大模型能力這塊。那就注定了他們從開始做這件事情的時候，他們就是以底層能力去定義機器人，就是用軟件、用大模型能力去定義機器人，而不是說我要一步一步地商業(yè)化去掙錢，把它作為一個里程碑。

另外，說到商業(yè)化，我們要看市場在哪里。美國市場的ROI（投資回報率）的確對于機器人來講是最高的。一旦它替代人了以后，它的市場價值以及它可以去商業(yè)化的場景，在物流，如果是To C端的話肯定就是養(yǎng)老的這些場景，它都是有大量的需求，并且付費力是非常強的。

03、投資邏輯大辯論：泛化能力是分水嶺

一鳴：現(xiàn)在市場上有一類公司，可能它沒有到泛化性的那種智能，它可能用一些原來的那種工業(yè)機器人，再結合一些智能化做了一些改進，也許在產(chǎn)線也能用，但這些公司也許它有現(xiàn)金流，也許它能在未來融到更多錢。另一類是講究全棧、講究泛化的具身智能。這兩派，你覺得哪一派可能更現(xiàn)實一點，或者說更有可能能成功？

邱諄：我不覺得這是兩派，這是兩個完全不同的投資邏輯。

第一類，我們稱之為“先進制造”或者“智能硬件”。比如掃地機器人、協(xié)作機械臂、AGV。它們是專用設備，解決特定問題。你可以給它加芯片、跑控制算法去智能化，但它不需要訓練那么大個模型，去搜集海量的人類數(shù)據(jù)。

第二類才是真正的“具身智能”（Embodied AI）。具身其實應該是有一個比較清晰的定義的：具身一定是數(shù)據(jù)驅動的，而且具身大概率是人形的。

很多人可能不理解為什么要做人形，其實都是因為數(shù)據(jù)驅動。因為我們最后發(fā)現(xiàn)，不管你用什么樣的數(shù)據(jù)，只要你到一定的數(shù)據(jù)量，大概率都是跟人相關的。不管你是用大量的互聯(lián)網(wǎng)視頻，還是遙操、動捕、示教，其實你會發(fā)現(xiàn)畫面里都是個人在操作。

如果你只是一個機械臂，那你就不是具身了。

最后區(qū)分兩者的一個很簡單的方法就是：我看他要不要數(shù)據(jù)？

如果我是一個機械臂，我可以裝攝像頭，但我不需要那么多人類的數(shù)據(jù)去訓練我這么大個模型，那我就是第一類。

第一類“先進制造”的結果其實還是個專用設備。在很多專用的場合，包括AGV、協(xié)作機器人，它們解決的是專用問題。這類公司非常多，上市公司里就有，它們可以產(chǎn)生巨大的投資回報，但是它們的投資策略、邏輯和對團隊的評估，和第二類是完全不一樣的。

第二類具身智能，是最近這一兩年，尤其GPT出來之后才有的。馬斯克為什么能做Optimus？也是因為他有大模型，他有Grok、有xAI，所以他才敢做這個事情。

做具身的人，一定不會做“三個手臂”的機器人。理論上講，三個手臂肯定比兩個手臂效率高，但為什么不做？唯一的原因就是：我無法去收集三個手臂的數(shù)據(jù)。我要遙操，我也找不到一個人能夠同時控制三個手臂；我所有的視頻訓練數(shù)據(jù)里，都找不到三個手臂的人類。這是個很重要的點。

所以，這是兩個不同的賽道。先進制造也能成功，但它不具備具身智能那種通過海量數(shù)據(jù)訓練出的泛化能力。

04、先投“上半身”（大腦/靈巧手）還是“下半身”（運動控制）

一鳴：這其實也帶來了一個很有趣的投資思路上的分階段。我記得去年行業(yè)里還有些討論，說我們應該是先投“上半身”（包括靈巧手、視覺，解決靈巧性問題），還是投資“下半身”（運動控制，也就是投腿和底盤）？您覺得在不同的年份，可能在今年也許更關注哪一個方向？

邱諄：我剛才提到一個詞叫“垂直整合”（Vertical Integration），通俗點說就是全身。

我其實不覺得具身是一個能分成上半身、下半身或者是個腰、腿的。我覺得最后其實都是全身。當然可能最后是個大腦驅動的事，小腦這些都是為大腦服務的。或者我們說技術一點，其實還是一個軟件定義、軟件驅動的概念，最后還是所有的這些算法和數(shù)據(jù)決定了這個事情能不能做出來。

具身這個事情是能做出來還是不能做出來，關鍵在于所謂“大腦”，就是基座模型的研發(fā)。所以理論上來講，最有價值的應該還是集中在這一塊。

當然不同的人可能有不同的切入點。比如有的團隊偏控制算法（小腦），但他現(xiàn)在也得找人訓練VLA，把視覺語言融進來，做成端到端。

如果你只做下半身，那大概率你會變成一個硬件的供應鏈。這也沒有問題，但如果上層的軟件定義的邏輯變了——因為它定義你嘛——如果它定義你最后把你定義出去了，那你可能就出局了。就是說你的這個腿到底是怎么做的？其實你要很緊密地跟隨著技術棧的上層，最后還是做大腦這一層去。

一鳴：從商業(yè)價值上，像宇樹在2023年之前，其實它的估值一直是上不去的，可能只有智元的一半都不到。但智元因為它是講了一個更全棧、更偏軟件更強的故事，所以它整體估值一下子漲得很猛。

邱諄：沒錯。商業(yè)價值而言，宇樹是不小的。但宇樹的一個風險就是說，一旦技術棧發(fā)生變化了——當然它好在現(xiàn)在都是科研——但如果下游客戶都商業(yè)化之后，發(fā)現(xiàn)原來的方案不行，它還能不能繼續(xù)出貨量產(chǎn)？這個還沒有被完全證實。

就是有可能最后技術路線大家都用你做科研，最后科研完了之后發(fā)現(xiàn)其實應該用另外一種方案。所以我認為，大而全也未必是正確的，還是要找一個很清晰的切入點，比如你有一個很強的VLA算法，或者端到端的解決方案。

Christine：我們是做早期投資，所以對于早期我們現(xiàn)在來講的話，我一定是關注大腦，甚至運動算法都只是為大腦而做輔助的。這個事情是非常非常明確的。如果分成上半身、下半身，我們一定是上半身。

我最近關注的公司基本上一個是大腦、端到端的算法，然后數(shù)據(jù)的獲取。大家都在找一個切入口。但是我覺得大腦從它的基模感知到規(guī)劃，其實感知到規(guī)劃已經(jīng)是機器人的L2定義了，都沒太有人真正地做好這件事。Optimus秀了一個Demo，但其他的我覺得還沒有真正做好。

另外一個就是它的手，手的靈巧性。我們現(xiàn)在也在關注手它現(xiàn)版的上下游的成熟度，因為指頭也是大腦在控制，所以這塊操控也是一個從軟件到硬件的一整個能力，我們也是在關注的。

05、沒有觸覺數(shù)據(jù)，機器人學不會靈巧性？

一鳴：機器人先驅Rodney Brooks最近有一篇論文，觀點很犀利。他覺得現(xiàn)階段的機器人是很難真正學會靈巧性和泛化性的。他的核心論點在于：我們現(xiàn)在都在靠視覺數(shù)據(jù)來做，但其實人體觸覺數(shù)據(jù)非常重要，而觸覺數(shù)據(jù)現(xiàn)在幾乎是零。所以他也覺得這一波的所謂的泛化性是很難在短期內實現(xiàn)的。您怎么看這個風險？

邱諄：這個可能是泡沫風險的一部分。但對于早期投資來說，我們就是冒險，其實有風險的地方就有冒險。

我其實非常同意他那篇論文里面說的所有的觀點，但這恰恰就是冒險，就是現(xiàn)在想解決的這些問題。

事實上我們不僅是觸覺，所有這些力反饋、變形、人類具有的這些傳感器的信息，其實都是缺乏的。但是，現(xiàn)實上最后能夠實現(xiàn)的這個方案，不會是完全仿生的一種方案，它一定會走一些捷徑。就像當年做飛機的時候，人們發(fā)現(xiàn)不是把鳥的翅膀的所有的動作全都能夠模仿了之后才能飛，那不然當時可能會說飛機永遠是造不出來的。但事實上你最后會發(fā)現(xiàn)你能走一些捷徑。

就比如說現(xiàn)在VLA的一個核心點就是：我最后輸出的還是Token，我還是做下一個Token預測。雖然它跟人是很不一樣的，但核心點就是說你要怎么樣去搜到大量的數(shù)據(jù)。

我覺得觸覺是一個挺難的點，因為歷史上也沒有這些數(shù)據(jù)。VLA的好處是視覺（V）和語言（L）都是有的，互聯(lián)網(wǎng)上有大量數(shù)據(jù)。如果數(shù)據(jù)要從0開始，這確實比較難。

但我還是覺得，現(xiàn)在的具身，最后就是把你已經(jīng)有的這些數(shù)據(jù)能夠灌到一個模型里面。為什么我們在等GPT-3時刻？只要有了這一堆數(shù)據(jù)，能夠訓練出來一個規(guī)模至少是不錯的一個模型出來，這個時刻到了就行了，不用太糾結一定要有觸覺數(shù)據(jù)。如果糾結這個事情上，我覺得GPT可能當年就出不來了。

Christine：我看下來覺得Brooks其實講了三個比較重要的問題：第一是數(shù)據(jù)的成本太高；第二是數(shù)據(jù)的結構太稀缺（尤其是觸覺）；第三是模型的形態(tài)還不到。

但是說機器人還是最終學不會嗎？我覺得不是這樣子的。這只能說是今天的實際困境，但他不能預測未來一定會卡在這里。

06、數(shù)據(jù)冷啟動的困局，遠程操控是“造假”還是“特洛伊木馬”？

一鳴：這就回到了我們開頭的1X Neo機器人。它進入家庭卻依賴遠程操控，被質疑是“假智能”。但這是否也是一種數(shù)據(jù)收集的策略？通過這種手段先進入家庭，收集數(shù)據(jù)，然后再迭代？

邱諄：這就是最經(jīng)典的“數(shù)據(jù)冷啟動”問題（Data Bootstrapping）。你沒有數(shù)據(jù)，所以你的效果不好；效果不好就沒有人用；沒人用你就更沒數(shù)據(jù)。這是一個死循環(huán)。

1X想從這突破，其實大方向我是認可的。這就像自動駕駛早期的影子模式。

但事實上，很多自動駕駛公司到今天也沒有真正突破。唯獨有一家多少算是突破了，就是特斯拉。但是，特斯拉是賣車的。首先很多人買它的車不是說我就為了用你FSD，我就是買一輛很牛的電車。所以你先得有一個“特洛伊木馬”，你總得先有一個東西能進到他家里去。

我覺得對1X，它難的點就是說它現(xiàn)在還沒有一個“車”這么一個東西。它一上來就跳到了FSD了相當于。特斯拉是經(jīng)過了至少兩個階段，第一階段我先賣車，第二階段再升級FSD。如果你能做到這一點，我覺得是有可能的。

但是，如果第一天就買一個說會自動駕駛的汽車，但這車本身沒什么用，而且還需要家里有個攝像頭實時被人盯著——這在C端太難以想象了。

Christine：其實我對1X這次出這個Neo機器人也是持有一定的保留意見的。我的一個最核心的問題就是說：你有沒有足夠的數(shù)據(jù)去支撐它是可以和人共處的？

參考自動駕駛的邏輯，安全是一個漸進的狀態(tài)。你要證明你的駕駛記錄到底有多少人工接管，中間至少花了三四年的時間去監(jiān)督這個車。有了足夠的數(shù)據(jù)累積了以后，才會跟監(jiān)管說我可以做無人駕駛了。

那么最后機器人和人的互動，怎么樣才能夠界定這個安全的邊界？如果1X直接推向C端家庭，這是一定要去做的一件事情?，F(xiàn)在落地肯定會先落到B端，在一個更結構化的環(huán)境里面，風險性更可控，建立安全記錄。

一鳴：所以1X那個Neo實際銷量怎么樣？

邱諄：我沒有數(shù)據(jù)，但我很懷疑，非常懷疑。至少C端我覺得太難以想象了。這不僅僅是隱私問題，它是實時就得有個人在后面盯著你，這已經(jīng)把隱私推到另外一個層面了。

07、真實的商業(yè)化落地：誰在買單？

一鳴：Christine，你最近去深圳調研，像智元跟比亞迪也有合作。你覺得具體的無論小B還是大B，或者工廠這種場景，你有看到什么好的實際落地的應用？之前很多演示都有“擰螺絲”這個環(huán)節(jié)，這有意義嗎？

Christine：擰螺絲我認為可以通過自動化專用設備來完成，不一定非要具身智能。

但是，目前確實有一些場景在嘗試。我覺得工業(yè)場景肯定是非常有意義的，然后零售場景也是很有意義的。因為在美國和日本，零售場景對于上貨、下貨以及點貨、理貨，是有真實需求的。

現(xiàn)在的狀態(tài)是，大家都在嘗試，但能力還沒有到?，F(xiàn)在全部都是演示階段，且是一個不穩(wěn)定的演示，故障率很高。

我在亞馬遜那里看到一個場景：翻箱子。這個動作目前應該是亞馬遜在物流上用人形機器人在做。

一鳴：翻箱子是為了什么？

Christine：為了貼標簽和掃描條形碼。它需要必須某一面是朝上的，但箱子進來時不一定完全是那樣的，所以就讓機器人來翻箱子，依靠視覺判斷條形碼位置。

一鳴：這聽起來跟具身好像也沒什么關聯(lián)，更像個專用設備？

邱諄：擰螺絲我可以補充一下。很多工廠里的擰螺絲，如果位置固定，用專用設備確實可以做。但是很多車廠的擰螺絲其實是需要很強的泛化能力的。因為它那個螺絲的位置、松緊度其實是挺不確定的。

現(xiàn)在哪一家具身說已經(jīng)把擰螺絲解決了？我感覺好像還沒有。這個場景可能他們還是得做。但是這個場景怎么選？現(xiàn)在就是冷啟動的問題，你沒有擰螺絲的數(shù)據(jù)?，F(xiàn)在很多公司讓工人戴著動捕設備、或者用遙操去收集數(shù)據(jù)。大家確實比較看好這個場景，比亞迪這些車廠也有需求，但目前還在收數(shù)據(jù)和訓練的過程中。

我覺得像Figure這種也不一定真正的能夠實現(xiàn)。

一鳴：物流場景需要泛化能力的機器人嗎？

邱諄：事實上，工業(yè)場景和倉儲物流的自動化已經(jīng)做得挺充分了。傳送帶、AGV都很成熟。但是你會發(fā)現(xiàn)中間還是需要人。

這個點就是具身想做的事情。自動化已經(jīng)做了很多，但直到今天，在很多的環(huán)節(jié)里面還是需要一個人在那個地方做。新的需求就是希望能代替這個人，這就對泛化能力要求很高了。

Christine：對，這個倒讓我想起來了一個案子。我也是在富士康的工廠里面看到的，在他們的物流中心，其實他的內倉庫是100%自動化的，但是他外倉庫的話永遠會占兩到三個人。他們要負責抽箱、檢查、蓋箱、封箱。其實他們是非常希望用具身智能來解決這個問題的，這就是非結構化場景的機會。

08、硬件的未來：機器人產(chǎn)業(yè)鏈會像手機一樣“模塊化”嗎？

一鳴：我們看到現(xiàn)在機器人有很多核心零部件，比如減速器、靈巧手。目前這個供應鏈的成熟度如何？未來硬件有沒有可能像智能手機產(chǎn)業(yè)鏈那樣，大家買個胳膊、買個腿，就能很容易攢出一臺機器人？

邱諄：先說一下我的觀點：雖然我們在看硬件，其實還是軟件定義的這個概念。

硬件一定會進步，但硬件的進步往往是線性的，你很難一下指望它有一個指數(shù)性的大的爆發(fā)。其實我們今天看減速器或者電機，跟多少年前并沒有極其巨大的實質性突破。

最后大部分時候是出現(xiàn)一個什么情況呢？軟件會說：無論什么硬件，只要有的，我的算法剛好就能用上。

軟件定義的一個核心點就是說：我的突破是盡量去靠軟件實現(xiàn)的，我甚至可以把硬件做得很down（低配），甚至有個詞叫“現(xiàn)貨供應”（COTS），我就買這種最一般的硬件，我也能把這個事情搭出來。

實話說，我們今天看的激光雷達，跟最早那個Velodyne相比，其實原理沒變。但為什么當年不行？就是因為現(xiàn)在的軟件算法突然能把你的傳感器數(shù)據(jù)用上了，能夠進到訓練流程里了，這下把你推起來了。

所以，不要太指望硬件本身有巨大的迭代。今天的大模型基本上是在現(xiàn)有的“樂高積木”上去搭。你要突然發(fā)明一個新的硬件，它要經(jīng)過整個量產(chǎn)的周期，其實這個時間成本也是比較長的。

Christine：我大概是分三步來看這件事情的：

第一個是供應鏈。我同意Jonathan的點，其實它是已經(jīng)存在的一個行業(yè)，只是我們在做一個重新整合。

第二個點其實就來到了整合，和機器人公司對硬件的設計定義。我覺得現(xiàn)在這個設計其實還沒有完全迭代成為我們最終看到的版本。包括其實我今年上半年聽說Optimus在硬件設計上的確是有一些短板的，所以它年中推翻了，現(xiàn)在重新設計。所以硬件的設計和定義可能還會進行很快速度的演變。

第三步，最重要的智力（大腦）其實跟本體也是相關的。這是一個互相依靠的關系。做出來的大腦，你要有一個非常可靠的硬件才可以?，F(xiàn)在的返修率還很高，下一步其實就是怎么把一個人形機器人做到夠堅固、夠有魯棒性。我覺得明年可能會有更好的一個硬件迭代。

一鳴：如果軟件統(tǒng)治一切，那投資邏輯是不是應該滿倉特斯拉？

Christine：我覺得它有兩個絕對的壁壘：第一個軟件它是絕對的壁壘，第二個壁壘我認為其實是整合能力。軟硬整合、技術到產(chǎn)品落地整合、應用場景整合。這也是為什么特斯拉目前看來最強，因為它是Vertical Integrated（垂直整合）。

邱諄：確實。不過如果我們非常看重軟件，其實Google在這方面倒不一定比不過特斯拉。因為對具身來說，更重要的還是基模這一塊。Google從DeepMind到Gemini的積累是非常深厚的。如果真的是軟件能夠決定一切的話，Google可能會有優(yōu)勢；但是如果最后還是靠垂直整合的話，那特斯拉是有優(yōu)勢。這有兩面性。

09、大膽預測未來5年的機器人世界

一鳴：最后我們做一個大膽的預測。我們離機器人真正進家庭、幫人類干活，還有多遠？

邱諄：預測越遠越不準。如果看5年：

現(xiàn)在我們處于“BERT時刻”。大概2-3年后，我們應該會看到機器人的“GPT-3時刻”。也就是說，我們能看到今天的這么多的具身數(shù)據(jù)，能夠出現(xiàn)一個涌現(xiàn)的狀態(tài)，能夠訓練出來一個收斂的模型了。

然后再過個2-3年（即5年后），可能會迎來機器人的“ChatGPT時刻”。

但這不代表機器人滿街跑。因為大家看一下今天的ChatGPT，直到今天它也并不是說應用滿大街爆發(fā)的，實話說真正的一個殺手級應用可能還是ChatGPT自己。

很有可能五年以后，我們看到第一個實際的、泛化的應用場景出現(xiàn)，機器人讓大家能夠接受它了，它的執(zhí)行準確率和安全性讓你開始用了。我覺得可能五年后能到這一點。

就真的你要等到它能夠比較安全、便宜、進到你家里頭，那可能真的還要再過蠻久的時間。

Christine：我同意。采用曲線一定是：第一個肯定是到ToB的生產(chǎn)場景里面，非常結構化的環(huán)境。

第二個我覺得它應該是到餐廳里面去，可以做一些細碎的工作，但還是在B端，在人控制的半結構化場景。

最后人們開始跟它接觸了以后才會對它產(chǎn)生信任感，然后才會說到C端家庭。

我最近可能在往機器人方向看得多一點的是“世界模型”這個方向。通過游戲或模擬環(huán)境，讓用戶互動來標注數(shù)據(jù)，這可能是解決數(shù)據(jù)稀缺的一個新穎路徑。我覺得明年世界模型會有一個比較明確的收斂方向。

來源：硅谷101

本文為轉載內容，授權事宜請聯(lián)系原著作權人。

機器人科技

機器人泡沫大討論：揭秘“虛火”下的真實邏輯

透過迷霧，審視具身智能賽道的真實格局。

硅谷101 · 2025/12/01 14:22

文｜硅谷101

最近，人形機器人賽道再次被推向了輿論的風口浪尖，依然在“泡沫”與“前夜”的爭論中搖擺。

盡管面臨“造假”質疑與“產(chǎn)能過剩”的風險，具身智能賽道在過去兩三年間仍吸引了巨額資本注入，并展現(xiàn)出與AI技術同步演進的強勁勢頭。

以下是這次對話內容的精選：

01、當下的機器人賽道處于泡沫破裂前夕嗎？

如果你問我現(xiàn)在的具體定位，我是把目前定義成“BERT時期”。

我們要區(qū)分兩個概念，其實所謂的“GPT時刻”有兩個階段。

Christine：我非常同意Jonathan的觀點，這肯定是分兩個階段爆發(fā)的。

這就意味著，機器人可以直接通過語言和視覺接收到人類的直接指令，然后將它分解為一系列復雜的動作去完成它。

第二步，我覺得是一個類似ChatBot甚至iPhone的時刻。它最實質性的標志是：在C端的使用量有了一個在產(chǎn)品上面的規(guī)模性爆發(fā)。

02、中美機器人故事：硅谷的“大腦”與深圳的“身體”

嚴格來講，我覺得兩邊在很多方面還是比較接近的。

中美的不同點，可能更多是在技術棧上面的切分。

Christine：我完全同意Jonathan的看法。美國它肯定是先得要走通用的基礎模型，在他們的認知里，硬件這個東西本身只是一個動作的物理載體。

但是在中國，因為今年我在中國完全是一個學習心態(tài)，我更多的是回中國去學習，看這個“硬科技”都已經(jīng)發(fā)展到一個什么樣的水平了。

我覺得這個速度是在硅谷想都不敢想的一件事情。硅谷既沒有膽量去做這件事情，也沒有能力去做這件事情。

邱諄：最后一定是垂直整合（Vertical Integration）。

從這個角度講，兩邊肯定還是要一起的。

所以最后兩邊很可能還是一個互通、并駕齊驅，互相借鑒、互相融合。

Christine：中國現(xiàn)在在進入一個商業(yè)化的初期，但是結論其實是一樣的。誰會進入規(guī)?；纳虡I(yè)化？現(xiàn)在很難講。

中國的供應鏈、成本、場景、數(shù)據(jù)這個優(yōu)勢，我覺得最大的一個優(yōu)勢其實是場景和數(shù)據(jù)的開放性。

因為我們也知道OpenAI最開始是想要做機器人的基模的，為什么做不下去？因為他拿不到數(shù)據(jù)，這是一個非常大的問題。

03、投資邏輯大辯論：泛化能力是分水嶺

邱諄：我不覺得這是兩派，這是兩個完全不同的投資邏輯。

第二類才是真正的“具身智能”（Embodied AI）。具身其實應該是有一個比較清晰的定義的：具身一定是數(shù)據(jù)驅動的，而且具身大概率是人形的。

如果你只是一個機械臂，那你就不是具身了。

最后區(qū)分兩者的一個很簡單的方法就是：我看他要不要數(shù)據(jù)？

如果我是一個機械臂，我可以裝攝像頭，但我不需要那么多人類的數(shù)據(jù)去訓練我這么大個模型，那我就是第一類。

第二類具身智能，是最近這一兩年，尤其GPT出來之后才有的。馬斯克為什么能做Optimus？也是因為他有大模型，他有Grok、有xAI，所以他才敢做這個事情。

所以，這是兩個不同的賽道。先進制造也能成功，但它不具備具身智能那種通過海量數(shù)據(jù)訓練出的泛化能力。

04、先投“上半身”（大腦/靈巧手）還是“下半身”（運動控制）

邱諄：我剛才提到一個詞叫“垂直整合”（Vertical Integration），通俗點說就是全身。

具身這個事情是能做出來還是不能做出來，關鍵在于所謂“大腦”，就是基座模型的研發(fā)。所以理論上來講，最有價值的應該還是集中在這一塊。

當然不同的人可能有不同的切入點。比如有的團隊偏控制算法（小腦），但他現(xiàn)在也得找人訓練VLA，把視覺語言融進來，做成端到端。

05、沒有觸覺數(shù)據(jù)，機器人學不會靈巧性？

邱諄：這個可能是泡沫風險的一部分。但對于早期投資來說，我們就是冒險，其實有風險的地方就有冒險。

我其實非常同意他那篇論文里面說的所有的觀點，但這恰恰就是冒險，就是現(xiàn)在想解決的這些問題。

但是說機器人還是最終學不會嗎？我覺得不是這樣子的。這只能說是今天的實際困境，但他不能預測未來一定會卡在這里。

06、數(shù)據(jù)冷啟動的困局，遠程操控是“造假”還是“特洛伊木馬”？

1X想從這突破，其實大方向我是認可的。這就像自動駕駛早期的影子模式。

但是，如果第一天就買一個說會自動駕駛的汽車，但這車本身沒什么用，而且還需要家里有個攝像頭實時被人盯著——這在C端太難以想象了。

一鳴：所以1X那個Neo實際銷量怎么樣？

07、真實的商業(yè)化落地：誰在買單？

Christine：擰螺絲我認為可以通過自動化專用設備來完成，不一定非要具身智能。

現(xiàn)在的狀態(tài)是，大家都在嘗試，但能力還沒有到?，F(xiàn)在全部都是演示階段，且是一個不穩(wěn)定的演示，故障率很高。

我在亞馬遜那里看到一個場景：翻箱子。這個動作目前應該是亞馬遜在物流上用人形機器人在做。

一鳴：翻箱子是為了什么？

一鳴：這聽起來跟具身好像也沒什么關聯(lián)，更像個專用設備？

我覺得像Figure這種也不一定真正的能夠實現(xiàn)。

一鳴：物流場景需要泛化能力的機器人嗎？

邱諄：事實上，工業(yè)場景和倉儲物流的自動化已經(jīng)做得挺充分了。傳送帶、AGV都很成熟。但是你會發(fā)現(xiàn)中間還是需要人。

08、硬件的未來：機器人產(chǎn)業(yè)鏈會像手機一樣“模塊化”嗎？

邱諄：先說一下我的觀點：雖然我們在看硬件，其實還是軟件定義的這個概念。

最后大部分時候是出現(xiàn)一個什么情況呢？軟件會說：無論什么硬件，只要有的，我的算法剛好就能用上。

Christine：我大概是分三步來看這件事情的：

第一個是供應鏈。我同意Jonathan的點，其實它是已經(jīng)存在的一個行業(yè)，只是我們在做一個重新整合。

一鳴：如果軟件統(tǒng)治一切，那投資邏輯是不是應該滿倉特斯拉？

邱諄：確實。不過如果我們非?？粗剀浖鋵岹oogle在這方面倒不一定比不過特斯拉。因為對具身來說，更重要的還是基模這一塊。Google從DeepMind到Gemini的積累是非常深厚的。如果真的是軟件能夠決定一切的話，Google可能會有優(yōu)勢；但是如果最后還是靠垂直整合的話，那特斯拉是有優(yōu)勢。這有兩面性。

09、大膽預測未來5年的機器人世界

一鳴：最后我們做一個大膽的預測。我們離機器人真正進家庭、幫人類干活，還有多遠？

邱諄：預測越遠越不準。如果看5年：

然后再過個2-3年（即5年后），可能會迎來機器人的“ChatGPT時刻”。

就真的你要等到它能夠比較安全、便宜、進到你家里頭，那可能真的還要再過蠻久的時間。

Christine：我同意。采用曲線一定是：第一個肯定是到ToB的生產(chǎn)場景里面，非常結構化的環(huán)境。

第二個我覺得它應該是到餐廳里面去，可以做一些細碎的工作，但還是在B端，在人控制的半結構化場景。

最后人們開始跟它接觸了以后才會對它產(chǎn)生信任感，然后才會說到C端家庭。

來源：硅谷101

本文為轉載內容，授權事宜請聯(lián)系原著作權人。

歷史搜索全部刪除

熱門搜索

機器人泡沫大討論：揭秘“虛火”下的真實邏輯

評論

機器人泡沫大討論：揭秘“虛火”下的真實邏輯