四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

<samp id="88yms"><em id="88yms"></em></samp>

<button id="88yms"></button>

<button id="88yms"></button>

<samp id="88yms"></samp>

<button id="88yms"></button>

掃一掃下載界面新聞APP

其他途徑關注界面…

2025具身智能行業(yè)年度盤點：從先鋒亮相到理性前行

具身智能即將進入GPT-3？

機器人,科技

圖片來源｜界面圖庫

文｜硅谷101

具身智能是2025年的最大的“泡沫”嗎？

年初，宇樹突然放大招，發(fā)布了5900美元的R1人形機器人。要知道，就在一年前，業(yè)內普遍認為人形機器人的成本底線還在2到3萬美元，宇樹這一招，相當于把整個行業(yè)的價格預期直接打碎。

緊接著，F(xiàn)igure AI的估值從2024年的26億美元一路狂飆到390億美元，達到了15倍的增長。投資方名單讀起來像科技圈的奧斯卡頒獎典禮：微軟、OpenAI、英偉達、貝佐斯、英特爾、三星。

資本市場瘋狂押注，仿佛具身智能的未來近在咫尺。

但與此同時，特斯拉喊出要生產5000臺Optimus的豪言壯語，實際只組裝了大約1000臺就按下暫停鍵，面臨重新設計。馬斯克那句“特斯拉八成的價值將來自于Optimus”的豪言，在現(xiàn)實面前顯得有些尷尬。

這一冷一熱，實在是有點讓人困惑。具身智能到底發(fā)展到哪一步了？本篇文章就將從算法、硬件、數(shù)據(jù)、資本以及主要大玩家路線等等這幾個方向一一給大家展開解讀。

01、具身智能是什么？為什么2025年爆發(fā)？

在聊行業(yè)現(xiàn)狀之前，先說清楚什么是具身智能。

如果說ChatGPT是“會說話”的AI，那具身智能就是“會動手”的AI。它的核心是VLA，Vision-Language-Action，視覺-語言-動作模型。它把三個東西統(tǒng)一到一個神經網絡里：Vision（視覺）：看到當前的場景；Language（語言）：理解任務目標和常識；Action（動作）：輸出具體的控制指令。

簡單說就是三個能力：看得懂環(huán)境、聽得懂指令、做得到動作。

這和傳統(tǒng)機器人有什么不同？

打個比方，傳統(tǒng)工業(yè)機器人就像只會背固定臺詞的演員，你給它編好程序，它就按部就班執(zhí)行；但具身智能機器人更像會即興表演的演員，它能理解環(huán)境變化，自主做決策。

比如你讓它疊毛巾，傳統(tǒng)機器人需要毛巾每次擺放位置完全一樣。但具身智能機器人能識別：哦，這次毛巾皺了、偏了，那我調整一下動作軌跡，照樣能疊好。

Dyna Robotics是硅谷炙手可熱的具身智能公司，一年前剛成立，如今A輪融資達到1.2億美元，估值6億美元，投資人包括英偉達。而“疊毛巾”這個任務正是讓Dyna最先火出圈的demo。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

VLA簡單來說就是我們拿了大模型領域VLM作為“backbone”（核心），但是我們會在最終輸出結果的時候，把這個結果轉化成在機器人領域可用的action（動作）。action（動作）直觀理解就是，比如說我要把這個手臂移動到某一個坐標點的這些命令。

VLA其實大家詬病最多的是：為什么我們需要L（Language，即“語言”）？因為在過去傳統(tǒng)的機器人算法里面，很多都是純基于視覺。但是你仔細去想，其實你大腦其實會產生類似于語言的東西，去告訴你在一個長線任務中，到底你第一步做什么，第二步做什么。

L的作用就在于，對于一些非常復雜的任務，它是可以通過在大語言上面已經訓練出來很多邏輯性的東西（去處理），比如說你要喝水，它就會知道你需要找杯子或者找瓶子。這個是通過大語言模型已經直接可以給你的一些東西。利用VLA的主要目的，其實就是如何把Language（語言）跟Vision（視覺）夠更好地結合起來，否則你如果只有Vision（視覺），你能做的任務可能就都是短線的，你做不了任何長線的、需要去做推理的一些任務，所以這是我們?yōu)槭裁捶浅Ｗ⒌匾胝Z言這部分的主要原因。

這就是質的飛躍：機器人不再是執(zhí)行固定程序的機械臂，而是通過視覺-語言-動作的集合，能理解、能規(guī)劃、能適應的智能體。

具身智能不是新概念，為什么2025年突然爆發(fā)？有這三個因素。

第一，大模型本身已經趨近于成熟。

無論是OpenAI還是其他公司近期發(fā)布的大模型，能力提升已更多體現(xiàn)為增量式演進，而非早期從GPT-3.5到GPT-4那樣的跨越式躍遷。在這一背景下，大模型的整體能力正在趨于穩(wěn)定，且已經足以作為具身智能系統(tǒng)的可靠基礎能力層。

ChatGPT證明了，大語言模型能理解復雜指令、做推理規(guī)劃。這套能力可以遷移到機器人上：你說“幫我做早餐”，它能規(guī)劃出“先拿雞蛋、再打蛋、然后開火煎”這樣的多步驟序列。

第二，算力價格腰斬再腰斬。隨著芯片廠商不斷推出性能更強的新一代芯片，等效算力的單位成本呈現(xiàn)長期下降趨勢，往往每隔幾年，獲得同等算力所需的成本就會降至此前的一半。

2023年，租一張NVIDIA H100 GPU還是天價?，F(xiàn)在，云服務的算力價格戰(zhàn)愈演愈烈，訓練大模型的成本大幅降低。以前只有頭部公司玩得起的游戲，現(xiàn)在創(chuàng)業(yè)公司也能上桌。

第三，硬件供應鏈成熟。

機器人硬件整體的零部件成熟度已經相對較高。尤其是在過去一年人形機器人熱潮的推動下，大量資本和工程資源被投入到核心基礎部件的研發(fā)中，包括電機、減速器等關鍵組件，使得相關技術持續(xù)成熟的同時，成本也在不斷下降。

宇樹直接把價格打到5900美元，此前，行業(yè)普遍認為2-3萬美元的區(qū)間已經能實現(xiàn)規(guī)模化生產。成本曲線的陡降，讓商業(yè)化不再是天方夜譚。

這三股力量疊加，把具身智能從實驗室推向了商業(yè)化的前夜。但這不是盲目的樂觀，而是基于技術成熟度的理性判斷。所以，目前具身智能的能力邊界在哪里，它能做什么？

02、機器人現(xiàn)在能做什么？

Chapter 2.1 已經能做的事情

我們先來說說能做到的事情：工業(yè)和商業(yè)場景已經有實際應用了。

疊毛巾、疊衣服，聽起來簡單，但Dyna的機器人能做到24小時疊700條毛巾，成功率99.4%。這在酒店、洗衣房已經是實打實的生產力。而且他們的基礎模型里面包含了各種各樣的場景數(shù)據(jù)，像切菜、切水果，準備食物，早餐清掃和物流分揀。

寶馬集團BMW的工廠里，F(xiàn)igure的機器人在做簡單裝配和物料搬運。Agility Robotics的Digit在倉儲物流場景搬箱子。1X也將向瑞典巨頭EQT交付最多1萬臺1X Neo人形機器人，主要應用于制造、倉儲、物流等工業(yè)場景。更別提亞馬遜已經部署了100萬臺專用機器人，幾乎要超過其156萬人類員工的數(shù)量。

這些都不是Demo，是真實在跑的商業(yè)項目。這就是“理性前行”——不求全能，但求實用。

Chapter 2.2：正在攻克的任務

目前有什么還做不到，頭部公司正在攻克的任務呢？比如說：中等難度的任務，像做早餐。

這是個“長線任務”，需要規(guī)劃多個步驟：拿食材、切菜、擺盤、開火、翻炒。每一步都要精準執(zhí)行，還得控制力度，不能把雞蛋捏碎，也不能切菜切到手。Dyna最新的demo顯示已經攻克了做早餐這個長線任務。

而Figure也展示過兩臺機器人協(xié)同工作的Demo，一臺遞工具，一臺操作。這在家用場景很有用，但穩(wěn)定性還在打磨。

Chapter 2.3：還做不到的事情

而最難的是家務。因為每個家庭環(huán)境都不一樣。光照變化、物品擺放、家庭成員走動，這些都是“非結構化環(huán)境”的挑戰(zhàn)。

相對來說，工廠是“結構化環(huán)境”，光線固定、物品位置固定、流程標準化。但家里完全是另一回事。而且家務還有個致命要求：零容錯。機器人在工廠打碎個零件，損失可控。在家里打碎碗、傷到人，那就是事故。

王浩自變量機器人CTO

比如說機器人執(zhí)行任務的時候，桌布上有一個小的褶皺，你的杯子可能放置不穩(wěn)，可能有一個透明物體反光，它剛好干擾了相機等等。這些微小的物理變化，人類其實可以憑直覺和豐富的經驗去瞬間適應的，但由于非常依賴于數(shù)據(jù)驅動，AI大模型它面臨這些新的挑戰(zhàn)，它不一定能真正去感受到。

所以，機器人進家庭，技術門檻比進工廠高得多。但這不意味著遙不可及。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

我們是覺得，最開始肯定是在我們當前在開拓的一些市場，比如商用服務，商用的一些人工的部分，就是和人工一起去完成一些任務，這樣的一些場景。但是我們覺得家用其實也沒有那么遙遠，并不需要完整的、非常通用的AGI。你可能只需要幾個任務就可以進入到家庭的場景里，先讓機器人在家里面干起活來，然后逐漸地通過模型的迭代讓它產生更多的能力。

當然我們的硬件成本降到普通家庭可承擔的范圍內，我們可能就會優(yōu)先，比如說我先以疊衣服的功能賣給家庭，然后逐漸去拓展一些其他的功能。所以這個時間線應該也不遙遠，可能也就在1~2年左右。

這就是“理性前進”——不是等到機器人變成科幻電影里的全能管家再推向市場，而是從一個明確的、用戶真正需要的功能切入，逐步迭代。

03、2025年的技術突破

雖然挑戰(zhàn)重重，但2025年確實有幾個值得關注的技術突破。業(yè)內人士很坦誠地告訴我們，每一個突破都不是革命性的，但都是實實在在的進步。

Chapter 3.1 突破點1：雙系統(tǒng)架構流行起來

很多公司開始采用所謂“System 1 + System 2”的架構。

System 1是“快思考”，負責反射性動作，比如抓取、移動，參數(shù)量小，響應快，可能只有8000萬參數(shù)。

System 2是“慢思考”，負責復雜規(guī)劃，比如“做早餐”這種多步驟任務，參數(shù)量大，可能有70億參數(shù)。

這種分工很像人類大腦：你伸手接球是本能反應，但規(guī)劃一頓飯需要仔細思考。

Figure AI的Helix模型就是這個架構的代表作。它們在和OpenAI“分手”后，兩周內迅速推出這個自研模型，創(chuàng)新性地用單一神經網絡控制整個上半身的35個自由度，還能同時控制兩臺機器人協(xié)作。

這種架構的成功，證明了機器人基礎模型和大語言模型的Scaling Law可能不一樣——不是越大越好，而是要找到合適的參數(shù)分配策略。

Chapter 3.2 突破點2：合成數(shù)據(jù)的革命

機器人數(shù)據(jù)為什么這么貴？原因也很簡單：因為人類一天只有24小時，收集真實操作數(shù)據(jù)太慢太貴。

NVIDIA的解決方案是：用模擬器生成合成數(shù)據(jù)。他們展示過，11小時內生成78萬條操作軌跡。相當于6500小時或連續(xù)九個月的人類演示數(shù)據(jù)。雖然合成數(shù)據(jù)和真實數(shù)據(jù)有差距，但至少解決了“數(shù)據(jù)荒”的燃眉之急。

但這里有個關鍵的技術權衡。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人

因為我們之前也和挺多做大語言模型的這些人聊過，他們已經發(fā)現(xiàn)，語言方向的數(shù)據(jù)，哪怕用很多低質量數(shù)據(jù)，比如一堆文本，中間插了一段廣告，然后再是接著文本，就這樣的數(shù)據(jù)它一樣能訓練出比較好的模型。因為模型它看的數(shù)據(jù)足夠多之后，它自動就會過濾掉廣告。但是機器人當前我們覺得scaling（規(guī)?；└嗟氖莵碜杂诒容^高質量的數(shù)據(jù)。你如果囊括了很多很繁雜的數(shù)據(jù)在里面，機器人模型可能就不知道我要pay attention（注意力集中）在哪一個地方，所以最終它其實出來的效果并沒有那么好。

Chapter 3.3 突破點3：跨機器人泛化能力

Physical Intelligence的π0模型、開源的OpenVLA模型都能控制多種不同的機器人。同一套模型或策略，不需要為每一種機器人重新訓練，就能夠在不同形態(tài)、不同硬件配置的機器人上有效工作，這就叫跨機器人泛化能力。

這很重要。以前每種機器人都要單獨訓練模型，成本高昂?，F(xiàn)在一個模型適配多種機器人，數(shù)據(jù)可以共享，成本大幅降低。

但技術難點也很明顯：不同機器人的動作空間差異巨大，手臂長短不一、關節(jié)數(shù)量不同，怎么讓一個模型都能控制好？

這種在完全陌生環(huán)境也能工作的能力，不是100%完美，但已經是實質性的進步。

Chapter 3.4 突破點4：多機協(xié)同

Figure展示過用單一神經網絡協(xié)調兩臺機器人協(xié)作。創(chuàng)新性地用單一神經網絡，控制整個上半身的35個自由度，同時還能控制兩臺機器人協(xié)作。

聽起來簡單，實際上難度很高。兩臺機器人要互相配合，時序、力度、位置都要精準同步。這在未來工廠場景會很有用，但現(xiàn)在還處于早期驗證階段。

這些技術突破，沒有一個是顛覆性的，但每一個都在扎實推進。這正是2025年的特點：不再追求炫酷的Demo，而是在可驗證、可量化、可復現(xiàn)的方向上穩(wěn)步前進。

技術突破是一方面，但行業(yè)里還有幾座大山沒翻過去。清楚認識這些難題，恰恰是“理性前進”的前提，也讓現(xiàn)在的具身智能來到了大爆發(fā)的前夜。

04、沒解決的核心問題

Chapter 4.1 難題1：數(shù)據(jù)困境

首先，是數(shù)據(jù)困境。ChatGPT訓練用了萬億級token，相當于把整個互聯(lián)網的文字都喂給它了。

但機器人操作數(shù)據(jù)極度稀缺。Google訓練RT-2模型，花了17個月在真實廚房收集13萬條數(shù)據(jù)，場景泛化能力依然有限。

為什么機器人數(shù)據(jù)這么難收集？因為需要真實機器人在真實環(huán)境操作，每一條數(shù)據(jù)都要花錢花時間，出錯還可能損壞設備。這不像文本數(shù)據(jù)，爬蟲跑一跑就有了。所以大多數(shù)機器人基礎模型仍依賴于少量真實數(shù)據(jù)加大量模擬合成數(shù)據(jù)加強化學習/自監(jiān)督方法。

柯麗一鳴 Physical Intelligence研究員

一個人的一生假設是100年的話，大概我們很粗略的算就是100萬個小時，我覺得現(xiàn)在在我的目所能及或者我公開信息看到的范圍里，好像沒有人有100萬小時的數(shù)據(jù)集，我是這么猜想的。

我會覺得什么時候我們能夠收到100萬小時等同于一個人一生的物理經驗的數(shù)據(jù)，我覺得可能我們才開始后面的探索。

如果說數(shù)據(jù)是機器人的“石油”，但現(xiàn)在這口井還沒打出來。

Chapter 4.2 難題2：Sim-to-Real Gap

在虛擬世界訓練機器人很便宜，可以同時跑幾萬個模擬器。但虛擬世界永遠不等于真實世界。就像你玩賽車游戲很厲害，不代表真的會開F1。

真實世界的摩擦力、柔軟度、光線變化太復雜，仿真只能還原部分真實物理特性。剩下的就是機器人從模擬器到真實世界“水土不服”的根源。

NVIDIA的Genesis和Isaac模擬器在努力縮小這個gap（差距），但完全消除還需要時間。

Chapter 4.3 難題3：Embodiment Gap

人手有27個關節(jié)，能感知壓力、溫度、質地。機器人的靈巧手通常只有15-22個關節(jié)，傳感器也沒那么精細。即使完美模仿人類的動作軌跡，效果也不同。人類能輕柔地拿起雞蛋，機器人可能一用力就捏碎。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

第一，人類的手和機器人的手，如果你想讓它這個能力遷移得很好，需要做得非常接近。這也是為什么現(xiàn)在有好多人在做很靈巧的靈巧手，非常接近人的自由度，這件事本身是一件非常困難的事情。

第二，但你再接近，它也不是完全一樣。所以在機器人的數(shù)據(jù)和人的數(shù)據(jù)中間還是會有一個鴻溝，就我們所謂的embodiment gap，這個embodiment gap在當前學術界也好、工業(yè)界也好，大家都公認是一個比較難解決的問題。所以這樣的數(shù)據(jù)遷移的效率會比較低，哪怕你采集了很多數(shù)據(jù)，如果只有30%或者50%可用，你的總數(shù)量就會需要去乘以可能性的數(shù)字，所以這是它的一定的局限性。

這就意味著，特斯拉想用YouTube上海量人類視頻訓練Optimus的策略，面臨巨大的技術挑戰(zhàn)。這也是為什么特斯拉在生產了1000臺后暫停重新設計。理想很美好，現(xiàn)實很骨感。

Chapter 4.4 難題4：可靠性

ChatGPT回答錯了，用戶笑笑就過去了。機器人動作錯了，可能砸壞東西、傷到人。這是質的區(qū)別。

具身智能必須達到極高的可靠性，才能真正走進工廠、走進家庭。這個標準比大語言模型嚴苛得多。

Chapter 4.5 難題5：成本困境

目前人形機器人價格需要降到2萬美元左右，才能在物流等場景形成足夠吸引力。

但價格下降需要規(guī)?；a。規(guī)?；a需要大量訂單。大量訂單需要價格足夠低。

這是個循環(huán)困境，需要有人先打破僵局。宇樹的5900美元定價就是在嘗試打破這個僵局，但能否引發(fā)價格戰(zhàn)，帶動整個行業(yè)降本，還需要觀察。

認清這些難題，不是悲觀，而是理性。正是因為目前初創(chuàng)公司們都很實在地承認這些瓶頸存在，具身智能才來到了爆發(fā)的前夜。

05、主要玩家和技術路線

Chapter 5.1 硬件巨頭：Tesla、Figure

這一派公司包括了特斯拉和Figure，他們的策略是軟硬件一體化，打造數(shù)據(jù)閉環(huán)。

Tesla利用FSD自動駕駛技術的積累，把視覺感知、路徑規(guī)劃的能力遷移到Optimus上，還能用工廠的生產線積累數(shù)據(jù)。前工程主管Milan Kovac說得很直白：“我們只是從輪子上的機器人變成長著腿的機器人?！?/p>

但現(xiàn)實比預期復雜。5000臺的目標只完成了五分之一，就不得不暫停重新設計。這說明即使是特斯拉這樣的巨頭，在embodiment gap面前也要低頭。

Figure則在和OpenAI“分手”后，獨立開發(fā)了Helix模型，自己掌控技術路線。兩周內推出的Helix模型，展示了他們確實有技術實力。15倍的估值漲幅，也證明資本市場對這條路線的認可。

但他們真正商業(yè)化部署的也就幾十臺。Demo很精彩，規(guī)?；€在路上。第二派就是我們剛才提到的Physical Intelligence和Skuid AI。

Chapter 5.2 AI公司：PI和Skild AI

與多家同時押注硬件的機器人初創(chuàng)公司不同，這些公司的策略是模型先行，跨平臺適配。

Physical Intelligence的π0模型不綁定特定硬件，能適配多種機器人。他們的邏輯是：先把模型能力做強，硬件可以后續(xù)選擇最優(yōu)方案。

而另外一家則是Skild AI，一家專注于構建機器人基礎模型的軟件公司。Skild AI核心方向同樣是打造一種與具體機器人形態(tài)無關的通用基礎模型，可根據(jù)不同機器人平臺和應用場景進行適配與定制。

今年7月，Skild AI發(fā)布了其通用機器人系統(tǒng)Skild Brain，并公開演示視頻，展示機器人完成拿取餐具、上下樓梯等操作能力。近期軟銀與英偉達正計劃對它投資10億美元，把它的估值提升到140億美元。

Chapter 5.3 生態(tài)平臺：NVIDIA、Google

第三類是主打生態(tài)的平臺。

NVIDIA提供模擬器和算力基礎設施，推出GR00T N1并開源，但你要用就得用全套NVIDIA生態(tài)。Google則在學術研究上持續(xù)投入，RT系列模型影響了整個學術界。

他們?yōu)檎麄€行業(yè)提供“水電煤”。誰能制定行業(yè)標準，誰就掌握了生態(tài)控制力。

這三種路線，都在前進。沒有哪一派已經占據(jù)絕對優(yōu)勢，大家都在試錯、迭代、調整。

06、總結與展望

未來還未來，已經不遙遠

回到開頭的問題：具身智能是泡沫還是未來？

答案是：2025年，具身智能正在從“先鋒亮相”轉向“理性前行”。

技術上，大模型+機器人的結合已經跑通，但遠未成熟。數(shù)據(jù)、泛化、可靠性這些核心難題還沒解決。

如果用“GPT時刻”來類比，自變量機器人CTO王浩認為，我們現(xiàn)在是GPT-2的水平。

王浩自變量機器人CTO

我會覺得現(xiàn)在就是在GPT-2的階段，其實我們現(xiàn)在基本上已經知道規(guī)模化它是唯一的一個可靠路徑了，所以我們就是要在這個階段去瘋狂地積累數(shù)據(jù)，提升模型規(guī)模，同時去搭建真實具身的這種基礎設施。我的預測會到1~2年的時間，我們完全可以達到GPT-3的水平。

注意，是GPT-3，不是GPT-4。這就是毫不花哨的判斷。由于研究員們看到了這種規(guī)?；瘞淼奶嵘?，所以路徑和目標更加明確，也更加唯一。

而在商業(yè)上，工業(yè)場景開始試點，倉儲、制造、服務業(yè)都有落地案例。但大規(guī)模商用可能還需要2-3年時間。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

我們自己的目標是在明年我們至少希望在商用場景有比較大規(guī)模的部署。家用我們會擇機看，這個時間線應該也不遙遠，可能也就在1~2年左右。

投資上，可以說泡沫和機會并存。有公司估值飆升，也有公司暫停生產，也有公司錢燒光了而破產。

開源機器人公司K-Scale Labs融資失敗倒閉，F(xiàn)igure AI拿錢拿到手軟，這兩個極端同時存在，說明市場正在分化，雖然具身智能的長期趨勢確定，但短期波動劇烈。

而具身智能第一個“殺手級”應用場景會是什么？

有可能是家務任務，也可能是倉儲物流，或者是餐飲清潔服務。而無論是哪個場景，都已經有重量級玩家在布局。具身智能不是“會不會發(fā)生”的問題，而是“什么時候發(fā)生”。

2025年，我們正站在這場革命的起點。行業(yè)不再只展示炫酷的Demo，而是開始腳踏實地驗證技術、打磨產品、尋找場景。

特斯拉暫停生產，不是失敗，是在重新設計，尋找更可靠的路徑。

Figure AI估值飆升，不只是資本炒作，而是他們交出了Helix這樣的實質成果。

Dyna從疊毛巾切入，不是格局小，而是在積累數(shù)據(jù)飛輪，培養(yǎng)模型的學習能力。

Physical Intelligence部分開源π0，不是不夠開放，而是在商業(yè)利益和技術分享之間找平衡。

這種在現(xiàn)有基礎上穩(wěn)步提升，恰恰是行業(yè)走向成熟的標志。2025年，具身智能行業(yè)已經從“畫大餅”，進化到卷起袖子和面團。這個餅，正在一點一點，有分寸地，變成現(xiàn)實。

本文為轉載內容，授權事宜請聯(lián)系原著作權人。

機器人科技

評論

暫無評論哦，快來評價一下吧！

下載界面新聞

微信公眾號

2025具身智能行業(yè)年度盤點：從先鋒亮相到理性前行

具身智能即將進入GPT-3？

硅谷101 · 2025/12/29 11:06

機器人,科技

圖片來源｜界面圖庫

文｜硅谷101

具身智能是2025年的最大的“泡沫”嗎？

年初，宇樹突然放大招，發(fā)布了5900美元的R1人形機器人。要知道，就在一年前，業(yè)內普遍認為人形機器人的成本底線還在2到3萬美元，宇樹這一招，相當于把整個行業(yè)的價格預期直接打碎。

緊接著，F(xiàn)igure AI的估值從2024年的26億美元一路狂飆到390億美元，達到了15倍的增長。投資方名單讀起來像科技圈的奧斯卡頒獎典禮：微軟、OpenAI、英偉達、貝佐斯、英特爾、三星。

資本市場瘋狂押注，仿佛具身智能的未來近在咫尺。

但與此同時，特斯拉喊出要生產5000臺Optimus的豪言壯語，實際只組裝了大約1000臺就按下暫停鍵，面臨重新設計。馬斯克那句“特斯拉八成的價值將來自于Optimus”的豪言，在現(xiàn)實面前顯得有些尷尬。

這一冷一熱，實在是有點讓人困惑。具身智能到底發(fā)展到哪一步了？本篇文章就將從算法、硬件、數(shù)據(jù)、資本以及主要大玩家路線等等這幾個方向一一給大家展開解讀。

01、具身智能是什么？為什么2025年爆發(fā)？

在聊行業(yè)現(xiàn)狀之前，先說清楚什么是具身智能。

如果說ChatGPT是“會說話”的AI，那具身智能就是“會動手”的AI。它的核心是VLA，Vision-Language-Action，視覺-語言-動作模型。它把三個東西統(tǒng)一到一個神經網絡里：Vision（視覺）：看到當前的場景；Language（語言）：理解任務目標和常識；Action（動作）：輸出具體的控制指令。

簡單說就是三個能力：看得懂環(huán)境、聽得懂指令、做得到動作。

這和傳統(tǒng)機器人有什么不同？

打個比方，傳統(tǒng)工業(yè)機器人就像只會背固定臺詞的演員，你給它編好程序，它就按部就班執(zhí)行；但具身智能機器人更像會即興表演的演員，它能理解環(huán)境變化，自主做決策。

比如你讓它疊毛巾，傳統(tǒng)機器人需要毛巾每次擺放位置完全一樣。但具身智能機器人能識別：哦，這次毛巾皺了、偏了，那我調整一下動作軌跡，照樣能疊好。

Dyna Robotics是硅谷炙手可熱的具身智能公司，一年前剛成立，如今A輪融資達到1.2億美元，估值6億美元，投資人包括英偉達。而“疊毛巾”這個任務正是讓Dyna最先火出圈的demo。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

VLA簡單來說就是我們拿了大模型領域VLM作為“backbone”（核心），但是我們會在最終輸出結果的時候，把這個結果轉化成在機器人領域可用的action（動作）。action（動作）直觀理解就是，比如說我要把這個手臂移動到某一個坐標點的這些命令。

VLA其實大家詬病最多的是：為什么我們需要L（Language，即“語言”）？因為在過去傳統(tǒng)的機器人算法里面，很多都是純基于視覺。但是你仔細去想，其實你大腦其實會產生類似于語言的東西，去告訴你在一個長線任務中，到底你第一步做什么，第二步做什么。

L的作用就在于，對于一些非常復雜的任務，它是可以通過在大語言上面已經訓練出來很多邏輯性的東西（去處理），比如說你要喝水，它就會知道你需要找杯子或者找瓶子。這個是通過大語言模型已經直接可以給你的一些東西。利用VLA的主要目的，其實就是如何把Language（語言）跟Vision（視覺）夠更好地結合起來，否則你如果只有Vision（視覺），你能做的任務可能就都是短線的，你做不了任何長線的、需要去做推理的一些任務，所以這是我們?yōu)槭裁捶浅Ｗ⒌匾胝Z言這部分的主要原因。

這就是質的飛躍：機器人不再是執(zhí)行固定程序的機械臂，而是通過視覺-語言-動作的集合，能理解、能規(guī)劃、能適應的智能體。

具身智能不是新概念，為什么2025年突然爆發(fā)？有這三個因素。

第一，大模型本身已經趨近于成熟。

無論是OpenAI還是其他公司近期發(fā)布的大模型，能力提升已更多體現(xiàn)為增量式演進，而非早期從GPT-3.5到GPT-4那樣的跨越式躍遷。在這一背景下，大模型的整體能力正在趨于穩(wěn)定，且已經足以作為具身智能系統(tǒng)的可靠基礎能力層。

ChatGPT證明了，大語言模型能理解復雜指令、做推理規(guī)劃。這套能力可以遷移到機器人上：你說“幫我做早餐”，它能規(guī)劃出“先拿雞蛋、再打蛋、然后開火煎”這樣的多步驟序列。

第二，算力價格腰斬再腰斬。隨著芯片廠商不斷推出性能更強的新一代芯片，等效算力的單位成本呈現(xiàn)長期下降趨勢，往往每隔幾年，獲得同等算力所需的成本就會降至此前的一半。

2023年，租一張NVIDIA H100 GPU還是天價。現(xiàn)在，云服務的算力價格戰(zhàn)愈演愈烈，訓練大模型的成本大幅降低。以前只有頭部公司玩得起的游戲，現(xiàn)在創(chuàng)業(yè)公司也能上桌。

第三，硬件供應鏈成熟。

機器人硬件整體的零部件成熟度已經相對較高。尤其是在過去一年人形機器人熱潮的推動下，大量資本和工程資源被投入到核心基礎部件的研發(fā)中，包括電機、減速器等關鍵組件，使得相關技術持續(xù)成熟的同時，成本也在不斷下降。

宇樹直接把價格打到5900美元，此前，行業(yè)普遍認為2-3萬美元的區(qū)間已經能實現(xiàn)規(guī)?；a。成本曲線的陡降，讓商業(yè)化不再是天方夜譚。

這三股力量疊加，把具身智能從實驗室推向了商業(yè)化的前夜。但這不是盲目的樂觀，而是基于技術成熟度的理性判斷。所以，目前具身智能的能力邊界在哪里，它能做什么？

02、機器人現(xiàn)在能做什么？

Chapter 2.1 已經能做的事情

我們先來說說能做到的事情：工業(yè)和商業(yè)場景已經有實際應用了。

疊毛巾、疊衣服，聽起來簡單，但Dyna的機器人能做到24小時疊700條毛巾，成功率99.4%。這在酒店、洗衣房已經是實打實的生產力。而且他們的基礎模型里面包含了各種各樣的場景數(shù)據(jù)，像切菜、切水果，準備食物，早餐清掃和物流分揀。

寶馬集團BMW的工廠里，F(xiàn)igure的機器人在做簡單裝配和物料搬運。Agility Robotics的Digit在倉儲物流場景搬箱子。1X也將向瑞典巨頭EQT交付最多1萬臺1X Neo人形機器人，主要應用于制造、倉儲、物流等工業(yè)場景。更別提亞馬遜已經部署了100萬臺專用機器人，幾乎要超過其156萬人類員工的數(shù)量。

這些都不是Demo，是真實在跑的商業(yè)項目。這就是“理性前行”——不求全能，但求實用。

Chapter 2.2：正在攻克的任務

目前有什么還做不到，頭部公司正在攻克的任務呢？比如說：中等難度的任務，像做早餐。

這是個“長線任務”，需要規(guī)劃多個步驟：拿食材、切菜、擺盤、開火、翻炒。每一步都要精準執(zhí)行，還得控制力度，不能把雞蛋捏碎，也不能切菜切到手。Dyna最新的demo顯示已經攻克了做早餐這個長線任務。

而Figure也展示過兩臺機器人協(xié)同工作的Demo，一臺遞工具，一臺操作。這在家用場景很有用，但穩(wěn)定性還在打磨。

Chapter 2.3：還做不到的事情

而最難的是家務。因為每個家庭環(huán)境都不一樣。光照變化、物品擺放、家庭成員走動，這些都是“非結構化環(huán)境”的挑戰(zhàn)。

相對來說，工廠是“結構化環(huán)境”，光線固定、物品位置固定、流程標準化。但家里完全是另一回事。而且家務還有個致命要求：零容錯。機器人在工廠打碎個零件，損失可控。在家里打碎碗、傷到人，那就是事故。

王浩自變量機器人CTO

比如說機器人執(zhí)行任務的時候，桌布上有一個小的褶皺，你的杯子可能放置不穩(wěn)，可能有一個透明物體反光，它剛好干擾了相機等等。這些微小的物理變化，人類其實可以憑直覺和豐富的經驗去瞬間適應的，但由于非常依賴于數(shù)據(jù)驅動，AI大模型它面臨這些新的挑戰(zhàn)，它不一定能真正去感受到。

所以，機器人進家庭，技術門檻比進工廠高得多。但這不意味著遙不可及。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

我們是覺得，最開始肯定是在我們當前在開拓的一些市場，比如商用服務，商用的一些人工的部分，就是和人工一起去完成一些任務，這樣的一些場景。但是我們覺得家用其實也沒有那么遙遠，并不需要完整的、非常通用的AGI。你可能只需要幾個任務就可以進入到家庭的場景里，先讓機器人在家里面干起活來，然后逐漸地通過模型的迭代讓它產生更多的能力。

當然我們的硬件成本降到普通家庭可承擔的范圍內，我們可能就會優(yōu)先，比如說我先以疊衣服的功能賣給家庭，然后逐漸去拓展一些其他的功能。所以這個時間線應該也不遙遠，可能也就在1~2年左右。

這就是“理性前進”——不是等到機器人變成科幻電影里的全能管家再推向市場，而是從一個明確的、用戶真正需要的功能切入，逐步迭代。

03、2025年的技術突破

雖然挑戰(zhàn)重重，但2025年確實有幾個值得關注的技術突破。業(yè)內人士很坦誠地告訴我們，每一個突破都不是革命性的，但都是實實在在的進步。

Chapter 3.1 突破點1：雙系統(tǒng)架構流行起來

很多公司開始采用所謂“System 1 + System 2”的架構。

System 1是“快思考”，負責反射性動作，比如抓取、移動，參數(shù)量小，響應快，可能只有8000萬參數(shù)。

System 2是“慢思考”，負責復雜規(guī)劃，比如“做早餐”這種多步驟任務，參數(shù)量大，可能有70億參數(shù)。

這種分工很像人類大腦：你伸手接球是本能反應，但規(guī)劃一頓飯需要仔細思考。

Figure AI的Helix模型就是這個架構的代表作。它們在和OpenAI“分手”后，兩周內迅速推出這個自研模型，創(chuàng)新性地用單一神經網絡控制整個上半身的35個自由度，還能同時控制兩臺機器人協(xié)作。

這種架構的成功，證明了機器人基礎模型和大語言模型的Scaling Law可能不一樣——不是越大越好，而是要找到合適的參數(shù)分配策略。

Chapter 3.2 突破點2：合成數(shù)據(jù)的革命

機器人數(shù)據(jù)為什么這么貴？原因也很簡單：因為人類一天只有24小時，收集真實操作數(shù)據(jù)太慢太貴。

NVIDIA的解決方案是：用模擬器生成合成數(shù)據(jù)。他們展示過，11小時內生成78萬條操作軌跡。相當于6500小時或連續(xù)九個月的人類演示數(shù)據(jù)。雖然合成數(shù)據(jù)和真實數(shù)據(jù)有差距，但至少解決了“數(shù)據(jù)荒”的燃眉之急。

但這里有個關鍵的技術權衡。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人

因為我們之前也和挺多做大語言模型的這些人聊過，他們已經發(fā)現(xiàn)，語言方向的數(shù)據(jù)，哪怕用很多低質量數(shù)據(jù)，比如一堆文本，中間插了一段廣告，然后再是接著文本，就這樣的數(shù)據(jù)它一樣能訓練出比較好的模型。因為模型它看的數(shù)據(jù)足夠多之后，它自動就會過濾掉廣告。但是機器人當前我們覺得scaling（規(guī)?；└嗟氖莵碜杂诒容^高質量的數(shù)據(jù)。你如果囊括了很多很繁雜的數(shù)據(jù)在里面，機器人模型可能就不知道我要pay attention（注意力集中）在哪一個地方，所以最終它其實出來的效果并沒有那么好。

Chapter 3.3 突破點3：跨機器人泛化能力

Physical Intelligence的π0模型、開源的OpenVLA模型都能控制多種不同的機器人。同一套模型或策略，不需要為每一種機器人重新訓練，就能夠在不同形態(tài)、不同硬件配置的機器人上有效工作，這就叫跨機器人泛化能力。

這很重要。以前每種機器人都要單獨訓練模型，成本高昂?，F(xiàn)在一個模型適配多種機器人，數(shù)據(jù)可以共享，成本大幅降低。

但技術難點也很明顯：不同機器人的動作空間差異巨大，手臂長短不一、關節(jié)數(shù)量不同，怎么讓一個模型都能控制好？

這種在完全陌生環(huán)境也能工作的能力，不是100%完美，但已經是實質性的進步。

Chapter 3.4 突破點4：多機協(xié)同

Figure展示過用單一神經網絡協(xié)調兩臺機器人協(xié)作。創(chuàng)新性地用單一神經網絡，控制整個上半身的35個自由度，同時還能控制兩臺機器人協(xié)作。

聽起來簡單，實際上難度很高。兩臺機器人要互相配合，時序、力度、位置都要精準同步。這在未來工廠場景會很有用，但現(xiàn)在還處于早期驗證階段。

這些技術突破，沒有一個是顛覆性的，但每一個都在扎實推進。這正是2025年的特點：不再追求炫酷的Demo，而是在可驗證、可量化、可復現(xiàn)的方向上穩(wěn)步前進。

技術突破是一方面，但行業(yè)里還有幾座大山沒翻過去。清楚認識這些難題，恰恰是“理性前進”的前提，也讓現(xiàn)在的具身智能來到了大爆發(fā)的前夜。

04、沒解決的核心問題

Chapter 4.1 難題1：數(shù)據(jù)困境

首先，是數(shù)據(jù)困境。ChatGPT訓練用了萬億級token，相當于把整個互聯(lián)網的文字都喂給它了。

但機器人操作數(shù)據(jù)極度稀缺。Google訓練RT-2模型，花了17個月在真實廚房收集13萬條數(shù)據(jù)，場景泛化能力依然有限。

為什么機器人數(shù)據(jù)這么難收集？因為需要真實機器人在真實環(huán)境操作，每一條數(shù)據(jù)都要花錢花時間，出錯還可能損壞設備。這不像文本數(shù)據(jù)，爬蟲跑一跑就有了。所以大多數(shù)機器人基礎模型仍依賴于少量真實數(shù)據(jù)加大量模擬合成數(shù)據(jù)加強化學習/自監(jiān)督方法。

柯麗一鳴 Physical Intelligence研究員

一個人的一生假設是100年的話，大概我們很粗略的算就是100萬個小時，我覺得現(xiàn)在在我的目所能及或者我公開信息看到的范圍里，好像沒有人有100萬小時的數(shù)據(jù)集，我是這么猜想的。

我會覺得什么時候我們能夠收到100萬小時等同于一個人一生的物理經驗的數(shù)據(jù)，我覺得可能我們才開始后面的探索。

如果說數(shù)據(jù)是機器人的“石油”，但現(xiàn)在這口井還沒打出來。

Chapter 4.2 難題2：Sim-to-Real Gap

在虛擬世界訓練機器人很便宜，可以同時跑幾萬個模擬器。但虛擬世界永遠不等于真實世界。就像你玩賽車游戲很厲害，不代表真的會開F1。

真實世界的摩擦力、柔軟度、光線變化太復雜，仿真只能還原部分真實物理特性。剩下的就是機器人從模擬器到真實世界“水土不服”的根源。

NVIDIA的Genesis和Isaac模擬器在努力縮小這個gap（差距），但完全消除還需要時間。

Chapter 4.3 難題3：Embodiment Gap

人手有27個關節(jié)，能感知壓力、溫度、質地。機器人的靈巧手通常只有15-22個關節(jié)，傳感器也沒那么精細。即使完美模仿人類的動作軌跡，效果也不同。人類能輕柔地拿起雞蛋，機器人可能一用力就捏碎。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

第一，人類的手和機器人的手，如果你想讓它這個能力遷移得很好，需要做得非常接近。這也是為什么現(xiàn)在有好多人在做很靈巧的靈巧手，非常接近人的自由度，這件事本身是一件非常困難的事情。

第二，但你再接近，它也不是完全一樣。所以在機器人的數(shù)據(jù)和人的數(shù)據(jù)中間還是會有一個鴻溝，就我們所謂的embodiment gap，這個embodiment gap在當前學術界也好、工業(yè)界也好，大家都公認是一個比較難解決的問題。所以這樣的數(shù)據(jù)遷移的效率會比較低，哪怕你采集了很多數(shù)據(jù)，如果只有30%或者50%可用，你的總數(shù)量就會需要去乘以可能性的數(shù)字，所以這是它的一定的局限性。

這就意味著，特斯拉想用YouTube上海量人類視頻訓練Optimus的策略，面臨巨大的技術挑戰(zhàn)。這也是為什么特斯拉在生產了1000臺后暫停重新設計。理想很美好，現(xiàn)實很骨感。

Chapter 4.4 難題4：可靠性

ChatGPT回答錯了，用戶笑笑就過去了。機器人動作錯了，可能砸壞東西、傷到人。這是質的區(qū)別。

具身智能必須達到極高的可靠性，才能真正走進工廠、走進家庭。這個標準比大語言模型嚴苛得多。

Chapter 4.5 難題5：成本困境

目前人形機器人價格需要降到2萬美元左右，才能在物流等場景形成足夠吸引力。

但價格下降需要規(guī)?；a。規(guī)模化生產需要大量訂單。大量訂單需要價格足夠低。

這是個循環(huán)困境，需要有人先打破僵局。宇樹的5900美元定價就是在嘗試打破這個僵局，但能否引發(fā)價格戰(zhàn)，帶動整個行業(yè)降本，還需要觀察。

認清這些難題，不是悲觀，而是理性。正是因為目前初創(chuàng)公司們都很實在地承認這些瓶頸存在，具身智能才來到了爆發(fā)的前夜。

05、主要玩家和技術路線

Chapter 5.1 硬件巨頭：Tesla、Figure

這一派公司包括了特斯拉和Figure，他們的策略是軟硬件一體化，打造數(shù)據(jù)閉環(huán)。

Tesla利用FSD自動駕駛技術的積累，把視覺感知、路徑規(guī)劃的能力遷移到Optimus上，還能用工廠的生產線積累數(shù)據(jù)。前工程主管Milan Kovac說得很直白：“我們只是從輪子上的機器人變成長著腿的機器人?！?/p>

但現(xiàn)實比預期復雜。5000臺的目標只完成了五分之一，就不得不暫停重新設計。這說明即使是特斯拉這樣的巨頭，在embodiment gap面前也要低頭。

Figure則在和OpenAI“分手”后，獨立開發(fā)了Helix模型，自己掌控技術路線。兩周內推出的Helix模型，展示了他們確實有技術實力。15倍的估值漲幅，也證明資本市場對這條路線的認可。

但他們真正商業(yè)化部署的也就幾十臺。Demo很精彩，規(guī)?；€在路上。第二派就是我們剛才提到的Physical Intelligence和Skuid AI。

Chapter 5.2 AI公司：PI和Skild AI

與多家同時押注硬件的機器人初創(chuàng)公司不同，這些公司的策略是模型先行，跨平臺適配。

Physical Intelligence的π0模型不綁定特定硬件，能適配多種機器人。他們的邏輯是：先把模型能力做強，硬件可以后續(xù)選擇最優(yōu)方案。

而另外一家則是Skild AI，一家專注于構建機器人基礎模型的軟件公司。Skild AI核心方向同樣是打造一種與具體機器人形態(tài)無關的通用基礎模型，可根據(jù)不同機器人平臺和應用場景進行適配與定制。

今年7月，Skild AI發(fā)布了其通用機器人系統(tǒng)Skild Brain，并公開演示視頻，展示機器人完成拿取餐具、上下樓梯等操作能力。近期軟銀與英偉達正計劃對它投資10億美元，把它的估值提升到140億美元。

Chapter 5.3 生態(tài)平臺：NVIDIA、Google

第三類是主打生態(tài)的平臺。

NVIDIA提供模擬器和算力基礎設施，推出GR00T N1并開源，但你要用就得用全套NVIDIA生態(tài)。Google則在學術研究上持續(xù)投入，RT系列模型影響了整個學術界。

他們?yōu)檎麄€行業(yè)提供“水電煤”。誰能制定行業(yè)標準，誰就掌握了生態(tài)控制力。

這三種路線，都在前進。沒有哪一派已經占據(jù)絕對優(yōu)勢，大家都在試錯、迭代、調整。

06、總結與展望

未來還未來，已經不遙遠

回到開頭的問題：具身智能是泡沫還是未來？

答案是：2025年，具身智能正在從“先鋒亮相”轉向“理性前行”。

技術上，大模型+機器人的結合已經跑通，但遠未成熟。數(shù)據(jù)、泛化、可靠性這些核心難題還沒解決。

如果用“GPT時刻”來類比，自變量機器人CTO王浩認為，我們現(xiàn)在是GPT-2的水平。

王浩自變量機器人CTO

我會覺得現(xiàn)在就是在GPT-2的階段，其實我們現(xiàn)在基本上已經知道規(guī)?；俏ㄒ坏囊粋€可靠路徑了，所以我們就是要在這個階段去瘋狂地積累數(shù)據(jù)，提升模型規(guī)模，同時去搭建真實具身的這種基礎設施。我的預測會到1~2年的時間，我們完全可以達到GPT-3的水平。

注意，是GPT-3，不是GPT-4。這就是毫不花哨的判斷。由于研究員們看到了這種規(guī)?；瘞淼奶嵘?，所以路徑和目標更加明確，也更加唯一。

而在商業(yè)上，工業(yè)場景開始試點，倉儲、制造、服務業(yè)都有落地案例。但大規(guī)模商用可能還需要2-3年時間。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

我們自己的目標是在明年我們至少希望在商用場景有比較大規(guī)模的部署。家用我們會擇機看，這個時間線應該也不遙遠，可能也就在1~2年左右。

投資上，可以說泡沫和機會并存。有公司估值飆升，也有公司暫停生產，也有公司錢燒光了而破產。

開源機器人公司K-Scale Labs融資失敗倒閉，F(xiàn)igure AI拿錢拿到手軟，這兩個極端同時存在，說明市場正在分化，雖然具身智能的長期趨勢確定，但短期波動劇烈。

而具身智能第一個“殺手級”應用場景會是什么？

有可能是家務任務，也可能是倉儲物流，或者是餐飲清潔服務。而無論是哪個場景，都已經有重量級玩家在布局。具身智能不是“會不會發(fā)生”的問題，而是“什么時候發(fā)生”。

2025年，我們正站在這場革命的起點。行業(yè)不再只展示炫酷的Demo，而是開始腳踏實地驗證技術、打磨產品、尋找場景。

特斯拉暫停生產，不是失敗，是在重新設計，尋找更可靠的路徑。

Figure AI估值飆升，不只是資本炒作，而是他們交出了Helix這樣的實質成果。

Dyna從疊毛巾切入，不是格局小，而是在積累數(shù)據(jù)飛輪，培養(yǎng)模型的學習能力。

Physical Intelligence部分開源π0，不是不夠開放，而是在商業(yè)利益和技術分享之間找平衡。

這種在現(xiàn)有基礎上穩(wěn)步提升，恰恰是行業(yè)走向成熟的標志。2025年，具身智能行業(yè)已經從“畫大餅”，進化到卷起袖子和面團。這個餅，正在一點一點，有分寸地，變成現(xiàn)實。

本文為轉載內容，授權事宜請聯(lián)系原著作權人。

<blockquote id="11161"></blockquote>

<blockquote id="11161"></blockquote>