文|烏鴉智能說
3月14日凌晨,OpenAI和初創(chuàng)公司Figure最新發(fā)布的一段人形機器人視頻在社交平臺引發(fā)熱議。
在視頻中,這款名為Figure 01的人形機器人與創(chuàng)造者的高級人工智能工程師Corey Lynch進行了互動,Lynch讓機器人在一個臨時廚房里完成了幾項任務,包括識別蘋果、碗碟和杯子。
當Lynch要求機器人給他找一些吃的東西時,F(xiàn)igure 01將自然而然地拿起了桌面上的蘋果。之后,Lynch讓Figure 01把垃圾收集到一個籃子里,它也按照指令完成了任務。
據(jù)悉,F(xiàn)igure 01采用了OpenAI最新推出的視覺語言模型技術,結(jié)合生成式人工智能與神經(jīng)網(wǎng)絡學習原理,是世界上的一款通用任務人工智能人形機器人。與特定任務AI機器人不同,F(xiàn)igure 01可以同時進行多任務處理、識別周圍環(huán)境、與用戶實時交流。
值得一提的是,這款基于OpenAI大模型的智能人形機器人的問世,距離OpenAI與Figure于3月1日官宣合作僅僅過了13天。
/ 01 / 多任務處理,可與人類實時交流
根據(jù)官網(wǎng)介紹,這款機器人高5英尺6英寸(約167cm),重60kg,可承重20kg,續(xù)航5h,前進速度1.2m每秒 。
Figure 01能做什么?與以往的工業(yè)機器人有何不同,AI工程師Corey Lynch給出了自己的答案:
一是強大的語義理解能力,能夠與人類實時溝通 。 “實時”是Figure 01最顯著的特征,在Figure公司發(fā)布的視頻中,該款機器人的語音識別和語義理解速度已經(jīng)可以和普通人類媲美,并沒有以往過程帶給使用者的“機械化延時”感受。
二是端對端的神經(jīng)網(wǎng)絡學習能力,能夠像人類一樣思考、推理。 在FigureAI發(fā)布的視頻中,F(xiàn)igure01已經(jīng)能夠從“吃的”推斷出“蘋果”,并且正確識別出了“垃圾”,將其放入垃圾桶?!俺缘摹薄袄钡瘸橄笤~匯,并非特定指示類的任務處理模式,需要不同于以往工業(yè)機器人的抽象學習能力。而Figure 01,即使沒有人類指令,也已經(jīng)知道餐具應該被放在架子上。
三是情感互動,反問交互。 “我可以吃一口嗎”這樣的回答讓人難以與一個基于算法、數(shù)據(jù)建構而成的“冷冰冰”的機器人聯(lián)系在一起。即使在交互性人機界面,也鮮少有AI程序能夠與用戶進行反問式的話題互動與情感交流。Figure 01的“類人性”讓很多用戶大吃一驚,其研發(fā)團隊的一名工程師直言Figure 01已經(jīng)具有常識(common sense),能夠通過基本的邏輯推理像人類一樣 說話 ,進行簡單的任務處理。
四是通用環(huán)境下的多任務處理能力。 Figure01出世前,工業(yè)機器人都需要預先編程以執(zhí)行特定功能,但Figure 01可以通過觀察學習并糾正自己的錯誤,識別周圍環(huán)境中的物體,并在實時對話中通過自然語言理解進行多任務處理。
值得注意的是,在Figure 01強大優(yōu)越的性能背后,是OpenAI最新視覺語言模型(visual language model)與Figure神經(jīng)網(wǎng)絡系統(tǒng)的聯(lián)合押注。
據(jù)悉,F(xiàn)igure 01的集成攝像頭可將數(shù)據(jù)發(fā)送到OpenAI訓練的大型視覺語言模型,而Figure自己的神經(jīng)網(wǎng)絡也“通過機器人上的攝像頭以10 Hz的頻率采集頭像”。傳統(tǒng)AI機器人需要通過大量數(shù)據(jù)集和基礎的編程代碼來學習的特定任務,對于Figure 01,只需要觀看10個小時的視頻錄像就能學會。
Figure01還使用了公司研發(fā)的 "學習型低級雙臂操作",該系統(tǒng)將精確的圖像校準(精確到像素級)與神經(jīng)網(wǎng)絡相匹配,以控制動作。"Figure AI稱 :“這些網(wǎng)絡以10hz的頻率接收板載圖像,并以200hz的頻率生成24-DOF動作(手腕姿勢和手指關節(jié)角度)?!比绻l(fā)現(xiàn)任何偏離所學行為或預期結(jié)果的情況,F(xiàn)igure 01就會將其解釋為錯誤,并調(diào)整自己的行動,直到達到預期結(jié)果。通過強化學習,任務完成后的反饋會加強實現(xiàn)這一任務的神經(jīng)連接,進一步將其嵌入'已知'過程 。
/ 02 / 估值26億美元的超級明星,微軟、英偉達紛紛下注
FigureAI成立于2021年,團隊成員大多是前谷歌工程師。公司的總目標是,研發(fā)具有高性能的人形機器人,將人類從危險繁重工作中解放出來,比如采礦、施工、災后重建等重體力的勞動密集型產(chǎn)業(yè)。?
看重人形機器人的行業(yè)前景與巨大的盈利能力,微軟、英偉達、OpenAI等行業(yè)巨頭紛紛下注。據(jù)悉,F(xiàn)igure公司在二輪融資中籌集了6.75億美元,公司市值總估值達到26億美元。亞馬遜前首席執(zhí)行官、世界第二富豪貝索斯通過其公司Explore Investments投資了1億美元,微軟投資了9500萬美元,英偉達和一家亞馬遜附屬基金各投資了5000萬美元。
Figure團隊目前由40名行業(yè)專家組成,大多來自波士頓動力公司、特斯拉、IHMC、GoogleX、Cruise和蘋果SPG,這些公司大多擁有100年人工智能和仿人機器人的研發(fā)經(jīng)驗。在Figure擔任首席技術官的Jerry Pratt博士,在IHMC擁有20多年的仿人機器人研發(fā)經(jīng)驗,曾帶領團隊參加DARPA仿真人機器人挑戰(zhàn)賽。
AI是技術和資本的聯(lián)合產(chǎn)物,繼生成式人工智能席卷整個世界的資本浪潮后,人形機器人會成為AI行業(yè)的新風口嗎?
實際上,人形機器人的歷史由來已久,但發(fā)展速度十分緩慢。
人形機器人起步于1960年代日本早稻田大學的WABOT項目。誕生于1972年,由加藤一郎帶領研發(fā)的WABOT-1是世界上第一個全尺寸人形機器人。它擁有肢體控制系統(tǒng)、視覺系統(tǒng)和對話系統(tǒng),可以行走、抓握和搬運物品,并能用日語與人交流。
其后,波士頓公司于2013年發(fā)布的Atlas人形機器人經(jīng)過一系列的優(yōu)化設計,已經(jīng)可以完成快速小跑、側(cè)空翻等人類才能完成的跑酷動作,被譽為運動方面最接近人類的人形機器人。
自此,Walker、Ameca、擎天柱等多款赫赫有名的人形機器人也進入了人們的視野。
不過,這些產(chǎn)品最終都沒能掀起人形機器人在AI領域的商業(yè)化浪潮和資本關注。
究其原因,還是不夠“像人”。從用戶體驗來講,就像是在與只能執(zhí)行機械化命令的“冰冷機器”對話。缺乏人性化的設計和情感互動無法激發(fā)資本的押注和市場的購買欲。
但是,F(xiàn)igure01的出現(xiàn)可能會大大加速這一進程。
據(jù)悉,早在2022年,F(xiàn)igureAI就與德國汽車品牌寶馬簽訂了該公司第一項商業(yè)協(xié)議,旨在將多功能AI自動化機器人Figure 01部署在美國南卡羅萊納州斯帕坦堡的汽車加工廠。
而FigureAI高額的融資與市場估值也展現(xiàn)了這一行業(yè)巨大的發(fā)展?jié)摿陀芰Α?/p>
關于未來走向何方,F(xiàn)uture AI稱,他們將與OpenAI聯(lián)手開啟人形機器人新紀元。
或許在不久的將來 ,我們就可以看見《黑鏡》里機器人與人類在街頭漫步的場景了。
或許在更久的將來,《愛德華剪刀手》里機器人的自主意識與感情也不再是電影劇本里浪漫的橋段。
在那一天,這些與人類外形無異的機器人將何去何從,也將成為關乎人類生存問題的一大課題。

