文 | 飛說智行11 周雄飛
時隔兩年多,特斯拉再次“開麥”。
與此前不同,這次特斯拉對于自家智能輔助駕駛算法進展的分享,并不是在AI Day的舞臺上,而是在近日舉辦的計算機視覺頂會ICCV(International Conference on Computer Vision)期間。
特斯拉自動駕駛副總裁阿肖克·埃魯斯瓦米(Ashok Elluswamy)作為嘉賓,在大會上發(fā)表了主題演講。
有可能為了接上2023年6月他們提出端到端架構之后的“閉麥”,阿肖克從“特斯拉為何會選擇端到端?”開始分享,但經(jīng)過多年實踐,他們也發(fā)現(xiàn)僅通過端到端想要做好智能輔助駕駛,存在一些挑戰(zhàn)。
首先就是端到端系統(tǒng)需要解決從極高維到極低維的映射問題,這種映射往往是多對一,因此要保證輸出的正確性,訓練難度可想而知。阿肖克的言外之意,或許是在強調(diào)端到端模型的“黑箱”問題。
基于特斯拉龐大的用戶規(guī)模,每日可為他們產(chǎn)生相當于500年駕駛時長的數(shù)據(jù),但其中多數(shù)是沒有太多價值的常規(guī)場景數(shù)據(jù),對于算法的長遠泛化沒有太大幫助。
為了解決這兩個問題,特斯拉在架構和算法層面做了一些優(yōu)化和調(diào)整,比如在輸出決策控制指令前,還會輸出OCC占用網(wǎng)絡和3D高斯特征等視覺信息,以及思維鏈COT自然語言信息。
與此同時,基于龐大的真實數(shù)據(jù)基礎,特斯拉還建立了名為“神經(jīng)世界模擬器”的閉環(huán)仿真系統(tǒng)。通過這套系統(tǒng),不僅可以訓練算法,并且還能驗證算法的正確性,好比同時是“訓練場”和“考試場地”。
看到這里,是不是聞到有股熟悉的味道,這不就是國內(nèi)車企們和自動駕駛企業(yè)布局的VLA模型和世界模型。換句話說,特斯拉已從之前站在講臺上的“老師”,變成了與理想、小鵬、吉利、華為、地平線和Momenta一起探索智駕最終答案的“同學”。
或許正因這樣,小鵬汽車CEO何小鵬曾表示:“實際上,國內(nèi)任何一家有實力AI玩家,早就不care馬斯克在做什么了”。
不僅如此,曾負責特斯拉Autopilot和自動駕駛項目的兩位前高管,在這段時間也對特斯拉自動駕駛進程表達了擔憂。畢竟,根據(jù)特斯拉最新的財報,訂閱FSD的比例只有約12%。
已不是智駕行業(yè)“標準答案”的特斯拉,未來將會駛向何方?
01 VLA vs 世界模型,特斯拉:我全都要
提出端到端架構兩年后,特斯拉他們依然覺得該架構很重要。
首先端到端架構能減少從感知輸入端到控制輸出端的信息損失,就像面對雞、鵝等小動物過馬路這個場景,傳統(tǒng)模塊化模型就會在信息傳輸過程中丟失一部分信息,導致輸出端形成信息瓶頸無法做出正確行動。
但端到端架構,就可以確保決策和控制端依然能基于豐富的信息,再加上神經(jīng)網(wǎng)絡和數(shù)據(jù)驅(qū)動從大量人類駕駛行為中學習到“經(jīng)驗”,從而做出正確、安全和有效的駕駛行為。
正因這樣,整個端到端架構的信息密度是巨大的。可以簡單算一筆賬:輸入端在30秒內(nèi)以36Hz頻率采集的7路500萬像素攝像頭視頻、長達數(shù)英里的導航地圖、100Hz的車速與IMU信息,甚至還有大量的音頻信息,整體信息維度相當于20億token。
對于特斯拉來說,輸出端僅是方向和加減速的控制信息,約等于2個token,這就意味著端到端需要解決的是從極高維信息到極低維信息、多對一的映射問題,就好比要從一團亂麻中找到最終指引向出口的那唯一一根正確線頭。
翻譯一下,阿肖克所說的正是行業(yè)中老生常談的——端到端由于存在信息維度壓縮和深度神經(jīng)網(wǎng)絡非線性等特性,導致“黑箱”和不可解釋性問題不可避免。
另外,在訓練數(shù)據(jù)上,特斯拉同樣遇到了瓶頸。按照阿肖克介紹,基于龐大的用戶群體,特斯拉每天可接收相當于500年駕駛時長的數(shù)據(jù),這個數(shù)據(jù)量放到行業(yè)中看確實令人艷羨,但其中大多數(shù)數(shù)據(jù)卻都屬于簡單和常規(guī)場景。
換句話說,特斯拉正像中國玩家們一樣,缺少真實的高質(zhì)量數(shù)據(jù)來“喂養(yǎng)”算法。畢竟訓練所需的高質(zhì)量難例數(shù)據(jù)可遇不可求,地平線CEO余凱由此才會說出那句“在AI時代,99%的人類數(shù)據(jù)是不值得學習的”。
特斯拉這次技術分享的重頭戲,正是他們對于以上問題提出的解法。
針對特斯拉最新的端到端架構,阿肖克表示“并不是徹頭徹尾的‘黑箱’系統(tǒng)”。從他的介紹看,現(xiàn)在的端到端架構在輸出決策規(guī)劃信號之前,還輸出了很多中間結果,包括OCC占用網(wǎng)絡和3D高斯特征為主的場景重建視覺信息,來展現(xiàn)對于環(huán)境的感知細節(jié)。
除此之外,特斯拉還引入了思維鏈COT(Chain-of-Thought),訓練算法用自然語言來解釋自己的行為,并給出下一步的行動軌跡。這些中間結果,不僅可用于SR界面的渲染呈現(xiàn),同時也能用于研發(fā)校驗和調(diào)優(yōu),來保證模型輸出的正確性。
理想車主們對于以上描述應該非常熟悉,因為是他們在前排屏幕上經(jīng)??吹降穆窂揭?guī)劃和思維過程的畫面。這就是VLA模型中的“L”(Language)部分,再加上V(Vision)的2D、3D信息,以及MoE、Diffusion模型和A(Action)的部分,就組成了VLA模型。
目前,除了理想之外,小鵬、元戎啟行和千里科技(千里浩瀚9H方案)等品牌,也都采用了VLA架構來打造自身的智駕系統(tǒng)或者方案,讓自身的智駕功能不僅適于與用戶交互,同時也能讓智駕行為更像人。
對于特斯拉來說,目標是一致的,但他們同時還在致力于打造一個算法評價模型。
以阿肖克的介紹來看,他們已經(jīng)基于龐大的真實用戶數(shù)據(jù),在云端打造了一個“神經(jīng)世界模擬器”(neural world simulator)。
它的用途有三個,利用閉環(huán)仿真驗證端到端指令的正確性、利用場景編輯生成能力生成對抗樣本檢驗模型能力和利用模擬器在閉環(huán)仿真系統(tǒng)中獲取人駕真值。
翻譯一下,就是基于真實用戶駕駛視頻數(shù)據(jù),一邊來生成在現(xiàn)實世界難獲取的難例(Corner cases)數(shù)據(jù),從而在云端訓練和迭代智駕算法模型;另一邊,把訓練好的算法模型放到生成好的世界模型中進行仿真權重評價測試,針對性通過強化學習來增強模型能力。
就像是特斯拉為FSD在云端打造了一個閉環(huán)的“駕?!焙汀翱紙鰣龅亍薄O啾扔诂F(xiàn)實世界中高質(zhì)量數(shù)據(jù)的難獲得,在神經(jīng)世界模擬器中就可以讓算法訓練和評價實現(xiàn)窮盡。
實際上,像這樣的云端世界模型,并不是特斯拉首創(chuàng),而是像理想、小鵬、零跑、華為乾崑和商湯絕影等國內(nèi)玩家已經(jīng)早已布局。
這其中,以華為乾崑為代表的玩家們,在打造云端世界模型的同時,還在車端部署了世界模型,就像華為乾崑的車端世界行為模型WA,是基于視覺、聽覺和觸覺等感知數(shù)據(jù),經(jīng)過Token化后訓練出的原生基模型。
由此,在國內(nèi)智駕行業(yè)中就有了端到端、VLA和世界模型的三種技術路線之爭,但從以上分析來看,特斯拉的最新智駕方案有可能把端到端、VLA模型和世界模型三者都涵蓋了。
特斯拉他們會這樣選擇,并不是只為了“集百家之長”這樣簡單,因為在飛說智行看來,端到端、VLA和世界模型并不是簡單的非此即彼競爭關系,而是端到端為基礎、VLA和世界模型是升級的動態(tài)融合演進關系。
例如上述主流玩家們無論在車端部署端到端還是VLA模型,亦或者是世界模型,都需要在云端建立一個參數(shù)量更大的世界模型進行仿真生成訓練和評價,并且還有一些玩家車端的模型,就是云端世界模型通過修剪和蒸餾所得。由此,何小鵬、李想和余承東等大佬此前都對世界模型給予了肯定的評價。
除此之外,特斯拉布局VLA和世界模型的目的,還想去支持機器人業(yè)務的發(fā)展。
按照阿肖克表示,特斯拉閉環(huán)仿真引擎同樣可以遷移到機器人領域,而機器人Optimus和自動駕駛FSD技術棧的統(tǒng)一,也為后續(xù)Cross Embodiment(跨實體具身)帶來的更泛化的具身AI發(fā)展帶來巨大的想象空間。
相比之下,理想和小鵬兩家車企布局VLA和世界模型的時間更早,并且都已喊出了“要成為AI企業(yè)”的目標,他們應該和特斯拉有著同樣的規(guī)劃。
只不過,相比于之前舉辦AI Day的特斯拉,現(xiàn)在的特斯拉已經(jīng)掉下神壇,與理想、小鵬、華為乾崑和地平線等國內(nèi)玩家們站到了一起。
根據(jù)飛說智行觀察,這次特斯拉分享技術進展后,與之前AI Day后朋友圈刷屏的熱度相比冷清了許多,由此也能看出大家對于特斯拉在干什么,確實沒有之前那么關注了。
畢竟除了技術進展之外,特斯拉在其他方面的成績也不夠亮眼。
02 謊言、質(zhì)疑和不愛用,特斯拉FSD未來駛向何處?
都2025年了,馬斯克依舊在為自動駕駛“畫餅”。
在最近的第三季度財報會上,馬斯克表示特斯拉有望在今年年底前在8到10個新的州展開Robotaxi運營,其中就包括內(nèi)華達州、佛羅里達州和亞利桑那州等對自動駕駛技術政策寬松的大州。
而在上個季度的財報會上,馬斯克曾表示,特斯拉會在今年底前讓Robotaxi覆蓋美國50%的人口,并預計到今年底,特斯拉車主將能通過軟件更新,使自己的車輛具備無需監(jiān)督的全自動駕駛能力(L5)。
對于馬斯克這樣的“畫餅”,大家早已司空見慣,畢竟從2016年開始,馬斯克就開始鼓吹自家FSD可以盡早實現(xiàn)全自動駕駛的目標,但每到兌現(xiàn)期限無一例外跳票。
正因這樣,曾負責特斯拉自動駕駛業(yè)務的前高管們看不下去了。
特斯拉前人工智能主管安德烈·卡帕西(Andrej Karpathy)最近在一檔播客中表示特斯拉自動駕駛的問題遠未得到解決,據(jù)了解他曾在2017-2022年領導特斯拉自動駕駛項目。
在安德烈看來,自動駕駛的迭代好比是無限接近100%的過程,在此之前就是無數(shù)個9的積累過程,按照他對Electrek回憶道,他曾領導特斯拉自動駕駛經(jīng)歷了兩到三個“9”的迭代,確實顯著減少了駕駛員接管的干預,但此后這樣的進步就不明顯了。
安德烈之前,斯特林·安德森被行業(yè)公認為是特斯拉自動駕駛項目的首任負責人,因為他曾在2015-2016年領導特斯拉Autopilot發(fā)展,目前他已是通用汽車全球產(chǎn)品部門的負責人。
在近期通用汽車的活動中,斯特林對特斯拉自動駕駛的發(fā)展同樣進行了質(zhì)疑,“通用Super Cruise系統(tǒng)已實現(xiàn)約11億公里的無接管行駛,且沒有發(fā)生一起由于技術導致的事故。但特斯拉的自動駕駛系統(tǒng),卻無法達到這樣的安全記錄?!?/p>
在此背景下,目前特斯拉在奧斯汀和舊金山運營的Robotaxi車輛均配備安全員,以便作為系統(tǒng)失效或錯誤時的安全兜底。其中,奧斯汀區(qū)域的Robotaxi,安全員是坐在副駕位置;而在舊金山,安全員則是坐在主駕。
根據(jù)馬斯克的規(guī)劃,會在今年底前去掉奧斯汀大部分的安全員配置,未來幾個月內(nèi),預期至少在奧斯汀的部分區(qū)域?qū)崿F(xiàn)完全無安全駕駛員運營。為此,馬斯克給出的解釋是“這些人類監(jiān)控員的存在并非因為公司技術存在缺陷,而是出于對安全的‘高度謹慎’”。
不過,先不說與特斯拉同場競技的Waymo已經(jīng)實現(xiàn)了無安全員的商業(yè)化運營,小馬智行、文遠知行和蘿卜快跑等中國玩家們,則是更早就實現(xiàn)了Robotaxi無安全員的常態(tài)化運營。
Robotaxi沒有按照馬斯克所期望的速度發(fā)展的同時,特斯拉的智能輔助駕駛業(yè)務發(fā)展同樣受阻。
特斯拉第三季度財報會上,特斯拉首席財務官瓦伊巴夫?塔內(nèi)賈(Vaibhav Taneja)公開承認,上一季度FSD相關的收入較2024年同期有所下滑,具體原因是“目前付費使用FSD的客戶總量仍然很小,僅占現(xiàn)有車隊的約12%”。
今年特斯拉對于FSD在美國市場的售價雖然進行了調(diào)價,買斷價從之前的12000美元(約合85350元人民幣)降至8000美元(約合56900元人民幣),并推出了99美元的月度訂閱服務。
但結果是,不僅沒有促進用戶們對于FSD的購買和訂閱,反而FSD成為消費者們不購買特斯拉的主要原因。
根據(jù)Slingshot Strategies在今年8月發(fā)布的《2025年8月電動汽車情報報告》,他們對8000多名美國消費者進行調(diào)研后發(fā)現(xiàn),有將近35%的受訪者認為“FSD功能讓他們更不愿意購買特斯拉”,因為他們對FSD技術不成熟,責任界定模糊和純視覺方案可靠性不足等方面有所擔憂。
這些消費者的擔憂并不是沒有道理。本月9日,美國國家公路交通安全管理局(NHTSA)宣布對約288萬輛配備FSD的特斯拉汽車展開調(diào)查,起因是收到58起交通安全違規(guī)及事故報告,涉及闖紅燈、逆行、車道識別錯誤等問題。
其中就包括當特斯拉車輛開啟FSD之后,在路口與其他車輛相撞以及誤駛向?qū)ο蜍嚨琅c別車相撞,導致多名人員受傷等多起事故。
03 后記
特斯拉對于全球自動駕駛行業(yè)來說,有著重要的價值。
基于特斯拉前些年相繼提出BEV+Transformer、OCC占用網(wǎng)絡以及端到端模型,不可否認在一定程度上給于中國玩家們很多啟發(fā),由此推動了整個行業(yè)向前快速發(fā)展。
兩年前,或許因為“擔心中國車企玩家們的模仿”傳言,馬斯克和特斯拉選擇了“閉麥”,AI Day就此停辦不再對外分享自動駕駛相關技術進展。
再到兩年后的今天,理想、小鵬、吉利、華為乾崑、地平線和Momenta等玩家雖然在技術路線上已有“三足鼎立”之勢,但馬斯克應該也看到了一個事實:特斯拉已不是行業(yè)的“標準答案”,大家都在按照自己認定的方向向自動駕駛終局進行探索。
畢竟,自動駕駛行業(yè)從不缺少“神話”,而馬斯克和特斯拉現(xiàn)在則需要更腳踏實地。

