FSD來中國,真會卡在電瓶車?不出意外,煥新Model Y會在今年3月上市交付,同時,計劃在今年一季度內落地的FSD,可能終于要來了。去年12月初,FSD從第12代系統更新到了V13.2,按照馬斯克的說法,新系統的功能和體驗和之前完全不同,是效果最強的版本,從海外實測結果來看,從識別準確性到整套執行邏輯,博弈方案確實都比以往更進化,這也直接吊足了中國車主的胃口,那么,這套新系統在中國的智駕能力,大概在什么水平?和國產智駕技術比起來,FSD真的在領先位置上?
不會避讓電瓶車,硬件和軟件誰出了問題?
關于FSD V13.2的具體效果,之前我們曾分析過,簡單說有2個細節做了較大優化,一個是開啟條件不再受限,一個是接管率降了10倍左右。就目前國產智駕技術的功能來看,像三點式掉頭,無保護左轉,繞行、環島高效通行,城市或高速領航等,新版本的FSD基本也都有,似乎到了中國直接就能上路用,不過,在最近一次的海外實測中,有人發現FSD V13.2遇到中國特有的三輪電瓶車,通行率明顯受到影響,SR能識別到障礙物,并且選擇主動停車禮讓,沒完全降級,但需要接管完成人機共駕。
既然出現了corner case,那么在感知、規控、執行的端到端架構里,究竟哪個環節出了問題?首先,FSD作為純視覺智駕技術,感知架構獲取環境數據的途徑,只有通過攝像頭來完成,目前FSD的構成硬件條件,是HW四代芯片和7顆500萬像素攝像頭,芯片不用再贅述,7nm制程,20核CPU,內存從LPDDR4升級到GDDR6,單顆算力720TOPS,視頻信號轉化數據的能力基本不存在難題,雙目攝像頭最大探測距離424米,比華為最新的192線激光雷達還遠了將近一倍,36赫茲全分辨率視頻信號輸入,就是1秒能反復看36次視頻,總數據帶寬為每秒1.3千兆像素,以36赫茲運行,捕獲和推理之間的數據基本不存在延遲,理論上講,FSD在2021年放棄激光雷達之后,感知架構端對環境道路的數據處理能力,可以說是能和傳統激光雷達做正面對比的。
所以,問題還是出在了軟件層面上。大家都知道,FSD的感知模塊,是基于HydraNets架構搭建的,簡單說就是整合了多個視覺識別任務到單一網絡上,通過以Transformer為主干網絡+BEV感知網絡,從而實現對車輛周圍環境的感知,這也是目前國內智駕系統的技術底層架構,但區別和核心,就在FSD用了Occupancy占用網絡,準確來講,這是一類結合了語義分割和柵格占據地圖法的技術,除了給圖像中的每個像素分配給一個3D占用特征,再將環境分多個柵格,并將每個柵格標記為占用或空閑的方法,最終可以對環境進行建模,并在此基礎上進行路徑規劃等操作,聽起來比較復雜,但我們劃個重點,“3D占用特征”,最直白的話來理解,就是通過感知硬件架構,把世界環境分成無數個單元格,再根據障礙物的形態、體積,給到對應的坐標數據,精度上甚至能做到厘米級,沒錯,小米正在做的BEV變焦技術,就和它有相當類似的效果,但,不同之處,就在于Occupancy網絡是可以不用像激光雷達做實時掃圖,或者反復深度學習做障礙物白名單標定,只要系統識別到,就立馬能出數據結果,在CNN卷積神經網絡的推演下,理論上說有路沒路都能開。
但,FSD來中國前,遇到國內特有的電瓶車就罷工,難免產生了3個思考,1、入華后是否還得再教Occupancy學習認識一遍通用型障礙物?2、國內電瓶車保有量超3億,路況復雜程度更高,整合國內數據后,FSD做到適配上路大概要多久?3、一旦融入國內道路數據,大模型算法豈不是要超過北美版本?目前這三個問題都不好回答,唯一能證明的,只有等Grok 3重推在國內的端到端算法,而在這個過程之前,FSD至少得先拿到實測視頻數據才行,而推演后的新規控邏輯,不出意外最快也得超過2年,這似乎也就意味著,老車主花6萬4買的這項功能,今年可能至少又要損失一半了。
FSD今年來中國,至少5家車企不怕?
FSD帶著6萬4的買斷價格,來到中國未必是最好用的,但也是享受門檻最高的。今年,國內誰是FSD的最大競爭者,答案也不難找,有城區NOA,有智能泊車,還有越來越低的接管率,甚至還有3萬就能買斷的滿血高階智駕包,現在看來差不多已經成為基礎的智駕核心功能,FSD來了也是一樣在做這些,唯獨價格更高。從去年開始,包括華為GOD大網,理想如今的E2E+VLM,越來越多的國產智駕方案并入無圖純視覺城區NOA,高線束激光雷達成本降到4位數后,整車價格也有了再將一些的可能,總之,今年的FSD,會在效果和成本上,沒國產技術更值。
回到技術本身來說,FSD的transformer+BEV架構,確實是給了現如今國產智駕方案的技術基底,但二者的出發點不同,也是注定了在不同地區的市場場景上,端到端效果有所不同。FSD就是典型的以技術出發的智駕系統,而中國的端到端,純粹是從體驗的維度來做,甚至不惜會加入規則和記憶來優化。
舉個例子,前面提到的occ占用網絡,讓FSD對環境推理的能力更強,而國內交通參與者極為復雜,更強調博弈能力,這不僅僅是在環境推理層面的思考,更多的也是在不影響通勤效率的同時,給安全行車兜底,所以本質上講,FSD和國內的主流智駕技術,沒有強弱之分,只有體驗細節優化上的不同,在Grok 3模型結合國內數據之后,那時可能才會分出一波技術先進性。
但還是要講,華為現在的GOD大網、理想的E2E+VLM,亦或者是蔚來還沒推送的NWM,基本都已經有了下一步迭代的目標,也就是說,現在所謂的端到端(分段式),只是把感知和策劃放在了一起,極限少數的場景依然得靠規則驅動,而一體式大模型才是今后幾年內,整個智駕技術的發展趨勢,FSD用occ網絡+深度學習,成本在數據采集量和時間問題,雖然能解綁車端算力要求,但真正考驗的是背后的超級計算機,在推理效率上的極限,這也是純視覺智駕的技術立足根本。
激光雷達方案正好相反,對車端算力平臺要求更高,而更高的算力,也意味著更容易處理復雜的場景,更何況,利用3D實時掃圖的特性給安全性兜底,一直都是國產技術的共識,所以能和FSD對抗的車企,至少會有華為鴻蒙智行下的四界、小米、理想、蔚來,以及擁抱國產智駕方案的奔馳、寶馬、豐田和本田。