歷時7年,特斯拉自動駕駛寫了一篇逆襲爽文_快看
特斯拉自動駕駛的重大彩蛋出現(xiàn)了。
國外黑客大神 GreenTheOnly 在特斯拉 FSD Beta 的代碼中發(fā)現(xiàn)了一段隱藏代碼。據(jù)了解,這段代碼可以開啟一個全新的模式「Elon Mode」(埃隆模式,代碼以馬斯克名字命名)。
如果車輛時速在60km/h以下,開啟這一模式,車輛可以實現(xiàn) L3 級自動駕駛,無需雙手把持方向盤。
(資料圖片僅供參考)
可以說,特斯拉在技術(shù)上已經(jīng)有能力實現(xiàn) L3 級自動駕駛。只是,目前其仍沒有拿到政府的相關(guān)批準(zhǔn)。
在自動駕駛領(lǐng)域,特斯拉一騎絕塵。
但是,領(lǐng)先地位的鑄就并非朝夕。
復(fù)盤特斯拉自動駕駛發(fā)展歷程,實際上不亞于看了一篇逆襲「爽文」。即使是特斯拉,也經(jīng)歷了從落后,到追趕超越,再到稱王加冕,自我超越的五個時期。
2016 年,在 Mobileye 首先官宣「分手」后,特斯拉便開始自研算法。期間有一段時間,其算法表現(xiàn)甚至不如 Mobileye。
直到 2020 年,重構(gòu)算法后,特斯拉才確立了行業(yè)領(lǐng)頭羊的地位。
在這一時期涌現(xiàn)的BEV、Transfomer、自動標(biāo)注等技術(shù),現(xiàn)如今已經(jīng)成為如今行業(yè)普遍延用的技術(shù)路線。
但特斯拉并未止步,又對算法進行了升級,比如時序信息的加入,升級到占用網(wǎng)絡(luò)。
自始至終,特斯拉追求的就不是「武林第一」的頭銜。
特斯拉的目標(biāo)只有一個:在純視覺方案下,如何用算法刻畫真實的物理世界,以實現(xiàn)自動駕駛。
總結(jié)來看,堅持視覺方案,特斯拉從「第一性原則」出發(fā),針對算法問題進行持續(xù)迭代,使算法更趨向于理解真實世界。
01 、自研算法誕生前夜,特斯拉與 Mobileye 分手
2016 年 5 月 7 日,一場發(fā)生于美國的車禍引起了全球的關(guān)注。
一輛 Model S(2015 年款)在使用 Autopilot 狀態(tài)下,攔腰撞向了一輛垂直方向開來的白色掛車,事故導(dǎo)致了一人死亡。
彼時,這起事故被媒體冠以「全球首宗自動駕駛致命事故」的標(biāo)題經(jīng)大肆報道。
在鋪天蓋地的報道之下,特斯拉的Autopilot 成了眾矢之的。
特斯拉和 Mobileye 的合作開始于2014 年。
2014 年 10 月,特斯拉發(fā)布第一代硬件Hardware 1.0,軟硬件均由 Mobileye提供,自動駕駛芯片是 Mobileye 的 EyeQ3。
而在上述事故發(fā)生的兩個月后,2016 年 7 月,Mobileye 宣布了和特斯拉終止合作。供應(yīng)商搶先聲明雙方合作破裂,這在汽車市場來說頗為罕見。
對于分手原因,彼時雙方各執(zhí)一詞。
在特斯拉看來,Mobileye 的黑盒模式是雙方分手的原因所在。
特斯拉曾在一份文件中直言:黑盒模式之下,Mobileye 難以跟上特斯拉產(chǎn)品的發(fā)展步伐。
而 Mobileye 則表示:因為特斯拉的自動駕駛功能「超過了安全的底線」,因此才終止了雙方的合作。
實際上,雙方的分手早有預(yù)兆。
2015 年,特斯拉就開始布局自研自動駕駛軟硬件,Mobileye 被棄用只是時間問題。
2015 年 4 月,特斯拉組建了基于計算機視覺感知的軟件算法小組 Vision,準(zhǔn)備自研軟件。
同年,特斯拉還從 AMD 挖來了傳奇芯片設(shè)計師 Jim Keller。隨后,在 2016 年,特斯拉開始組建芯片研發(fā)團隊,并由 Jim Keller 擔(dān)任 Autopilot 負(fù)責(zé)人。
和眾多俗套的情愛故事一樣,與 Mobileye 分手之后,特斯拉也經(jīng)歷了短暫的低谷和失落。
但在隨后的日子里,失意的特斯拉最終成長為自動駕駛領(lǐng)域領(lǐng)頭羊。
02、2016 年-2018 年特斯拉初出茅廬
在告別了 Mobileye 之后,特斯拉選擇全棧自研自動駕駛算法,自立自強。
在自動駕駛軟硬件發(fā)展思路上,馬斯克為特斯拉制定了「硬件先行,軟件更新」的思路。
硬件方面,2016 年 10 月,特斯拉還發(fā)布了第二代硬件Hardware 2.0。自動駕駛芯片由英偉達(dá)提供,配置 8 個攝像頭+12 個遠(yuǎn)程超聲波雷達(dá)+1 個前置毫米波雷達(dá),并且這一套配置延續(xù)到了 Hardware3.0。
算法方面,特斯拉延用了業(yè)內(nèi)常規(guī)的骨干網(wǎng)結(jié)構(gòu);使用 2D 檢測器進行特征提?。灰匀斯?shù)據(jù)進行標(biāo)注。
整體來看,這一套自動駕駛算法還比較原始,相對傳統(tǒng)。
值得一提的是,在這一時期,特斯拉自動駕駛算法仍處于技術(shù)追趕階段。
從硬件配置來看,盡管 HW2.0 優(yōu)于此前 Mobileye 提供的的 HW1.0,但受限于軟件算法,彼時特斯拉的自動駕駛能力和 Mobileye 有著較大差距。
盡管2016 年 10 月,特斯拉推出了HW2.0,但在空跑了大半年后,直到2017 年 3 月,Model3/Y 才開始能夠真正用上 Autopilot 功能。
在算法能力追上 Mobileye 后,特斯拉發(fā)現(xiàn),當(dāng)前使用的算法存在著諸多不足。其中,最為明顯的是效率問題。
在那一時期,自動駕駛的目標(biāo)檢測普遍遵循一個通用的網(wǎng)絡(luò)結(jié)構(gòu):Input → backbone→neck →head →Output
主干網(wǎng)絡(luò) backbone為特征提取網(wǎng)絡(luò),主要用于識別圖像中的多個對象;
neck 則主要負(fù)責(zé)提取更為精細(xì)的特征;
而在經(jīng)過特征提取之后,檢測頭 head 則為提供了輸入的特征圖表示,比如檢測對象,實例分割等。
值得一提的是,當(dāng)時業(yè)內(nèi)自動駕駛視覺神經(jīng)網(wǎng)絡(luò)都只有一個 head。
但是,在自動駕駛的場景中,往往需要在一個神經(jīng)網(wǎng)絡(luò)中同時完成多項任務(wù),比如車道線檢測,人物檢測與追蹤,信號燈檢測等。
這就使得原有算法出現(xiàn)了「腦袋不夠用」的情況。
因此,在 2018 年,特斯拉開始了對自動駕駛算法的第一次革新,瞄準(zhǔn)自動駕駛網(wǎng)絡(luò)結(jié)構(gòu)及效率。
03、2018 年-2019 年算法利刃初成
在這次算法革新中,特斯拉構(gòu)建了多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)架構(gòu)HydraNet,并使用了特征提取網(wǎng)絡(luò) BiFPN。
這使得特斯拉算法效率得到了提升。其中,最具特色的為 HydraNet。
Hydra 一詞源于傳說中的生物「九頭蛇」,因而 HydraNet 也被稱為「九頭蛇網(wǎng)絡(luò)」。
以「九頭蛇」命名的原因在于,HydraNet 結(jié)構(gòu)能夠完成多頭任務(wù),而非此前的單一檢測。
相較于此前算法,HydraNet 能夠減少重復(fù)的卷積計算,減少主干網(wǎng)絡(luò)計算數(shù)量,還能夠?qū)⑻囟ㄈ蝿?wù)從主干中解耦出來,進行單獨微調(diào)。
不過,此次革新更多是一次算法的「微調(diào)」,并沒有達(dá)到重構(gòu)和跨越性的程度。
在融合方式上,特斯拉采用的仍是后融合策略,數(shù)據(jù)進行人工標(biāo)注,且自動駕駛算法仍舊是小模型,與后續(xù)算法革新相比,并沒有太大的突破。
這一時期,在改良了傳統(tǒng)算法之后,特斯拉還對硬件進行了新一輪的更新。
在歷經(jīng)四年研發(fā)后,2019 年 4 月,特斯拉發(fā)布了 Hardware 3.0 系統(tǒng)。其中最大的亮點是特斯拉采用了自研的FSD 芯片。
特斯拉 FSD 芯片算力達(dá)72TOPS,遠(yuǎn)高于當(dāng)時市面上的自動駕駛芯片。同時,F(xiàn)SD 芯片以兩塊 NUD 為主,圖片處理效率更高,且不裝配激光雷達(dá)。
新硬件的發(fā)布,為特斯拉算法的下一次迭代提供了可能。
在完成硬件準(zhǔn)備的前期工作之后,特斯拉開始了對自動駕駛算法的史詩級重構(gòu)。
04、2020 年特斯拉自動駕駛一騎絕塵
2020 年 8 月,馬斯克在推特上發(fā)文稱,Autopilot 團隊正對軟件的底層代碼進行重寫和深度神經(jīng)網(wǎng)絡(luò)重構(gòu);全新的訓(xùn)練計算機 Dojo正在開發(fā)。
馬斯克的一封推文激起浪千重。市場對特斯拉自動駕駛算法的發(fā)展方向投以關(guān)注。
在他看來,對 AP 的重寫,不是對現(xiàn)有結(jié)構(gòu)的優(yōu)化,而是一場「量子式躍遷」。
縱覽特斯拉自研算法近十年歷程,2020 年可以說是其最為璀璨的一年。
在這一場行業(yè)重構(gòu)中,特斯拉帶來的一系列技術(shù)方向被自動駕駛行業(yè)延用至今,如 BEV+Transformer 的組合,特征級融合取代了后融合,數(shù)據(jù)自我標(biāo)注取代人工標(biāo)注等。
如果說 2020 年自動駕駛江湖是群雄逐鹿時期,那么,自 2020 年之后,這片江湖便進入了特斯拉時代。
(1)BEV+Transformer,自動駕駛進入大模型時代
在特斯拉的這場技術(shù)重構(gòu)中,最為引人注目的便是于 2020 年引入的 BEV+Transfomer 架構(gòu)。
在特斯拉看來,過去自動駕駛依靠「2D 圖像+ CNN」便企圖實現(xiàn)全自動駕駛是不太可能的。
主要原因在于,攝像頭采集的數(shù)據(jù)是 2D 圖像,但自動駕駛需要面對的卻是三維真實世界。
以二維數(shù)據(jù)解決三維問題,不大現(xiàn)實。
純視覺路線之下,攝像頭拍攝的 2D 圖像如何「升維」到 3D,成了特斯拉需要思考的問題。
在特斯拉看來,2D 圖像「升維」的最佳表達(dá)方式是:BEV(鳥瞰圖)。BEV 視角,形成車身自坐標(biāo)系的好處在于兩方面:
一是將不同視角在 BEV 下統(tǒng)一表達(dá)是很自然的描述,有利于后續(xù)規(guī)劃控制模塊任務(wù);
二是 BEV 視角解決了圖像視角下的尺度和遮擋問題。
但緊接著問題就來了:如何實現(xiàn) 2D 向 3D 的轉(zhuǎn)換,以引入 BEV?
D 圖像是照片,存在近大遠(yuǎn)小的問題。而解決「近大遠(yuǎn)小」問題的傳統(tǒng)轉(zhuǎn)變方法是依靠 IPM(逆透視變幻),進行先 2D 再 3D 的正向開發(fā)。
IPM,簡而言之,就是利用照相機成像過程中坐標(biāo)轉(zhuǎn)換的公式,在已知照片的光圈,焦距等條件下,去「算出」3D 坐標(biāo)數(shù)據(jù),對 2D 的圖像進行「3D 復(fù)原」。
但是,和課堂上的算數(shù)題一樣,這樣的計算需要以各種「完美」假設(shè)為前提。比如,地面是「完美」水平的,相機和地面不存在相對運動等。
也即是說,只要車輛有任何一點顛簸,道路有一點不平,就會打破這個假設(shè),導(dǎo)致最終的成像結(jié)果失真。
另外,在一系列卷積,提取特征,融合之后,得到的感知結(jié)果,再投影到 BEV 空間中,精度很差,尤其是遠(yuǎn)距離的區(qū)域。
以此來看,利用傳統(tǒng)方法,實現(xiàn)從 2D 到 3D 的「升維」,很難實現(xiàn)。
在這樣的情況下,特斯拉引入大模型 Transformer,進行 3D 到 2D 的逆向開發(fā)。
在這一方式中,特斯拉先在 BEV 空間層中初始化特征,再通過多層的 Transformer 和 2D 圖像特征進行交互融合,最終得到 BEV 特征,也就是先 3D 再 2D,反向開發(fā),實現(xiàn) BEV 的轉(zhuǎn)換。
Transformer 是一種基于注意力機制(Attention)的神經(jīng)網(wǎng)絡(luò)模型。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò) RNN 和 CNN不同,Transformer 不會按照串行順序來處理數(shù)據(jù),而是通過注意力機制,去挖掘序列中不同元素的聯(lián)系及相關(guān)性。
這種機制背后,使得 Transformer 可以適應(yīng)不同長度和不同結(jié)構(gòu)的輸入。
Transformer 的引入,使得 BEV 視角在自動駕駛領(lǐng)域得以實現(xiàn)。
而 3D 空間的引入,使得自動駕駛的思維方式,更接近于真實世界。
但是,在這一階段,BEV 空間仍是對瞬時的圖像片段進行感知,缺乏時間序列信息,自動駕駛?cè)晕催M入 4D 空間。
(2)特征級融合取代后融合成為主流
BEV 即鳥瞰圖,「上帝視角」,車身自坐標(biāo)系。
若僅從定義來看,BEV 或許是特斯拉各類「燒腦」術(shù)語中最容易理解的。但這絲毫不影響 BEV 對自動駕駛行業(yè)的價值和意義。
引入 BEV 視角后,給自動駕駛帶來最直觀的變化是,推動 2D 圖像向 3D 車身自坐標(biāo)系的轉(zhuǎn)變,方便后續(xù)的決策和控制。
但除此之外,BEV 還使得自動駕駛從后融合(或稱「決策層融合」)向特征級融合(或稱「中融合」)方向邁進。
同一物體在不同傳感器視角中的狀態(tài)
自動駕駛的每一個傳感器,都在對周遭世界進行感知。
每個攝像頭、雷達(dá)都包含了其對真實世界的理解,但由于角度,傳感器類型的不同,使得車輛沒辦法依靠一個傳感器完成對周遭世界的認(rèn)識。
因此,每個傳感器所感知的只是現(xiàn)實世界的其中一塊拼圖,要實現(xiàn)自動駕駛,便需要完成拼圖拼湊。
而傳感器數(shù)據(jù)的融合則可以看成是拼圖的拼湊步驟。
所謂的后融合,便是由決策層域控制器進行拼圖的拼湊。
后融合的好處非常明顯,傳感器「即插即用」,融合在域控制器決策層,對芯片算力要求較低。
后融合策略對車端算力要求僅在 100TOPS 以內(nèi),作為參考,前融合卻需要500-1000TOPS 算力。
而特征級融合介于兩者之間,大約需要300-400TOPS。
因此,在自動駕駛的早期,由于門檻低,后融合策略受到了自動駕駛供應(yīng)商、車企的歡迎。
但是,后融合策略容易產(chǎn)生信息失真,造成錯誤決策。
后融合策略下,低置信度信息會被過濾掉,產(chǎn)生原始數(shù)據(jù)的丟失,并且可能誤差疊加,導(dǎo)致信息「失真」。
尤其是在惡劣天氣下,這樣的情況更為明顯。這就有可能造成決策層錯誤決策。相較于后融合策略,特征級融合本質(zhì)上更接近于傳感器的原始數(shù)據(jù)。因此,其準(zhǔn)確度必然會更高。
除此之外,在 BEV 空間層進行特征級融合,還具有多種好處,更是后續(xù)行業(yè)革新的方向:
跨攝像頭融合和多模融合更易實現(xiàn)。大多數(shù)行業(yè)公司采用的是異構(gòu)傳感器(攝像頭、激光雷達(dá)、毫米波雷達(dá)等)的感知方案。而 BEV 空間能夠統(tǒng)一傳感器數(shù)據(jù)維度,更容易實現(xiàn)特征融合。
時序融合更易實現(xiàn)。
可「腦補」出遮擋區(qū)域的目標(biāo)。
更方便端到端做優(yōu)化。
得益于此,BEV 架構(gòu)也成了國內(nèi)自動駕駛公司延用的基本方向。
(3)數(shù)據(jù)從人工標(biāo)注轉(zhuǎn)向自我標(biāo)注
在自動駕駛?cè)?,有一句名言:?shù)據(jù)決定了算法的上限,模型只是不停的逼近這個上限。
數(shù)據(jù)燃料在自動駕駛算法訓(xùn)練中的地位可見一斑。
為了確保投喂給算法的數(shù)據(jù)正確而有益,過去自動駕駛行業(yè)往往都采取人工標(biāo)注的方式。
特斯拉也不例外。
在 2018 年時,特斯拉選擇和第三方公司合作,但這樣的方式標(biāo)注效率很低,并且溝通的成本很高。
為了實現(xiàn)標(biāo)注效率和質(zhì)量的提升,特斯拉自建了標(biāo)注團隊,人員規(guī)模一度超過 1000 人。
但是,自建標(biāo)注團隊也隨之帶來了新問題。
隨著自動駕駛數(shù)據(jù)的進一步擴大,所需的標(biāo)注人員數(shù)量也在進一步增長,這意味著成本水漲船高。
鑒于高成本,低效率的屬性,人工標(biāo)注自然地成為了特斯拉的「眼中刺」。
在 BEV+Transfomer 引入后,特斯拉的數(shù)據(jù)標(biāo)注效率得到了一定提升。在引入 BEV 空間層前,標(biāo)注人員需要標(biāo)記 8 張 2D 圖像,而在 BEV 空間層下,僅需要進行一次 3D 空間中的標(biāo)注便可完成。
但是,由于人類標(biāo)注員對于語義信息更擅長,而計算機對幾何,重建,三角化,跟蹤更加擅長。
這使得 BEV 下,數(shù)據(jù)標(biāo)注是一種「半自動」?fàn)顟B(tài),需要人工和計算機進行協(xié)作。
同時,盡管標(biāo)注的效率有所增加,但在數(shù)據(jù)的指數(shù)級增長下,仍舊捉襟見肘。
顯然,自動標(biāo)注才是效率、效果、成本三方矛盾的最終破局方法。
為此,在 2020 年開始,特斯拉研發(fā)并使用了數(shù)據(jù)自動標(biāo)注系統(tǒng)。
特斯拉數(shù)據(jù)標(biāo)注的思路非常簡單:用更多的數(shù)據(jù)訓(xùn)練更大的模型,再用「大模型」的數(shù)據(jù)訓(xùn)練車端「小模型」。
在車輛行駛過程中,攝像頭收集的路面信息,打包上傳到服務(wù)器的離線神經(jīng)網(wǎng)絡(luò)大模型,由大模型進行預(yù)測性標(biāo)注,再反饋給車端各個傳感器。
由于傳感器視角不同,當(dāng)預(yù)測的標(biāo)注結(jié)果在 8 個傳感器均呈現(xiàn)一致時,則這一標(biāo)注成功。
而這一過程,也即是車載模型對服務(wù)器的大模型進行自動標(biāo)注系統(tǒng)的蒸餾。
同時,車輛也在充當(dāng)特斯拉「眾包地圖」采集車的角色。
當(dāng)不同的車輛走在同一段路時,離線大模型將記錄同一段路不同的標(biāo)注結(jié)果。
當(dāng)數(shù)據(jù)標(biāo)注系統(tǒng)將不同車輛,不同時間,不同天氣狀況下的標(biāo)注結(jié)果疊加后,得到了一個具備高度一致性的標(biāo)注結(jié)果,這也意味著,特斯拉得到了自己的「高精地圖」。
052021 年-2022 年劍指端到端大模型
BEV+Transfomer 架構(gòu)的引入,可以說是一場行業(yè)重構(gòu)。
這一「黃金組合」在自動駕駛領(lǐng)域有著諸多優(yōu)勢,是過去算法所不具備的。
但是,BEV+Transfomer 在推出之初,也并非完美無瑕。
隨著自動駕駛的進一步發(fā)展,面臨場景逐漸多樣化,coner case 越來越多,這便對自動駕駛算法的泛化能力提出了新的要求。
在隨后的兩年時間里,為了讓算法更接近人類的思考方式,特斯拉對 BEV+Transformer 架構(gòu)進行了改良。
其中,最主要的兩個改良是時序信息的增加和占用網(wǎng)絡(luò)的應(yīng)用。
雖然 2020 年,特斯拉利用 BEV 解決了 2D 向 3D 轉(zhuǎn)換的空間問題,但卻仍未引入時序信息。
也即是說,在上一個版本中,BEV 仍然是對瞬時的圖像片段進行感知,缺乏時空記憶力,汽車只能根據(jù)當(dāng)前時刻感知到的信息進行判斷。
時序信息的缺席,讓自動駕駛潛藏了極大的安全風(fēng)險。
例如在行車過程中,如果有行人正在穿過馬路,過程中被靜止的障礙物遮擋,如果汽車僅有瞬時感知能力,由于在感知時刻行人正好被汽車遮擋,則無法識別到行人,可能威脅駕乘人員和行人的安全。
人類司機在面對類似場景時,則會根據(jù)之前時刻看到行人在穿越馬路的記憶,能夠意識到行人被車輛遮擋,且有繼續(xù)穿越馬路的意圖,從而選擇減速或者剎車避讓。
如何給自動駕駛增加「記憶」功能便顯得尤為關(guān)鍵。
因此,自動駕駛感知網(wǎng)絡(luò)也需要擁有類似的記憶能力,能夠記住之前某一時間段的數(shù)據(jù)特征,從而推演目前場景下可能性最大的結(jié)果,而不僅僅是基于當(dāng)前時刻看到的場景進行判斷。
為了解決這一問題,特斯拉感知網(wǎng)絡(luò)架構(gòu)引入了時空序列特征層,使用視頻片段,而不是圖像來訓(xùn)練神經(jīng)網(wǎng)絡(luò),為自動駕駛增添了短時記憶能力。
除了引入時序網(wǎng)絡(luò)外,在 2022 年,特斯拉對 BEV 進行了升級——引入占用網(wǎng)絡(luò)。
在過去,自動駕駛算法和人作比較,往往顯得呆板、過于機械。
在傳統(tǒng)的自動駕駛算法中,大多是依靠大數(shù)據(jù)喂養(yǎng),得出「經(jīng)驗」,然后識別物體,再進行決策。
也即是說,算法需要經(jīng)歷,感知,辨識,決策,執(zhí)行這樣的思考流程。
但在現(xiàn)實世界里,真實的路況下,實際情況是錯綜復(fù)雜的,存在著大量的極端情況(corner case),要讓算法認(rèn)全所有事物,顯然不太現(xiàn)實,且效率不高。
以「二仙橋大爺」為例,若自動駕駛遇上了如此「超載」的車輛,算法將其識別為一般的三輪車,并判斷路況,但對車后拖載的貨物,既不顯示,也不識別。
當(dāng)自動駕駛的車輛進行超車變道時,就容易發(fā)生剮蹭等事故,潛藏一定風(fēng)險。
為了解決這類問題,特斯拉將 BEV 升級到了占用網(wǎng)絡(luò)(occupancy network)。
在 2D 圖像世界中,一個物體由無數(shù)個像素點組成。
而在占用網(wǎng)絡(luò)之下,3D 的真實世界則是由無數(shù)個微小立方體——體素堆疊組成。
占用網(wǎng)絡(luò),將原本的 BEV 空間,分割成無數(shù)的體素,再通過預(yù)測每個體素是是否被占用。
簡單來說,不考慮這個物體到底是什么,只考慮體素是否被占用。這使得非典型但卻存在的事物能夠直接表示出來,增加了算法的泛化能力和對現(xiàn)實世界的認(rèn)知。
實際上,占用網(wǎng)絡(luò)的體素,充當(dāng)了激光雷達(dá)點陣的作用。而占用網(wǎng)絡(luò)最直接的效果便是實現(xiàn)了「偽激光雷達(dá)」的效果。
時序信息的增加,升級占用網(wǎng)絡(luò),使得特斯拉自動駕駛算法的泛化能力得到了提升。
而借助于算法提升,特斯拉 FSD 更能刻畫真實的物理世界,進而才有可能實現(xiàn)端到端模型。
06、未來,自動駕駛將走向何方
在自動駕駛領(lǐng)域,特斯拉毫無疑問是領(lǐng)頭羊。
在確定純視覺路線后,特斯拉在自動駕駛算法上進行了四次迭代更新。除了第一次是為追趕行業(yè)發(fā)展以外,其余更新均引領(lǐng)行業(yè)的發(fā)展。
特斯拉能夠走在行業(yè)前列,除了優(yōu)秀的團隊以外,更在于整體的思路設(shè)計秉持「第一性原理思維」。
所謂的「第一性原理思維」,即一種刨根問底、追究最原始假設(shè)和最根本性規(guī)律的思維習(xí)慣。
「物理學(xué)教會你根據(jù)第一性原理做出推理,而不是通過類比進行推理。類比式推理就是幾乎絲毫不差地模仿或模擬他人?!柜R斯克曾如此說到。
在特斯拉自動駕駛迭代思維上,第一性原理思維滲透在了方方面面:
算效率不高,HEAD 部分不夠用?開發(fā)了九頭蛇網(wǎng)絡(luò)結(jié)構(gòu);
小模型無法實行并行計算,泛化能力不強,BEV 無法精確實現(xiàn)?引入大模型 Transfomer,逆向開發(fā);
現(xiàn)有芯片的構(gòu)成冗余,不適配純視覺路線需求,且成本高?自研 FSD 芯片;
數(shù)據(jù)標(biāo)注成本高,數(shù)據(jù)訓(xùn)練量不足?建設(shè)超算中心 DOJO,實現(xiàn)數(shù)據(jù)自我標(biāo)注,同時虛擬場景訓(xùn)練算法,提高自動駕駛能力等等。
在錨定純視覺路線后,特斯拉均在算法迭代中,針對各種問題,發(fā)現(xiàn)短板,并加以解決。
而這,正是特斯拉執(zhí)牛耳的關(guān)鍵。
同時,鑒于特斯拉的行業(yè)領(lǐng)導(dǎo)地位,研究其自動駕駛算法迭代歷程后,也能讓外界窺見自動駕駛行業(yè)的未來。
(1)「輕地圖,重感知」成行業(yè)主流方向
在過去,自動駕駛行業(yè),往往采取高精地圖方案,輔助實現(xiàn)自動駕駛。
高精地圖能夠提供超視距、厘米級相對定位及導(dǎo)航信息,在數(shù)據(jù)和算法尚未成熟到脫圖之前,能夠成為整機廠的「拐杖」,幫助自動駕駛的落地。
但是,和其優(yōu)點一樣,高精地圖的缺點也非常明顯:
需要圖商采集更新,無法實時更新;
制圖資質(zhì)受到嚴(yán)格管理,信息采集面臨一定法規(guī)風(fēng)險;
成本昂貴高昂。
在這樣的情況下,特斯拉構(gòu)建了自己的「高精地圖」。
通過 BEV 空間層,特斯拉將不同視角的攝像頭采集到 2D 圖像統(tǒng)一轉(zhuǎn)換到 BEV 視角,車輛形成自車坐標(biāo)系。
同時,引入服務(wù)器的離線神經(jīng)網(wǎng)絡(luò),實現(xiàn)數(shù)據(jù)自動標(biāo)注,確保標(biāo)注效果,且在無數(shù)「眾包采集車」的幫助下,疊加標(biāo)注結(jié)果,得出道路信息標(biāo)注的「唯一解」。
BEV、Transfomer、引入時序信息、數(shù)據(jù)自動標(biāo)注等等,一系列技術(shù)加持之下,特斯拉才得以實現(xiàn)「無圖」。
國內(nèi)市場,「輕地圖,重感知」也成為了行業(yè)發(fā)展的主流方向。
2022 年 4 月,毫末智行提出要做「重感知、輕地圖」的城市智能駕駛,開始降低方案中高精地圖的權(quán)重,乃至做到無需高精地圖;
2022 年年底,小鵬發(fā)布了第二代智能輔助駕駛系統(tǒng) XNGP,并對外宣布將擺脫高精地圖限制;
2022 年下半年,華為余承東表示:「自動駕駛未來不應(yīng)過分依賴于高精地圖、車路協(xié)同。」
今年 5 月,蔚來發(fā)布了 Banyan 2.0.0 系統(tǒng),完成了向 BEV 感知路線的切換;
國內(nèi)一眾廠商深受特斯拉路線影響,延用 BEV 架構(gòu),開始對高精地圖動刀,「重感知,輕地圖」路線成為了市場主流發(fā)展方向。
特斯拉的 BEV+Transformer 方案為行業(yè)的「脫圖」提供了技術(shù)上的可行性。
從特斯拉路線經(jīng)驗來看,如果要以純算法,實現(xiàn)擺「脫圖」,或許需要車企同時具備以下兩個條件:
引入 BEV 架構(gòu),實現(xiàn)異構(gòu)傳感器的融合,生成活地圖;具備超算中心,或離線服務(wù)器的大模型,能夠?qū)崿F(xiàn)自動標(biāo)注及仿真訓(xùn)練;
目前,「輕地圖」路線大多仍是通過軟硬件結(jié)合的方式,降低高精地圖需求,本質(zhì)上仍然是「多傳感器+高精地圖」路線。
從行業(yè)發(fā)展趨勢來看,國內(nèi)車企也在向「云端大模型+BEV」的路線靠攏,以期實現(xiàn)「脫圖」。
6 月 17 日,在理想汽車家庭科技日上,理想副總裁兼自動駕駛負(fù)責(zé)人郎咸朋便對外公布了理想汽車的 NPN 網(wǎng)絡(luò)。
郎咸朋介紹稱,在車輛行經(jīng)一段路時,NPN 網(wǎng)絡(luò)將道路信息特征進行提取后,存儲于云端。
而當(dāng)車輛再次行駛到該路口時,再將儲存的道路特征拿出來,與車端模型進行特征層融合,以此解決道路信息的遮擋問題。
當(dāng) NPN 網(wǎng)絡(luò)對同一路段堆疊大量標(biāo)注結(jié)果后,最終便達(dá)到了「高精地圖」的效果。
理想汽車的「NPN 網(wǎng)絡(luò)+BEV」實際上延用的就是特斯拉的「離線大模型+BEV」的技術(shù)路線。
(2)升級到占用網(wǎng)絡(luò),實現(xiàn)去「激光雷達(dá)」
在 2022 年的 AI day 上,特斯拉將 BEV 升級到了占用網(wǎng)絡(luò)。
占用網(wǎng)絡(luò)顯著的特點是,拋棄了過去算法需要先識別、判斷物體,再進行決策的思路。
在面對訓(xùn)練中沒有出現(xiàn)過的物體時,如側(cè)翻的白色大卡車,垃圾桶出現(xiàn)在路中央,傳統(tǒng)視覺算法是無法檢測的。
而占用網(wǎng)絡(luò),則用體素的概念,僅僅是判斷該空間有沒有物體,而不去深究物體是什么。
這大幅提升了模型的泛化能力,有助于城市 NOA 的實現(xiàn)。
從特斯拉 AI Day 演示效果來看,特斯拉通過鳥瞰圖、占用檢測和體素分類使純視覺方案已經(jīng)達(dá)到「偽激光雷達(dá)」效果。
值得注意的是,在特斯拉發(fā)布的最新硬件HW4.0中,預(yù)留了4D 毫米波雷達(dá)接口。這預(yù)示著特斯拉或?qū)⒅貑⒑撩撞ɡ走_(dá),以彌補純視覺算法在高程信息感知上的不足。
從成本來看,公開報道顯示,4D 毫米波雷達(dá)價格僅約為高線束激光雷達(dá)的 1/10。
(3)AI 大模型卷入自動駕駛,超算中心成標(biāo)配
今年 5 月,馬斯克發(fā)推文稱,FSD11.透露稱,FSD V12 版本將完全實現(xiàn)端到端。
什么是端到端?
目前,自動駕駛模型架構(gòu)將駕駛目標(biāo)分為感知、規(guī)劃、控制三大模塊。
但是,這和人類駕駛行為有著根本的不同。
人類司機在看到視覺信息后,不會對所看到的物體進行數(shù)據(jù)分析,而是基于經(jīng)驗,在「黑盒」?fàn)顟B(tài)下完成駕駛決策,并協(xié)調(diào)手、腳執(zhí)行任務(wù)。
而端到端模型更為貼近人的駕駛決策行為。
攝像頭采集到外界的視頻數(shù)據(jù)后,算法直接輸出的是方向盤轉(zhuǎn)角多少度的控制決策,不存在單獨的「圖像識別檢測」任務(wù)。
端到端模型的決策在「黑盒」?fàn)顟B(tài)下進行,通過賦予數(shù)據(jù),使算法積攢「經(jīng)驗」,使得其決策和執(zhí)行同步進行。
在理想狀態(tài)下,「黑盒」?fàn)顟B(tài)下的端到端大模型實際比基于規(guī)則設(shè)定的傳統(tǒng)小模型更為安全。
比起傳統(tǒng)的設(shè)定規(guī)則,參數(shù)對算法結(jié)構(gòu)進行「補丁」式矯正,只要投喂的正確案例足夠多,那么 AI 大模型模型所需要的時間必然小于傳統(tǒng)規(guī)則。
而經(jīng)過足夠的數(shù)據(jù)和案例的投喂,端到端模型的泛化能力也必然強于傳統(tǒng)的自動駕駛算法。
為了使得大模型落地,海量的數(shù)據(jù)投喂成了廠商必然選擇。
毫末智行 CEO 顧維灝就曾公開表示,要使由數(shù)據(jù)驅(qū)動的 Transformer 大模型量變引起質(zhì)變需要 1 億公里的里程數(shù)據(jù)。
這一海量數(shù)據(jù)顯然無法單獨依靠某個廠家通過銷售車輛完成。在這樣的情況下,超算中心便成了 AI 大模型落地的標(biāo)配。
超算中心對大模型的助力主要體現(xiàn)在數(shù)據(jù)標(biāo)注和仿真訓(xùn)練上。
特斯拉 2022 年發(fā)布的超算中心 Dojo 便是如此。
特斯拉 Dojo 的功能,能夠利用海量的視頻數(shù)據(jù),做「無人監(jiān)管」的標(biāo)注和仿真訓(xùn)練。
特斯拉打樣在前,國內(nèi)不少廠商也緊隨其后。在 2022 年以后,超算中心開始活躍在自動駕駛領(lǐng)域。
2022 年 8 月,基于阿里云智能計算平臺,小鵬推出了扶搖超算中心,每秒浮點運算達(dá) 60 億次,專用于自動駕駛模擬訓(xùn)練。
同時,小鵬還推出了全自動標(biāo)注系統(tǒng),將標(biāo)注效率提升近 4.5 萬倍,以前 2000 人一年的標(biāo)注量,現(xiàn)在 16.7 天可以完成。
今年 1 月,毫末智行和火山引擎聯(lián)合打造了MANA OASIS 智算中心,用于自動標(biāo)注及仿真訓(xùn)練。
據(jù)悉,MANA OASIS 智算中心,每秒浮點運算達(dá) 67 億次,存儲帶寬每秒 2T,通信帶寬每秒 800G。
除了小鵬和毫末以外,跟隨特斯拉步伐,國內(nèi)車企設(shè)立的超算中心還有:吉利設(shè)立了星瑞智算中心;智己汽車的云上數(shù)據(jù)超級工廠等。
可以說,在自動駕駛領(lǐng)域,特斯拉引領(lǐng)著行業(yè)的發(fā)展方向。
自 2020 年以來,特斯拉率先使用了 BEV、Transfomer 架構(gòu)、離線網(wǎng)絡(luò)大模型,隨后,國內(nèi)眾多車企才開始紛紛跟進。
而近一段時間,「FSD 入華」的話題時常引發(fā)市場討論。
在熱議的背后,有觀點認(rèn)為,F(xiàn)SD 將是那條引起自動駕駛行業(yè)優(yōu)勝劣汰的鯰魚。言外之意滿是對行業(yè)賽道參與者的擔(dān)憂。
這倒也不用過分憂慮。
正如前文所言,特斯拉也并非一開始就是「江湖第一」。
在經(jīng)歷「被分手」后,特斯拉自動駕駛算法經(jīng)歷了落后,到追趕,再到引領(lǐng)的不同時期,更多是帶有逆襲成分。
而逆襲的關(guān)鍵點在于:選好目標(biāo),敢于「一條道走到黑」。
在過去一段時間里,市場對于特斯拉的純視覺方案并不看好。不少業(yè)內(nèi)觀點認(rèn)為,激光雷達(dá)是安全件,純視覺方案的自動駕駛并不具備可行性。
但在確定純視覺路線以后,針對純視覺方案的各種問題,特斯拉從第一性原理出發(fā),思考確切問題的根本,并提出解決方式。
最終的結(jié)果是,特斯拉成為自動駕駛領(lǐng)頭羊。
目前,自動駕駛也并未到?jīng)Q賽階段。對于國內(nèi)這一賽道的參與者,市場要有足夠信心。
畢竟,特斯拉 FSD 仍未入華,而賽道參與者的較量仍未真正開始。
關(guān)鍵詞:
相關(guān)閱讀
-
歷時7年,特斯拉自動駕駛寫了一篇逆襲爽...
特斯拉自動駕駛的重大彩蛋出現(xiàn)了。國外黑客大神GreenTheOnly在特斯拉FS -
前沿資訊!阿門-湯普森:我最擅長打轉(zhuǎn)換...
火箭4號秀阿門-湯普森本周接受了TheAthletic的采訪。當(dāng)被問及他認(rèn)為個 -
【新要聞】任何人發(fā)現(xiàn)火災(zāi)時都應(yīng)當(dāng)立即...
1、1998年頒布的《消防法》明確規(guī)定,任何人發(fā)現(xiàn)火災(zāi)時,都應(yīng)當(dāng)立即報 -
健合舉辦寵物健康營養(yǎng)科普大賽,積極推...
要想把寵物養(yǎng)好、養(yǎng)細(xì),科學(xué)養(yǎng)寵很重要,健合旗下Solid Gold素力高為了向 -
天藤湘子年輕照片_天藤湘子
天藤湘子年輕照片,天藤湘子這個很多人還不知道,現(xiàn)在讓我們一起來看看 -
短視頻電腦制作軟件_制作小視頻的電腦軟...
1、小影制作,我高中的畢業(yè)錄像就用這個軟件后期編輯的,相對其他軟件 -
家長速看!300輛鳳凰牌兒童自行車召回,...
中新經(jīng)緯6月22日電據(jù)“上海市場監(jiān)管”微信號消息,上海鳳凰自行車有... -
籃球的歷史和起源_籃球的歷史和起源介紹...
1、籃球已經(jīng)有100多年的歷史了。它首先出現(xiàn)在美國,是由一位名叫詹姆斯 -
海電運維IPO:關(guān)聯(lián)方為四名員工代繳五險...
樂居財經(jīng)蘭蘭6月20日,福建海電運維科技股份有限公司(以下簡稱“海電 -
【天天報資訊】越南銀行業(yè)非現(xiàn)金支付日...
中國商務(wù)新聞網(wǎng)是商務(wù)部國際商報社主辦,國家互聯(lián)網(wǎng)信息辦公室批準(zhǔn)的國 -
當(dāng)前視訊!香港食安中心呼吁市民不要食...
香港食物環(huán)境衛(wèi)生署食物安全中心(中心)六月二十三日呼吁市民不要食用 -
坤鵬論:讀《普羅泰戈拉篇》 德性是否...
政治的本質(zhì)是基于利益的妥協(xié),做人也一樣,也得適當(dāng)妥協(xié)。——坤鵬... -
廣東高考今日放榜、廣州中考順利收官,...
今天,廣東高考放榜。幾天前,廣州中考順利收官。今年,廣州有5 8萬名 -
世界速讀:2023廣東廣州高溫補貼是哪幾...
天氣也越來越熱,伴隨著炎炎夏日的到來,部分職工的工資收入將多出一筆 -
陜西“十大最美農(nóng)村路”!嵐皋這段路上...
近日,陜西2022年度“十大最美農(nóng)村路”評選結(jié)果揭曉。富平縣美楊路... -
《原神》2023年6月25日禮包兌換碼分享-觀點
原神2023年6月25日的兌換碼是什么呢?看來還是有很多小伙伴們都還不是 -
“冰”與火!未來一周河南高溫和陣雨天...
大象新聞記者吳紫翼6月22日至24日,河南省淮河以北大部出現(xiàn)高溫天氣, -
世界百事通!濟南高新:擬向控股股東關(guān)...
【濟南高新:擬向控股股東關(guān)聯(lián)方定增募資不超4億元】濟南高新(600807)6 -
每日訊息!江蘇2023高考一分一段表 江蘇...
在使用一分一段表時,應(yīng)該對比近三年來的“一分一段”表,而不是單... -
資訊推薦:800MW/1600MWh!歐盟批準(zhǔn)對匈...
歐盟委員會已經(jīng)批準(zhǔn)了匈牙利政府11億歐元(約合12億美元)的計劃,以支持