2023年自動(dòng)駕駛芯片發(fā)展趨勢(shì)
自動(dòng)駕駛芯片概況
自動(dòng)駕駛芯片簡介:車規(guī)級(jí)芯片要求更加嚴(yán)苛
芯片按應(yīng)用場景可分為消費(fèi)芯片、工業(yè)芯片、汽車芯片和軍工芯片等。汽車是芯片應(yīng)用場景之一,汽車芯片需要具備車規(guī)級(jí)。車規(guī)級(jí)芯片對(duì)加工工藝要求不高,但對(duì)質(zhì)量要求高。需要經(jīng)過的認(rèn)證過程,包括質(zhì)量管理標(biāo)準(zhǔn)ISO/TS 16949、可靠性標(biāo)準(zhǔn) AEC-Q100、功能安全標(biāo)準(zhǔn)ISO26262等。汽車內(nèi)不同用途的芯片要求也不同,美國制定的汽車電子標(biāo)準(zhǔn)把其分為5級(jí)。汽車各系統(tǒng)對(duì)芯片要求由高到低依次是:動(dòng)力安全系統(tǒng) > 車身控制系統(tǒng) > 行駛控制系統(tǒng) > 通信系統(tǒng) > 娛樂系統(tǒng)。
車規(guī)級(jí)芯片特殊的技術(shù)和工藝要求擋住了企業(yè)進(jìn)入的腳步。車規(guī)級(jí)芯片有著比消費(fèi)級(jí)芯片更高的技術(shù)門檻,需滿足溫度、振動(dòng)、電磁干擾、長使用壽命等高要求,還要通過可靠性標(biāo)準(zhǔn)AEC-Q100、 質(zhì)量管理標(biāo)準(zhǔn)ISO/TS16949、功能安全標(biāo)準(zhǔn)ISO26262 等嚴(yán)苛的認(rèn)證流程,大部分芯片企業(yè)尚不具備轉(zhuǎn)型進(jìn)入能力。目前,車規(guī)級(jí)芯片在傳統(tǒng)汽車中的成本約為 2270 元 / 車,在新能源汽車中的成本約為 4540 元 / 車。隨著汽車向電動(dòng)化和智 能化發(fā)展,芯片的種類、數(shù)量和價(jià)格占比將進(jìn)一步提高。
自動(dòng)駕駛芯片產(chǎn)品趨勢(shì):一體化
云和邊緣計(jì)算的數(shù)據(jù)中心,以及自動(dòng)駕駛等超級(jí)終端領(lǐng)域,都是典型的復(fù)雜計(jì)算場景,這類場景的計(jì)算平臺(tái)都是典型的大算 力芯片。大芯片的發(fā)展趨勢(shì)已經(jīng)越來越明顯的從GPU、DSA的分離趨勢(shì)走向DPU、超級(jí)終端的再融合,未來會(huì)進(jìn)一步融合成超 異構(gòu)計(jì)算宏系統(tǒng)芯片。BOSCH給出了汽車電氣架構(gòu)演進(jìn)示意圖。從模塊級(jí)的ECU到集中相關(guān)功能的域控制器,再到完全集中的車載計(jì)算機(jī)。每個(gè)階段還分了兩個(gè)子階段,例如完全集中的車載計(jì)算機(jī)還包括了本地計(jì)算和云端協(xié)同兩種方式。
英偉達(dá)創(chuàng)始人黃仁勛在2022秋季GTC大會(huì)上發(fā)布了新自動(dòng)駕駛芯片——Thor。Thor的特點(diǎn):一是超高AI性能,擁有770億晶體管,而上一代的Orin是170億晶體管。AI性能為2000 TFLOPS@FP8。如果是INT8格式,估計(jì)可以達(dá)到4000TOPS。二是支持FP8格式,英偉達(dá)、英特爾和ARM三家聯(lián)合力推FP8格式標(biāo)準(zhǔn),力圖打通訓(xùn)練與推理之間的鴻溝。三是超高CPU性能,Thor的CPU可 能是ARM的服務(wù)器CPU架構(gòu)V2或更先進(jìn)的波塞冬平臺(tái)。四是統(tǒng)一座艙、自動(dòng)駕駛和自動(dòng)泊車,一顆芯片包打天下。
英偉達(dá)發(fā)布的一體化自動(dòng)駕駛芯片Altan&Thor的設(shè)計(jì)思路是完全的“終局思維”,相比BOSCH給出的一步步的演進(jìn)還要更近一 層,跨越集中式的車載計(jì)算機(jī)和云端協(xié)同的車載計(jì)算機(jī),直接到云端融合的車載計(jì)算機(jī)。云端融合的意思是服務(wù)可以動(dòng)態(tài)的、 自適應(yīng)的運(yùn)行在云或端,方便云端的資源動(dòng)態(tài)調(diào)節(jié)。Altan&Thor采用的是跟云端完全一致的計(jì)算架構(gòu):Grace-next CPU、 Ampere-next GPU以及Bluefield DPU,硬件上可以做到云端融合。
自動(dòng)駕駛芯片架構(gòu)分析
主流架構(gòu)方案對(duì)比:三種主流架構(gòu)
當(dāng)前主流的AI芯片主要分為三類,GPU、FPGA、ASIC。GPU、FPGA均是前期較為成熟的芯片架構(gòu),屬于通用型芯片。ASIC 屬于為AI特定場景定制的芯片。行業(yè)內(nèi)已經(jīng)確認(rèn)CPU不適用于AI計(jì)算,但是在AI應(yīng)用領(lǐng)域也是必不可少。CPU遵循的是馮·諾依曼架構(gòu),其核心是存儲(chǔ)程序/數(shù)據(jù)、串行順序執(zhí)行。因此CPU的架構(gòu)中需要大量的空間去放置存儲(chǔ)單元(Cache)和控制單元(Control),相比之下計(jì)算單元(ALU)只占據(jù)了很小的一部分,所以CPU在進(jìn)行大規(guī)模并行計(jì) 算方面受到限制,相對(duì)而言更擅長于處理邏輯控制。
GPU(GraphicsProcessing Unit),即圖形處理器,是一種由大量運(yùn)算單元組成的大規(guī)模并行計(jì)算架構(gòu),早先由CPU中分出 來專門用于處理圖像并行計(jì)算數(shù)據(jù),專為同時(shí)處理多重并行計(jì)算任務(wù)而設(shè)計(jì)。GPU中也包含基本的計(jì)算單元、控制單元 和存儲(chǔ)單元,但GPU的架構(gòu)與CPU有很大不同,其架構(gòu)圖如下所示。與CPU相比,CPU芯片空間的不到20%是ALU,而GPU芯片空間的80%以上是ALU。即GPU擁有更多的ALU用于數(shù)據(jù)并行處理。
CPU 由專為順序串行處理而優(yōu)化的幾個(gè)核心組成,而 GPU 則擁有一個(gè)由數(shù)以千計(jì)的更小、更高效的核心組成的大規(guī)模并 行計(jì)算架構(gòu),這些更小的核心專為同時(shí)處理多重任務(wù)而設(shè)計(jì)。CPU和GPU之所以大不相同,是由于其設(shè)計(jì)目標(biāo)的不同,它們分別針對(duì)了兩種不同的應(yīng)用場景。CPU需要很強(qiáng)的通用性來 處理各種不同的數(shù)據(jù)類型,同時(shí)又要邏輯判斷又會(huì)引入大量的分支跳轉(zhuǎn)和中斷的處理。這些都使得CPU的內(nèi)部結(jié)構(gòu)異常復(fù) 雜。而GPU面對(duì)的則是類型高度統(tǒng)一的、相互無依賴的大規(guī)模數(shù)據(jù)和不需要被打斷的純凈的計(jì)算環(huán)境。
對(duì)于深度學(xué)習(xí)來說,目前硬件加速主要靠使用圖形處理單元。相比傳統(tǒng)的 CPU,GPU 的核心計(jì)算能力要多出幾個(gè)數(shù)量級(jí),也更容易進(jìn)行并行計(jì)算。GPU 的眾核體系結(jié)構(gòu)包含幾千個(gè)流處理器,可將運(yùn)算并行化執(zhí)行,大幅縮短模型的運(yùn)算時(shí)間。隨著 NVIDIA、AMD 等公司不斷推進(jìn)其 GPU 的大規(guī)模并行架構(gòu)支持,面向通用計(jì)算的 GPU已成為加速并行應(yīng)用程序的重要手段。目前 GPU 已經(jīng)發(fā)展到了較為成熟的階段。利用 GPU 來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以充分發(fā)揮其數(shù)以千計(jì)計(jì)算核心的高效并行計(jì)算能力,在使用海量訓(xùn)練數(shù)據(jù)的場景下,所耗費(fèi)的時(shí)間大幅縮短,占用的服務(wù)器也更少。如果針對(duì)適當(dāng)?shù)纳疃壬窠?jīng)網(wǎng) 絡(luò)進(jìn)行合理優(yōu)化,一塊 GPU 卡可相當(dāng)于數(shù)十甚至上百臺(tái) CPU服務(wù)器的計(jì)算能力,因此 GPU 已經(jīng)成為業(yè)界在深度學(xué)習(xí)模型 訓(xùn)練方面的首選解決方案。
FPGA方案:FPGA芯片定義及結(jié)構(gòu)
FPGA(Field-Programmable Gate Array),即現(xiàn)場可編程門陣列,它是在PAL、GAL、CPLD等可編程器件的基礎(chǔ)上進(jìn)一步發(fā) 展的產(chǎn)物。它是作為專用集成電路領(lǐng)域中的一種半定制電路而出現(xiàn)的,既解決了定制電路的不足,又克服了原有可編程 器件門電路數(shù)有限的缺點(diǎn)。FPGA芯片主要由6部分完成,分別為:可編程輸入輸出單元、基本可編程邏輯單元、完整的時(shí)鐘管理、嵌入塊式RAM、豐 富的布線資源、內(nèi)嵌的底層功能單元和內(nèi)嵌專用硬件模塊。目前主流的FPGA仍是基于查找表技術(shù)的,已經(jīng)遠(yuǎn)遠(yuǎn)超出了先 前版本的基本性能,并且整合了常用功能(如RAM、時(shí)鐘管理和DSP)的硬核(ASIC型)模塊。
由于FPGA需要被反復(fù)燒寫,它實(shí)現(xiàn)組合邏輯的基本結(jié)構(gòu)不可能像ASIC那樣通過固定的與非門來完成,而只能采用一種易于反復(fù)配置的結(jié)構(gòu)。查找表可以很好地滿足這一要求,目前主流FPGA都采用了基于SRAM工藝的查找表結(jié)構(gòu),也有一些軍 品和宇航級(jí)FPGA采用Flash或者熔絲與反熔絲工藝的查找表結(jié)構(gòu)。通過燒寫文件改變查找表內(nèi)容的方法來實(shí)現(xiàn)對(duì)FPGA的重 復(fù)配置。查找表(Look-Up-Table)簡稱為LUT,LUT本質(zhì)上就是一個(gè)RAM。目前FPGA中多使用4輸入的LUT,所以每一個(gè)LUT可以看成 一個(gè)有4位地址線的 的RAM。當(dāng)用戶通過原理圖或HDL語言描述了一個(gè)邏輯電路以后,PLD/FPGA開發(fā)軟件會(huì)自動(dòng)計(jì)算邏輯 電路的所有可能結(jié)果,并把真值表(即結(jié)果)事先寫入RAM,這樣,每輸入一個(gè)信號(hào)進(jìn)行邏輯運(yùn)算就等于輸入一個(gè)地址 進(jìn)行查表,找出地址對(duì)應(yīng)的內(nèi)容,然后輸出即可。
ASIC方案:ASIC定義及特點(diǎn)
ASIC 芯片可根據(jù)終端功能不同分為 TPU 芯片、DPU 芯片和 NPU 芯片等。其中,TPU 為張量處理器,專用于機(jī)器學(xué)習(xí)。如 Google 于 2016 年 5 月研發(fā)針對(duì) Tensorflow 平臺(tái)的可編程 AI 加速器,其內(nèi)部指令集在 Tensorflow 程序變化或更新算法時(shí) 可運(yùn)行。DPU 即 Data Processing Unit,可為數(shù)據(jù)中心等計(jì)算場景提供引擎。NPU 是神經(jīng)網(wǎng)絡(luò)處理器,在電路層模擬人類神 經(jīng)元和突觸,并用深度學(xué)習(xí)指令集直接處理大規(guī)模電子神經(jīng)元和突觸數(shù)據(jù)。ASIC 有全定制和半定制兩種設(shè)計(jì)方式。全定制依靠巨大的人力時(shí)間成本投入以完全自主的方式完成整個(gè)集成電路的設(shè)計(jì) 流程,雖然比半定制的 ASIC 更為靈活性能更好,但它的開發(fā)效率與半定制相比甚為低下。
ASIC 芯片非常適合人工智能的應(yīng)用場景。例如英偉達(dá)首款專門為深度學(xué)習(xí)從零開始設(shè)計(jì)的芯片 Tesla P100 數(shù)據(jù)處理速度 是其 2014 年推出GPU 系列的 12 倍。谷歌為機(jī)器學(xué)習(xí)定制的芯片 TPU 將硬件性能提升至相當(dāng)于當(dāng)前芯片按摩爾定律發(fā)展 7 年后的水平。正如 CPU 改變了當(dāng)年龐大的計(jì)算機(jī)一樣,人工智能 ASIC 芯片也將大幅改變?nèi)缃?AI 硬件設(shè)備的面貌。如大名鼎鼎的 AlphaGo 使用了約 170 個(gè)圖形處理器(GPU)和 1200 個(gè)中央處理器(CPU),這些設(shè)備需要占用一個(gè)機(jī)房,還 要配備大功率的空調(diào),以及多名專家進(jìn)行系統(tǒng)維護(hù)。而如果全部使用專用芯片,極大可能只需要一個(gè)普通收納盒大小的 空間,且功耗也會(huì)大幅降低。
ASIC技術(shù)路線是有限開放,芯片公司需要面向與駕駛相關(guān)的主流網(wǎng)絡(luò)、模型、算子進(jìn)行開發(fā)。在相同性能下,芯片的面 積更小、成本更低、功耗更低。ASIC技術(shù)路線未來的潛力會(huì)很大,選擇ASIC路線并不意味著要對(duì)不同車型開發(fā)不同的 ASIC,或進(jìn)行不同的驗(yàn)證。因?yàn)椴煌囆托枰獙?shí)現(xiàn)的功能大致相同,而且芯片面對(duì)模型和算子進(jìn)行有限開放,算法快速 迭代不會(huì)影響到芯片對(duì)上層功能的支持。車廠與芯片設(shè)計(jì)公司合作,進(jìn)行差異化定制,或是更好的選擇。因?yàn)榧词故沁M(jìn) 行差異化的定制,芯片內(nèi)部50%的部分也是通用的。芯片設(shè)計(jì)公司可以在原有版本的基礎(chǔ)上進(jìn)行差異化設(shè)計(jì),實(shí)現(xiàn)部分 差異功能。
主流架構(gòu)方案對(duì)比:三種主流架構(gòu)
FPGA是在PAL、GAL等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。它是作為專用集成電路領(lǐng)域中的一種半定制電路而出現(xiàn) 的,既解決了定制電路的不足,又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn)。優(yōu)點(diǎn):可以無限次編程,延時(shí)性比較 低,同時(shí)擁有流水線并行和數(shù)據(jù)并行、實(shí)時(shí)性最強(qiáng)、靈活性最高。缺點(diǎn):開發(fā)難度大、只適合定點(diǎn)運(yùn)算、價(jià)格比較昂 貴。圖形處理器(GPU),又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè) 備(如平板、手機(jī)等)上做圖像和圖形相關(guān)運(yùn)算工作的微處理器。優(yōu)點(diǎn):提供了多核并行計(jì)算的基礎(chǔ)結(jié)構(gòu),且核心數(shù)非 常多,可以支撐大量數(shù)據(jù)的并行計(jì)算,擁有更高的浮點(diǎn)運(yùn)算能力。缺點(diǎn):管理控制能力(最弱),功耗(最高)。
ASIC,即專用集成電路,指應(yīng)特定用戶要求和特定電子系統(tǒng)的需要而設(shè)計(jì)、制造的集成電路。目前用CPLD(復(fù)雜可編程 邏輯器件)和FPGA(現(xiàn)場可編程邏輯陣列)來進(jìn)行ASIC設(shè)計(jì)是最為流行的方式之一。優(yōu)點(diǎn):它作為集成電路技術(shù)與特定用 戶的整機(jī)或系統(tǒng)技術(shù)緊密結(jié)合的產(chǎn)物,與通用集成電路相比具有體積更小、重量更輕、功耗更低、可靠性提高、性能提 高、保密性增強(qiáng)、成本降低等優(yōu)點(diǎn)。缺點(diǎn):靈活性不夠,成本比FPGA貴。
唯算力論的局限:TOPS算力不完全等于實(shí)際性能
隨著ADAS、自動(dòng)駕駛技術(shù)的興起,以及軟件定義汽車的逐步深入,智能汽車對(duì)于計(jì)算能力和海量數(shù)據(jù)處理能力等的需求暴增,傳統(tǒng)汽車的芯片“堆疊”方案已經(jīng)無法滿足自動(dòng)駕駛的算力需求。芯片最終是為車企的車載計(jì)算平臺(tái)服務(wù)的,在 “軟件定義汽車”的情況下,解決智能駕駛系統(tǒng)計(jì)算平臺(tái)的支撐問題,無法只通過芯片算力堆疊來實(shí)現(xiàn)。
芯片是軟件的舞臺(tái),衡量芯片優(yōu)劣的標(biāo)準(zhǔn),要看芯片之上的軟件能否最大化地發(fā)揮作用,算力和軟件之間需要有效匹配。兩款相同算力的芯片比較,能讓軟件運(yùn)行得更高效的芯片才是“好芯片”。決定算力真實(shí)值最主要因素是內(nèi)存( SRAM和 DRAM)帶寬,還有實(shí)際運(yùn)行頻率(即供電電壓或溫度),以及算法的batch尺寸。單顆芯片算力TOPS是關(guān)鍵指標(biāo),但并非唯一,自動(dòng)駕駛是一個(gè)復(fù)雜系統(tǒng),需要車路云邊協(xié)同。所以它的較量除了芯還有 軟硬協(xié)同還有平臺(tái)以及工具鏈等等。芯片算力的無限膨脹和硬件預(yù)埋不會(huì)是未來的趨勢(shì),硬件也需要匹配實(shí)際。高算力 背后是高功耗和低利用率的問題。
自動(dòng)駕駛領(lǐng)域99%的視覺數(shù)據(jù)在AI處理中是無用的背景。例如檢測(cè)鬼探頭,變化的區(qū)域是很小一部分,但傳統(tǒng)的視覺處理 仍然要處理99%的沒有出現(xiàn)變化的背景區(qū)域,這不僅浪費(fèi)了大量的算力,也浪費(fèi)了時(shí)間。亦或者像在沙礫里有顆鉆石,AI 芯片和傳統(tǒng)相機(jī)需要識(shí)別每一顆沙粒,篩選出鉆石,但人類只需要看一眼就能檢測(cè)到鉆石,AI芯片和傳統(tǒng)相機(jī)耗費(fèi)的時(shí) 間是人類的100倍或1000倍。除了冗余信息減少和幾乎沒有延遲的優(yōu)點(diǎn)外,事件相機(jī)的優(yōu)點(diǎn)還有由于低時(shí)延,在拍攝高速物體時(shí),傳統(tǒng)相機(jī)由于會(huì)有 一段曝光時(shí)間會(huì)發(fā)生模糊,而事件相機(jī)則幾乎不會(huì)。此外事件相機(jī)擁有真正的高動(dòng)態(tài)范圍,由于事件相機(jī)的特質(zhì),在光 強(qiáng)較強(qiáng)或較弱的環(huán)境下,傳統(tǒng)相機(jī)均會(huì)“失明”,但像素變化仍然存在,所以事件相機(jī)仍能看清眼前的東西。