當GPT遇到自動駕駛時，第壹個DriveGPT將會啟動。

GPT對自動駕駛意味著什麽？

文淑之家王黃花旦

ChatGPT帶火AI，那麽GPT遇到自動駕駛會發生什麽樣的化學反應呢？

GPT的全稱是生成式預訓練變壓器，即生成式預訓練變壓器。簡單概括是壹種基於互聯網上可用數據訓練的文本生成深度學習模型。

4月11日，在第八屆Millicent AI？日，首席執行官顧正式發布了基於技術的DriveGPT，中文名稱為雪狐。

DriveGPT能做什麽？它是如何建造的？顧是在艾？當天我做了詳細的解讀。另外，AI？DAY還展示了毫端自動駕駛數據系統MANA的升級，主要是其在視覺感知方面的進步。

01.

什麽是DriveGPT？能達到什麽目的？

顧首先解釋了的原理。生成式預訓練變換器模型的本質是求解下壹個詞的概率。每次調用都是從概率分布中取樣並生成壹個單詞。通過這種方式，可以為各種下遊任務生成壹系列字符。

以漢語自然語言為例，單個詞或詞為壹個令牌，漢語令牌詞匯約有5萬個。當令牌被輸入到模型中時，輸出是下壹個單詞的概率。這種概率分布反映了語言中的知識和邏輯。大模型輸出下壹個詞的時候，是根據語言知識和邏輯推理的結果，就像根據偵探小說復雜的線索推理兇手是誰壹樣。

作為適合自動駕駛訓練的大型車型，DriveGPT雪狐海若具備三種能力:

1.很多這樣的場景序列都可以通過概率生成，每個場景都是壹個全局場景，每個場景序列都是未來可能發生的實際情況。

2.在所有場景序列都生成的情況下，我們可以量化場景中車輛最受關註的行為軌跡，即場景生成時，會生成車輛未來的軌跡信息。

3.有了這個軌跡，DriveGPT雪狐海若就可以在生成場景序列和軌跡的同時，輸出整個決策邏輯鏈。

也就是說，有了DriveGPT學虎海若，規劃、決策、推理都可以在統壹的生成框架下完成。

具體來說，DriveGPT雪狐海若的設計就是將場景令牌化，稱之為Drive？語言.

Drive語言將駕駛空間離散化，每個Token代表場景的壹小部分。目前，米莉擁有約50萬個令牌詞庫空間。如果輸入過去發生過的壹系列場景令牌序列，模型可以根據歷史生成未來所有可能的場景。

換句話說，海若也像壹個推理機器。告訴它過去發生了什麽，它可以根據概率推斷出未來的許多可能性。

壹系列Token合在壹起就是壹個完整的駕駛場景時間序列，包括整個交通環境的狀態，以及未來某壹時刻自己汽車的狀態。

帶驅動？語言，可以訓練DriveGPT。

DriveGPT的訓練過程首先是根據駕駛數據和之前定義的駕駛嘗試做壹個大規模的預訓練。

然後通過使用過程中接管或不接管的場景，對預訓練結果進行評分排序，訓練出反饋模型。也就是說，用正確的人類駕駛方式來代替錯誤的自動駕駛方式。

後續就是用強化學習的思想不斷優化叠代模型。

在預訓練模型中，采用唯解碼結構的GPT模型，用每個令牌描述某壹時刻的場景狀態，包括障礙物狀態、自車狀態、車道線等。

目前，毫米的預訓練模型擁有654.38+020億個參數，利用4000萬輛量產車的行駛數據，可以做各種場景的生成任務。

這些生成的結果會根據人的喜好進行優化，在安全、效率、舒適等維度進行權衡。同時，米莉會用壹些經過篩選的人類接手數據，大約5萬個片段來訓練反饋模型，不斷優化預訓練模型。

在輸出決策邏輯鏈時，DriveGPT雪狐海若使用了prompt提示技術。輸入終端給模型壹個提示，告訴它“去哪裏，慢點還是快點，讓它壹步步推理”。經過這個提示，它會按照預期的方向產生結果，每個結果都有壹個決策邏輯鏈。每壹個結果也會有未來出現的可能性。所以我們可以選擇未來最有可能和最符合邏輯的鏈式驅動策略。

可以用壹個生動的例子來說明海若的推理能力。假設模型被提示“到達某個目標點”，DriveGPT Xuehu海若會生成很多可能的駕駛方式，有的激進，會連續變道超車快速到達目標點，有的穩健，跟車到終點。此時，如果提示中沒有其他附加說明，DriveGPT雪狐海若會根據反饋的訓練對效果進行優化，最終給出壹個更符合大多數人駕駛喜好的效果。

02.

妳是怎麽實現DriveGPT的？

首先，DriveGPT雪狐海若的訓練和落地離不開計算能力的支撐。

5438年6月+今年10月，墨豪與火山引擎聯合發布了其自建的智能計算中心——墨豪雪湖綠洲MANA OASIS。OASIS計算能力每秒67億次，存儲帶寬2T/秒，通信帶寬800G/秒。

當然，光有計算能力是不夠的，還需要訓練和推理框架的支持。所以，米莉也做了以下三個升級。

首先是保證和提升訓練的穩定性。

大規模的模型訓練是壹項非常艱巨的任務。隨著數據規模、聚類規模、訓練時間的數量級增長，系統穩定性的小問題會被無限放大。如果不處理，訓練任務往往會出錯，導致非正常中斷，浪費前期投入的大量資源。

在大規模模型訓練框架的基礎上，Millie和火山引擎共同建立了全套訓練支持框架。通過訓練支撐框架，Millie實現了異常任務的分鐘級捕捉和恢復能力，可以保證千卡任務連續訓練數月無任何異常中斷，有效保證了DriveGPT雪狐海若大型模型訓練的穩定性。

二是靈活調度資源的升級。

毫米擁有量產車帶來的海量真實數據，可以利用返回的數據自動學習真實世界。由於每天不同時間發回的數據量差異巨大，需要訓練平臺具備靈活的調度能力，適應數據的大小。

最終將增量學習技術擴展到大規模模型訓練，構建大規模模型連續學習系統，開發任務級靈活調度器，分分鐘調度資源，集群計算資源利用率達到95%。

第三是吞吐效率的升級。

在訓練效率方面，在變壓器的大矩陣計算中，通過拆分內外循環的數據，盡可能將數據保存在SRAM中，提高了計算的效率。傳統培訓框架下，操作員流程很長，引入火山引擎提供的樂高庫，端到端吞吐量提升84%。

隨著計算能力和這三個方面的升級，DriveGPT雪狐海若可以得到更好的訓練和叠代升級。

03.

法力升級，攝像頭代替超聲波雷達

2021和65438+2月的第四個AI？MANA是自動駕駛數據的智能系統，於11月15日發布.經過壹年多的應用叠代，MANA目前迎來了全面升級。

據顧介紹，此次升級主要包括:

1.與感知和認知相關的大模型能力被集成到DriveGPT中。

2.計算基礎服務專門針對大規模模型訓練在參數規模、穩定性和效率方面進行了優化，並集成到OASIS中。

3.增加了使用NeRF技術的數據合成服務，降低了邊角案例數據的采集成本。

4.針對多芯片多型號快速交付問題，優化了異構部署工具和車輛適配工具。

我們已經詳細介紹了DriveGPT的相關內容，下面主要看壹下MANA在視知覺方面的進展。

顧說，視覺感知任務的核心目的是還原真實世界中的動靜態信息和紋理分布。因此，毫米升級了視覺自我監控模型的架構，將預測環境的三維結構、速度場和紋理分布整合為壹個訓練目標，使其能夠從容應對各種具體任務。目前，毫米視覺自監測模型數據集超過400萬個片段，感知性能提升20%。

在停車場景中，毫米利用魚眼鏡頭的純視覺測距實現了停車要求，在15m範圍內測量精度可達30cm，2m以內精度高於10cm。用純視覺代替超聲波雷達，進壹步降低了整個方案的成本。

此外，在純視覺3D重建方面，通過視覺自監測大模型技術，可以將大量量產的回傳視頻轉化為可用於BEV模型訓練的3D標註真實數據，而無需依賴激光雷達。

通過升級NeRF，重建誤差可以小於10。

本文來自作者智佳。com，版權歸作者所有。如以任何形式轉載，請聯系作者。內容僅代表作者觀點，與車改無關。