久久久久久AV接口,91视频这里只有精品,欧美极品男人的天堂

元戎啟行的 40B VLA 自動駕駛基座模型和方法論

2026-03-23 11:45

元戎作為中國輔助駕駛/自動駕駛算法供應(yīng)商的后起之秀，在這兩年來量產(chǎn)車輛大幅度上升，擁有長城、吉利、甚至傳言拿下了新勢力零跑的業(yè)務(wù)。而且元戎也是比較早喊“VLA”甚至量產(chǎn)"VLA"的供應(yīng)商。

所以，算是有量產(chǎn)也有前瞻的自動駕駛解決方案提供商，本次GTC 2026 元戎的CTO 曹通易做了名為《Redefining the Boundaries of Autonomous Driving with Foundation Model》的演講，分享了其基于Foundation model基模的VLA方法和理論。

本文通過演講和行業(yè)知識分享下此次演講的核心內(nèi)容和亮點(diǎn)。

元戎啟行（DeepRoute.ai）解決自動駕駛，甚至走向 L5 級別的核心思路，是堅(jiān)信“Scaling Law（擴(kuò)展定律）”，通過構(gòu)建統(tǒng)一的基座大模型來驅(qū)動模型尺寸和數(shù)據(jù)規(guī)模的同步爆發(fā)。

這里也看出目前行業(yè)內(nèi)對當(dāng)前端到端發(fā)展起來的各種技術(shù)比較自信，看到了自動駕駛的曙光，目前行業(yè)的核心重點(diǎn)是，優(yōu)化算法也加大模型參數(shù)、推動算力芯片上升、優(yōu)化工程落地。

以下是元戎其基座大模型架構(gòu)與自動駕駛軟件方法的硬核技術(shù)亮點(diǎn)：

一、基座大模型（40B VLA）的原理與架構(gòu)技術(shù)亮點(diǎn)

元戎基于1億Gb的視頻構(gòu)建了一個參數(shù)量為 40B 的原生 VLA（視覺-語言-動作）大模型，小鵬也在去年年底表示其研發(fā)了基于2億Clips（推斷大約10億Gb數(shù)據(jù)）訓(xùn)練的72B（720億）參數(shù)超大規(guī)模模型。

元戎表示其訓(xùn)練機(jī)制和端側(cè)部署上進(jìn)行了以下底層創(chuàng)新：

1. 架構(gòu)創(chuàng)新：“三位一體”的模型角色這個大模型打破了僅作為“駕駛員”的單一設(shè)定。它在同一個模型中集成了三種能力：駕駛員、分析師以及評論員/裁判。這種能力復(fù)用不僅讓認(rèn)知和場景理解得以共享，還能有效提升駕駛?cè)蝿?wù)本身的性能。解讀就是這個模型能看懂視頻等傳感器輸入數(shù)據(jù)流，推理和分析，最終給出結(jié)論好壞。

2. 預(yù)訓(xùn)練（Pre-train）原理突破：從“軌跡監(jiān)督”轉(zhuǎn)向“視頻預(yù)測”傳統(tǒng)的端到端模型通常依賴駕駛軌跡進(jìn)行監(jiān)督訓(xùn)練，但這存在極大的數(shù)據(jù)浪費(fèi)——1 PB 的駕駛視頻中，軌跡數(shù)據(jù)僅占約 10 GB，數(shù)據(jù)利用率僅為 0.001%。元戎在預(yù)訓(xùn)練階段創(chuàng)新性地采用了視頻預(yù)測任務(wù)來讓模型理解世界，這意味著視頻的每一個像素都能作為監(jiān)督信號，數(shù)據(jù)利用率達(dá)到 100%，從而為超大參數(shù)模型提供了極高質(zhì)量的物理世界表征。

3. 中端訓(xùn)練（Mid-train）的跨模態(tài)推理融合在掌握了對世界的理解后，模型會進(jìn)行三種核心任務(wù)的聯(lián)合訓(xùn)練：

V+A（視覺+動作）：學(xué)習(xí)常規(guī)的端到端駕駛，典型的端到端架構(gòu)。

V+A -> L（行動后解釋）：激活分析師和裁判角色，輸入視覺和動作序列，輸出對關(guān)鍵事件的抽象描述、行為因果解釋以及好壞評判。

V -> L+A（多模態(tài)邏輯推理）：訓(xùn)練帶推理能力的司機(jī)。給定視覺輸入，利用思維鏈（CoT）讓模型先輸出關(guān)鍵事件的語言描述和決策邏輯，再輸出具體的駕駛軌跡。

4. 極致的車端部署優(yōu)化與量產(chǎn)蒸餾，根據(jù)GTC上曹通易的表述，目前元戎的VLA在車端可能實(shí)現(xiàn)了 10-15 Hz 的實(shí)時閉環(huán)控制（為什么實(shí)時閉環(huán)控制重要可以點(diǎn)擊我們之前文章《揭秘特斯拉 FSD 核心：端到端算法的“三大難點(diǎn)”與“獨(dú)門解法”以及對語音控車的想法》了解）。

元戎表示其引入了 KV Cache（歷史特征免重復(fù)計(jì)算，這個理想在本次GTC也表示采用了，具體可以看我們理想GTC 2026文章）、多 Token 預(yù)測（MTP）、量化技術(shù)以及定制化的推理引擎，將包含 1000 個視覺 Token 和數(shù)十個推理 Token 的單步處理延遲嚴(yán)控在 60-85 毫秒以內(nèi)。此外，基座大模型可以根據(jù)車端芯片算力進(jìn)行靈活“蒸餾”：在 100 TOPS 平臺上部署純駕駛的 VA 模型，在 500 TOPS 平臺上即可部署帶有邏輯推理能力的 VLA 模型。

二、自動駕駛軟件與數(shù)據(jù)方法亮點(diǎn)

在軟件和數(shù)據(jù)工程層面，元戎徹底重構(gòu)了數(shù)據(jù)閉環(huán)和仿真系統(tǒng)，解決了“無聊數(shù)據(jù)損害模型”和人工介入效率低下的行業(yè)痛點(diǎn)：

1.大模型全面接管的極速數(shù)據(jù)閉環(huán)傳統(tǒng)的數(shù)據(jù)閉環(huán)（發(fā)現(xiàn)問題、診斷、挖掘、標(biāo)注、訓(xùn)練）嚴(yán)重依賴人工或小型規(guī)則模型，一個循環(huán)往往耗時 5 天（100 小時以上）且能力無法沉淀。元戎直接利用前文提到的基座大模型（其分析師和裁判能力）接管了數(shù)據(jù)挖掘、自動診斷、思維鏈（CoT）標(biāo)注以及動作評分等全流程。這不僅將閉環(huán)周期從 5 天極速縮短至 12 小時，更重要的是，閉環(huán)過程中產(chǎn)生的所有人工 Review 和機(jī)器標(biāo)注結(jié)果，都會沉淀為大模型中端訓(xùn)練的新養(yǎng)料，實(shí)現(xiàn) AI 能力的飛輪遞增。

2. 突破長尾場景的數(shù)據(jù)合成技術(shù)面對現(xiàn)實(shí)中難以收集的罕見高危場景（Long-Tail Scenarios），元戎采用了先進(jìn)的生成式與合成技術(shù)：

3D 重建與風(fēng)格遷移：利用 Nvidia 的 3D GUT 進(jìn)行高保真重建，并用 Cosmos 模型實(shí)現(xiàn)天氣和光照的風(fēng)格遷移，將一個白天的素材轉(zhuǎn)化為雨天或夜間的變體。

DiPIR 插入式編輯：這是元戎自研的技術(shù)，能夠?qū)⑸傻?3D 行人、騎行者或動物（如公路上突然竄出的羊）無縫插入到真實(shí)的道路視頻中，并自動匹配光照和陰影，系統(tǒng)性地批量生成“極其危險(xiǎn)且難以捕捉”的訓(xùn)練數(shù)據(jù)。

3. 仿真環(huán)境下的強(qiáng)化學(xué)習(xí)（RL）自我進(jìn)化在仿真回測中，元戎的模型不再單純依賴人工標(biāo)準(zhǔn)答案（在極端場景下人類也很難標(biāo)注出完美軌跡）�；竽Ｐ涂梢栽谥亟ǖ姆抡鎴鼍爸凶约骸安蓸樱≧ollout）”出多條不同的駕駛解決方案（比如遇到違規(guī)加塞時，是選擇體感不佳的急剎，還是選擇橫向避讓）。隨后，模型內(nèi)部的“評論員（Critic）”會結(jié)合預(yù)設(shè)的安全和舒適度規(guī)則，對這些軌跡進(jìn)行行為分析和評分。通過這種閉環(huán)強(qiáng)化學(xué)習(xí)（RL Policy Optimization）的持續(xù)迭代，模型能夠在極其復(fù)雜的邊緣場景中輸出更安全、更精準(zhǔn)的決策。

以上就是元戎啟行在本次GTC 2026分享的核心內(nèi)容，歡迎留言交流更多核心背后的算法信息。

參考資料以及圖片

Redefining the Boundaries of Autonomous Driving with Foundation Model -元戎啟行曹通易*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

原文標(biāo)題 : 元戎啟行的 40B VLA 自動駕駛基座模型和方法論

元戎啟行模型 40B VLA