高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯(cuò)
加入自媒體

英偉達(dá) Alpamayo:基于推理的自動(dòng)駕駛大模型設(shè)計(jì)與量產(chǎn)部署全解析

GTC 2026 上英偉達(dá)對(duì)其開(kāi)源的 Alpamayo VLA模型進(jìn)行了進(jìn)一步的闡述。其中Marco Pavone代表英偉達(dá)的研究團(tuán)隊(duì)對(duì)就Alpamayo的模型設(shè)計(jì)和最新的因果鏈進(jìn)行了分享,Patrick Liu曾今吳新宙在小鵬的老部下后來(lái)也來(lái)到英偉達(dá),本次他代表量產(chǎn)端對(duì)Alpamayo落地量產(chǎn)的一些經(jīng)驗(yàn)方法進(jìn)行了一些分享。

本文基于兩位的演講內(nèi)容,對(duì)Alpamayo的模型設(shè)計(jì)和量產(chǎn)經(jīng)驗(yàn)進(jìn)行總結(jié)和分享。

我們之前文章《智駕定型之戰(zhàn):一文看透自動(dòng)駕駛“端到端”的底層邏輯與架構(gòu)演進(jìn)》也分享過(guò)在自動(dòng)駕駛的發(fā)展歷程中,如何讓AI不僅能“看”和“開(kāi)”,還能像人類一樣“思考”和“解釋”,是經(jīng)歷了端到端算法普及之后的第二個(gè)突破點(diǎn)。

英偉達(dá)推出的 Alpamayo的亮點(diǎn)就是具有推理能力。本次演講中Marco Pavone 表示Alpamayo 是一個(gè)100億(10B)參數(shù)的端到端、基于推理的視覺(jué)語(yǔ)言動(dòng)作模型(VLA),他是基于英偉達(dá)基礎(chǔ)模型Cosmos Reason構(gòu)建的。

第一部分:模型設(shè)計(jì),讓 AI 學(xué)會(huì)“因果推理”與“知行合一”

和所有VLA模型類似,Alpamayo 1 接收多攝像頭圖像、用戶命令和導(dǎo)航指引,并輸出三個(gè)關(guān)鍵結(jié)果:推理軌跡、元?jiǎng)幼骱婉{駛軌跡。

這個(gè)模型算法的第一大亮點(diǎn)是“具體推理” --產(chǎn)生類似于人類推理的軌跡,將空間理解和常識(shí)推理與物理動(dòng)作聯(lián)系起來(lái),為了構(gòu)建這種“具體推理”能力,英偉達(dá)Alpamayo的采用多階段訓(xùn)練流水線:

通用推理:從 Cosmos Reason 開(kāi)始,利用互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)訓(xùn)練一般推理能力。這個(gè)基本上是基礎(chǔ)模型訓(xùn)練的范疇。

軌跡預(yù)訓(xùn)練:在海量駕駛數(shù)據(jù)上預(yù)訓(xùn)練,賦予模型自動(dòng)駕駛的軌跡生成能力。一般從通用基礎(chǔ)模型到專業(yè)自動(dòng)駕駛模型的第一步訓(xùn)練,就是專門(mén)的駕駛數(shù)據(jù)訓(xùn)練。

監(jiān)督微調(diào)(SFT):利用自動(dòng)標(biāo)注的駕駛相關(guān)推理軌跡進(jìn)行微調(diào),以引出顯式的推理能力。這一步主要是賦予VLA模型基于語(yǔ)言的顯式推理的能力。

強(qiáng)化學(xué)習(xí)(RL):在 Cosmos生產(chǎn)和修改的場(chǎng)景的 RL 基礎(chǔ)上,改善極具挑戰(zhàn)性情況下的推理,并促進(jìn)各輸出模態(tài)之間的對(duì)齊。

經(jīng)過(guò)以上步驟一個(gè)VLA大模型基本完成,我們之前文章《吳新宙帶領(lǐng)英偉達(dá)沖刺自動(dòng)駕駛L4背后的VLA大模型算法》有詳細(xì)介紹。

最后模型上車采取知識(shí)蒸餾:將龐大的能力壓縮到適合車端部署的模型中。

整個(gè)訓(xùn)練過(guò)程,有如下難點(diǎn):

1. 如何突破純文本思維鏈(COT)自動(dòng)標(biāo)注的局限:因果鏈自動(dòng)標(biāo)注在 SFT 階段,最大的挑戰(zhàn)是如何大規(guī)模生成高質(zhì)量的推理標(biāo)簽。傳統(tǒng)的文本思維鏈(COT)自動(dòng)標(biāo)注存在三大致命缺陷:

一是因果混淆,推理軌跡可能會(huì)泄露未來(lái)信息,比如提前說(shuō)“銀色SUV將在以后切入”;

二是行為描述模糊,無(wú)法給出具體的駕駛操作;

三是膚淺推理,描述缺乏與本車行為直接因果聯(lián)系的上下文。

為了解決這些問(wèn)題,英偉達(dá)采用“因果鏈自動(dòng)標(biāo)注流水線”的方式,來(lái)?yè)羝七@個(gè)痛點(diǎn):

錨定關(guān)鍵幀:將推理生成嚴(yán)格錨定在關(guān)鍵決策時(shí)刻(如交通燈變綠瞬間),確保推理過(guò)程只包含該關(guān)鍵幀之前的因素,杜絕未來(lái)信息泄露。

封閉決策詞匯表:將決策分為縱向和橫向類型,并建立明確的詞匯表,確保使用精確術(shù)語(yǔ)描述行為,消除模糊性。

因果鏈模板:引導(dǎo)模型確保每個(gè)語(yǔ)句都符合因果鏈邏輯,阻止膚淺的推理。 

英偉達(dá)的Marco Pavone表示通過(guò)從非結(jié)構(gòu)化思維鏈切換到結(jié)構(gòu)化因果鏈的方法,給顯式推理帶來(lái)了驚人的121% 的準(zhǔn)確性提升。模型在處理捕捉復(fù)雜運(yùn)動(dòng)行為和分布外視覺(jué)上下文的“長(zhǎng)尾場(chǎng)景”時(shí),軌跡位移(平均ADE)減少了約12%,證明推理在復(fù)雜的邊緣場(chǎng)景中收益巨大。

2. 消除“具身不一致”:強(qiáng)化學(xué)習(xí)后訓(xùn)練對(duì)齊模型會(huì)推理了,但如果“想的是向左,開(kāi)的卻是向右”怎么辦?這種思維鏈推理與模型直接輸出的行動(dòng)之間的潛在差異被稱為“具身不一致”(因?yàn)閯?dòng)作生成往往只是模仿訓(xùn)練數(shù)據(jù),并未真正理解背后原因)。 

為此,團(tuán)隊(duì)引入了強(qiáng)化學(xué)習(xí)(RL),將可驗(yàn)證的安全獎(jiǎng)勵(lì)、教師模型反饋以及人類偏好聚合到一個(gè)統(tǒng)一的獎(jiǎng)勵(lì)模型中。經(jīng)過(guò)對(duì)齊后,模型生成的動(dòng)作變得更符合相應(yīng)的推理軌跡,不忠實(shí)的行動(dòng)減少了近 60%。例如,當(dāng)模型推斷要減速停止后再加速時(shí),對(duì)齊后的模型會(huì)嚴(yán)格遵循完整的因果序列,同時(shí)顯著降低了接近碰撞率。

3. 前沿探索:從文本推理走向“潛在空間推理”雖然語(yǔ)言文本易于解釋,但在 token 數(shù)量和推理時(shí)間上并不是最高效的表示,這里算點(diǎn)出了VLA中L真的很耗token,這也是真正VLA當(dāng)前工程落地的問(wèn)題。英偉達(dá)正在探索在連續(xù)的潛在空間(Latent Space)中進(jìn)行推理。這不僅能帶來(lái)2 到 4 倍的推理加速,還能使后訓(xùn)練優(yōu)化更加平滑。在復(fù)雜的局部可觀察場(chǎng)景(如應(yīng)對(duì)隨時(shí)可能過(guò)馬路的行人)中,模型甚至展現(xiàn)出了反事實(shí)推理和自我調(diào)節(jié)“思考率”的能力——場(chǎng)景越難,它就會(huì)花越多時(shí)間進(jìn)行推演更新,從而實(shí)現(xiàn)更好的駕駛性能。

這個(gè)就是隱式推理的方法,或者有人叫他世界模型,理想汽車在本次GTC 2026上的演講也分享了,他們下一代MindVLA也將采用,具體可以看我們文章《理想汽車下一代基座模型 Mind VLA-o1的架構(gòu)和算法應(yīng)用解析》。

第二部分:量產(chǎn)部署——跨越交互與實(shí)時(shí)計(jì)算的物理瓶頸

現(xiàn)實(shí)中,要將這樣一個(gè)強(qiáng)大的研究級(jí)推理模型真正部署到實(shí)車生產(chǎn)中,需要克服系統(tǒng)交互、數(shù)據(jù)質(zhì)量以及極高實(shí)時(shí)性的三大支柱挑戰(zhàn),因?yàn)檐嚩说乃懔s束擺在前面。

量產(chǎn)中如何解決呢?英偉達(dá)的Patrick Liu就這些問(wèn)題,給出了他們的答案:

1. 多任務(wù)產(chǎn)品功能與“模式專家(Mode Expert)”架構(gòu)為了實(shí)現(xiàn)L4級(jí)別既能自動(dòng)駕駛,又具備互動(dòng)和可解釋性的體驗(yàn),量產(chǎn)模型在自主推理之外,新增了兩種模式:

用戶問(wèn)答模式:為黑盒神經(jīng)網(wǎng)絡(luò)增加了自然語(yǔ)言界面,用戶可以問(wèn)“你在做什么”、“為什么要慢下來(lái)”,極大增強(qiáng)了信任度。

用戶控制模式:用戶可以直接下達(dá)“靠邊停車”、“下一條出口下高速”、“稍微快一點(diǎn)”等命令。

為了支撐這三種模式,系統(tǒng)層面引入了一個(gè)核心模塊——模式專家(Mode Expert)。它承擔(dān)兩大職責(zé):

一是保護(hù)性攔截,如果用戶下達(dá)有害指令(如“撞上那個(gè)垃圾桶”),模式專家會(huì)先發(fā)制人地拒絕,根本不會(huì)傳遞給模型;

二是無(wú)縫路由,它將到底該執(zhí)行哪種模式的決策編碼為一個(gè)“極其微小的單一模態(tài) Token”強(qiáng)制輸入給模型。

這種MOE的設(shè)計(jì)避免了生成額外 Token 帶來(lái)的延遲,并且允許模型在必要時(shí)推翻原有的導(dǎo)航路線以服從用戶的控制指令。MOE的方法Deepseek在過(guò)去兩年中已經(jīng)證明了其同等算力下的高效性。

2. 生產(chǎn)級(jí)別的數(shù)據(jù)流水線為了產(chǎn)生高質(zhì)量、行動(dòng)高度一致的“C數(shù)據(jù)集”,研發(fā)團(tuán)隊(duì)花費(fèi)了100多次迭代來(lái)平衡云端與車端的復(fù)雜數(shù)據(jù)混合結(jié)構(gòu)。除了依賴視覺(jué)語(yǔ)言模型(VLM)和經(jīng)典行為計(jì)劃堆棧進(jìn)行自動(dòng)標(biāo)記并使用規(guī)則過(guò)濾器清理數(shù)據(jù)外,整個(gè)流水線中必須有“人機(jī)在環(huán)(Human-in-the-loop)的 QA”來(lái)嚴(yán)格審核所有標(biāo)簽的準(zhǔn)確性和真實(shí)性。

3. 實(shí)時(shí)部署:硬核的 4 倍實(shí)時(shí)加速技術(shù)這是量產(chǎn)最關(guān)鍵的一環(huán)。車端的重規(guī)劃預(yù)算是 100 毫秒(即 10 fps),而原始未優(yōu)化的模型延遲超出了預(yù)算大約 4 倍。為了在嚴(yán)苛預(yù)算內(nèi)生成所有推理和軌跡 Token,團(tuán)隊(duì)采用了雙管齊下的技術(shù)突破:

語(yǔ)言端(推測(cè)解碼):對(duì)大語(yǔ)言模型使用了推測(cè)解碼(Speculative Decoding)技術(shù)。利用一個(gè)小型的“草稿模型”快速生成可能的 Token,再交由主模型進(jìn)行并行驗(yàn)證。因?yàn)轵?yàn)證并行 Token 遠(yuǎn)比直接生成快,這實(shí)現(xiàn)了 2 到 4 倍的加速。

視覺(jué)端(稀疏注意力與定制預(yù)訓(xùn)練):將密集的注意力機(jī)制分解為多層稀疏注意力,從而在視覺(jué)處理上獲得了約四倍的加速。但由于這種架構(gòu)改變無(wú)法直接使用 Dinov2 等預(yù)訓(xùn)練的密集模型,團(tuán)隊(duì)使用了定制的預(yù)訓(xùn)練流水線(如 Nvidia 的 Radio)來(lái)訓(xùn)練專門(mén)適應(yīng)新架構(gòu)的快速視覺(jué)模型。

最終特征對(duì)齊:視覺(jué)端的架構(gòu)改變打破了微調(diào)階段語(yǔ)言和視覺(jué)原本的協(xié)同理解。因此,在多階段訓(xùn)練配方中,團(tuán)隊(duì)被迫增加了一個(gè)額外的對(duì)齊階段,將這些特征重新帶回,確保了在極致壓縮延遲的情況下,依然不降低推理和軌跡生成的質(zhì)量。

結(jié)合上述針對(duì)模型設(shè)計(jì)的底層重構(gòu)以及量產(chǎn)部署的極限工程優(yōu)化,英偉達(dá)成功地將 Alpamayo 1 從前沿研究帶入了真實(shí)的汽車生產(chǎn)部署中。

最后,英偉達(dá)在本次GTC 2026宣布發(fā)布新的 Alpamayo 1.5 模型

最新發(fā)布的 Alpamayo 1.5 模型在保持原有 100 億參數(shù)規(guī)模的基礎(chǔ)上,主要新增了導(dǎo)航和語(yǔ)言對(duì)話可以控制輔助駕駛的功能。這個(gè)算是非常難的一點(diǎn)。當(dāng)然除了這些這個(gè)公開(kāi)模型還增加了專門(mén)的虛擬仿真套件以及上文提到的CoC自動(dòng)標(biāo)簽、推理標(biāo)簽等數(shù)據(jù)集。

這些新功能的加入,進(jìn)一步提升了該模型在實(shí)際應(yīng)用中的靈活性和可控性,算是公版的L4安卓軟件了,可以幫助很多傳統(tǒng)主機(jī)廠開(kāi)啟自研模式,畢竟互聯(lián)網(wǎng)公司很多也是這么開(kāi)啟的。

最后,其實(shí)算法是自動(dòng)駕駛重要的工具,但是自動(dòng)駕駛產(chǎn)品卻是與大家應(yīng)用場(chǎng)景交互最深刻的地方,有對(duì)自動(dòng)駕駛產(chǎn)品感興趣的朋友可以點(diǎn)擊Vehicle聯(lián)合機(jī)械工業(yè)出版出品的《自動(dòng)駕駛產(chǎn)品經(jīng)理》一書(shū),詳細(xì)介紹自動(dòng)駕駛產(chǎn)品和運(yùn)營(yíng)的全流程。

參考資料以及圖片

From Research to Production: How Alpamayo Accelerates Autonomous Vehicle Development - 英偉達(dá)*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

       原文標(biāo)題 : 英偉達(dá) Alpamayo:基于推理的自動(dòng)駕駛大模型設(shè)計(jì)與量產(chǎn)部署全解析

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)

    贡嘎县| 博客| 正蓝旗| 宁乡县| 甘谷县| 天峻县| 天镇县| 克拉玛依市| 苗栗市| 荔波县| 增城市| 莲花县| 峨山| 施甸县| 博兴县| 鸡西市| 邢台市| 龙州县| 卢湾区| 普定县| 湖州市| 双柏县| 海安县| 紫阳县| 方正县| 丹寨县| 涞源县| 平邑县| 凤冈县| 体育| 扶绥县| 丹凤县| 磐石市| 监利县| 崇信县| 宝应县| 鲁山县| 渭南市| 云林县| 页游| 沁水县|