碰超99在线观看,wWW77久久,91艹综合

國產(chǎn)首個開源、系統(tǒng)化的多模態(tài)世界模型HY-World 2.0：效果硬剛閉源商業(yè)模型

2026-04-28 11:26

AI生成未來

關(guān)注

作者：騰訊混元團(tuán)隊(duì)

解讀：AI生成未來

亮點(diǎn)直擊

HY-World 2.0，一個多模態(tài)世界模型框架，它將3D世界生成與重建無縫統(tǒng)一。

支持文本提示、單視圖圖像、多視圖圖像和視頻等多樣化輸入模態(tài)，生成高保真、可導(dǎo)航的3D高斯輻射場（3DGS）場景。

引入了一系列關(guān)鍵創(chuàng)新，包括 HY-Pano 2.0（全景生成）、WorldNav（軌跡規(guī)劃）、WorldStereo 2.0（世界擴(kuò)展）和 WorldMirror 2.0（世界構(gòu)成及重建），以提升全景保真度、實(shí)現(xiàn)3D場景理解和規(guī)劃、并增強(qiáng)視圖生成及預(yù)測能力。

推出了 WorldLens，一個高性能的3DGS渲染平臺，支持交互式探索和角色支持。

在開源方法中取得了最先進(jìn)的性能，與閉源模型 Marble 相比也具有競爭力，并發(fā)布了所有模型權(quán)重、代碼和技術(shù)細(xì)節(jié)以促進(jìn)可復(fù)現(xiàn)性。 HY-World 2.0的多功能應(yīng)用

HY-World 2.0的多功能應(yīng)用

總結(jié)速覽

解決的問題

當(dāng)前3D世界建模領(lǐng)域普遍存在生成與重建任務(wù)的二元分離，現(xiàn)有解決方案通常專注于其中一個領(lǐng)域，導(dǎo)致生成方法難以保持嚴(yán)格的重建精度，而重建方法缺乏生成能力以幻化未見區(qū)域。

缺乏一個全面的、多模態(tài)的開源基礎(chǔ)世界模型來彌合生成與重建之間的鴻溝。

現(xiàn)有 HY-World 1.0 版本在全景保真度、3D場景理解和規(guī)劃以及視圖生成一致性方面存在局限。

提出的方案

引入了 HY-World 2.0，首個開源、系統(tǒng)化的多模態(tài)世界模型，通過統(tǒng)一的離線3D世界模型范式，無縫整合了“生成”和“重建”兩大功能。

該框架能夠適應(yīng)文本、單視圖圖像、多視圖圖像和視頻等多種輸入模態(tài)，并根據(jù)可用條件動態(tài)調(diào)整其行為。

設(shè)計(jì)了一個新穎的四階段pipeline來驅(qū)動世界生成，并升級了前饋3D重建組件以支持世界重建。

應(yīng)用的技術(shù)

核心建模: 3D高斯輻射場（3DGS）用于場景表示和渲染。

全景生成: HY-Pano 2.0，采用多模態(tài)擴(kuò)散 Transformer (MMDiT) 和循環(huán)填充與像素混合策略。

軌跡規(guī)劃: WorldNav，基于 NavMesh、Dijkstra 算法以及五種啟發(fā)式軌跡模式（常規(guī)、環(huán)繞、重建感知、漫游、空中）。

世界擴(kuò)展: WorldStereo 2.0，采用 Keyframe-VAE 和相機(jī)引導(dǎo)視頻擴(kuò)散模型 (VDMs)，并結(jié)合全局幾何記憶 (GGM) 和空間立體記憶 (SSM++) 機(jī)制，通過分布匹配蒸餾 (DMD) 進(jìn)行加速。

世界重建: WorldMirror 2.0，采用統(tǒng)一的前饋Transformer骨干網(wǎng)絡(luò)和任務(wù)特定的 DPT 解碼器頭，引入了歸一化位置編碼、深度到法線的損失、深度掩碼預(yù)測頭、序列并行、BF16混合精度和FSDP等優(yōu)化策略。

場景優(yōu)化與網(wǎng)格提取: 基于截?cái)喾柧嚯x函數(shù) (TSDF) 體和行進(jìn)立方體算法提取網(wǎng)格。

達(dá)到的效果

在多個基準(zhǔn)測試中，HY-World 2.0 的性能超越了現(xiàn)有開源方法，并與閉源模型 Marble 的結(jié)果相媲美。

生成了高保真、可導(dǎo)航的3D高斯輻射場場景，其視覺質(zhì)量、幾何一致性和探索能力顯著提升。

實(shí)現(xiàn)了從文本、單視圖圖像、多視圖圖像和視頻等多樣化輸入生成和重建3D世界的能力。

WorldNav 軌跡規(guī)劃顯著提升了場景完整性和細(xì)節(jié)覆蓋。

WorldStereo 2.0 顯著提高了相機(jī)控制精度和多軌跡一致性。

WorldMirror 2.0 在點(diǎn)圖重建、相機(jī)姿態(tài)、深度和法線估計(jì)以及新視圖合成方面達(dá)到了最先進(jìn)水平，并展現(xiàn)了出色的多分辨率泛化能力和推理效率。

生成的3D世界支持實(shí)時碰撞檢測和物理反饋，為游戲、虛擬現(xiàn)實(shí)和具身人工智能等下游應(yīng)用奠定了基礎(chǔ)。

項(xiàng)目代碼、模型權(quán)重和技術(shù)細(xì)節(jié)已全部開源，促進(jìn)了研究的可復(fù)現(xiàn)性。

架構(gòu)方法

在如下圖2所示的HY-World 2.0總覽中，將其多模態(tài)世界模型介紹為一個四階段pipeline，模擬了理解、合成和重建世界的過程。具體而言，該pipeline始于全景生成，將任意文本或圖像輸入轉(zhuǎn)換為高保真的360°世界初始化。隨后，進(jìn)行精細(xì)的軌跡規(guī)劃，以解析和理解初始化的世界，并推導(dǎo)出最優(yōu)且信息豐富的觀察路徑。沿著這些規(guī)劃的路線，生成性的世界擴(kuò)展利用記憶更新機(jī)制，確保在生成的關(guān)鍵幀中實(shí)現(xiàn)精確的相機(jī)控制和多視圖一致性。最后，通過將這些生成的序列輸入到WorldMirror 2.0進(jìn)行魯棒的3D重建，并輔以量身定制的3DGS優(yōu)化，從而實(shí)現(xiàn)沉浸式3D世界的世界構(gòu)成。

世界生成階段一：全景生成

全景圖能從一個固定視點(diǎn)捕捉完整的360° × 180°視場角（FoV），提供整個場景的全面且信息豐富的表示。與僅提供有限物理世界視圖的標(biāo)準(zhǔn)透視圖像不同，360°全景圖保留了全局空間上下文和復(fù)雜的語義關(guān)系。因此，這種整體表示正日益被認(rèn)為是大規(guī)模3D世界生成的基礎(chǔ)，為連貫的視點(diǎn)合成和沉浸式虛擬探索提供了必要的空間一致性。

在本階段，本文提出了HY-Pano 2.0，旨在從多模態(tài)條件（包括文本和單視圖圖像）合成高保真全景圖。為實(shí)現(xiàn)這一目標(biāo)，本文從兩個正交維度優(yōu)化了生成pipeline：（1）實(shí)施了一個先進(jìn)的數(shù)據(jù)策展pipeline；（2）引入了一個專用的360°生成模型，該模型以無幾何方式隱式學(xué)習(xí)透視輸入與全景目標(biāo)之間的空間映射。

為了構(gòu)建高保真全景合成的堅(jiān)實(shí)基礎(chǔ)，本文的數(shù)據(jù)策展pipeline在HY-World 1.0的既定框架上進(jìn)行了擴(kuò)展，同時顯著增加了訓(xùn)練數(shù)據(jù)的豐富性和多樣性。具體而言，本文升級后的數(shù)據(jù)集整合了兩個主要數(shù)據(jù)源：（1）真實(shí)世界捕捉：包含了大量的、高分辨率的真實(shí)世界全景圖，以使模型具備真實(shí)的照明、復(fù)雜的紋理和自然的結(jié)構(gòu)先驗(yàn)。（2）合成資產(chǎn)：利用了通過虛幻引擎（UE）等高端引擎渲染的大規(guī)模合成環(huán)境數(shù)據(jù)集。這些資產(chǎn)提供了精確的幾何標(biāo)簽和多樣化、富有想象力的場景配置，這些在野外很難獲得。為確保數(shù)據(jù)完整性，本文實(shí)施了嚴(yán)格的數(shù)據(jù)過濾階段，以消除低質(zhì)量樣本，特別是那些表現(xiàn)出明顯拼接偽影或暴露了捕捉設(shè)備（例如全景相機(jī)）的樣本。這種混合數(shù)據(jù)策略有效拓寬了數(shù)據(jù)集的語義分布，并緩解了合成與真實(shí)世界分布之間的領(lǐng)域差距，使模型能夠在復(fù)雜的室內(nèi)和室外環(huán)境中穩(wěn)健泛化。

為實(shí)現(xiàn)從透視輸入到高保真全景圖的合成，本文超越了依賴顯式幾何扭曲的傳統(tǒng)方法，這是HY-World 1.0中曾采用的范式。傳統(tǒng)的pipeline通常需要精確的相機(jī)內(nèi)參（例如焦距和視場角）來執(zhí)行透視與等距柱狀投影（ERP）域之間的空間對齊。然而，此類元數(shù)據(jù)在真實(shí)世界場景中往往不可用或不準(zhǔn)確。這個瓶頸固有地限制了HY-World 1.0框架的靈活性，并經(jīng)常導(dǎo)致明顯的投影畸變。為解決此問題，本文采用了一種由多模態(tài)擴(kuò)散 Transformer (MMDiT) 驅(qū)動的隱式、自適應(yīng)映射策略，如下圖3所示。MMDiT不依賴顯式相機(jī)先驗(yàn)，而是在統(tǒng)一的潛在空間中處理?xiàng)l件輸入和全景目標(biāo)。通過將條件圖像潛在與全景噪聲潛在拼接成一個統(tǒng)一的 token 序列，MMDiT 利用其自注意力機(jī)制自主學(xué)習(xí)底層的透視到ERP轉(zhuǎn)換。這種純數(shù)據(jù)驅(qū)動的方法使網(wǎng)絡(luò)能夠直接在特征空間內(nèi)建立空間對應(yīng)關(guān)系，使其能夠靈活地幻化缺失的環(huán)境細(xì)節(jié)并保持全局結(jié)構(gòu)一致性，即使在未校準(zhǔn)和多樣化的輸入圖像下也能實(shí)現(xiàn)。

ERP生成中的一個常見挑戰(zhàn)是左右邊緣的不連續(xù)性。為消除這些邊界偽影，本文引入了一種結(jié)合了循環(huán)填充和像素混合的精修策略，如上圖3右側(cè)所示。在潛在層面，本文對潛在特征應(yīng)用循環(huán)填充，在去噪過程中強(qiáng)制執(zhí)行周期性邊界條件。填充后的潛在被解碼到像素空間，其中沿等距柱狀邊緣采用線性像素混合策略。這種組合協(xié)調(diào)有效平滑了360°環(huán)繞過渡，確保了完美無縫且結(jié)構(gòu)連貫的全景輸出。

世界生成階段二：軌跡規(guī)劃

任務(wù)描述。在高保真全景圖（第3節(jié)）合成之后，接下來的目標(biāo)是推導(dǎo)探索軌跡，以最大化可導(dǎo)航空間的覆蓋范圍。為將其與即將到來的世界擴(kuò)展階段連接起來，本文引入了WorldNav，一個全面的軌跡規(guī)劃策略。WorldNav不僅生成多樣化的相機(jī)路徑以確保廣泛的視點(diǎn)覆蓋，還將其與精確的文本指令配對，從而為下游生成過程提供明確指導(dǎo)。

給定全景網(wǎng)格、NavMesh和3D語義地標(biāo)，本文為WorldNav設(shè)計(jì)了五種啟發(fā)式軌跡模式。這些軌跡從全景圖的中心開始，旨在全面覆蓋多樣化的視點(diǎn)，同時確保無碰撞移動，如如下圖5所示。

常規(guī)軌跡。本文采用常規(guī)軌跡來普遍擴(kuò)展全景空間固定原點(diǎn)之外的視覺覆蓋范圍，如上圖5(a)所示。

環(huán)繞軌跡。為方便場景生成過程中前景的視覺質(zhì)量，本文設(shè)計(jì)了環(huán)繞最顯著物體的軌跡，如如下圖5(b)所示。

重建感知軌跡。為彌補(bǔ)后續(xù)3D重建的空白，本文引入了迭代重建感知軌跡，專門針對觀察不足的區(qū)域，如上圖5(c)所示。

漫游軌跡。為最大化場景覆蓋并觸及場景的環(huán)境邊界，本文提出了漫游軌跡，如上圖5(d)所示。

空中軌跡。最后，本文引入輔助空中軌跡以消除剩余的盲視點(diǎn)，如上圖5(e)所示。

WorldNav的軌跡詳細(xì)信息如如下表1所示。

世界生成階段三：世界擴(kuò)展

任務(wù)描述。在高質(zhì)量全景圖和廣覆蓋相機(jī)軌跡的基礎(chǔ)上，本文提出了WorldStereo 2.0。作為WorldStereo 1.0 [62] 的升級版，它利用相機(jī)引導(dǎo)的視頻生成來合成大量新穎視圖，以實(shí)現(xiàn)世界擴(kuò)展。如下圖6所示，訓(xùn)練過程包含三個階段，分別旨在實(shí)現(xiàn)相機(jī)控制、基于記憶的一致性和高效推理。

WorldStereo 2.0 概述。 WorldStereo 2.0 通過在關(guān)鍵幀潛在空間中，利用幾何感知的記憶，實(shí)現(xiàn)一致的多軌跡視頻生成，從而連接了相機(jī)條件視頻擴(kuò)散模型 (VDMs) 和3D場景重建，如如下表2所示并如下圖7所示。具體而言，本文首先重新審視了標(biāo)準(zhǔn) Video-VAE 的局限性，其時空壓縮常常導(dǎo)致偽影，從而降低下游重建質(zhì)量——取而代之的是，本文在關(guān)鍵幀潛在空間中構(gòu)建了 WorldStereo 2.0，并通過精確的相機(jī)控制來保留高頻細(xì)節(jié)。這通過一種新穎的 Keyframe-VAE 實(shí)現(xiàn)，如如下圖9所示。

顯式相機(jī)控制。遵循 [8, 62]，WorldStereo 2.0 基于預(yù)訓(xùn)練的視頻 DiT 構(gòu)建，并集成了從頭開始訓(xùn)練的輕量級基于 Transformer 的相機(jī)適配器，如上圖7(b)所示。形式上，WorldStereo 2.0 融合了相機(jī) Plücker 射線和點(diǎn)云作為互補(bǔ)的相機(jī)引導(dǎo)，以實(shí)現(xiàn)后續(xù)3D重建的顯式和精確相機(jī)控制。在域適應(yīng)階段，本文僅使用從參考視圖提取的點(diǎn)云（N ≤ HW，經(jīng)過浮點(diǎn)過濾后），而不是全景點(diǎn)云。本文將其扭曲到每個目標(biāo)視圖以獲得，表示為：

其中和分別表示目標(biāo)視圖的相機(jī)到世界坐標(biāo)系矩陣和內(nèi)參矩陣；是在像素處對參考視圖估計(jì)的單目深度，而是齊次像素坐標(biāo)。

中間訓(xùn)練：記憶機(jī)制。全局幾何記憶 (GGM) 將擴(kuò)展點(diǎn)云渲染成視頻，作為全局3D先驗(yàn)，以生成多個一致的視頻，如如下圖7(b)所示。特別是在全景場景中，GGM 允許 WorldStereo 2.0 內(nèi)化360°環(huán)境結(jié)構(gòu)，顯著提高幾何一致性。本文使用通過擴(kuò)展的全局點(diǎn)云渲染的視頻來微調(diào) WorldStereo 2.0，該點(diǎn)云超出了參考點(diǎn) ，表示為：

其中表示從個新視圖中隨機(jī)采樣的附加點(diǎn)云，如下圖10(a)所示。

改進(jìn)的空間立體記憶 (SSM++)。 在 WorldStereo 2.0 中，本文通過 SSM++ 改進(jìn)了此設(shè)計(jì)，保留了水平檢索拼接的核心概念，同時引入了顯著改進(jìn)。首先，本文摒棄了 WorldStereo 中使用的獨(dú)立記憶分支，而是將檢索到的關(guān)鍵幀直接整合到主 DiT 分支中（如上圖7a所示）。其次，如下圖11所示，本文修改了旋轉(zhuǎn)位置嵌入 (RoPE)以適應(yīng)這種集成。每個目標(biāo)視圖都與其檢索到的對應(yīng)視圖水平拼接，共享相同的時間索引。最后，為了增強(qiáng)靈活性，本文將 WorldStereo 的顯式點(diǎn)圖引導(dǎo)替換為隱式相機(jī)嵌入。形式上，本文將所有輸入相機(jī)姿態(tài)歸一化為統(tǒng)一的世界坐標(biāo)，并將其表示為7維向量（四元數(shù)和平移）。然后這些向量由一個3層 MLP 編碼為相機(jī) token，通過零初始化添加到目標(biāo)和檢索到的關(guān)鍵幀特征中，以提供幾何感知。

記憶庫和檢索策略。 在中間訓(xùn)練階段，本文采用了不同的檢索策略來適應(yīng)不同的數(shù)據(jù)特性，如上圖10(b)所示。本文采用時間錯位檢索來處理現(xiàn)有的多視圖數(shù)據(jù)。此外，本文使用 UE 構(gòu)建了一個合成數(shù)據(jù)集，其中每個資產(chǎn)具有多個軌跡。對于這個合成數(shù)據(jù)，本文采用多軌跡檢索，根據(jù)3D視場角相似性從替代軌跡中選擇最相關(guān)的幀。

記憶增強(qiáng)。 為了減輕由于不完善的點(diǎn)云和檢索生成而可能產(chǎn)生的誤差累積，本文在中間訓(xùn)練階段采用了全面的數(shù)據(jù)增強(qiáng)來提高記憶組件的魯棒性。

后期訓(xùn)練：模型蒸餾。 在后期蒸餾階段，本文應(yīng)用修改后的分布匹配蒸餾 (DMD)來加速 WorldStereo 2.0 的推理。DMD 擴(kuò)展了變分分?jǐn)?shù)蒸餾 (VSD)的思想，通過從凍結(jié)的真實(shí)分?jǐn)?shù)函數(shù) 和可訓(xùn)練的偽分?jǐn)?shù)函數(shù) 之間的差異構(gòu)建的近似 Kullback-Liebler (KL) 散度來蒸餾少步驟擴(kuò)散學(xué)生。DMD 的更新梯度可以寫為：

其中表示給定隨機(jī)高斯噪聲和的學(xué)生生成，而表示前向擴(kuò)散過程。

世界重建：WorldMirror 2.0

在詳細(xì)介紹最終的世界構(gòu)成階段之前，本文首先介紹了升級后的前饋3D重建模型 WorldMirror 2.0，它作為2D關(guān)鍵幀生成與3D世界構(gòu)成之間的關(guān)鍵橋梁。世界生成旨在從稀疏輸入（例如單視圖圖像或文本）合成可探索的3D世界，而世界重建則側(cè)重于從密集的2D視覺觀測（即多視圖圖像或視頻）中恢復(fù)幾何精確的3D空間關(guān)系。在 HY-World 2.0 中，本文在 WorldMirror的基礎(chǔ)上構(gòu)建了這種重建能力，它是一個用于全面3D幾何預(yù)測的統(tǒng)一前饋模型。本文解決了 WorldMirror 1.0 的三個關(guān)鍵局限性：（1）在非訓(xùn)練分辨率下的性能下降，（2）由于缺乏顯式深度-法線耦合導(dǎo)致的深度幾何一致性有限，以及（3）擴(kuò)展到大量視圖時內(nèi)存和延遲過高。這些問題分別通過模型架構(gòu)、訓(xùn)練數(shù)據(jù)和監(jiān)督以及訓(xùn)練策略（第6.5節(jié)）的改進(jìn)得以解決。如下圖12所示為整體模型架構(gòu)，如下表3總結(jié)了 WorldMirror 1.0 和 WorldMirror 2.0 之間的主要區(qū)別。

回顧 WorldMirror 1.0。 WorldMirror是一個用于全面3D幾何預(yù)測的統(tǒng)一前饋模型（參見如上圖12）。其核心設(shè)計(jì)是“任意模態(tài) token 化”，它將所有輸入模態(tài)，包括圖像、相機(jī)姿態(tài)、內(nèi)參和深度圖，編碼為統(tǒng)一序列中的 token。

模型改進(jìn)。 如上表3總結(jié)所示，本文在 WorldMirror 2.0 中引入了三項(xiàng)關(guān)鍵的模型級改進(jìn)：用于靈活分辨率推理的歸一化位置編碼、通過深度到法線損失對深度進(jìn)行顯式基于法線的監(jiān)督，以及一個專用的深度掩碼預(yù)測頭，用于穩(wěn)健處理無效像素。深度到法線損失定義為：

其中是預(yù)測的深度圖，而和分別是預(yù)測法線圖的 x 和 y 分量。深度掩碼預(yù)測頭輸出每個像素的有效性 logit ，并使用二元交叉熵?fù)p失進(jìn)行訓(xùn)練：

其中表示地面真實(shí)有效性標(biāo)簽，是具有已知有效性的像素集合。

數(shù)據(jù)改進(jìn)。 本文通過兩項(xiàng)關(guān)鍵的補(bǔ)充擴(kuò)展了 WorldMirror 2.0 的訓(xùn)練數(shù)據(jù)。首先，本文整合了來自虛幻引擎場景的高質(zhì)量合成渲染，這些渲染提供了多樣化室內(nèi)外環(huán)境中的像素級精確地面真實(shí)幾何。其次，本文對真實(shí)世界數(shù)據(jù)集采用了僅法線的偽標(biāo)簽增強(qiáng)策略。

推理效率改進(jìn)。 WorldMirror 2.0 引入了三種互補(bǔ)的加速策略，以實(shí)現(xiàn)可擴(kuò)展的多 GPU 部署。首先，本文在兩個粒度上采用了序列并行：用于 Transformer 骨干網(wǎng)絡(luò)的 token 級并行以及用于 DPT 解碼器頭部的幀級并行。其次，遵循 VGGT-X [65]，本文通過將大多數(shù)參數(shù)轉(zhuǎn)換為 BF16，同時將一小部分精度關(guān)鍵模塊保留在 FP32 中，應(yīng)用了選擇性混合精度推理。第三，本文采用完全分片數(shù)據(jù)并行 (FSDP) 將模型參數(shù)分片到多個 GPU 上。

訓(xùn)練策略改進(jìn)。基于 token 的動態(tài)批量大小調(diào)整。本文固定了每個 GPU 的最大 token 預(yù)算（例如25,000個 token）。在每次迭代中，本文首先對每個圖像分辨率（可配置范圍內(nèi)的像素?cái)?shù)量，例如50K-500K）和寬高比進(jìn)行采樣，然后計(jì)算每個圖像的 token 數(shù)量。最大視圖數(shù)量然后推導(dǎo)為：

其中是架構(gòu)視圖計(jì)數(shù)上限。實(shí)際視圖計(jì)數(shù)從中均勻采樣。當(dāng)采樣的視圖計(jì)數(shù)小于時，多個樣本被打包到同一個 GPU 以填充 token 預(yù)算，確保每個 GPU 的 token 計(jì)數(shù)嚴(yán)格受限：

其中是一個 GPU 上的圖像總數(shù)。多階段課程學(xué)習(xí)。在 WorldMirror 2.0 中，本文將幾何訓(xùn)練進(jìn)一步分解為兩個子階段，從而產(chǎn)生了一個三階段pipeline：階段1使用原生標(biāo)注訓(xùn)練所有幾何頭部；階段2引入深度到法線損失，同時顯著增加合成數(shù)據(jù)的比例；階段3凍結(jié)骨干網(wǎng)絡(luò)和所有幾何頭部，僅訓(xùn)練從深度頭部權(quán)重初始化的3DGS頭部。

世界生成階段四：世界構(gòu)成

任務(wù)描述。本階段的輸入定義為一個元組，包含初始全景圖（第3節(jié)）、其對應(yīng)的全景點(diǎn)云，以及基于預(yù)定義軌跡（第4節(jié)）由 WordExpand生成的所有個新關(guān)鍵幀。世界構(gòu)成的目標(biāo)是將這些輸入整合到一個統(tǒng)一的、可導(dǎo)航的3D表示中。這個過程包括兩個順序步驟：1）點(diǎn)云擴(kuò)展：通過使用生成的關(guān)鍵幀擴(kuò)展來構(gòu)建一個全局對齊的點(diǎn)云。2）3D場景優(yōu)化：訓(xùn)練一個以擴(kuò)展點(diǎn)云初始化的3DGS，以合成完整的高保真3D世界。

通過 WorldMirror 2.0 進(jìn)行重建。本文首先從完全生成的幀序列中下采樣一個幀的子集。隨后，應(yīng)用 WorldMirror 2.0 估算此子集的每幀深度圖和法線圖，并以其各自的相機(jī)姿態(tài)作為幾何先驗(yàn)條件：

其中表示 WorldMirror 2.0 網(wǎng)絡(luò)。

深度對齊。本文提出了一種魯棒的對齊策略，利用全景點(diǎn)云作為幾何指導(dǎo)，將 WorldMirror 深度修正為對齊深度圖。形式上，本文從的視點(diǎn)渲染以獲取稀疏引導(dǎo)深度，如下圖14所示。對齊過程被公式化為：

其中表示視圖的可靠性掩碼，指示應(yīng)該強(qiáng)制執(zhí)行對齊的有效重疊區(qū)域。本文將定義為多個經(jīng)驗(yàn)掩碼的交集：

3D 場景優(yōu)化。增長和稠密化。本文將初始點(diǎn)云分割為天空和場景子集，分別表示為和。標(biāo)準(zhǔn)增長策略僅應(yīng)用于，從而在紋理豐富的區(qū)域?qū)崿F(xiàn)必要的稠密化，同時嚴(yán)格防止天空產(chǎn)生浮點(diǎn)偽影。本文整合了 MaskGaussian。具體而言，對于第個高斯點(diǎn)，通過 Gumbel-Softmax從可學(xué)習(xí)的掩碼 logits 中采樣一個二值掩碼。然后將此掩碼通過掩碼渲染方案整合到基于瓦片的柵格化器中。對于給定像素，渲染顏色和透射率演變被重新公式化為：

其中表示不透明度，是按深度順序累積的第個高斯點(diǎn)的透射率。為鼓勵稀疏性，平方損失對平均掩碼激活進(jìn)行正則化：

優(yōu)化與損失。對于第個訓(xùn)練視圖，3DGS 渲染器生成一個 RGB 圖像和一個深度圖。對應(yīng)的表面法線通過的歸一化空間梯度解析得出。光度目標(biāo)定義為：

其中地面真實(shí)圖像從全景圖和生成的關(guān)鍵幀分割的視圖并集中采樣。為了強(qiáng)制幾何一致性，本文引入了一個幾何損失：

其中表示像素級余弦相似度。因此，總的3DGS訓(xùn)練目標(biāo)由以下公式給出：

網(wǎng)格提取。為了支持下游應(yīng)用，如碰撞檢測和物理模擬，本文進(jìn)一步從優(yōu)化的3DGS表示中提取網(wǎng)格。具體而言，本文從所有訓(xùn)練視圖渲染RGB圖像和深度圖，并將其整合到截?cái)喾柧嚯x函數(shù)（TSDF）體中。最終網(wǎng)格通過行進(jìn)立方體算法 [46] 提取。

實(shí)驗(yàn)總結(jié)結(jié)果：多模態(tài)世界創(chuàng)建HY-Pano 2.0 的結(jié)果與分析

本文將HY-Pano 2.0的全景生成與文本到全景（T2P）和圖像到全景（I2P）任務(wù)中的幾種最先進(jìn)方法進(jìn)行了定性和定量比較。對于T2P，本文與DiT360、Matrix3D 和 HY-World 1.0 進(jìn)行了比較。對于I2P，本文與CubeDiff、GenEx和 HY-World 1.0進(jìn)行了比較。

定量結(jié)果。如下表4展示了T2P和I2P任務(wù)的定量比較。使用多個互補(bǔ)指標(biāo)評估生成的全景圖。CLIP-T (T2P) 和 CLIP-I (I2P) 分別衡量文本-圖像和圖像-圖像對齊。Q-Align根據(jù)與人類評分對齊的大型多模態(tài)模型提供感知質(zhì)量（Qual）和美學(xué)（Aes）得分。如下表4所示，HY-Pano 2.0 在兩項(xiàng)任務(wù)的大多數(shù)指標(biāo)上均取得了最佳分?jǐn)?shù)。這些結(jié)果表明，與以往方法相比，HY-Pano 2.0 對輸入信號（文本提示或參考圖像）的遵循性更強(qiáng)，精細(xì)細(xì)節(jié)質(zhì)量更高，美學(xué)得分也得到提升。

定性結(jié)果。首先在如下圖16中展示了一些以圖像和文本輸入為條件生成的全景圖。然后，在如下圖17和如下圖18中分別展示了T2P和I2P的定性比較。與現(xiàn)有方法相比，HY-Pano 2.0 生成的全景圖具有更結(jié)構(gòu)連貫的布局，在完整的360°視場角中表現(xiàn)出合理的空間排列和一致的幾何結(jié)構(gòu)。值得注意的是，它生成了更精細(xì)的細(xì)節(jié)，包括更銳利的紋理、更清晰的物體邊界和更豐富的高頻內(nèi)容，從而產(chǎn)生了更真實(shí)、更具視覺吸引力的全景圖。

WorldNav 的結(jié)果與分析

本文在如下圖19中進(jìn)行了定性比較，以直觀地展示每個軌跡規(guī)劃組件的必要性。僅在全景視圖上訓(xùn)練3DGS（如下圖19b）不可避免地會導(dǎo)致大量的幾何空洞和較差的渲染質(zhì)量。通過順序整合來自不同軌跡的視圖，場景完整性逐步提高。從單視圖生成的3D重建點(diǎn)云結(jié)果如如下表5所示，該表評估了多種方法在Tanks-and-Temples和MipNeRF360數(shù)據(jù)集上的點(diǎn)云精度、召回率、F1-分?jǐn)?shù)和AUC，其中WorldStereo 2.0及其DMD版本在大多數(shù)指標(biāo)上表現(xiàn)優(yōu)異。WorldNav 的軌跡細(xì)節(jié)如如下表1所示，該表概述了常規(guī)、環(huán)繞、重建感知、漫游和空中五種軌跡模式的最大數(shù)量及其特性。

WorldStereo 2.0 的結(jié)果與分析

相機(jī)控制能力的結(jié)果。本文在如下表6中定量評估了WorldStereo 2.0的相機(jī)控制能力，同時在如下表7中進(jìn)行了消融研究。這兩項(xiàng)評估均使用了從 [15] 中選取的100張具有挑戰(zhàn)性軌跡的域外圖像。WorldStereo 2.0 在所有相機(jī)指標(biāo)上均以最低錯誤率優(yōu)于所有基于視頻的競爭對手。此外，本文在如下圖8中提供了定性比較，進(jìn)一步支持了這一結(jié)論，該圖展示了Keyframe-VAE在重建和新視圖生成方面比Video-VAE具有更好的外觀一致性和保真度。

記憶訓(xùn)練和蒸餾的消融研究。本文在如上表8中全面評估了記憶訓(xùn)練和后期蒸餾。整合 GGM 和 SSM++（配置 A）顯著提高了光度質(zhì)量和多軌跡一致性。最后，在應(yīng)用 DMD 后期蒸餾（配置 G）后，模型不僅保持了可比的相機(jī)控制能力，甚至略微改善了光度和一致性指標(biāo)。

世界構(gòu)成的結(jié)果與分析

重建與對齊。盡管前文證實(shí)了 WorldMirror 2.0 在已知相機(jī)姿態(tài)下點(diǎn)云擴(kuò)展的有效性，但本文在如下圖20中進(jìn)一步將整體構(gòu)成pipeline與同時期的世界重建方法 video2world 進(jìn)行了評估。為確保公平比較，兩種方法均在 WorldStereo 2.0 生成的300視圖圖像上進(jìn)行評估。如如下圖20所示，盡管 video2world 通過特征匹配的迭代最近點(diǎn)（ICP）生成了令人印象深刻的點(diǎn)云，但該過程本質(zhì)上難以并行化，導(dǎo)致每個場景的計(jì)算開銷高達(dá)約5小時。相比之下，本文的輕量級線性對齊充分利用了相機(jī)姿態(tài)先驗(yàn)，在不到2分鐘內(nèi)實(shí)現(xiàn)了可比的重建質(zhì)量。

高斯輻射場。本文對所提出的3DGSpipeline的每個組件在10個場景中進(jìn)行了消融研究，并在20視圖驗(yàn)證集上進(jìn)行了評估（如下表9）。整合 MaskGaussian 解決了這一權(quán)衡問題：低頻區(qū)域中冗余的高斯點(diǎn)被剪枝，數(shù)量減少了73.7%（從5.254M減少到1.383M），而PSNR僅下降了-0.14 dB。

完整結(jié)果與 Marble 的比較

可探索和交互式世界。如下圖21所示，HY-World 2.0 產(chǎn)生了全面的多模態(tài)3D資產(chǎn)，包括全景圖、用于3DGS初始化的對齊點(diǎn)云、高保真3DGS渲染以及提取的幾何網(wǎng)格。更重要的是，這些豐富的3D表示超越了靜態(tài)可視化，成為可探索和交互式3D世界的基礎(chǔ)環(huán)境（參見如下圖22），該圖展示了用戶在HY-World 2.0生成的3D世界中進(jìn)行交互式探索，包括虛擬代理導(dǎo)航和實(shí)時碰撞檢測。

與最先進(jìn)技術(shù)比較。本文將方法與閉源商業(yè)世界模型 Marble進(jìn)行了比較。比較在兩種設(shè)置下進(jìn)行：使用相同的全景輸入（如下圖23）和使用相同的透視條件（如下圖24）。相比之下，本文的方法獲得了嚴(yán)格遵循所提供條件的高保真結(jié)果。此外，本文的生成在細(xì)節(jié)保留和新視圖的幾何一致性方面優(yōu)于 Marble。

運(yùn)行時分析。在 NVIDIA H20 GPU 上評估了 HY-World 2.0 的整體運(yùn)行時，如下表10所示，該表詳細(xì)列出了全景生成、軌跡規(guī)劃、世界擴(kuò)展、重建與對齊以及3DGS等各個階段的時間開銷。通過整合系統(tǒng)化的效率優(yōu)化，生成完整3D世界的端到端pipeline得到加速，僅需10分鐘。

從多視圖圖像或視頻重建世界

本文評估了 WorldMirror 2.0 作為獨(dú)立的重建基礎(chǔ)模型，在涵蓋點(diǎn)圖重建（如下表11）、相機(jī)姿態(tài)估計(jì)、深度估計(jì)、新視圖合成（如下表12）和表面法線估計(jì)（如下表13）的綜合基準(zhǔn)上。所有任務(wù)均在三種推理分辨率下進(jìn)行評估，即低（189×259）、中（378×518，WorldMirror 1.0 的默認(rèn)設(shè)置）和高（756×1036），以驗(yàn)證通過歸一化位置編碼實(shí)現(xiàn)的分辨率泛化能力。

WorldMirror 2.0 的結(jié)果與分析

點(diǎn)圖重建。本文在場景級數(shù)據(jù)集（7-Scenes, NRGBD）和對象級數(shù)據(jù)集（DTU）上評估了點(diǎn)圖重建，遵循 [69] 的相同序列映射。如如下表11所示，WorldMirror 1.0 在中等分辨率下已超越所有基線。WorldMirror 2.0 在每個分辨率下均有進(jìn)一步改進(jìn)。整合幾何先驗(yàn)帶來了額外的增益。

相機(jī)姿態(tài)、深度和新視圖合成。在如上表12中，本文聯(lián)合報(bào)告了 RealEstate10K 上的相機(jī)姿態(tài)估計(jì)和深度估計(jì)，以及 RealEstate10K 和 DL3DV 上平均的新視圖合成。對于相機(jī)姿態(tài)，WorldMirror 2.0 在每個分辨率下都提高了 AUC@30 優(yōu)于 WorldMirror 1.0。對于深度，WorldMirror 2.0 持續(xù)降低 AbsRel。對于新視圖合成，WorldMirror 2.0 在不同分辨率下保持了穩(wěn)定的性能。

表面法線估計(jì)。遵循 [3]，本文在 ScanNet、NYUv2 和 iBims-1上評估了表面法線估計(jì)。如下表13所示，WorldMirror 2.0 在中等分辨率下在所有三個基準(zhǔn)上都取得了最佳結(jié)果，超越了專用單任務(wù)方法。

定性結(jié)果。本文在如下圖25和如下圖26中展示了 WorldMirror 1.0 和 2.0 之間的視覺比較。如下圖25所示，WorldMirror 2.0 生成了更銳利、幾何更連貫的表面法線，該圖直觀地展示了WorldMirror 2.0在表面法線和重建點(diǎn)云方面比WorldMirror 1.0具有更精細(xì)的結(jié)構(gòu)細(xì)節(jié)和更高的一致性。如下圖26進(jìn)一步檢查了多分辨率魯棒性，該圖顯示W(wǎng)orldMirror 1.0在高分辨率下出現(xiàn)嚴(yán)重的幾何退化，而WorldMirror 2.0在所有測試分辨率下都保持了穩(wěn)定和連貫的重建。

推理時評估

幾何先驗(yàn)注入。 WorldMirror 的一個顯著特點(diǎn)是其靈活整合幾何先驗(yàn)的能力。本文在高分辨率下（如下圖27）比較了 WorldMirror 1.0 和 2.0 與先驗(yàn)引導(dǎo)方法 Pow3R 和 MapAnything在不同先驗(yàn)條件下的表現(xiàn)。WorldMirror 2.0 始終優(yōu)于所有替代方案，在相機(jī)條件和所有先驗(yàn)設(shè)置下表現(xiàn)出最大改進(jìn)。

推理效率。本文對前文中引入的 WorldMirror 2.0 推理效率優(yōu)化進(jìn)行了基準(zhǔn)測試。如下表14報(bào)告了在 NVIDIA H20 GPU 上，518×378 分辨率下不同視圖數(shù)量的每 GPU 內(nèi)存消耗（GB）和掛鐘推理時間（秒）。SP、BF16 和 FSDP 在4個 GPU 上的完整組合實(shí)現(xiàn)了最佳的權(quán)衡。

總結(jié)

HY-World 2.0，這是一個全面的多模態(tài)世界模型框架，彌合了3D世界生成與重建之間長期存在的鴻溝。通過動態(tài)適應(yīng)多樣化的輸入模態(tài)——從稀疏文本和單幅圖像到密集的S多視圖視頻——本文的框架為離線3D世界建模建立了統(tǒng)一的范式。為實(shí)現(xiàn)這一目標(biāo)，本文引入了一個四階段pipeline。本文升級了全景生成（HY-Pano 2.0）以實(shí)現(xiàn)高保真世界初始化，并設(shè)計(jì)了語義感知的軌跡規(guī)劃（WorldNav）以指導(dǎo)場景探索的最佳、無碰撞路線。此外，本文通過在具有空間一致性記憶的關(guān)鍵幀潛在空間中操作，顯著升級了生成性世界擴(kuò)展（WorldStereo 2.0）。最后，通過增強(qiáng)的3D重建基礎(chǔ)（WorldMirror 2.0）進(jìn)行世界構(gòu)成，以生成幾何精確且可導(dǎo)航的3DGS資產(chǎn)。本文還提出了一個高性能的3DGS渲染平臺（WorldLens），以實(shí)現(xiàn)3D世界的交互式探索，并支持角色和光照控制。廣泛的評估表明，HY-World 2.0 在開源方法中取得了最先進(jìn)的性能，其視覺質(zhì)量、幾何一致性和探索能力與領(lǐng)先的閉源商業(yè)模型極具競爭力。

參考文獻(xiàn)

[1] HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

原文標(biāo)題 : 國產(chǎn)首個開源、系統(tǒng)化的多模態(tài)世界模型HY-World 2.0：效果硬剛閉源商業(yè)模型