高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯
加入自媒體

國產(chǎn)首個開源、系統(tǒng)化的多模態(tài)世界模型HY-World 2.0:效果硬剛閉源商業(yè)模型

作者:騰訊混元團(tuán)隊(duì)

解讀:AI生成未來

亮點(diǎn)直擊

HY-World 2.0,一個多模態(tài)世界模型框架,它將3D世界生成與重建無縫統(tǒng)一。

支持文本提示、單視圖圖像、多視圖圖像和視頻等多樣化輸入模態(tài),生成高保真、可導(dǎo)航的3D高斯輻射場(3DGS)場景。

引入了一系列關(guān)鍵創(chuàng)新,包括 HY-Pano 2.0(全景生成)、WorldNav(軌跡規(guī)劃)、WorldStereo 2.0(世界擴(kuò)展)和 WorldMirror 2.0(世界構(gòu)成及重建),以提升全景保真度、實(shí)現(xiàn)3D場景理解和規(guī)劃、并增強(qiáng)視圖生成及預(yù)測能力。

推出了 WorldLens,一個高性能的3DGS渲染平臺,支持交互式探索和角色支持。

在開源方法中取得了最先進(jìn)的性能,與閉源模型 Marble 相比也具有競爭力,并發(fā)布了所有模型權(quán)重、代碼和技術(shù)細(xì)節(jié)以促進(jìn)可復(fù)現(xiàn)性。HY-World 2.0的多功能應(yīng)用

HY-World 2.0的多功能應(yīng)用

總結(jié)速覽

解決的問題

當(dāng)前3D世界建模領(lǐng)域普遍存在生成與重建任務(wù)的二元分離,現(xiàn)有解決方案通常專注于其中一個領(lǐng)域,導(dǎo)致生成方法難以保持嚴(yán)格的重建精度,而重建方法缺乏生成能力以幻化未見區(qū)域。

缺乏一個全面的、多模態(tài)的開源基礎(chǔ)世界模型來彌合生成與重建之間的鴻溝。

現(xiàn)有 HY-World 1.0 版本在全景保真度、3D場景理解和規(guī)劃以及視圖生成一致性方面存在局限。

提出的方案

引入了 HY-World 2.0,首個開源、系統(tǒng)化的多模態(tài)世界模型,通過統(tǒng)一的離線3D世界模型范式,無縫整合了“生成”和“重建”兩大功能。

該框架能夠適應(yīng)文本、單視圖圖像、多視圖圖像和視頻等多種輸入模態(tài),并根據(jù)可用條件動態(tài)調(diào)整其行為。

設(shè)計(jì)了一個新穎的四階段pipeline來驅(qū)動世界生成,并升級了前饋3D重建組件以支持世界重建。

應(yīng)用的技術(shù)

核心建模: 3D高斯輻射場(3DGS)用于場景表示和渲染。

全景生成: HY-Pano 2.0,采用多模態(tài)擴(kuò)散 Transformer (MMDiT) 和循環(huán)填充與像素混合策略。

軌跡規(guī)劃: WorldNav,基于 NavMesh、Dijkstra 算法以及五種啟發(fā)式軌跡模式(常規(guī)、環(huán)繞、重建感知、漫游、空中)。

世界擴(kuò)展: WorldStereo 2.0,采用 Keyframe-VAE 和相機(jī)引導(dǎo)視頻擴(kuò)散模型 (VDMs),并結(jié)合全局幾何記憶 (GGM) 和空間立體記憶 (SSM++) 機(jī)制,通過分布匹配蒸餾 (DMD) 進(jìn)行加速。

世界重建: WorldMirror 2.0,采用統(tǒng)一的前饋Transformer骨干網(wǎng)絡(luò)和任務(wù)特定的 DPT 解碼器頭,引入了歸一化位置編碼、深度到法線的損失、深度掩碼預(yù)測頭、序列并行、BF16混合精度和FSDP等優(yōu)化策略。

場景優(yōu)化與網(wǎng)格提取: 基于截?cái)喾柧嚯x函數(shù) (TSDF) 體和行進(jìn)立方體算法提取網(wǎng)格。

達(dá)到的效果

在多個基準(zhǔn)測試中,HY-World 2.0 的性能超越了現(xiàn)有開源方法,并與閉源模型 Marble 的結(jié)果相媲美。

生成了高保真、可導(dǎo)航的3D高斯輻射場場景,其視覺質(zhì)量、幾何一致性和探索能力顯著提升。

實(shí)現(xiàn)了從文本、單視圖圖像、多視圖圖像和視頻等多樣化輸入生成和重建3D世界的能力。

WorldNav 軌跡規(guī)劃顯著提升了場景完整性和細(xì)節(jié)覆蓋。

WorldStereo 2.0 顯著提高了相機(jī)控制精度和多軌跡一致性。

WorldMirror 2.0 在點(diǎn)圖重建、相機(jī)姿態(tài)、深度和法線估計(jì)以及新視圖合成方面達(dá)到了最先進(jìn)水平,并展現(xiàn)了出色的多分辨率泛化能力和推理效率。

生成的3D世界支持實(shí)時碰撞檢測和物理反饋,為游戲、虛擬現(xiàn)實(shí)和具身人工智能等下游應(yīng)用奠定了基礎(chǔ)。

項(xiàng)目代碼、模型權(quán)重和技術(shù)細(xì)節(jié)已全部開源,促進(jìn)了研究的可復(fù)現(xiàn)性。

架構(gòu)方法

在如下圖2所示的HY-World 2.0總覽中,將其多模態(tài)世界模型介紹為一個四階段pipeline,模擬了理解、合成和重建世界的過程。具體而言,該pipeline始于全景生成,將任意文本或圖像輸入轉(zhuǎn)換為高保真的360°世界初始化。隨后,進(jìn)行精細(xì)的軌跡規(guī)劃,以解析和理解初始化的世界,并推導(dǎo)出最優(yōu)且信息豐富的觀察路徑。沿著這些規(guī)劃的路線,生成性的世界擴(kuò)展利用記憶更新機(jī)制,確保在生成的關(guān)鍵幀中實(shí)現(xiàn)精確的相機(jī)控制和多視圖一致性。最后,通過將這些生成的序列輸入到WorldMirror 2.0進(jìn)行魯棒的3D重建,并輔以量身定制的3DGS優(yōu)化,從而實(shí)現(xiàn)沉浸式3D世界的世界構(gòu)成。

世界生成階段一:全景生成

全景圖能從一個固定視點(diǎn)捕捉完整的360° × 180°視場角(FoV),提供整個場景的全面且信息豐富的表示。與僅提供有限物理世界視圖的標(biāo)準(zhǔn)透視圖像不同,360°全景圖保留了全局空間上下文和復(fù)雜的語義關(guān)系。因此,這種整體表示正日益被認(rèn)為是大規(guī)模3D世界生成的基礎(chǔ),為連貫的視點(diǎn)合成和沉浸式虛擬探索提供了必要的空間一致性。

在本階段,本文提出了HY-Pano 2.0,旨在從多模態(tài)條件(包括文本和單視圖圖像)合成高保真全景圖。為實(shí)現(xiàn)這一目標(biāo),本文從兩個正交維度優(yōu)化了生成pipeline:(1)實(shí)施了一個先進(jìn)的數(shù)據(jù)策展pipeline;(2)引入了一個專用的360°生成模型,該模型以無幾何方式隱式學(xué)習(xí)透視輸入與全景目標(biāo)之間的空間映射。

為了構(gòu)建高保真全景合成的堅(jiān)實(shí)基礎(chǔ),本文的數(shù)據(jù)策展pipeline在HY-World 1.0的既定框架上進(jìn)行了擴(kuò)展,同時顯著增加了訓(xùn)練數(shù)據(jù)的豐富性和多樣性。具體而言,本文升級后的數(shù)據(jù)集整合了兩個主要數(shù)據(jù)源:(1)真實(shí)世界捕捉:包含了大量的、高分辨率的真實(shí)世界全景圖,以使模型具備真實(shí)的照明、復(fù)雜的紋理和自然的結(jié)構(gòu)先驗(yàn)。(2)合成資產(chǎn):利用了通過虛幻引擎(UE)等高端引擎渲染的大規(guī)模合成環(huán)境數(shù)據(jù)集。這些資產(chǎn)提供了精確的幾何標(biāo)簽和多樣化、富有想象力的場景配置,這些在野外很難獲得。為確保數(shù)據(jù)完整性,本文實(shí)施了嚴(yán)格的數(shù)據(jù)過濾階段,以消除低質(zhì)量樣本,特別是那些表現(xiàn)出明顯拼接偽影或暴露了捕捉設(shè)備(例如全景相機(jī))的樣本。這種混合數(shù)據(jù)策略有效拓寬了數(shù)據(jù)集的語義分布,并緩解了合成與真實(shí)世界分布之間的領(lǐng)域差距,使模型能夠在復(fù)雜的室內(nèi)和室外環(huán)境中穩(wěn)健泛化。

為實(shí)現(xiàn)從透視輸入到高保真全景圖的合成,本文超越了依賴顯式幾何扭曲的傳統(tǒng)方法,這是HY-World 1.0中曾采用的范式。傳統(tǒng)的pipeline通常需要精確的相機(jī)內(nèi)參(例如焦距和視場角)來執(zhí)行透視與等距柱狀投影(ERP)域之間的空間對齊。然而,此類元數(shù)據(jù)在真實(shí)世界場景中往往不可用或不準(zhǔn)確。這個瓶頸固有地限制了HY-World 1.0框架的靈活性,并經(jīng)常導(dǎo)致明顯的投影畸變。為解決此問題,本文采用了一種由多模態(tài)擴(kuò)散 Transformer (MMDiT) 驅(qū)動的隱式、自適應(yīng)映射策略,如下圖3所示。MMDiT不依賴顯式相機(jī)先驗(yàn),而是在統(tǒng)一的潛在空間中處理?xiàng)l件輸入和全景目標(biāo)。通過將條件圖像潛在與全景噪聲潛在拼接成一個統(tǒng)一的 token 序列,MMDiT 利用其自注意力機(jī)制自主學(xué)習(xí)底層的透視到ERP轉(zhuǎn)換。這種純數(shù)據(jù)驅(qū)動的方法使網(wǎng)絡(luò)能夠直接在特征空間內(nèi)建立空間對應(yīng)關(guān)系,使其能夠靈活地幻化缺失的環(huán)境細(xì)節(jié)并保持全局結(jié)構(gòu)一致性,即使在未校準(zhǔn)和多樣化的輸入圖像下也能實(shí)現(xiàn)。

ERP生成中的一個常見挑戰(zhàn)是左右邊緣的不連續(xù)性。為消除這些邊界偽影,本文引入了一種結(jié)合了循環(huán)填充和像素混合的精修策略,如上圖3右側(cè)所示。在潛在層面,本文對潛在特征應(yīng)用循環(huán)填充,在去噪過程中強(qiáng)制執(zhí)行周期性邊界條件。填充后的潛在被解碼到像素空間,其中沿等距柱狀邊緣采用線性像素混合策略。這種組合協(xié)調(diào)有效平滑了360°環(huán)繞過渡,確保了完美無縫且結(jié)構(gòu)連貫的全景輸出。

世界生成階段二:軌跡規(guī)劃

任務(wù)描述。 在高保真全景圖(第3節(jié))合成之后,接下來的目標(biāo)是推導(dǎo)探索軌跡,以最大化可導(dǎo)航空間的覆蓋范圍。為將其與即將到來的世界擴(kuò)展階段連接起來,本文引入了WorldNav,一個全面的軌跡規(guī)劃策略。WorldNav不僅生成多樣化的相機(jī)路徑以確保廣泛的視點(diǎn)覆蓋,還將其與精確的文本指令配對,從而為下游生成過程提供明確指導(dǎo)。

給定全景網(wǎng)格、NavMesh和3D語義地標(biāo),本文為WorldNav設(shè)計(jì)了五種啟發(fā)式軌跡模式。這些軌跡從全景圖的中心開始,旨在全面覆蓋多樣化的視點(diǎn),同時確保無碰撞移動,如如下圖5所示。

常規(guī)軌跡。 本文采用常規(guī)軌跡來普遍擴(kuò)展全景空間固定原點(diǎn)之外的視覺覆蓋范圍,如上圖5(a)所示。

環(huán)繞軌跡。 為方便場景生成過程中前景的視覺質(zhì)量,本文設(shè)計(jì)了環(huán)繞最顯著物體的軌跡,如如下圖5(b)所示。

重建感知軌跡。 為彌補(bǔ)后續(xù)3D重建的空白,本文引入了迭代重建感知軌跡,專門針對觀察不足的區(qū)域,如上圖5(c)所示。

漫游軌跡。 為最大化場景覆蓋并觸及場景的環(huán)境邊界,本文提出了漫游軌跡,如上圖5(d)所示。

空中軌跡。 最后,本文引入輔助空中軌跡以消除剩余的盲視點(diǎn),如上圖5(e)所示。

WorldNav的軌跡詳細(xì)信息如如下表1所示。

世界生成階段三:世界擴(kuò)展

任務(wù)描述。 在高質(zhì)量全景圖和廣覆蓋相機(jī)軌跡的基礎(chǔ)上,本文提出了WorldStereo 2.0。作為WorldStereo 1.0 [62] 的升級版,它利用相機(jī)引導(dǎo)的視頻生成來合成大量新穎視圖,以實(shí)現(xiàn)世界擴(kuò)展。如下圖6所示,訓(xùn)練過程包含三個階段,分別旨在實(shí)現(xiàn)相機(jī)控制、基于記憶的一致性和高效推理。

WorldStereo 2.0 概述。 WorldStereo 2.0 通過在關(guān)鍵幀潛在空間中,利用幾何感知的記憶,實(shí)現(xiàn)一致的多軌跡視頻生成,從而連接了相機(jī)條件視頻擴(kuò)散模型 (VDMs) 和3D場景重建,如如下表2所示并如下圖7所示。具體而言,本文首先重新審視了標(biāo)準(zhǔn) Video-VAE 的局限性,其時空壓縮常常導(dǎo)致偽影,從而降低下游重建質(zhì)量——取而代之的是,本文在關(guān)鍵幀潛在空間中構(gòu)建了 WorldStereo 2.0,并通過精確的相機(jī)控制來保留高頻細(xì)節(jié)。這通過一種新穎的 Keyframe-VAE 實(shí)現(xiàn),如如下圖9所示。

顯式相機(jī)控制。 遵循 [8, 62],WorldStereo 2.0 基于預(yù)訓(xùn)練的視頻 DiT 構(gòu)建,并集成了從頭開始訓(xùn)練的輕量級基于 Transformer 的相機(jī)適配器,如上圖7(b)所示。形式上,WorldStereo 2.0 融合了相機(jī) Plücker 射線和點(diǎn)云作為互補(bǔ)的相機(jī)引導(dǎo),以實(shí)現(xiàn)后續(xù)3D重建的顯式和精確相機(jī)控制。在域適應(yīng)階段,本文僅使用從參考視圖  提取的點(diǎn)云 (N ≤ HW,經(jīng)過浮點(diǎn)過濾后),而不是全景點(diǎn)云。本文將其扭曲到每個目標(biāo)視圖以獲得 ,表示為:

其中  和  分別表示目標(biāo)視圖  的相機(jī)到世界坐標(biāo)系矩陣和內(nèi)參矩陣; 是在像素  處對參考視圖估計(jì)的單目深度,而  是齊次像素坐標(biāo)。

中間訓(xùn)練:記憶機(jī)制。全局幾何記憶 (GGM) 將擴(kuò)展點(diǎn)云渲染成視頻,作為全局3D先驗(yàn),以生成多個一致的視頻,如如下圖7(b)所示。特別是在全景場景中,GGM 允許 WorldStereo 2.0 內(nèi)化360°環(huán)境結(jié)構(gòu),顯著提高幾何一致性。本文使用通過擴(kuò)展的全局點(diǎn)云  渲染的視頻來微調(diào) WorldStereo 2.0,該點(diǎn)云超出了參考點(diǎn) ,表示為:

其中  表示從  個新視圖中隨機(jī)采樣的附加點(diǎn)云,如下圖10(a)所示。

改進(jìn)的空間立體記憶 (SSM++)。 在 WorldStereo 2.0 中,本文通過 SSM++ 改進(jìn)了此設(shè)計(jì),保留了水平檢索拼接的核心概念,同時引入了顯著改進(jìn)。首先,本文摒棄了 WorldStereo 中使用的獨(dú)立記憶分支,而是將檢索到的關(guān)鍵幀直接整合到主 DiT 分支中(如上圖7a所示)。其次,如下圖11所示,本文修改了旋轉(zhuǎn)位置嵌入 (RoPE)以適應(yīng)這種集成。每個目標(biāo)視圖都與其檢索到的對應(yīng)視圖水平拼接,共享相同的時間索引。最后,為了增強(qiáng)靈活性,本文將 WorldStereo 的顯式點(diǎn)圖引導(dǎo)替換為隱式相機(jī)嵌入。形式上,本文將所有輸入相機(jī)姿態(tài)歸一化為統(tǒng)一的世界坐標(biāo),并將其表示為7維向量(四元數(shù)和平移)。然后這些向量由一個3層 MLP 編碼為相機(jī) token,通過零初始化添加到目標(biāo)和檢索到的關(guān)鍵幀特征中,以提供幾何感知。

記憶庫和檢索策略。 在中間訓(xùn)練階段,本文采用了不同的檢索策略來適應(yīng)不同的數(shù)據(jù)特性,如上圖10(b)所示。本文采用時間錯位檢索來處理現(xiàn)有的多視圖數(shù)據(jù)。此外,本文使用 UE 構(gòu)建了一個合成數(shù)據(jù)集,其中每個資產(chǎn)具有多個軌跡。對于這個合成數(shù)據(jù),本文采用多軌跡檢索,根據(jù)3D視場角相似性從替代軌跡中選擇最相關(guān)的幀。

記憶增強(qiáng)。 為了減輕由于不完善的點(diǎn)云和檢索生成而可能產(chǎn)生的誤差累積,本文在中間訓(xùn)練階段采用了全面的數(shù)據(jù)增強(qiáng)來提高記憶組件的魯棒性。

后期訓(xùn)練:模型蒸餾。 在后期蒸餾階段,本文應(yīng)用修改后的分布匹配蒸餾 (DMD)來加速 WorldStereo 2.0 的推理。DMD 擴(kuò)展了變分分?jǐn)?shù)蒸餾 (VSD)的思想,通過從凍結(jié)的真實(shí)分?jǐn)?shù)函數(shù)  和可訓(xùn)練的偽分?jǐn)?shù)函數(shù)  之間的差異構(gòu)建的近似 Kullback-Liebler (KL) 散度來蒸餾少步驟擴(kuò)散學(xué)生 。DMD 的更新梯度可以寫為:

其中  表示給定隨機(jī)高斯噪聲  和  的學(xué)生生成,而  表示前向擴(kuò)散過程。

世界重建:WorldMirror 2.0

在詳細(xì)介紹最終的世界構(gòu)成階段之前,本文首先介紹了升級后的前饋3D重建模型 WorldMirror 2.0,它作為2D關(guān)鍵幀生成與3D世界構(gòu)成之間的關(guān)鍵橋梁。世界生成旨在從稀疏輸入(例如單視圖圖像或文本)合成可探索的3D世界,而世界重建則側(cè)重于從密集的2D視覺觀測(即多視圖圖像或視頻)中恢復(fù)幾何精確的3D空間關(guān)系。在 HY-World 2.0 中,本文在 WorldMirror的基礎(chǔ)上構(gòu)建了這種重建能力,它是一個用于全面3D幾何預(yù)測的統(tǒng)一前饋模型。本文解決了 WorldMirror 1.0 的三個關(guān)鍵局限性:(1)在非訓(xùn)練分辨率下的性能下降,(2)由于缺乏顯式深度-法線耦合導(dǎo)致的深度幾何一致性有限,以及(3)擴(kuò)展到大量視圖時內(nèi)存和延遲過高。這些問題分別通過模型架構(gòu)、訓(xùn)練數(shù)據(jù)和監(jiān)督以及訓(xùn)練策略(第6.5節(jié))的改進(jìn)得以解決。如下圖12所示為整體模型架構(gòu),如下表3總結(jié)了 WorldMirror 1.0 和 WorldMirror 2.0 之間的主要區(qū)別。

回顧 WorldMirror 1.0。 WorldMirror是一個用于全面3D幾何預(yù)測的統(tǒng)一前饋模型(參見如上圖12)。其核心設(shè)計(jì)是“任意模態(tài) token 化”,它將所有輸入模態(tài),包括圖像、相機(jī)姿態(tài)、內(nèi)參和深度圖,編碼為統(tǒng)一序列中的 token。

模型改進(jìn)。 如上表3總結(jié)所示,本文在 WorldMirror 2.0 中引入了三項(xiàng)關(guān)鍵的模型級改進(jìn):用于靈活分辨率推理的歸一化位置編碼、通過深度到法線損失對深度進(jìn)行顯式基于法線的監(jiān)督,以及一個專用的深度掩碼預(yù)測頭,用于穩(wěn)健處理無效像素。深度到法線損失  定義為:

其中  是預(yù)測的深度圖,而  和  分別是預(yù)測法線圖的 x 和 y 分量。深度掩碼預(yù)測頭輸出每個像素的有效性 logit ,并使用二元交叉熵?fù)p失進(jìn)行訓(xùn)練:

其中  表示地面真實(shí)有效性標(biāo)簽, 是具有已知有效性的像素集合。

數(shù)據(jù)改進(jìn)。 本文通過兩項(xiàng)關(guān)鍵的補(bǔ)充擴(kuò)展了 WorldMirror 2.0 的訓(xùn)練數(shù)據(jù)。首先,本文整合了來自虛幻引擎場景的高質(zhì)量合成渲染,這些渲染提供了多樣化室內(nèi)外環(huán)境中的像素級精確地面真實(shí)幾何。其次,本文對真實(shí)世界數(shù)據(jù)集采用了僅法線的偽標(biāo)簽增強(qiáng)策略。

推理效率改進(jìn)。 WorldMirror 2.0 引入了三種互補(bǔ)的加速策略,以實(shí)現(xiàn)可擴(kuò)展的多 GPU 部署。首先,本文在兩個粒度上采用了序列并行:用于 Transformer 骨干網(wǎng)絡(luò)的 token 級并行以及用于 DPT 解碼器頭部的幀級并行。其次,遵循 VGGT-X [65],本文通過將大多數(shù)參數(shù)轉(zhuǎn)換為 BF16,同時將一小部分精度關(guān)鍵模塊保留在 FP32 中,應(yīng)用了選擇性混合精度推理。第三,本文采用完全分片數(shù)據(jù)并行 (FSDP) 將模型參數(shù)分片到多個 GPU 上。

訓(xùn)練策略改進(jìn)。基于 token 的動態(tài)批量大小調(diào)整。 本文固定了每個 GPU 的最大 token 預(yù)算 (例如25,000個 token)。在每次迭代中,本文首先對每個圖像分辨率(可配置范圍內(nèi)的像素?cái)?shù)量,例如50K-500K)和寬高比進(jìn)行采樣,然后計(jì)算每個圖像的 token 數(shù)量 。最大視圖數(shù)量然后推導(dǎo)為:

其中  是架構(gòu)視圖計(jì)數(shù)上限。實(shí)際視圖計(jì)數(shù)從  中均勻采樣。當(dāng)采樣的視圖計(jì)數(shù)小于  時,多個樣本被打包到同一個 GPU 以填充 token 預(yù)算,確保每個 GPU 的 token 計(jì)數(shù)嚴(yán)格受限:

其中  是一個 GPU 上的圖像總數(shù)。多階段課程學(xué)習(xí)。 在 WorldMirror 2.0 中,本文將幾何訓(xùn)練進(jìn)一步分解為兩個子階段,從而產(chǎn)生了一個三階段pipeline:階段1使用原生標(biāo)注訓(xùn)練所有幾何頭部;階段2引入深度到法線損失,同時顯著增加合成數(shù)據(jù)的比例;階段3凍結(jié)骨干網(wǎng)絡(luò)和所有幾何頭部,僅訓(xùn)練從深度頭部權(quán)重初始化的3DGS頭部。

世界生成階段四:世界構(gòu)成

任務(wù)描述。 本階段的輸入定義為一個元組,包含初始全景圖 (第3節(jié))、其對應(yīng)的全景點(diǎn)云 ,以及基于預(yù)定義軌跡 (第4節(jié))由 WordExpand生成的所有  個新關(guān)鍵幀 。世界構(gòu)成的目標(biāo)是將這些輸入整合到一個統(tǒng)一的、可導(dǎo)航的3D表示中。這個過程包括兩個順序步驟:1)點(diǎn)云擴(kuò)展:通過使用生成的關(guān)鍵幀擴(kuò)展  來構(gòu)建一個全局對齊的點(diǎn)云 。2)3D場景優(yōu)化:訓(xùn)練一個以擴(kuò)展點(diǎn)云  初始化的3DGS,以合成完整的高保真3D世界。

通過 WorldMirror 2.0 進(jìn)行重建。 本文首先從完全生成的  幀序列中下采樣一個  幀的子集。隨后,應(yīng)用 WorldMirror 2.0 估算此子集的每幀深度圖和法線圖,并以其各自的相機(jī)姿態(tài)作為幾何先驗(yàn)條件:

其中  表示 WorldMirror 2.0 網(wǎng)絡(luò)。

深度對齊。 本文提出了一種魯棒的對齊策略,利用全景點(diǎn)云  作為幾何指導(dǎo),將 WorldMirror 深度  修正為對齊深度圖 。形式上,本文從  的視點(diǎn)渲染  以獲取稀疏引導(dǎo)深度 ,如下圖14所示。對齊過程被公式化為:

其中  表示視圖  的可靠性掩碼,指示應(yīng)該強(qiáng)制執(zhí)行對齊的有效重疊區(qū)域。本文將  定義為多個經(jīng)驗(yàn)掩碼的交集:

3D 場景優(yōu)化。增長和稠密化。 本文將初始點(diǎn)云  分割為天空和場景子集,分別表示為  和 。標(biāo)準(zhǔn)增長策略僅應(yīng)用于 ,從而在紋理豐富的區(qū)域?qū)崿F(xiàn)必要的稠密化,同時嚴(yán)格防止天空產(chǎn)生浮點(diǎn)偽影。本文整合了 MaskGaussian。具體而言,對于第  個高斯點(diǎn),通過 Gumbel-Softmax從可學(xué)習(xí)的掩碼 logits 中采樣一個二值掩碼 。然后將此掩碼通過掩碼渲染方案整合到基于瓦片的柵格化器中。對于給定像素 ,渲染顏色  和透射率演變  被重新公式化為:

其中  表示不透明度, 是按深度順序累積的第  個高斯點(diǎn)的透射率。為鼓勵稀疏性,平方損失對平均掩碼激活進(jìn)行正則化:

優(yōu)化與損失。 對于第  個訓(xùn)練視圖,3DGS 渲染器生成一個 RGB 圖像  和一個深度圖 。對應(yīng)的表面法線  通過  的歸一化空間梯度解析得出。光度目標(biāo)定義為:

其中地面真實(shí)圖像  從全景圖和生成的關(guān)鍵幀分割的視圖并集中采樣。為了強(qiáng)制幾何一致性,本文引入了一個幾何損失:

其中  表示像素級余弦相似度。因此,總的3DGS訓(xùn)練目標(biāo)由以下公式給出:

網(wǎng)格提取。 為了支持下游應(yīng)用,如碰撞檢測和物理模擬,本文進(jìn)一步從優(yōu)化的3DGS表示中提取網(wǎng)格。具體而言,本文從所有訓(xùn)練視圖渲染RGB圖像和深度圖,并將其整合到截?cái)喾柧嚯x函數(shù)(TSDF)體中。最終網(wǎng)格通過行進(jìn)立方體算法 [46] 提取。

實(shí)驗(yàn)總結(jié)結(jié)果:多模態(tài)世界創(chuàng)建HY-Pano 2.0 的結(jié)果與分析

本文將HY-Pano 2.0的全景生成與文本到全景(T2P)和圖像到全景(I2P)任務(wù)中的幾種最先進(jìn)方法進(jìn)行了定性和定量比較。對于T2P,本文與DiT360、Matrix3D 和 HY-World 1.0 進(jìn)行了比較。對于I2P,本文與CubeDiff、GenEx和 HY-World 1.0進(jìn)行了比較。

定量結(jié)果。 如下表4展示了T2P和I2P任務(wù)的定量比較。使用多個互補(bǔ)指標(biāo)評估生成的全景圖。CLIP-T (T2P) 和 CLIP-I (I2P) 分別衡量文本-圖像和圖像-圖像對齊。Q-Align根據(jù)與人類評分對齊的大型多模態(tài)模型提供感知質(zhì)量(Qual)和美學(xué)(Aes)得分。如下表4所示,HY-Pano 2.0 在兩項(xiàng)任務(wù)的大多數(shù)指標(biāo)上均取得了最佳分?jǐn)?shù)。這些結(jié)果表明,與以往方法相比,HY-Pano 2.0 對輸入信號(文本提示或參考圖像)的遵循性更強(qiáng),精細(xì)細(xì)節(jié)質(zhì)量更高,美學(xué)得分也得到提升。

定性結(jié)果。 首先在如下圖16中展示了一些以圖像和文本輸入為條件生成的全景圖。然后,在如下圖17和如下圖18中分別展示了T2P和I2P的定性比較。與現(xiàn)有方法相比,HY-Pano 2.0 生成的全景圖具有更結(jié)構(gòu)連貫的布局,在完整的360°視場角中表現(xiàn)出合理的空間排列和一致的幾何結(jié)構(gòu)。值得注意的是,它生成了更精細(xì)的細(xì)節(jié),包括更銳利的紋理、更清晰的物體邊界和更豐富的高頻內(nèi)容,從而產(chǎn)生了更真實(shí)、更具視覺吸引力的全景圖。

WorldNav 的結(jié)果與分析

本文在如下圖19中進(jìn)行了定性比較,以直觀地展示每個軌跡規(guī)劃組件的必要性。僅在全景視圖上訓(xùn)練3DGS(如下圖19b)不可避免地會導(dǎo)致大量的幾何空洞和較差的渲染質(zhì)量。通過順序整合來自不同軌跡的視圖,場景完整性逐步提高。從單視圖生成的3D重建點(diǎn)云結(jié)果如如下表5所示,該表評估了多種方法在Tanks-and-Temples和MipNeRF360數(shù)據(jù)集上的點(diǎn)云精度、召回率、F1-分?jǐn)?shù)和AUC,其中WorldStereo 2.0及其DMD版本在大多數(shù)指標(biāo)上表現(xiàn)優(yōu)異。WorldNav 的軌跡細(xì)節(jié)如如下表1所示,該表概述了常規(guī)、環(huán)繞、重建感知、漫游和空中五種軌跡模式的最大數(shù)量及其特性。

WorldStereo 2.0 的結(jié)果與分析

相機(jī)控制能力的結(jié)果。 本文在如下表6中定量評估了WorldStereo 2.0的相機(jī)控制能力,同時在如下表7中進(jìn)行了消融研究。這兩項(xiàng)評估均使用了從 [15] 中選取的100張具有挑戰(zhàn)性軌跡的域外圖像。WorldStereo 2.0 在所有相機(jī)指標(biāo)上均以最低錯誤率優(yōu)于所有基于視頻的競爭對手。此外,本文在如下圖8中提供了定性比較,進(jìn)一步支持了這一結(jié)論,該圖展示了Keyframe-VAE在重建和新視圖生成方面比Video-VAE具有更好的外觀一致性和保真度。

記憶訓(xùn)練和蒸餾的消融研究。 本文在如上表8中全面評估了記憶訓(xùn)練和后期蒸餾。整合 GGM 和 SSM++(配置 A)顯著提高了光度質(zhì)量和多軌跡一致性。最后,在應(yīng)用 DMD 后期蒸餾(配置 G)后,模型不僅保持了可比的相機(jī)控制能力,甚至略微改善了光度和一致性指標(biāo)。

世界構(gòu)成的結(jié)果與分析

重建與對齊。 盡管前文證實(shí)了 WorldMirror 2.0 在已知相機(jī)姿態(tài)下點(diǎn)云擴(kuò)展的有效性,但本文在如下圖20中進(jìn)一步將整體構(gòu)成pipeline與同時期的世界重建方法 video2world 進(jìn)行了評估。為確保公平比較,兩種方法均在 WorldStereo 2.0 生成的300視圖圖像上進(jìn)行評估。如如下圖20所示,盡管 video2world 通過特征匹配的迭代最近點(diǎn)(ICP)生成了令人印象深刻的點(diǎn)云,但該過程本質(zhì)上難以并行化,導(dǎo)致每個場景的計(jì)算開銷高達(dá)約5小時。相比之下,本文的輕量級線性對齊充分利用了相機(jī)姿態(tài)先驗(yàn),在不到2分鐘內(nèi)實(shí)現(xiàn)了可比的重建質(zhì)量。

高斯輻射場。 本文對所提出的3DGSpipeline的每個組件在10個場景中進(jìn)行了消融研究,并在20視圖驗(yàn)證集上進(jìn)行了評估(如下表9)。整合 MaskGaussian 解決了這一權(quán)衡問題:低頻區(qū)域中冗余的高斯點(diǎn)被剪枝,數(shù)量減少了73.7%(從5.254M減少到1.383M),而PSNR僅下降了-0.14 dB。

完整結(jié)果與 Marble 的比較

可探索和交互式世界。 如下圖21所示,HY-World 2.0 產(chǎn)生了全面的多模態(tài)3D資產(chǎn),包括全景圖、用于3DGS初始化的對齊點(diǎn)云、高保真3DGS渲染以及提取的幾何網(wǎng)格。更重要的是,這些豐富的3D表示超越了靜態(tài)可視化,成為可探索和交互式3D世界的基礎(chǔ)環(huán)境(參見如下圖22),該圖展示了用戶在HY-World 2.0生成的3D世界中進(jìn)行交互式探索,包括虛擬代理導(dǎo)航和實(shí)時碰撞檢測。

與最先進(jìn)技術(shù)比較。 本文將方法與閉源商業(yè)世界模型 Marble進(jìn)行了比較。比較在兩種設(shè)置下進(jìn)行:使用相同的全景輸入(如下圖23)和使用相同的透視條件(如下圖24)。相比之下,本文的方法獲得了嚴(yán)格遵循所提供條件的高保真結(jié)果。此外,本文的生成在細(xì)節(jié)保留和新視圖的幾何一致性方面優(yōu)于 Marble。

運(yùn)行時分析。 在 NVIDIA H20 GPU 上評估了 HY-World 2.0 的整體運(yùn)行時,如下表10所示,該表詳細(xì)列出了全景生成、軌跡規(guī)劃、世界擴(kuò)展、重建與對齊以及3DGS等各個階段的時間開銷。通過整合系統(tǒng)化的效率優(yōu)化,生成完整3D世界的端到端pipeline得到加速,僅需10分鐘。

從多視圖圖像或視頻重建世界

本文評估了 WorldMirror 2.0 作為獨(dú)立的重建基礎(chǔ)模型,在涵蓋點(diǎn)圖重建(如下表11)、相機(jī)姿態(tài)估計(jì)、深度估計(jì)、新視圖合成(如下表12)和表面法線估計(jì)(如下表13)的綜合基準(zhǔn)上。所有任務(wù)均在三種推理分辨率下進(jìn)行評估,即低(189×259)、中(378×518,WorldMirror 1.0 的默認(rèn)設(shè)置)和高(756×1036),以驗(yàn)證通過歸一化位置編碼實(shí)現(xiàn)的分辨率泛化能力。

WorldMirror 2.0 的結(jié)果與分析

點(diǎn)圖重建。 本文在場景級數(shù)據(jù)集(7-Scenes, NRGBD)和對象級數(shù)據(jù)集(DTU)上評估了點(diǎn)圖重建,遵循 [69] 的相同序列映射。如如下表11所示,WorldMirror 1.0 在中等分辨率下已超越所有基線。WorldMirror 2.0 在每個分辨率下均有進(jìn)一步改進(jìn)。整合幾何先驗(yàn)帶來了額外的增益。

相機(jī)姿態(tài)、深度和新視圖合成。 在如上表12中,本文聯(lián)合報(bào)告了 RealEstate10K 上的相機(jī)姿態(tài)估計(jì)和深度估計(jì),以及 RealEstate10K 和 DL3DV 上平均的新視圖合成。對于相機(jī)姿態(tài),WorldMirror 2.0 在每個分辨率下都提高了 AUC@30 優(yōu)于 WorldMirror 1.0。對于深度,WorldMirror 2.0 持續(xù)降低 AbsRel。對于新視圖合成,WorldMirror 2.0 在不同分辨率下保持了穩(wěn)定的性能。

表面法線估計(jì)。 遵循 [3],本文在 ScanNet、NYUv2 和 iBims-1上評估了表面法線估計(jì)。如下表13所示,WorldMirror 2.0 在中等分辨率下在所有三個基準(zhǔn)上都取得了最佳結(jié)果,超越了專用單任務(wù)方法。

定性結(jié)果。 本文在如下圖25和如下圖26中展示了 WorldMirror 1.0 和 2.0 之間的視覺比較。如下圖25所示,WorldMirror 2.0 生成了更銳利、幾何更連貫的表面法線,該圖直觀地展示了WorldMirror 2.0在表面法線和重建點(diǎn)云方面比WorldMirror 1.0具有更精細(xì)的結(jié)構(gòu)細(xì)節(jié)和更高的一致性。如下圖26進(jìn)一步檢查了多分辨率魯棒性,該圖顯示W(wǎng)orldMirror 1.0在高分辨率下出現(xiàn)嚴(yán)重的幾何退化,而WorldMirror 2.0在所有測試分辨率下都保持了穩(wěn)定和連貫的重建。

推理時評估

幾何先驗(yàn)注入。 WorldMirror 的一個顯著特點(diǎn)是其靈活整合幾何先驗(yàn)的能力。本文在高分辨率下(如下圖27)比較了 WorldMirror 1.0 和 2.0 與先驗(yàn)引導(dǎo)方法 Pow3R 和 MapAnything在不同先驗(yàn)條件下的表現(xiàn)。WorldMirror 2.0 始終優(yōu)于所有替代方案,在相機(jī)條件和所有先驗(yàn)設(shè)置下表現(xiàn)出最大改進(jìn)。

推理效率。 本文對前文中引入的 WorldMirror 2.0 推理效率優(yōu)化進(jìn)行了基準(zhǔn)測試。如下表14報(bào)告了在 NVIDIA H20 GPU 上,518×378 分辨率下不同視圖數(shù)量的每 GPU 內(nèi)存消耗(GB)和掛鐘推理時間(秒)。SP、BF16 和 FSDP 在4個 GPU 上的完整組合實(shí)現(xiàn)了最佳的權(quán)衡。

總結(jié)

HY-World 2.0,這是一個全面的多模態(tài)世界模型框架,彌合了3D世界生成與重建之間長期存在的鴻溝。通過動態(tài)適應(yīng)多樣化的輸入模態(tài)——從稀疏文本和單幅圖像到密集的S多視圖視頻——本文的框架為離線3D世界建模建立了統(tǒng)一的范式。為實(shí)現(xiàn)這一目標(biāo),本文引入了一個四階段pipeline。本文升級了全景生成(HY-Pano 2.0)以實(shí)現(xiàn)高保真世界初始化,并設(shè)計(jì)了語義感知的軌跡規(guī)劃(WorldNav)以指導(dǎo)場景探索的最佳、無碰撞路線。此外,本文通過在具有空間一致性記憶的關(guān)鍵幀潛在空間中操作,顯著升級了生成性世界擴(kuò)展(WorldStereo 2.0)。最后,通過增強(qiáng)的3D重建基礎(chǔ)(WorldMirror 2.0)進(jìn)行世界構(gòu)成,以生成幾何精確且可導(dǎo)航的3DGS資產(chǎn)。本文還提出了一個高性能的3DGS渲染平臺(WorldLens),以實(shí)現(xiàn)3D世界的交互式探索,并支持角色和光照控制。廣泛的評估表明,HY-World 2.0 在開源方法中取得了最先進(jìn)的性能,其視覺質(zhì)量、幾何一致性和探索能力與領(lǐng)先的閉源商業(yè)模型極具競爭力。

參考文獻(xiàn)

[1] HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

       原文標(biāo)題 : 國產(chǎn)首個開源、系統(tǒng)化的多模態(tài)世界模型HY-World 2.0:效果硬剛閉源商業(yè)模型

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號

    宿迁市| 太康县| 汕头市| 神农架林区| 安达市| 宣武区| 古蔺县| 峨山| 山阳县| 社旗县| 阜平县| 富顺县| 岢岚县| 明溪县| 永川市| 疏勒县| 固安县| 东乌珠穆沁旗| 南皮县| 望江县| 武宁县| 叙永县| 灵山县| 柞水县| 贞丰县| 兴城市| 德化县| 达日县| 化州市| 柘荣县| 永清县| 汉阴县| 株洲县| 富锦市| 周至县| 西峡县| 静乐县| 通山县| 克山县| 沙坪坝区| 广西|