在過去幾年中,影片生成技術取得了令人矚目的進展論文。從基於擴散模型的方法到大規模影片基礎模型,生成結果在視覺質量上已經逐漸逼近真實世界。然而,當我們進一步審視這些模型時,一個更本質的問題開始顯現:它們究竟是在“理解世界”,還是僅僅在“擬合畫素分佈”?
傳統影片生成方法大多建立在 2D 影像空間之上,透過逐幀建模來合成動態內容論文。這種正規化雖然在短時間尺度和視覺表現上表現出色,但也暴露出一系列根本性侷限:相機運動難以精確控制,多物體互動缺乏一致性,長時間生成容易出現結構漂移,甚至在複雜場景中違背基本物理規律。這些問題的共同根源在於模型缺乏對“世界本身”的建模能力。
正是在這一背景下,“世界模型(World Model)”逐漸成為視覺生成與智慧系統中的核心研究方向論文。與傳統方法不同,世界模型試圖構建一個能夠統一描述空間結構、時間演化以及物理規律的內部表示,使模型不僅能夠生成視覺內容,還能夠進行推理、預測,甚至支援決策。從某種意義上說,這一轉變標誌著研究目標從“生成看起來真實的結果”,邁向“建模一個本質上合理的世界”。
這一正規化的演進正在多個維度同時發生:在表示層面,從 2D 畫素走向 3D/4D 幾何結構;在建模目標上,從單純生成擴充套件到因果關係、物理一致性與可互動性;在學習方式上,從依賴標註資料轉向從真實世界影片中提取可遷移知識;而在評估體系上,也逐漸從單一視覺指標轉向對“世界建模能力”的多維度衡量論文。
CVPR 2026 中的一系列工作,正集中體現了這一趨勢論文。這些研究不僅在技術路徑上各有側重,有的強調 4D 幾何建模,有的關注物理對齊與因果建模,有的探索從真實影片中學習世界知識,還有的致力於構建統一評測體系,更重要的是,它們共同指向一個核心目標:讓模型從“生成工具”演化為“世界模擬器”。
AI 科技評論對這些代表性工作進行了系統梳理論文,從建模正規化、控制能力、物理一致性、可擴充套件性以及評測方法等多個角度,解析當前世界模型研究的關鍵進展與內在邏輯,嘗試回答一個更深層的問題:當我們談論“生成世界”時,我們究竟在建模什麼?
世界在模型裡到底長什麼樣論文?
論文《VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control》是由復旦大學、香港大學聯合 Tencent ARC(騰訊應用研究中心)研究團隊提出的一項影片生成研究成果 論文。
它主要針對當前影片生成模型的一個核心問題:現有方法大多在 2D 影像空間中建模,導致相機運動和多物體運動難以統一控制、且生成結果容易不穩定論文。
為了解決這一問題,論文提出了一種新的 4D 幾何世界建模方法,將影片表示為“3D 空間 + 時間”的統一世界狀態,而不是簡單的逐幀畫素生成論文。
在具體方法上,作者提出了一個關鍵技術:4D Geometric Control 表示論文。這個表示用靜態背景點雲來描述場景結構,用帶時間資訊的 3D 高斯軌跡來描述動態物體,從而構建一個統一的 4D 世界模型 。
在這個世界模型基礎上,再將幾何資訊轉化為控制訊號,輸入到影片擴散模型中進行生成,使最終影片能夠嚴格遵循設定的相機路徑和物體運動論文。
這項工作的亮點主要體現在三個方面:首先論文,它實現了從傳統 2D 畫素生成向 4D 幾何建模正規化的轉變,使影片生成更接近真實世界建模;
展開全文
其次論文,它在同一框架下實現了對相機運動和多物體運動的統一、精確控制,相比以往依賴 2D 軌跡或邊界框的方法更加靈活且一致;
最後,由於引入了顯式的 3D 結構和時間約束,模型在時序一致性和穩定性方面顯著提升,生成的影片在長時間範圍內更加連貫、真實 論文。
總體來說,這篇論文的核心貢獻可以概括為:提出了一種基於 4D 幾何控制的世界模型框架,使影片生成從“基於畫素的合成”轉向“基於結構的生成”,從而在可控性和穩定性上取得了明顯提升論文。
論文《NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos》是由中國科學院自動化研究所和 CreateAI 共同提出論文。
這項研究主要圍繞 4D 世界模型的一個關鍵問題展開,即現有方法往往依賴多視角資料或複雜預處理,導致擴充套件性差,很難直接利用真實世界中大量隨手拍攝的單目影片論文。
為了解決這一問題,論文提出了一個新的框架 NeoVerse,其核心思路是利用“自然場景中的單目影片”來構建 4D 世界模型論文。具體來說,模型可以從普通影片中恢復場景的 3D 結構,並進一步建模隨時間變化的動態資訊,從而實現完整的 4D 表示。
在此基礎上,該模型不僅能夠進行 4D 重建,還可以生成新的相機軌跡影片,並支援多種下游任務論文。
這篇論文的亮點主要體現在三個方面論文。首先,它突破了以往對多視角或專用資料的依賴,直接使用“野外採集”的單目影片進行訓練,大幅提升了方法的可擴充套件性和資料可獲得性。
其次,它在同一框架中統一了 4D 重建與影片生成能力,使模型既可以理解場景結構,又可以生成新的視角和動態內容論文。最後,透過這種方式,模型在真實場景中的泛化能力更強,能夠更好地適應複雜環境,而不是侷限於受控資料集。
總體來看,這篇論文的核心貢獻在於提出了一種基於單目影片構建 4D 世界模型的方法,使 4D 建模從依賴昂貴資料採集,轉向可以利用大規模真實影片,從而顯著提升了實用性與擴充套件能力論文。
論文《LongStream: Long-Sequence Streaming Autoregressive Visual Geometry》是由香港科技大學(廣州)、地平線機器人、浙江大學和中南大學等研究團隊提出論文。
論文關注的是一個非常核心但長期沒有很好解決的問題:長序列 3D 重建論文。現有方法通常在短序列或離線場景下表現不錯,但一旦處理上千幀的長影片,就會出現明顯問題,例如注意力逐漸衰減、尺度不斷漂移,以及預測誤差累積,最終導致整體重建不穩定甚至失效 。
這些問題的根本原因在於,大多數自迴歸模型都會把所有幀“錨定”到第一幀,從而在長時間推理中不斷放大誤差 論文。
為了解決這一問題,論文提出了 LongStream 框架,核心思路是構建一種流式的、規範解耦(gauge-decoupled)的視覺幾何模型論文。
具體來說,它不再把所有幀繫結到初始幀,而是透過“關鍵幀相對建模”的方式,讓每一段區域性序列獨立建模,同時再統一到全域性結構中論文。此外,模型將“尺度學習”和“幾何預測”進行解耦,使尺度不會在長序列中逐漸漂移。同時,透過週期性重新整理快取和流式更新機制,模型可以在嚴格線上(看不到未來幀)的條件下穩定處理上千幀資料 。
這篇論文的亮點主要體現在三個方面論文。首先,它提出了一種真正面向長序列的流式 3D 重建框架,能夠在線上場景中處理上千幀甚至更長的影片,這是以往方法難以實現的。
其次,它透過“規範解耦”的方式,從根本上解決了尺度漂移和誤差累積問題,使長時間建模更加穩定論文。最後,該方法在效率和穩定性之間取得了較好平衡,可以在現實應用場景中落地,例如自動駕駛、AR/VR 和具身智慧中的持續環境建模。
總體來看,這篇論文的核心貢獻是提出了一種面向長時序影片的穩定 3D 世界建模方法,使模型能夠在嚴格線上條件下持續構建一致的三維世界,從而推動世界模型向真實應用場景邁進論文。
模型有沒有學到可以遷移的世界規律論文?
論文《VideoWorld 2: Learning Transferable Knowledge from Real-world Videos》是由北京交通大學和位元組研究團隊共同提出論文。
這項研究關注的核心問題是,模型是否能夠像人一樣,僅透過觀看真實世界的影片,就學習到可以遷移到新環境中的通用知識論文。論文指出,現有影片模型大多側重生成視覺效果,雖然畫面逼真,但缺乏對物體運動規律、互動關係以及時序結構的理解能力,因此難以在新場景中泛化。
為了解決這一問題,論文提出了 VideoWorld 2 框架,其核心思路是直接從大規模無標註的真實影片中學習世界知識論文。
模型不依賴人工標註,而是透過觀察影片中的動態過程,自主學習物理規律、物體互動以及時間變化,並將這些資訊編碼為一種可複用的表示,使其能夠遷移到不同任務和環境中論文。相比傳統影片生成方法只關注影像外觀,這種方法更強調從影片中提取“可以用於理解和推理的知識”。
這篇論文的亮點主要體現在三個方面論文。首先,它將研究重點從生成逼真的影片轉向從影片中學習可遷移知識,使模型從“會生成”發展到“會理解”。
其次,它直接利用真實世界影片進行訓練,減少對模擬環境或人工構造資料的依賴,使方法更加貼近真實應用場景論文。最後,這種方法在一定程度上兼顧了視覺生成能力與知識表達能力,使模型既能夠保持較好的生成效果,又具備更強的泛化能力。
總體來看,這篇論文的核心貢獻在於提出了一種從真實影片中學習世界知識的框架,使影片模型從單純的生成工具,發展為能夠理解並泛化現實世界規律的模型論文。
論文《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》是由中山大學、鵬城實驗室等科研團隊共同提出論文。
論文關注的問題是當前影片生成模型雖然在視覺效果上已經較好,但在物理一致性方面仍然存在明顯不足,例如物體運動不符合真實物理規律,或者複雜場景中的互動不合理論文。這一問題的根本原因在於現有方法缺乏對物理規律的顯式建模,同時無法將物理資訊精確地對齊到影片中的具體空間位置。
為了解決這一問題,論文提出了 ProPhy 框架,其核心思路是引入一種“漸進式物理對齊機制”論文。模型透過一個兩階段的結構來建模物理資訊:首先在語義層面提取文字中的物理規律,例如運動型別或物理現象,然後在更細粒度的層面,將這些物理規律精確對齊到影片中的具體區域和時間過程。
同時,模型採用“物理專家混合機制”,讓不同模組分別學習不同型別的物理規律,從而形成更加細緻的物理建模能力論文。此外,論文還將視覺語言模型的物理推理能力引入生成過程,使模型能夠更準確地表達複雜動態現象。
這篇論文的亮點主要體現在三個方面論文。首先,它提出了顯式的物理建模機制,使影片生成不再只是視覺逼真,而是能夠遵循真實物理規律。其次,它實現了從語義級到細粒度空間級的逐步對齊,使不同物理現象能夠準確作用在對應區域,而不是全域性混合。
最後,透過引入“物理專家”結構和視覺語言模型的推理能力,模型在複雜動態場景中生成的影片更加穩定、合理,並在物理一致性方面明顯優於已有方法論文。
總體來看,這篇論文的核心貢獻是提出了一種面向物理一致性的生成框架,使影片生成模型從單純追求視覺真實,進一步發展為能夠遵循真實物理規律的世界模型論文。
論文《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》是由四川大學、香港理工大學、電子科技大學、阿德萊德大學研究團隊共同提出論文。
論文關注的問題是當前影片生成模型在“物理一致性”上的不足論文。雖然現有影片擴散模型可以生成視覺上真實的畫面,但在描述複雜物理過程時,往往只能生成某一個瞬間,而無法正確表達事件之間的因果關係和連續變化,例如液體流動、能量變化等動態過程 。
為了解決這一問題,論文提出了一種以“事件為中心”的生成框架,其核心思路是把一個物理現象看作一系列按因果順序發展的事件鏈,而不是一個靜態描述論文。
具體方法包括兩個關鍵模組:首先是“物理驅動的事件鏈推理”,將複雜物理過程拆解為多個有明確因果關係的子事件,並透過引入物理公式作為約束,使這些事件之間的關係具有確定性;其次是“跨模態過渡建模”,將這些事件轉化為時間對齊的文字和視覺提示,例如關鍵幀和語義描述,從而引導影片生成過程在不同事件之間平滑過渡論文。
這篇論文的亮點主要體現在三個方面論文。首先,它提出了“事件鏈”這一新的建模方式,使影片生成從描述單一畫面轉向描述完整的因果過程,從而更接近真實世界。
其次,它將物理公式引入推理過程,使生成內容不僅在視覺上合理,也在物理規律上更加可信論文。最後,透過結合語義提示和關鍵幀的跨模態控制方式,模型能夠在不同事件之間保持連續性,從而生成具有時間一致性和因果一致性的動態影片 。
總體來看,這篇論文的核心貢獻是提出了一種基於因果事件鏈的物理影片生成框架,使影片生成從“生成一個結果”發展為“生成一個符合物理規律的動態過程”,在物理一致性和時序建模方面都有明顯提升論文。
能不能精確控制生成的世界論文?
論文《Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control 》是由西湖大學和南陽理工大學的研究團隊共同提出論文。
論文主要研究的是影片擴散模型在 3D 和 4D 場景生成中的一個核心問題,即雖然這些模型已經具備很強的“世界先驗”,但在實際使用中存在三個關鍵缺陷,包括難以精確控制相機運動、時空一致性差以及場景與相機運動耦合在一起,導致生成結果不穩定或者不符合預期論文。
為了解決這一問題,論文提出了一個新的框架 WorldForge,其核心思路是在不重新訓練模型的情況下,僅透過推理階段對已有影片擴散模型進行控制增強論文。
具體來說,該方法由三個關鍵機制組成:首先是在擴散去噪過程中加入遞迴最佳化,使生成過程逐步貼合目標相機軌跡;其次利用光流資訊在潛空間中區分“運動”和“外觀”,從而只對運動相關部分進行控制;最後透過雙路徑對比機制,將有控制與無控制的生成過程進行比較,自動修正偏差,從而避免軌跡漂移論文。
這篇論文的亮點主要體現在幾個方面論文。首先,它提出了一種完全不需要訓練的控制方法,只在推理階段進行修改,大幅降低了成本,同時避免破壞原有模型能力。
其次,它實現了對相機軌跡的精確控制,同時保持較高的視覺質量,解決了以往方法中“控制和質量難以兼顧”的問題論文。最後,該方法具有很強的通用性,是一個“即插即用”的框架,可以直接應用在不同的影片擴散模型上,並支援多種任務,例如 3D 重建、4D 場景生成以及影片編輯等。
總體來看,這篇論文的核心貢獻是提出了一種無需訓練的控制框架,使影片擴散模型能夠在保持生成質量的同時,實現精確的幾何和運動控制,從而推動其在 3D 和 4D 世界建模任務中的應用論文。雷峰網
模型不僅表示世界論文,還要「用世界做事」
論文《DriveLaW: Unifying Planning and Video Generation in a Latent Driving World 》是由華中科技大學和小米 EV 團隊共同提出論文。
論文研究的是自動駕駛中的一個關鍵問題,即如何讓“世界模型”不僅能夠預測未來場景,還能直接參與決策與規劃論文。現有方法通常把兩個過程分開處理,一部分模型負責預測未來影片或場景變化,另一部分模組負責根據這些預測結果進行路徑規劃,這種解耦方式會導致資訊利用不充分,並且在複雜場景中容易出現誤差累積。
為了解決這一問題,論文提出了一個新的框架 DriveLaW,其核心思路是在一個統一的“潛在駕駛世界(latent driving world)”中,同時進行影片生成和運動規劃論文。
模型首先在潛在空間中學習駕駛場景的動態演化規律,然後在這個空間中直接進行決策推理,而不是先生成完整影片再做規劃論文。這樣一來,預測和決策被整合到同一個過程之中,使模型能夠更高效地利用環境資訊,同時減少中間誤差的傳播。
這篇論文的亮點主要體現在幾個方面論文。首先,它將影片生成與路徑規劃統一在同一個框架中,打破了傳統方法中“預測”和“決策”分離的結構,使世界模型真正參與到決策過程中。
其次,它透過在潛在空間中進行建模和推理,避免了直接生成高維影片帶來的計算開銷,同時提高了效率和穩定性論文。最後,這種方法在長時間預測和複雜駕駛場景中表現出更好的魯棒性,因為模型是在一個結構化的世界表示中進行推理,而不是依賴逐幀生成。
總體來看,這篇論文的核心貢獻是提出了一種將影片生成與自動駕駛規劃統一起來的世界模型框架,使模型不僅能夠“看見未來”,還能夠基於未來進行決策,從而推動自動駕駛系統向更一體化、更高效的方向發展論文。
論文《ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment 》是由 AMAP CV Lab 研究團隊提出論文。
論文研究的是機器人操作場景中的世界模型問題論文。現有影片世界模型雖然能夠生成視覺上真實的結果,但在涉及物體互動時,往往會出現明顯的物理錯誤,例如物體穿透、違背重力等現象。這是因為這些模型大多基於視覺資料訓練,最佳化目標只關注生成機率,而忽略了真實物理規律 。
為了解決這一問題,論文提出了 ABot-PhysWorld 框架,其核心思路是構建一個具備物理對齊能力的互動式世界模型論文。該模型基於一個大規模擴散 Transformer 架構,在生成影片的同時引入物理約束,使生成的機器人操作過程既真實又符合物理規律。
同時,模型支援動作可控生成,可以根據輸入的操作指令控制機器人與物體之間的互動過程論文。此外,論文還引入了物理感知訓練機制和偏好最佳化策略,使模型在學習過程中更關注“物理合理性”而不僅是視覺質量 。
這篇論文的亮點主要體現在三個方面論文。首先,它顯式引入物理約束,使世界模型在生成複雜互動場景時能夠避免常見的物理錯誤,從而提升真實性。
其次,它實現了“動作可控的影片生成”,使模型不僅能預測世界,還能根據動作進行互動式模擬,更貼近機器人應用論文。最後,該方法在大規模模型基礎上實現了視覺真實感與物理一致性的統一,使世界模型從單純的生成工具,發展為可以用於機器人決策和模擬的基礎模型 。
總體來看,這篇論文的核心貢獻是提出了一種融合物理約束與動作控制的世界模型框架,使影片生成不僅具備視覺真實性,還具備物理合理性和互動能力,從而推動世界模型在機器人操作中的應用論文。
論文《SimScale: Learning to Drive via Real-World Simulation at Scale》是由中科院自動化所 MAIS 實驗室、香港大學 OpenDriveLab 和小米 EV 團隊共同提出論文。
論文關注的是自動駕駛中的一個關鍵問題,即真實駕駛資料中“關鍵危險場景”非常稀缺,導致模型雖然在常規場景中表現良好,但在極端或邊界情況下容易失敗論文。現有方法主要依賴收集更多真實資料或構建人工模擬環境,但前者成本高且難以覆蓋長尾情況,後者又往往與真實世界存在差距。
為了解決這一問題,論文提出了 SimScale 框架,其核心思路是利用真實世界資料構建可擴充套件的模擬環境,並在此基礎上自動生成大量新的駕駛場景論文。
具體來說,模型首先從真實資料中提取場景結構,然後在模擬環境中擴充套件出未見過的狀態,並自動生成對應的駕駛軌跡作為監督訊號,最終將真實資料與模擬資料進行聯合訓練,從而提升模型在複雜場景下的表現能力論文。
這篇論文的亮點在於,它透過“真實資料驅動模擬”的方式,有效縮小了模擬與現實之間的差距,同時能夠大規模生成關鍵長尾場景資料,彌補真實資料中的不足論文。
此外,該方法具有很強的可擴充套件性,隨著模擬資料規模增加,模型效能可以持續提升,而不依賴額外真實資料論文。最後,這種結合真實與模擬的訓練方式,使模型在安全性和泛化能力方面都有明顯增強。
總體來看,這篇論文的核心貢獻是提出了一種基於真實資料構建模擬環境並進行規模化訓練的方法,從而有效解決自動駕駛中長尾場景不足的問題,提升模型在複雜現實環境中的表現能力論文。
如何知道一個模型真的在「建模世界」論文?
論文《4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models》由中國科學技術大學、浙江大學和北京智源研究院等機構合作完成論文。
這項研究關注的是一個基礎問題,即如何系統地評估 3D 和 4D 世界模型的能力論文。論文指出,現有評測方法通常只關注單一方面,例如視覺質量或簡單一致性,缺乏統一標準,難以全面反映模型是否真正具備對空間和時間的建模能力。
為了解決這個問題,論文提出了一個統一評測框架 4DWorldBench論文。該框架從多個關鍵維度對模型進行評價,包括視覺感知質量、條件與 4D 對齊能力、物理真實感以及時空一致性 。
同時,它支援多種輸入形式,例如從文字、影像或影片生成 3D 或 4D 場景,並透過統一機制將不同模態的資訊對映到同一個評測空間中,從而實現不同模型之間的直接比較論文。此外,評測過程中還引入了大語言模型和多模態模型參與判斷,使評價結果更加接近人類主觀判斷。
這篇論文的亮點在於,它建立了一套統一且系統的評測標準,使不同世界模型可以在同一框架下進行公平比較,同時透過多維度評價體系更全面地反映模型能力,而不僅僅侷限於視覺效果論文。此外,引入大模型參與評估,使結果更加穩定,也更貼近人類判斷。
總體來看,這項研究的核心貢獻是為 3D 和 4D 世界模型提供了一套完整的評測體系,使研究重點從單純的生成效果,進一步轉向對世界建模能力的全面衡量論文。
論文《WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World 》是由 WorldBench Team 團隊提出論文。
論文關注的是自動駕駛世界模型中的一個核心問題,即如何全面評估一個模型是否真正具備“理解和使用世界”的能力論文。現有方法通常只評估單一方面,例如視覺生成質量或簡單一致性,缺乏統一標準來衡量模型在真實駕駛場景中的綜合能力,包括是否符合物理規律以及是否能夠支援決策。
為了解決這一問題,論文提出了 WorldLens 框架,用於對世界模型進行系統評估論文。該框架從多個維度進行衡量,包括生成能力、重建能力、動作跟隨能力以及在下游任務中的表現,同時還結合人類偏好進行評價。論文還構建了一個大規模資料集,並引入自動評估模型,使評測過程能夠規模化,同時保持一定的可解釋性。
這篇論文的亮點在於,它提供了一套更全面的評測體系,使世界模型不再只從視覺效果進行評價,而是從生成、理解和行為能力多個角度進行統一衡量論文。
同時,透過結合人類標註與自動評估方法,使評測結果更加穩定且更接近真實使用需求論文。此外,該研究也揭示了當前模型在不同能力之間存在明顯權衡,為後續研究提供了方向。
總體來看,這篇論文的核心貢獻是建立了一套面向自動駕駛世界模型的統一評測框架,使模型評價從單一指標轉向對整體世界建模能力的綜合衡量論文。
論文《GeoWorld:Geometric World Models 》是由 ANU 和 MBZUAI 團隊共同提出論文。論文主要研究的是“世界模型”在規劃和預測中的一個核心問題。
現有很多方法雖然可以透過學習潛在空間來進行多步預測,但通常是在歐幾里得空間中建模,這種方式無法很好表達狀態之間的層級結構和複雜關係,同時在長時間預測時容易快速退化,導致結果不穩定論文。
為了解決這個問題,論文提出了一個新的框架 GeoWorld,其核心思路是將世界模型從傳統的歐幾里得空間建模,擴充套件到具有層級結構的幾何空間中論文。
具體來說,它在潛在空間中構建一個“能量模型”,並引入雙曲空間(hyperbolic space)來表示狀態之間的關係,使模型能夠更自然地表達層級結構論文。同時,在進行預測或規劃時,不再簡單地生成未來狀態,而是透過在這個幾何能量空間中沿“測地線(geodesic)”進行推理,從而實現更穩定的多步預測。
這篇論文的亮點主要體現在三個方面論文。首先,它將世界模型的表示從普通向量空間提升到具有幾何結構的空間,使模型能夠更好地刻畫複雜關係和層級結構。
其次,它透過在能量空間中進行路徑推理,而不是逐步生成狀態,有效緩解了長時預測中誤差累積的問題,使模型在長時間規劃中更加穩定論文。
最後,這種方法為“基於世界模型的決策與規劃”提供了一種新的思路,將幾何建模與能量模型結合起來,在機器人和視覺規劃任務中具有潛在應用價值論文。
總體來看,這篇論文的核心貢獻是提出了一種基於幾何空間的世界模型建模方法,使世界模型從簡單的向量表示,發展為能夠刻畫結構與層級關係的幾何表示,從而提升了長時預測和規劃的能力論文。
論文《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》是由西湖大學研究團隊提出論文。
論文關注的問題是:當前的影片擴散模型通常只在短影片資料上訓練,當直接用於生成長影片時,會出現明顯的質量下降,例如畫面模糊、結構漂移以及時序不穩定論文。論文指出,這種問題的本質原因來自兩個“分佈外問題(O.O.D)”:一是幀間相對位置超出訓練分佈,二是上下文長度超過模型訓練範圍。
為了解決這一問題,論文提出了一個新的框架 FreeLOC,核心思路是在完全不需要重新訓練模型的情況下,僅透過推理階段進行修正論文。雷峰網
具體來說論文,該方法包含三個關鍵機制:首先,透過“影片相對位置重編碼”方法,將長影片中的時間位置重新對映回模型熟悉的範圍,從而解決位置分佈外問題;
其次,透過“分層稀疏注意力機制”,在不同時間尺度上分配注意力,使模型既能保持區域性細節,又能捕捉長程依賴;最後,引入“層自適應探測機制”,自動識別模型中哪些層對這些問題最敏感,並只在關鍵層進行修正,從而提高效率和效果論文。
這篇論文的亮點主要體現在三個方面論文。首先,它提出了一種完全無需訓練的長影片生成增強方法,可以直接作用在已有模型上,成本極低。其次,它從根本上分析了長影片生成失敗的原因,並針對“位置”和“上下文長度”兩個關鍵問題提出針對性解決方案。
最後,透過“按層自適應修正”的方式,使方法既高效又精確,在實驗中同時提升了影片的視覺質量和時序一致性,並達到了當前訓練自由方法中的領先效果論文。
總體來看,這篇論文的核心貢獻是提出了一種針對分佈外問題的層級自適應修正框架,使短影片訓練得到的模型也能夠穩定生成高質量長影片,從而顯著提升了影片生成模型的實用性論文。
論文《Neoverse: Unposed 4D World Modeling from Monocular Video》是由中國科學院自動化研究所和 CreateAI 研究團隊提出論文。
論文主要解決的是 4D 世界建模中的一個核心問題,即現有方法通常依賴昂貴的多視角資料或者複雜的離線預處理流程,導致模型難以擴充套件到真實世界中大量隨手拍攝的單目影片論文。 因此,這項工作提出的核心目標是:讓 4D 世界模型能夠直接利用“野外單目影片”進行訓練,從而實現大規模擴充套件和更強泛化能力。
為了解決這一問題,論文提出了 NeoVerse 框架,其核心思路是構建一個可擴充套件的重建 + 生成一體化模型論文。具體來說,模型首先透過一種“無位姿(pose-free)的前饋式 4D 重建方法”,直接從單目影片中恢復 4D 高斯表示,然後利用這些幾何資訊作為條件,引導影片生成模型產生新視角影片。
同時,論文設計了“線上退化模擬機制”,在訓練過程中模擬不同視角下的低質量渲染,從而讓生成模型學會在複雜條件下恢復高質量影片論文。這一整套流程不依賴複雜預處理,可以直接在大規模單目影片資料上訓練。
這篇論文的亮點主要體現在三個方面論文。首先,它突破了對多視角資料和離線預處理的依賴,使 4D 世界模型可以利用大規模真實單目影片,從而顯著提升可擴充套件性。
其次,它提出了“前饋式 4D 重建 + 生成聯合訓練”的框架,使模型既能恢復幾何結構,又能生成新視角影片,實現統一建模論文。最後,該方法具有較強的通用性,不僅可以用於 4D 重建和影片生成,還支援影片編輯、穩定、超解析度等多種下游任務,並在多個基準上達到較好的效果。
總體來看,這篇論文的核心貢獻是提出了一種面向真實世界單目影片的可擴充套件 4D 世界模型框架,使 4D 建模從依賴昂貴資料,轉向可以利用大規模真實影片資料,從而在泛化能力和實用性上都有明顯提升論文。