騰訊混元開源WorldCompass,強化學習提升世界模型指令準確率
2026-03-10 16:56 騰訊混元

騰訊混元開源WorldCompass,強化學習提升世界模型指令準確率23

3月10日,騰訊混元3D團隊做了一件看似低調(diào)但在技術(shù)圈內(nèi)頗具深意的事,開源了業(yè)界首個面向世界模型的強化學習后訓練框架WorldCompass。

這個名字取得很形象,如果說世界模型是探索虛擬世界的“引擎”,那么WorldCompass就是那個負責指方向的“指南針”。

這不是一次簡單的版本更新,而是一個信號,世界模型的競賽,正在從“能生成多逼真的畫面”轉(zhuǎn)向“指令跟得有多準、世界構(gòu)建得有多穩(wěn)”。

事件的直接看點是數(shù)據(jù)。

混元團隊在開源的世界模型WorldPlay上進行了驗證,結(jié)果顯示,在復合動作場景下,也就是要求模型同時處理移動加旋轉(zhuǎn)這類復雜指令時,基座模型的執(zhí)行準確率僅有20%左右,而經(jīng)過WorldCompass訓練后,這一數(shù)字躍升到了55%,提升幅度超過35%。

即便是基礎動作,準確率也提高了約10% 。同時,在斯坦福大學的世界模型Benchmark WorldScore上,WorldCompass也拿到了更好的評分 。

這組數(shù)字背后,其實是世界模型領域一個長期被忽視的痛點,畫面好看了,但聽話嗎?長時序交互下,世界還能保持一致性嗎?

如果你用過那些號稱“可交互”的視頻生成模型,大概會有這樣的體驗:讓鏡頭轉(zhuǎn)個圈,剛才還好好立著的柱子可能就扭曲了;讓角色往前走幾步,走完回頭一看,身后的場景已經(jīng)“面目全非”。

這就是缺乏幾何穩(wěn)定性和因果連貫性的典型表現(xiàn),傳統(tǒng)模型只是在像素層面做續(xù)寫,并沒有在內(nèi)部構(gòu)建一個穩(wěn)定的“物理實體”。

WorldCompass的價值正在于此。它不是重新發(fā)明了一個世界模型,而是給已有的模型裝上了一套強化學習的“矯正器”。

這套框架針對自回歸世界生成的特性做了三件事:切片級采樣、3D獎勵函數(shù)、高效RL優(yōu)化算法 。

切片級采樣解決的是反饋稀疏的問題,以前模型生成長視頻,只能拿到一個整體分數(shù),哪個環(huán)節(jié)出錯了根本不知道;現(xiàn)在可以針對某個片段反復采樣、精準定位問題。

3D獎勵函數(shù)則通過估計相機軌跡來判斷動作是否被執(zhí)行,拒絕那種畫面好看但指令完全偏離的“刷分”行為。

三種路徑,一個終點。

如果將WorldCompass放在2026年世界模型的競爭格局中看,它的位置會更清晰。

目前全球頂尖的世界模型大致分成了三條技術(shù)路徑。

第一條是以Google Genie 3為代表的自回歸Transformer流派,把世界建模當成“語言”來處理,通過預測下一個視覺Token來生成畫面。

這個路徑的優(yōu)勢是邏輯密度高、因果鏈條清晰,但視覺細節(jié)容易有“數(shù)碼感”。

第二條是自回歸擴散Transformer流派,混元的WorldPlay模型就是這個路徑的代表作。它結(jié)合了Transformer的序列處理能力和擴散模型的精細重構(gòu)能力,在視覺真實感上做到了頂尖水平,能還原復雜的光影和材質(zhì)紋理,在消費級GPU上甚至可以實現(xiàn)24幀的實時渲染。

但它的軟肋在于物理邏輯——畫面極其真實,但物體的碰撞有時像橡皮泥一樣缺乏剛性。

第三條是空間原生3D引導流派,典型代表是李飛飛World Labs的Marble和NVIDIA的Gen-3C。

這類模型直接在神經(jīng)網(wǎng)絡內(nèi)部維護一套3D表示,生成的是一個持久的3D場,空間穩(wěn)定性是它的絕對優(yōu)勢,適合具身智能和XR創(chuàng)作,但數(shù)據(jù)需求極為苛刻。

WorldCompass的出現(xiàn),實際上是在第二條路徑上做了一次關(guān)鍵的“補課”。它不改變基座模型的視覺生成能力,但通過強化學習后訓練,讓模型在“聽話”這件事上大幅改進。

從技術(shù)架構(gòu)角度看,這是在視覺真實感和交互準確性之間找到了一種新的平衡點。而在開源策略上,混元延續(xù)了此前3D模型開源的路徑,將代碼和模型細節(jié)都放了出來 。

為什么這件事值得關(guān)注?因為世界模型的下一步競爭焦點正在轉(zhuǎn)移。

2025年大家拼的是誰生成的視頻更長、更清晰,到了2026年,行業(yè)共識已經(jīng)變成“能畫出視頻不代表理解世界”。

真正的世界模型必須滿足三個硬指標,交互性、因果連貫性、幾何穩(wěn)定性。WorldCompass在復合動作場景下把準確率從20%拉到55%,本質(zhì)上是在因果連貫性這個維度上往前推了一大步。

從行業(yè)視角看,開源WorldCompass的意義可能不止于技術(shù)本身。

根據(jù)市場研究數(shù)據(jù),全球AI生成3D模型市場2025年規(guī)模約為12.5億至29.8億美元(不同統(tǒng)計口徑),預計到2032年將增長至205億美元左右,年復合增長率在7%到22%之間。

驅(qū)動增長的核心動力來自游戲、影視、元宇宙等領域?qū)?D內(nèi)容的爆炸性需求。而世界模型作為能夠?qū)崟r交互、動態(tài)演化的虛擬環(huán)境生成技術(shù),正是下一代數(shù)字內(nèi)容生產(chǎn)的基礎設施。

在這個賽道上,開源與閉源的路線選擇正在分化。谷歌DeepMind的Genie 3、OpenAI的相關(guān)研究更多保持技術(shù)領先但相對封閉,而騰訊混元選擇了連續(xù)開源核心模型和訓練框架。

這種策略的長期影響值得觀察,當越來越多的開發(fā)者和企業(yè)基于同一套開源工具構(gòu)建應用時,技術(shù)生態(tài)的天平可能會逐漸傾斜。畢竟,在AI三維創(chuàng)作領域,工具鏈的標準化和開發(fā)者社區(qū)的活躍度,往往比單點技術(shù)突破更能決定產(chǎn)業(yè)的演進方向 。

當然,技術(shù)遠未成熟。即便經(jīng)過WorldCompass優(yōu)化,55%的復合動作準確率離實用化仍有距離;透明材質(zhì)的折射率計算、復雜拓撲結(jié)構(gòu)的自相交問題、動畫關(guān)鍵幀的自動生成流暢度,這些都是擺在行業(yè)面前的共性問題。

但方向已經(jīng)清晰,世界模型要真正成為可用的“世界模擬器”,光會畫畫不夠,得懂物理、聽指揮、記得住。WorldCompass這個“指南針”指的路,是對的。

88.jpg