騰訊混元世界模型1.5發佈，首次開源業界最系統、最全面的實時世界模型框架

騰訊混元世界模型1.5（Tencent HY WorldPlay)已正式發佈，公告寫道：

它是易於創建的：

只需輸入文字描述或者圖片即可創建專屬的互動世界。

它是沉浸式實時交互的：

通過鍵盤、鼠標或手柄，即可實時控制虛擬相機的移動和轉向，讓你可以像玩遊戲一樣自由探索AI生成的世界。

它也是直接可用的：

在騰訊混元3D官網可申請使用(https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay)。

它還是開源的：

混元世界模型1.5（WorldPlay）首次開源了業界最系統、最全面的實時世界模型框架，涵蓋數據、訓練、流式推理部署等全鏈路、全環節，並提出了重構記憶力、長上下文蒸餾、基於3D的自迴歸擴散模型強化學習等算法模塊。

混元世界模型1.5具備三大核心能力：

實時的交互生成：通過原創的Context Forcing蒸餾方案以及流式推理優化，模型可以按照24 FPS的速度生成720P的高清視頻；
長範圍的3D一致性：通過重構記憶機制（Reconstituted Memory），模型支持分鐘級內容的幾何一致性生成，可用於構建高質量的3D空間模擬器；
多樣化的交互體驗：混元世界模型可廣泛適用於不同風格的遊戲或者現實場景，以及第一和第三人稱視角，也支持實時文本觸發事件和視頻續寫等功能。

技術上，混元世界模型1.5首次開源了業界最系統、最全面的實時世界模型訓練體系，涵蓋數據、訓練、推理部署等全鏈路、全環節。混元團隊在技術報告中公開了模型預訓練、持續訓練、自迴歸視頻模型強化學習、帶記憶力的模型蒸餾的訓練細節，並詳述模型在控制（control space），記憶（reconstituted memory），蒸餾（context forcing），強化學習後訓練幾大模塊上的思考與原創設計。

混元世界模型1.5的核心是一個叫做WorldPlay的自迴歸擴散模型，它採用Next-Frames-Prediction的視覺自迴歸任務進行訓練，實現了長範圍幾何一致性的實時交互式世界建模，破解了業界滿足實時性與幾何一致性的難題。

該模型依託三大核心創新：雙分支動作表徵實現精準控制、上下文記憶重構機制保持幾何一致性、上下文對齊蒸餾技術增強長視頻生成的視覺質量和幾何一致性。除此之外，該工作也構建了一套新穎的基於3D獎勵的強化學習後訓練框架來進一步增強生成視頻的視覺質量和幾何一致性。

數據方面，混元團隊構建的自動化3D場景渲染流程，可以獲得大量高質量的真實世界渲染數據，進一步激發核心算法的潛力。混元世界模型1.5可支持 24幀 / 秒的長時流式生成，一致性與泛化能力適用於多樣化場景。

在線體驗網站：https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
Github鏈接：https://github.com/Tencent-Hunyuan/HY-WorldPlay
Hugging Face鏈接：https://huggingface.co/tencent/HY-WorldPlay
項目主頁：https://3d-models.hunyuan.tencent.com/world/

發佈評論

Product

Company

Support

Company

騰訊混元世界模型1.5發佈，首次開源業界最系統、最全面的實時世界模型框架

發佈 評論

發佈評論