視頻觀看本文,請戳鏈接:https://www.bilibili.com/video/BV1TGCJYUEMZ/?vd_source=d1c2fb...
2024年的篇章即將完結,Google DeepMind 卻在這接近尾聲的 12 月裏,用全新升級的基礎世界模型 Genie 2,給自己的 2024 AI 圖譜留下了濃墨重彩的一筆。
不知道大家是否還記得,在 2024 年初,Google 發佈了基礎世界模型 Genie,並將其定義為生成式交互環境 Generative Interactive Environments,引入了一種生成多樣化二維世界的方法,打開了生成式 AI 的全新範式。
而在短短不到一年的時間裏,Google 就對它進行了重磅升級,由簡單的二維平面世界進化到了豐富的 3D 立體世界,只要一張圖,就能生成長達 1 分鐘的 3D 世界,在通用性上實現了重大突破,讓人不經驚呼:難道是黑客帝國來了麼?
Genie 2 作為一個基礎世界模型(foundation world model),意味着它可以模擬虛擬世界,包括生成無限多種可控制動作、可玩的 3D 環境,而這些 3D 環境又可用於訓練和評估具身智能體。Genie 2 與其他生成模型一樣具有各種大規模涌現能力,例如物體交互、複雜角色動畫、物理以及建模和預測其他智能體行為的能力。
從生成畫面的效果來看,Genie 2 模型的功能特點非常強大。
第一點就是“動作控制”,當使用者通過鍵盤按鍵進行操作的時候,模型可以智能識別畫面中應該進行動作改變的角色,並正確移動,例如我們通過 wasd 操控小機器人在樹林中穿梭時,Genie2 可以智能地反映出鍵盤操控移動的對象是機器人,而非樹木。
第二個特點是“生成反事實”,簡單來説,就是給定一個起始畫面,模型可以腦補多種不同的劇情走向,並生成相應的畫面,比如説當我們給出一個分岔路口的起始畫面,Genie 2 可以自行生成選擇不同的路線後的景象,甚至還包括了一種另闢蹊徑、不走尋常路的可能性。這一特點在 AI 訓練方面起到了很大的作用,我們都知道數據越多,AI 訓練的效果通常就越好,那麼這些自動生成的不同發展的畫面就能在很大程度上豐富 AI 的訓練數據集。
第三個特點是”長時間記憶“,喜歡大世界遊戲的人都知道,畫面的連貫性是給遊戲體驗加分的一個重點,而 Genie 2 模型就能夠記住那些暫時脱離畫面的場景,並在它們重新進入視野時,精確地還原出來,保證了整個世界畫面的流暢。
Genie 2 的另外一大功能就是”物理效果“的呈現。水上航行的水波特效、城中街道的煙霧瀰漫、騰轉挪移的重力效果以及叢林密探的光線變化,極其真實地還原了現實世界中的各種自然表現,給使用者以身臨其境的沉浸式體驗。
再從技術層面來看,Genie 2 模型架構的核心是自迴歸潛在擴散模型,在大型視頻數據集上進行訓練。經過自動編碼器後,視頻中的潛在幀被傳遞到大型 Transformer 動力學模型,該模型使用與大語言模型相類似的因果掩碼進行訓練。在推理時,Genie 2 以自迴歸方式進行採樣,逐幀獲取單個動作和過去的潛在幀。
最後,從應用場景角度出發,Genie 2 模型更是活躍在各個領域,最直觀的方向就是遊戲開發,只需單張圖片和文字描述,Genie 2 便能構建出包含機器人角色和可探索環境等動態場景,極大程度地提高了遊戲開發人員的工作效率,同時也降低了遊戲開發的入門門檻,有靈感的普通人也可以輕鬆將幻想中的畫面付諸於實踐。
Genie 2 還可以在教育領域根據學生的學習進度和興趣提供定製化的教學內容,互動式的世界模型可以幫助學生創建個性化的學習環境。而在醫療領域,它也可以模擬複雜的醫療場景,幫助醫生進行更準確的診斷和治療。
Genie 2 展示了基礎世界模型在創建多樣化 3D 環境和加速智能體研究方面的潛力,給 2024 的人工智能領域畫上了一個相當滿意的句點,2025 的 AI 領域又會有怎樣新奇的靈感迸發而出呢?
歡迎加入 AI4AI 社區,讓我們一起在人工智能的萬千浪潮中揚帆遠航吧!