智源發佈 Emu3.5 多模態世界大模型 - 新闻 详情

北京智源人工智能研究院正式發佈其新一代多模態世界模型——Emu3.5,首次將自迴歸式“下一狀態預測”(Next-State Prediction, NSP)引入多模態序列建模。

Emu3.5的核心突破在於其統一的NSP框架:模型將文本、圖像、動作指令等多模態輸入視為連續狀態序列,通過預測“下一個狀態”來實現端到端的智能推理。這意味着,Emu3.5不僅能理解當前場景,還能預判操作後的結果,並據此規劃最優動作路徑。

例如,用户輸入“把這張照片中的咖啡杯移到桌子右邊,並調亮整體色調”,Emu3.5不僅能精準識別對象與背景,還能分步執行移動、光照調整等複合操作,確保每一步輸出都符合物理邏輯與視覺一致性。

在實測中,Emu3.5展現出強大的跨模態泛化與具身操作能力:

  • 文圖協同生成:根據複雜描述(如“賽博朋克風格的雨夜街道,霓虹燈反射在積水路面”)生成高細節圖像;
  • 智能圖像編輯:支持語義級修改(如“更換人物服裝風格為復古西裝”),無需手動選區;
  • 時空動態推理:可對視頻幀序列進行連貫編輯,如“讓奔跑的角色突然停下並轉身”。

這種能力使其在機器人控制、虛擬助手、智能設計等需“感知-決策-執行”閉環的場景中潛力巨大。

不同於早期多模態模型僅做特徵對齊,Emu3.5將文本、視覺、動作等模態統一編碼為可預測的狀態流,實現真正意義上的跨模態自由切換與協同推理。科研人員可藉此高效處理異構數據,普通用户則能通過自然語言完成以往需專業軟件才能實現的創作任務。

智源表示,Emu3.5將率先應用於教育(智能課件生成)、醫療(多模態病歷分析)、娛樂(AI導演)等領域,並持續開源部分能力,推動多模態生態發展。