字節跳動與港中大等聯合開源 DreamOmni2 - News Detail

字節跳動與香港中文大學、香港科技大學和香港大學聯合研發的 DreamOmni2系統已正式開源。

DreamOmni2 致力於提升人工智能在圖像處理中的指令遵循能力,實現了真正的多模態指令理解。這一系統能夠同時理解文本指令與參考圖像,顯著改善了以往模型在處理抽象概念(如風格、材質、光照)時的侷限性,且用户與 AI 之間的交互更加自然。

為了訓練 AI 理解複雜的文本和圖像指令,DreamOmni2的研發團隊開發了一套創新的三階段流程。首先,通過訓練提取模型,AI 能夠精準提取圖像中的特定元素或抽象屬性。接着,利用提取模型生成多模態指令編輯數據,形成包含源圖像、指令、參考圖像和目標圖像的訓練樣本。最後,通過進一步提取與組合生成更多參考圖像,構建出豐富的多模態指令生成數據集。

在模型架構方面,DreamOmni2提出了索引編碼和位置編碼偏移方案,確保模型能夠準確識別多張輸入圖像。同時,引入視覺語言模型(VLM),有效解決了用户指令與模型理解之間的鴻溝。這種創新設計提升了系統在處理指令時的準確性,使其能夠更好地理解用户的真實意圖。

經過測試,DreamOmni2在多模態指令編輯任務上的表現超越了所有參與比較的開源模型,接近頂尖商業模型。與傳統的商業模型相比,DreamOmni2在處理複雜指令時,能夠提供更高的準確性和一致性,避免了不必要的變更和圖像瑕疵。