告別修圖翻車!阿里Qwen團隊 & 港科大提出Qwen-Image-Layered ,面向內在可編輯性的圖層分解
論文標題:Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition
作者團隊:香港科技大學、阿里巴巴
發佈時間:2025年12月17日
論文鏈接
大模型實驗室Lab4AI論文閲讀
Lab4AI平台提供AI導讀和AI翻譯等工具,輔助論文閲讀。
✨背景
當前視覺生成模型在圖像編輯時面臨一致性挑戰:傳統光柵圖像是平面且內容糾纏的,編輯操作易引發語義漂移、幾何錯位等問題;專業設計工具依賴分層表示實現編輯一致性,但現有方法在複雜場景下難以將圖像分解為高質量、語義解耦的層,導致編輯精度與靈活性不足。
✨研究內容
論文推出 Qwen-Image-Layered,這是一款能夠將圖像分解為多個 RGBA 圖層的模型。這種分層表示賦予了圖像內在的可編輯性:每個圖層都可以獨立操作,而不會影響其他內容。
同時,這種分層結構天然支持高保真的基本編輯操作,例如縮放、移動和重新着色。
通過將不同元素物理地隔離到不同的圖層中,我們的方法實現了高保真的編輯效果。