阿里巴巴通義實驗室開源全新圖像生成模型 Z-Image,該模型憑藉僅 6B 的參數規模,實現了高效的圖像生成與編輯,其視覺質量已接近國際領先商業模型的三倍參數級別(約20B)。
Z-Image 採用單流 DiT (Diffusion Transformer) 架構,包含 Z-Image-Turbo(專注於快速推理)、Z-Image-Base(基礎開發)和 Z-Image-Edit(圖像編輯)三大核心變體,以滿足不同的應用需求。
通過解耦 DMD 和 DMDR 等創新技術,該模型僅需 8個採樣步驟即可輸出高清逼真圖像,顯存佔用控制在 16GB 以下,使其能在 NVIDIA RTX30系列等消費級顯卡上流暢運行,在 H800GPU 上甚至可實現亞秒級的生成速度。
Z-Image 模型的關鍵優勢在於其強大的提示增強與推理能力,能夠超越表面的文字描述,融入“世界知識”進行語義對齊,確保輸出圖像的光影自然、細節豐富。它不僅支持複雜指令理解和多模態編輯任務,更在中英雙語文字渲染方面展現出高精度,有效解決了傳統 AI 圖像模型在文本處理上的痛點。
業內測試顯示,Z-Image 在人像生成、場景構圖和編輯一致性上表現搶眼,在 ComfyUI 框架下的測試中超越了部分 SDXL 基線模型,尤其在中文海報渲染和 NSFW 內容處理上表現出優異的穩定性。