阿里巴巴開源 Z-Image 圖像模型：支持中英雙語文字渲染 - 新聞詳情 | YeLogs.com

阿里巴巴開源 Z-Image 圖像模型：支持中英雙語文字渲染

新聞

HongKong

54

03:53 PM · Nov 27 ,2025

阿里巴巴通義實驗室開源全新圖像生成模型 Z-Image，該模型憑藉僅 6B 的參數規模，實現了高效的圖像生成與編輯，其視覺質量已接近國際領先商業模型的三倍參數級別（約20B）。

Z-Image 採用單流 DiT （Diffusion Transformer）架構，包含 Z-Image-Turbo（專注於快速推理）、Z-Image-Base（基礎開發）和 Z-Image-Edit（圖像編輯）三大核心變體，以滿足不同的應用需求。

通過解耦 DMD 和 DMDR 等創新技術，該模型僅需 8個採樣步驟即可輸出高清逼真圖像，顯存佔用控制在 16GB 以下，使其能在 NVIDIA RTX30系列等消費級顯卡上流暢運行，在 H800GPU 上甚至可實現亞秒級的生成速度。

Z-Image 模型的關鍵優勢在於其強大的提示增強與推理能力，能夠超越表面的文字描述，融入“世界知識”進行語義對齊，確保輸出圖像的光影自然、細節豐富。它不僅支持複雜指令理解和多模態編輯任務，更在中英雙語文字渲染方面展現出高精度，有效解決了傳統 AI 圖像模型在文本處理上的痛點。

業內測試顯示，Z-Image 在人像生成、場景構圖和編輯一致性上表現搶眼，在 ComfyUI 框架下的測試中超越了部分 SDXL 基線模型，尤其在中文海報渲染和 NSFW 內容處理上表現出優異的穩定性。

0 位用戶收藏了這個故事！