阿里通義開源 Z-Image-Turbo-Fun-Controlnet-Union

阿里巴巴通義實驗室正式開源 Z-Image-Turbo-Fun-Controlnet-Union。

該系列以單流擴散架構為核心，僅6億參數卻實現照片級真實感渲染，包括皮膚紋理、髮絲細節及光影美學優化。Z-Image-Turbo 作為快速推理版本，僅需8步採樣即可生成1024x1024分辨率圖像，推理時間低至9秒（RTX4080硬件），並在提示詞理解上支持中英混合文本渲染，顯著提升了創作效率。

此次 Z-Image-Turbo-Fun-Controlnet-Union 的推出，是對 Z-Image-Turbo 的深度擴展。它在模型的6個核心塊上集成 ControlNet 結構，兼容 Canny 邊緣檢測、HED 邊界提取及 Depth 深度映射等多模態控制條件。該模型專為複雜場景設計，如人物姿態精確生成及基於線稿的建築渲染，目前通過 Python 代碼實現集成，ComfyUI 等工作流支持即將跟進。

核心功能與應用亮點

多條件控制融合：支持姿態、邊緣與深度信息的聯合輸入，實現“零失真”圖像操控。開發者可輕鬆構建從草圖到成品的自動化管道，適用於電商視覺設計、影視特效及遊戲原型製作。
高效兼容性：繼承 Z-Image-Turbo 的輕量架構，僅需6GB VRAM 即可運行，遠低於傳統 ControlNet 模型的硬件門檻。測試顯示，在低端 GPU 上生成速度達250秒/5步，平衡了質量與實時性。
開源生態賦能：模型提供4-bit 量化版本（如 MFLUX 兼容），便於 Mac 等消費級設備部署。同時，Z-Image-Edit 變體增強了複合編輯指令理解，保持畫面一致性。

未來，預計將與 Z-Image-Base 版本聯動，形成完整圖像生成-編輯-控制閉環。

發佈評論

Product

Company

Support

Company

阿里通義開源 Z-Image-Turbo-Fun-Controlnet-Union

發佈 評論

發佈評論