騰訊混元發佈混元圖像 3.0 圖生圖模型

騰訊混元發佈混元圖像3.0圖生圖（HunyuanImage 3.0-Instruct）模型，支持圖片編輯與多圖融合，並在「元寶」同步上線，用户可直接在元寶全端和在騰訊混元官網體驗。

根據介紹，混元圖像3.0圖生圖總參數量80B（激活參數約13B），採用混合專家（MoE）架構，基於混元圖像3.0的原生多模態架構基礎模型，引入圖生圖的多任務數據，通過指令微調和後訓練，實現了對用户輸入圖像和編輯指令的深度理解與處理。混元圖像3.0圖生圖指令遵循效果穩定，生成的圖片一致性高、真實感強、情緒表現力佳，生成速度明顯提升。

混元圖像3.0圖生圖是一款能理解輸入圖像、會思考的圖像編輯模型。模型在收到用户輸入的圖片和提示詞後，首先會先理解圖像內容本身，並基於用户的提示詞進行推理，推理出具體的需要進行編輯的區域、詳細的編輯步驟以及需要保留的圖像區域，形成更加詳細的編輯指令，實現良好的輸出效果。

混元圖像3.0圖生圖支持多樣化的圖片編輯與多圖融合能力，比如增、刪、改、風格變換、老照片修復、人物與文字修改等圖片編輯能力，以及把多張照片中的人物或元素提取出來合成合照與生成新圖片等。

在元寶上，基於該模型用户可以直接製作表情包、虛擬人物合拍、社交分享、電商海報設計、遊戲角色定製、創意圖片製作等。

在數據層面，混元團隊通過圖像、視頻原始數據挖掘和專家網絡合成的方式，構建了千萬量級的圖生圖數據，覆蓋80+任務，並在持續訓練（CT）階段注入這些數據，使模型掌握基礎編輯功能；同時，混元團隊進一步針對圖生圖數據構造了思維鏈，讓模型學會先分析用户圖像和意圖，輸出更加詳細的編輯指令提升編輯效果。後訓練階段，混元圖像3.0圖生圖採用自研MixGRPO算法，結合獎勵模型多輪迭代，高效對齊用户偏好，大幅提升了指令響應和非編輯區域保持一致的效果。

發佈評論

Product

Company

Support

Company

騰訊混元發佈混元圖像 3.0 圖生圖模型

發佈 評論

發佈評論