騰訊混元發佈混元圖像3.0圖生圖(HunyuanImage 3.0-Instruct)模型,支持圖片編輯與多圖融合,並在「元寶」同步上線,用户可直接在元寶全端和在騰訊混元官網體驗。
根據介紹,混元圖像3.0圖生圖總參數量80B(激活參數約13B),採用混合專家(MoE)架構,基於混元圖像3.0的原生多模態架構基礎模型,引入圖生圖的多任務數據,通過指令微調和後訓練,實現了對用户輸入圖像和編輯指令的深度理解與處理。混元圖像3.0圖生圖指令遵循效果穩定,生成的圖片一致性高、真實感強、情緒表現力佳,生成速度明顯提升。
混元圖像3.0圖生圖是一款能理解輸入圖像、會思考的圖像編輯模型。模型在收到用户輸入的圖片和提示詞後,首先會先理解圖像內容本身,並基於用户的提示詞進行推理,推理出具體的需要進行編輯的區域、詳細的編輯步驟以及需要保留的圖像區域,形成更加詳細的編輯指令,實現良好的輸出效果。
混元圖像3.0圖生圖支持多樣化的圖片編輯與多圖融合能力,比如增、刪、改、風格變換、老照片修復、人物與文字修改等圖片編輯能力,以及把多張照片中的人物或元素提取出來合成合照與生成新圖片等。
在元寶上,基於該模型用户可以直接製作表情包、虛擬人物合拍、社交分享、電商海報設計、遊戲角色定製、創意圖片製作等。
在數據層面,混元團隊通過圖像、視頻原始數據挖掘和專家網絡合成的方式,構建了千萬量級的圖生圖數據,覆蓋80+任務,並在持續訓練(CT)階段注入這些數據,使模型掌握基礎編輯功能;同時,混元團隊進一步針對圖生圖數據構造了思維鏈,讓模型學會先分析用户圖像和意圖,輸出更加詳細的編輯指令提升編輯效果。後訓練階段,混元圖像3.0圖生圖採用自研MixGRPO算法,結合獎勵模型多輪迭代,高效對齊用户偏好,大幅提升了指令響應和非編輯區域保持一致的效果。