小紅書 AIGC 團隊推出全新佈局可控生成框架 InstanceAssemble,專為應對複雜場景下的 Layout-to-Image 任務。
InstanceAssemble 框架通過級聯結構將文本語義與佈局信息分階段建模,並引入全新的 Assemble-Attention,讓模型在面對高密度、多實例佈局時依然能保持清晰的空間理解與精準對齊。
同時,InstanceAssemble 採用極輕量的 LoRA 適配方式(僅佔 SD3-Medium 3.46%、Flux.1 0.84% 參數),即可在保持底模能力的前提下,實現靈活的文本與參考圖多模態控制。我們還構建了全新的 DenseLayout 基準與可解釋評價指標 LGS,讓佈局對齊的評估更加精確可靠。
整體來看,InstanceAssemble 在複雜佈局場景下表現穩健,生成質量與可控性均達到業內領先水平。
論文標題:InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
論文鏈接:https://arxiv.org/abs/2509.16691
項目主頁:https://github.com/FireRedTeam/InstanceAssemble