蘋果在 GitHub 發佈了名為 STARFlow-V 的開源項目,一款 70 億參數的視頻生成模型。
據介紹,STARFlow-V 基於 Normalizing Flow 架構,在時空潛在空間中運行,採用全局-局部架構,旨在實現高效、高保真度的視頻生成。它支持高達 640x480(480p)的分辨率,81 幀(16 FPS,約 5 秒),並證明 Normalizing Flow 模型在視頻生成方面可以與視頻擴散模型相媲美。
STARFlow-V 是首個基於歸一化流的因果視頻生成器,支持端到端訓練、原生似然估計,並能原生支持文本到視頻、圖像到視頻以及視頻到視頻的生成任務,無需更改架構或重新訓練。
項目地址:https://starflow-v.github.io/