LongCat-Video 視頻生成模型正式發佈,探索世界模型的第一步 - News Detail

要讓人工智能真正理解、預測甚至重構真實世界,"世界模型"(World Model)已成為通往下一代智能的核心引擎。作為能夠建模物理規律、時空演化與場景邏輯的智能系統,世界模型賦予AI"看見"世界運行本質的能力。而視頻生成模型有望成為構建世界模型的關鍵路徑------通過視頻生成任務壓縮幾何、語義、物理等多種形式的知識,AI得以在數字空間中模擬、推演乃至預演真實世界的運行。

基於這一關鍵目標,美團 LongCat 團隊正式發佈 LongCat-Video 視頻生成模型 ------ 不僅以統一模型在文生、圖生視頻基礎任務上達到開源最先進水平,更依託原生視頻續寫任務預訓練,實現分鐘級長視頻連貫生成,從根源上保障跨幀時序一致性與物理運動合理性,尤其在長視頻生成領域具備顯著優勢。

作為一款視頻生成模型,LongCat-Video 憑藉其精準重構真實世界運行狀態的能力,正在成為美團探索世界模型的第一步,也是關鍵的一步。同時,這也為後續支撐更多自動駕駛、具身智能等深度交互業務場景,夯實了技術基礎。

技術亮點

統一模型架構:多任務一體化視頻基座

作為基於 Diffusion Transformer(DiT)架構的多功能統一視頻生成基座,LongCat-Video 創新通過 "條件幀數量" 實現任務區分 ------ 文生視頻無需條件幀、圖生視頻輸入 1 幀參考圖、視頻續寫依託多幀前序內容,原生支持三大核心任務且無需額外模型適配,形成 "文生 / 圖生 / 視頻續寫" 完整任務閉環。

  • 文生視頻:可生成 720p、30fps 高清視頻,能精準解析文本中物體、人物、場景、風格等細節指令,語義理解與視覺呈現能力達開源 SOTA 級別。
  • 圖生視頻:嚴格保留參考圖像的主體屬性、背景關係與整體風格,動態過程符合物理規律,支持詳細指令、簡潔描述、空指令等多類型輸入,內容一致性與動態自然度表現優異。
  • 視頻續寫:視頻續寫是LongCat Video的核心差異化能力,可基於多幀條件幀續接視頻內容,為長視頻生成提供原生技術支撐。

備註:相關視頻生成效果請移步 項目主頁 查看。

長視頻生成:原生支持5分鐘級連貫輸出

依託視頻續寫任務預訓練、Block-Causual Attention 機制和 GRPO 後訓練,LongCat-Video 可穩定輸出5分鐘級別的長視頻,且無質量損失,達到行業頂尖水平。同時,從根源規避色彩漂移、畫質降解、動作斷裂等行業痛點,保障跨幀時序一致性與物理運動合理性,完美適配數字人、具身智能、世界模型等需要長時序動態模擬的場景需求。

同時,模型結合塊稀疏注意力(BSA)與條件 token 緩存機制,大幅降低長視頻推理冗餘 ------ 即便處理 93 幀及以上長序列,仍能兼顧效率與生成質量穩定,打破長視頻生成 "時長與質量不可兼得" 的瓶頸。

高效推理:二階段生成+稀疏注意力+模型蒸餾優化

針對高分辨率、高幀率視頻生成的計算瓶頸,LongCat-Video 通過 "二階段粗到精生成(C2F)+ 塊稀疏注意力(BSA)+ 模型蒸餾" 三重優化,視頻推理速度提升至10.1倍,實現效率與質量的最優平衡:

  • 二階段粗到精生成(C2F):先生成 480p、15fps 低分辨率視頻,再經 LoRA 精調模塊超分至 720p、30fps,在降本提效的同時優化畫面細節;
  • 塊稀疏注意力(BSA):將 3D 視覺 token 分塊後,僅選取 top-r 關鍵塊計算注意力,使計算量降至標準密集註意力的 10% 以下;支持稀疏注意力適配並行訓練,進一步提升大模型訓練與推理效率;
  • 模型蒸餾優化:結合 Classifier-Free Guidance(CFG)與一致性模型(CM)蒸餾,將採樣步驟從 50 步減至 16 步。

模型性能

LongCat-Video 的模型評估圍繞內部基準測試公開基準測試展開,覆蓋 Text-to-Video(文本生成視頻)、Image-to-Video(圖像生成視頻)兩大核心任務,從多維度(文本對齊、圖像對齊、視覺質量、運動質量、整體質量)驗證模型性能:

通過全面的評估顯示,LongCat-Video 通用性能優秀,綜合能力躋身開源 SOTA:

  • 136 億參數的視頻生成基座模型,在文生視頻、圖生視頻兩大核心任務中,綜合性能均達到當前開源領域 SOTA 級別;
  • 通過文本-視頻對齊、視覺質量、運動質量、整體質量四大維度評估,其性能在文本對齊度、運動連貫性等關鍵指標上展現顯著優勢;
  • 在 VBench 等公開基準測試中,LongCat-Video 在參評模型中整體表現優異。

開啓你的長視頻創作之旅

  • GitHub :https://github.com/meituan-longcat/LongCat-Video
  • Hugging Face :https://huggingface.co/meituan-longcat/LongCat-Video
  • Project Page :https://meituan-longcat.github.io/LongCat-Video/

| 關注「美團技術團隊」微信公眾號,在公眾號菜單欄對話框回覆【2024年貨】、【2023年貨】、【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明"內容轉載自美團技術團隊"。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請發送郵件至 tech@meituan.com 申請授權。