美團 LongCat 團隊發佈 LongCat-Video 探索世界模型 - News Detail

美團LongCat團隊正式發佈LongCat-Video視頻生成模型，旨在以視頻生成路徑探索“世界模型”，為自動駕駛、具身智能等場景夯實技術基礎。

該模型基於DiT架構，以“條件幀數量”區分任務，原生支持文生、圖生視頻及視頻續寫，形成任務閉環。可生成720p/30fps高清內容，原生支持5分鐘級長視頻輸出，通過多重技術規避時序與物理合理性問題；經三重優化提升推理效率10.1倍。

其136億參數基座模型在文生、圖生視頻任務中達開源SOTA，VBench等測試表現優異。通過全面的評估顯示，LongCat-Video 通用性能優秀，綜合能力躋身開源 SOTA：

136 億參數的視頻生成基座模型，在文生視頻、圖生視頻兩大核心任務中，綜合性能均達到當前開源領域 SOTA 級別；
通過文本-視頻對齊、視覺質量、運動質量、整體質量四大維度評估，其性能在文本對齊度、運動連貫性等關鍵指標上展現顯著優勢；

模型已開源至GitHub、Hugging Face等平台，供開發者使用。

GitHub：https://github.com/meituan-longcat/LongCat-Video
Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Video
Project Page：https://meituan-longcat.github.io/LongCat-Video/