SAM3 重塑場景分割邊界；X-Dance 解鎖圖像驅動舞姿生成新難度詳情 - 自然語言處理,人工智能,深度學習,機器學習,資訊 OpenBayes 博客

公共資源速遞

5 個公共數據集：

3EED 語言驅動三維理解數據集
X-Dance 圖像驅動舞蹈動作數據集
PhysToolBench 物理工具任務數據集
OST-Bench 時空場景理解基準數據集
Astrophysical Objects Image 天體物理物體圖像數據集

4 個公共教程：

SAM3：視覺分割模型
FLUX.2-dev：圖像生成與編輯模型
Supertonic：基於 ONNX 的極速 TTS 語音合成模型
Eigen-Banana：使用 Qwen-Image-Edit LoRA 快速圖像編輯

訪問官網立即使用：http://openbayes.com

公共數據集

3EED 語言驅動三維理解數據集

3EED 數據集共包含 20,367 個時間對齊的多模態幀，覆蓋車輛、無人機與四足機器人三類平台。數據提供 128,735 個三維目標框以及 22,439 條經過人工驗證的語言指代表達，是當前規模較大的三維視覺指代數據集之一。

在線使用：

https://go.openbayes.com/MB6Ol

數據集示例

2. X-Dance 圖像驅動舞蹈動作數據集

X-Dance 數據集包含 12 段驅動視頻，其中 8 段為高動態舞蹈動作，4 段為低幅度日常行為，涵蓋運動模糊、遮擋、姿態劇變等多種真實場景變化。針對每段動作，數據集構建多源參考圖像，包括動漫角色、半身照片、跨風格人物以及姿態差異顯著的圖像，用於模擬空間結構不一致與時間起點不連續等情況。

在線使用：

https://go.openbayes.com/m1mdE

數據集示例

3. OST-Bench 時空場景理解數據集

OST-Bench 數據集包含約 1,400 個真實室內三維場景，並基於探索軌跡生成約 10,000 條多輪時序問答樣本，旨在評估模型的在線時空場景理解能力。場景來自多個室內三維數據源，並基於統一的物體與語義標註進行處理。

在線使用：

https://go.openbayes.com/k1zHC

數據集示例

4. PhysToolBench 物理工具任務數據集

PhysToolBench 數據集包含超過 1,000 條圖像–文本樣本，覆蓋日常生活、工業操作、户外作業與專業場景等多種環境，旨在評估模型在物理工具識別、理解與創造方面的能力。數據依據任務複雜度劃分為易、中、難三個等級，並構建三類核心任務：工具創造、工具識別與工具理解。

在線使用：

https://go.openbayes.com/Y8QY1

數據集示例

5. Astrophysical Objects Image 天體物理物體圖像數據集

Astrophysical Objects Image 是一個面向天文學與天體物理研究的深度學習圖像數據集，數據集圖像來自多個公開天文數據源，按照類別組織為 12 類天體文件夾，所有圖像均按類別規範存放。

在線使用：

https://go.openbayes.com/rzRTk

數據集示例

公共教程

1. SAM3：視覺分割模型

SAM3 是 Meta AI 發佈的先進計算機視覺模型，支持通過文本短語、圖像示例和視覺提示完成圖像與視頻中的對象檢測、分割與跟蹤。模型具備開放詞彙能力，可實時修正分割結果，並在零樣本條件下保持穩定泛化。在圖像與視頻分割任務中，SAM3 的表現達到前代系統的兩倍，並進一步擴展至 3D 重建領域，為家居預覽、創意編輯與科研場景提供更強大的視覺基礎能力。

在線運行：

https://go.openbayes.com/4WT0m

項目示例

2. FLUX.2-dev：圖像生成與編輯模型

FLUX.2 是 Black Forest Labs 發佈的新一代 AI 圖像生成模型，專為專業創意工作流程打造。模型支持最多 10 張參考圖輸入，能夠生成最高 4MP 分辨率的高質量畫面，並在細節刻畫與文本渲染方面表現突出。基於視覺語言模型與流變換器架構的結合，FLUX.2 全面提升了圖像生成的穩定性與真實感，為設計、廣告與數字內容生產提供更高效的視覺創作能力。

在線運行：

https://go.openbayes.com/5anAh

項目示例

3. Supertonic：基於 ONNX 的極速 TTS 語音合成模型

Supertonic 是 Supertone 推出的本地文本轉語音引擎，基於 ONNX Runtime 開發，重點優化低延遲與高並發表現。它在保證高質量語音合成的同時大幅降低硬件門檻，可在桌面端、服務器及邊緣設備實現完全離線的實時推理。得益於其本地化特性，Supertonic 特別適用於隱私敏感場景及對實時交互要求較高的應用，如數字人、遊戲語音與本地語音助手。

在線運行：

https://go.openbayes.com/D1Rza

項目示例

4. Eigen-Banana：使用 Qwen-Image-Edit LoRA 快速圖像編輯

Eigen-Banana-Qwen-Image-Edit 是 Eigen AI 推出的基於 Qwen-Image-Edit 的 LoRA 適配模型，面向高質量且高效率的文本驅動圖像編輯。模型基於 Apple 的 Pico-Banana-400K 數據集訓練，在物體調整、風格轉換等多類編輯任務中表現優異，並通過減少推理步驟顯著提升編輯速度。該模型適用於創意設計、圖像增強與快速原型圖生成等場景。

在線運行：

https://go.openbayes.com/OSyCV

項目示例

OpenBayes 博客

OpenBayes 博客

博客 / 詳情