博客 / 詳情

返回

SAM3 重塑場景分割邊界;X-Dance 解鎖圖像驅動舞姿生成新難度

公共資源速遞

5 個公共數據集:

  • 3EED 語言驅動三維理解數據集
  • X-Dance 圖像驅動舞蹈動作數據集
  • PhysToolBench 物理工具任務數據集
  • OST-Bench 時空場景理解基準數據集
  • Astrophysical Objects Image 天體物理物體圖像數據集

4 個公共教程:

  • SAM3:視覺分割模型
  • FLUX.2-dev:圖像生成與編輯模型
  • Supertonic:基於 ONNX 的極速 TTS 語音合成模型
  • Eigen-Banana:使用 Qwen-Image-Edit LoRA 快速圖像編輯

訪問官網立即使用:http://openbayes.com

公共數據集

  1. 3EED 語言驅動三維理解數據集

3EED 數據集共包含 20,367 個時間對齊的多模態幀,覆蓋車輛、無人機與四足機器人三類平台。數據提供 128,735 個三維目標框以及 22,439 條經過人工驗證的語言指代表達,是當前規模較大的三維視覺指代數據集之一。

在線使用:

https://go.openbayes.com/MB6Ol

數據集示例

2. X-Dance 圖像驅動舞蹈動作數據集

X-Dance 數據集包含 12 段驅動視頻,其中 8 段為高動態舞蹈動作,4 段為低幅度日常行為,涵蓋運動模糊、遮擋、姿態劇變等多種真實場景變化。針對每段動作,數據集構建多源參考圖像,包括動漫角色、半身照片、跨風格人物以及姿態差異顯著的圖像,用於模擬空間結構不一致與時間起點不連續等情況。

在線使用:

https://go.openbayes.com/m1mdE

數據集示例

3. OST-Bench 時空場景理解數據集

OST-Bench 數據集包含約 1,400 個真實室內三維場景,並基於探索軌跡生成約 10,000 條多輪時序問答樣本,旨在評估模型的在線時空場景理解能力。場景來自多個室內三維數據源,並基於統一的物體與語義標註進行處理。

在線使用:

https://go.openbayes.com/k1zHC

數據集示例

4. PhysToolBench 物理工具任務數據集

PhysToolBench 數據集包含超過 1,000 條圖像–文本樣本,覆蓋日常生活、工業操作、户外作業與專業場景等多種環境,旨在評估模型在物理工具識別、理解與創造方面的能力。數據依據任務複雜度劃分為易、中、難三個等級,並構建三類核心任務:工具創造、工具識別與工具理解。

在線使用:

https://go.openbayes.com/Y8QY1

數據集示例

5. Astrophysical Objects Image 天體物理物體圖像數據集

Astrophysical Objects Image 是一個面向天文學與天體物理研究的深度學習圖像數據集,數據集圖像來自多個公開天文數據源,按照類別組織為 12 類天體文件夾,所有圖像均按類別規範存放。

在線使用:

https://go.openbayes.com/rzRTk

數據集示例

公共教程

1. SAM3:視覺分割模型

SAM3 是 Meta AI 發佈的先進計算機視覺模型,支持通過文本短語、圖像示例和視覺提示完成圖像與視頻中的對象檢測、分割與跟蹤。模型具備開放詞彙能力,可實時修正分割結果,並在零樣本條件下保持穩定泛化。在圖像與視頻分割任務中,SAM3 的表現達到前代系統的兩倍,並進一步擴展至 3D 重建領域,為家居預覽、創意編輯與科研場景提供更強大的視覺基礎能力。

在線運行:

https://go.openbayes.com/4WT0m

項目示例

2. FLUX.2-dev:圖像生成與編輯模型

FLUX.2 是 Black Forest Labs 發佈的新一代 AI 圖像生成模型,專為專業創意工作流程打造。模型支持最多 10 張參考圖輸入,能夠生成最高 4MP 分辨率的高質量畫面,並在細節刻畫與文本渲染方面表現突出。基於視覺語言模型與流變換器架構的結合,FLUX.2 全面提升了圖像生成的穩定性與真實感,為設計、廣告與數字內容生產提供更高效的視覺創作能力。

在線運行:

https://go.openbayes.com/5anAh

項目示例

3. Supertonic:基於 ONNX 的極速 TTS 語音合成模型

Supertonic 是 Supertone 推出的本地文本轉語音引擎,基於 ONNX Runtime 開發,重點優化低延遲與高並發表現。它在保證高質量語音合成的同時大幅降低硬件門檻,可在桌面端、服務器及邊緣設備實現完全離線的實時推理。得益於其本地化特性,Supertonic 特別適用於隱私敏感場景及對實時交互要求較高的應用,如數字人、遊戲語音與本地語音助手。

在線運行:

https://go.openbayes.com/D1Rza

項目示例

4. Eigen-Banana:使用 Qwen-Image-Edit LoRA 快速圖像編輯

Eigen-Banana-Qwen-Image-Edit 是 Eigen AI 推出的基於 Qwen-Image-Edit 的 LoRA 適配模型,面向高質量且高效率的文本驅動圖像編輯。模型基於 Apple 的 Pico-Banana-400K 數據集訓練,在物體調整、風格轉換等多類編輯任務中表現優異,並通過減少推理步驟顯著提升編輯速度。該模型適用於創意設計、圖像增強與快速原型圖生成等場景。

在線運行:

https://go.openbayes.com/OSyCV

項目示例

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.