VibeVoice-Realtime TTS重構實時語音體驗；覆蓋9大真實場景，WenetSpeech-Chuan讓模型聽懂川話詳情 - 機器學習,人工智能,深度學習,自然語言處理,算法 OpenBayes 博客

公共資源速遞

5 個公共數據集：

VOccl3D 三維人體遮擋視頻數據集
Spatial-SSRL-81k 空間感知自監督數據集
WenetSpeech-Chuan 川渝方言語音數據集
MMSVGBench 多模態矢量圖生成基準數據集
Fungi MultiClass Microscopic 真菌顯微圖像數據集

6 個公共教程：

基於手勢識別的 3D 聖誕樹
Dia2-TTS：實時語音合成服務
一鍵部署 Ministral-3-14B-Instruct
Ovis-Image:高質量圖像生成模型服務
Z-Image-Turbo：高效 6B 參數圖像生成模型
VibeVoice-Realtime TTS：實時語音合成服務

訪問官網立即使用：http://openbayes.com

公共數據集

1.VOccl3D 三維人體遮擋視頻數據集

該數據集共包含超過 25 萬張圖像和約 400 段視頻序列，由背景場景、人類動作與多樣化貼圖共同構建。

在線使用：

https://go.openbayes.com/1bvHK

數據集示例

2.Spatial-SSRL-81k 空間感知自監督數據集

該數據集共包含 81,053 條自動生成的問答樣本，涵蓋多種問題形式，包括排序任務、帶圖像選項的多選題以及帶文本選項的多選題，覆蓋多樣化的室內與室外真實場景。

在線使用：

https://go.openbayes.com/Sf0hE

數據集示例

3.WenetSpeech-Chuan 川渝方言語音數據集

該數據集共包含 10,013 小時的真實川渝方言語音，其中包括 3,714 小時的強標籤數據和 6,299 小時的弱標籤數據。所有語音均附帶豐富的標註信息，如文本內容、置信度、音質評分、説話人的性別與年齡，以及情緒標籤等。

在線使用：

https://go.openbayes.com/0pXSs

數據集示例

4.MMSVGBench 多模態矢量圖生成基準數據集

該數據集共包含 600 條測試樣本，每條樣本都包含完整的輸入信息與元數據，包括唯一標識、圖像或文本輸入、任務類型、類別標籤（如圖標或插畫），以及數據來源的 URL。

在線使用：

https://go.openbayes.com/Nm58i

5.Fungi MultiClass Microscopic 真菌顯微圖像數據集

該數據集共包含 6,801 張真菌顯微圖像，覆蓋 5 個真菌類別（H1、H2、H3、H5、H6）。數據集分為訓練集、驗證集和測試集，訓練集共 5,000 張，類別均衡（每類 1,000 張）；驗證集共 899 張，類別分佈不均衡；測試集共 902 張，同樣存在不均衡性。

在線使用：

https://go.openbayes.com/eVH7b

數據集示例

公共教程

1.Ovis-Image：高質量圖像生成模型服務

Ovis-Image 採用多尺度 Transformer 編碼器與自迴歸生成架構，在高分辨率圖像生成、細節表現及多風格適配能力上表現卓越。

在線運行：

https://go.openbayes.com/vzGuL

項目示例

2.Dia2-TTS：實時語音合成服務

Dia2-TTS 可直接輸入連續多輪對話腳本，生成自然連貫、角色音色一致的高質量語音，適用於虛擬客服、語音助手、AI 配音、短劇生成等應用場景。

在線運行：

https://go.openbayes.com/iJVIg

項目示例

3.VibeVoice-Realtime TTS：實時語音合成服務

VibeVoice-Realtime TTS 採用一種新穎的次令牌擴散方法，用於在長篇多説話者語音合成中建模連續數據，並引入高效的連續語音分詞器，使模型能夠在 64K 上下文窗口內生成長達 90 分鐘的語音，最多支持 4 名説話者，同時在保持音頻忠實度的前提下大幅提升計算效率，捕捉真實對話氛圍。

在線運行：

https://go.openbayes.com/UvYQR

項目示例

4.Z-Image-Turbo：高效 6B 參數圖像生成模型

該模型以僅 6B 的參數規模，實現了與 20B 以上參數閉源旗艦模型相媲美的性能，特別擅長生成高保真度的照片級真實人像。

在線運行：

https://go.openbayes.com/rgJrz

項目示例

5.一鍵部署 Ministral-3-14B-Instruct

Ministral-3-14B-Instruct-2512 是由 Mistral AI 發佈的多模態模型。支持多模態（文本和圖像）與多語言功能，具有高性能和高性價比。

在線運行：

https://go.openbayes.com/9zeXk

項目示例

6.基於手勢識別的 3D 聖誕樹

該項目基於 React 和 Three.js（R3F）構建，通過先進的 AI 手勢識別技術，用户可以輕鬆用手勢控制聖誕樹的形態變化（聚合與散開）以及視角的自由旋轉。

在線運行：

https://go.openbayes.com/scGkY

效果展示

OpenBayes 博客

OpenBayes 博客

博客 / 詳情