博客 / 詳情

返回

VibeVoice-Realtime TTS重構實時語音體驗;覆蓋9大真實場景,WenetSpeech-Chuan讓模型聽懂川話

公共資源速遞

5 個公共數據集:

  • VOccl3D 三維人體遮擋視頻數據集
  • Spatial-SSRL-81k 空間感知自監督數據集
  • WenetSpeech-Chuan 川渝方言語音數據集
  • MMSVGBench 多模態矢量圖生成基準數據集
  • Fungi MultiClass Microscopic 真菌顯微圖像數據集

6 個公共教程:

  • 基於手勢識別的 3D 聖誕樹
  • Dia2-TTS:實時語音合成服務
  • 一鍵部署 Ministral-3-14B-Instruct
  • Ovis-Image:高質量圖像生成模型服務
  • Z-Image-Turbo:高效 6B 參數圖像生成模型
  • VibeVoice-Realtime TTS:實時語音合成服務

訪問官網立即使用:http://openbayes.com

公共數據集

1.VOccl3D 三維人體遮擋視頻數據集

該數據集共包含超過 25 萬張圖像和約 400 段視頻序列,由背景場景、人類動作與多樣化貼圖共同構建。

在線使用:

https://go.openbayes.com/1bvHK


數據集示例

2.Spatial-SSRL-81k 空間感知自監督數據集

該數據集共包含 81,053 條自動生成的問答樣本,涵蓋多種問題形式,包括排序任務、帶圖像選項的多選題以及帶文本選項的多選題,覆蓋多樣化的室內與室外真實場景。

在線使用:

https://go.openbayes.com/Sf0hE

數據集示例

3.WenetSpeech-Chuan 川渝方言語音數據集

該數據集共包含 10,013 小時的真實川渝方言語音,其中包括 3,714 小時的強標籤數據和 6,299 小時的弱標籤數據。所有語音均附帶豐富的標註信息,如文本內容、置信度、音質評分、説話人的性別與年齡,以及情緒標籤等。

在線使用:

https://go.openbayes.com/0pXSs

數據集示例

4.MMSVGBench 多模態矢量圖生成基準數據集

該數據集共包含 600 條測試樣本,每條樣本都包含完整的輸入信息與元數據,包括唯一標識、圖像或文本輸入、任務類型、類別標籤(如圖標或插畫),以及數據來源的 URL。

在線使用:

https://go.openbayes.com/Nm58i

5.Fungi MultiClass Microscopic 真菌顯微圖像數據集

該數據集共包含 6,801 張真菌顯微圖像,覆蓋 5 個真菌類別(H1、H2、H3、H5、H6)。數據集分為訓練集、驗證集和測試集,訓練集共 5,000 張,類別均衡(每類 1,000 張);驗證集共 899 張,類別分佈不均衡;測試集共 902 張,同樣存在不均衡性。

在線使用:

https://go.openbayes.com/eVH7b

數據集示例

公共教程

1.Ovis-Image:高質量圖像生成模型服務

Ovis-Image 採用多尺度 Transformer 編碼器與自迴歸生成架構,在高分辨率圖像生成、細節表現及多風格適配能力上表現卓越。

在線運行:

https://go.openbayes.com/vzGuL

項目示例

2.Dia2-TTS:實時語音合成服務

Dia2-TTS 可直接輸入連續多輪對話腳本,生成自然連貫、角色音色一致的高質量語音,適用於虛擬客服、語音助手、AI 配音、短劇生成等應用場景。

在線運行:

https://go.openbayes.com/iJVIg

項目示例

3.VibeVoice-Realtime TTS:實時語音合成服務

VibeVoice-Realtime TTS 採用一種新穎的次令牌擴散方法,用於在長篇多説話者語音合成中建模連續數據,並引入高效的連續語音分詞器,使模型能夠在 64K 上下文窗口內生成長達 90 分鐘的語音,最多支持 4 名説話者,同時在保持音頻忠實度的前提下大幅提升計算效率,捕捉真實對話氛圍。

在線運行:

https://go.openbayes.com/UvYQR

項目示例

4.Z-Image-Turbo:高效 6B 參數圖像生成模型

該模型以僅 6B 的參數規模,實現了與 20B 以上參數閉源旗艦模型相媲美的性能,特別擅長生成高保真度的照片級真實人像。

在線運行:

https://go.openbayes.com/rgJrz

項目示例

5.一鍵部署 Ministral-3-14B-Instruct

Ministral-3-14B-Instruct-2512 是由 Mistral AI 發佈的多模態模型。支持多模態(文本和圖像)與多語言功能,具有高性能和高性價比。

在線運行:

https://go.openbayes.com/9zeXk

項目示例

6.基於手勢識別的 3D 聖誕樹

該項目基於 React 和 Three.js(R3F)構建,通過先進的 AI 手勢識別技術,用户可以輕鬆用手勢控制聖誕樹的形態變化(聚合與散開)以及視角的自由旋轉。

在線運行:

https://go.openbayes.com/scGkY

效果展示

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.