公共資源速遞
5 個公共數據集:
- Arena-Write 寫作生成評測數據集
- IF-Bench 紅外圖像理解基準數據集
- Soul-Bench 音頻驅動人體動畫評測數據集
- FrontierScience 推理科研任務評測數據集
- VideoRewardBench 視頻獎勵模型評測數據集
4 個公共教程:
- UI-TARS-1.5 多模態 Agent
- GLM-ASR-Nano 智譜語音識別
- SoulX-Podcast 面向多方言的播客級長文本語音生成
- LongCat-Image-Edit-Interface:雙語文本驅動圖像編輯系統
訪問官網立即使用:http://openbayes.com
公共數據集
1. Arena-Write 寫作生成評測數據集
Arena-Write 是一個面向超長文本生成模型評測的寫作任務數據集,用於評估大語言模型在真實寫作場景下的長篇內容生成能力。數據集包含 100 條真實用户寫作任務,覆蓋社交媒體、文章與報告等多種文本形式,輸出長度從數百字到超過 2,000 字不等。除寫作提示外,數據還提供多種基線模型的生成結果,適合用於超長文本寫作能力評測與模型對比分析。
在線使用:
https://go.openbayes.com/dYpok
2. IF-Bench 紅外圖像理解基準數據集
IF-Bench 是一個面向紅外圖像理解的多模態評測基準,用於評估多模態大語言模型對紅外圖像語義信息的理解能力。數據集包含 499 張紅外圖像和 680 組視覺問答對,圖像來自 23 個紅外數據集,覆蓋 10 個關鍵理解維度。所有問題提供中英文雙語版本,適合用於紅外圖像語義理解與多模態推理評測。
在線使用:
https://go.openbayes.com/UD0RI
數據集分佈
3. Soul-Bench 音頻驅動人體動畫評測數據集
Soul-Bench 是一個面向音頻驅動人體動畫任務的評測基準,用於評估模型在真實場景下的生成質量、一致性與泛化能力。數據集包含 226 條視頻測試樣本,覆蓋多種主體類型、音頻形式、分辨率與畫面比例,適合用於音頻驅動人體動畫生成與跨模態一致性評測。
在線使用:
https://go.openbayes.com/8oxif
數據集示例
4. FrontierScience 推理科研任務評測數據集
FrontierScience 是一個面向專家級科學推理與科研任務的評測數據集,用於評估大模型在高難度科學問題求解中的能力。數據集包含封閉式推理的 Olympiad 子集和開放式科研推理的 Research 子集,分別對應可自動評測的精確推理任務與細粒度評分的科研子問題,適合用於科學推理與科研能力評測。
在線使用:
https://go.openbayes.com/oN4Zz
5. VideoRewardBench 視頻獎勵模型評測數據集
VideoRewardBench 是一個覆蓋感知、知識、推理與安全等核心維度的視頻理解評測基準,用於評估模型在視頻生成結果偏好判斷與質量評估中的能力。數據集包含 1,563 條帶偏好標註的樣本,每條樣本由視頻–文本提示、優選響應和拒絕響應組成,任務與視頻時長分佈較為均衡,適合用於多模態獎勵模型訓練與視頻理解評測。
在線使用:
https://go.openbayes.com/8vqYN
公共教程
1. UI-TARS-1.5 多模態 Agent
UI-TARS-1.5 通過多模態感知模型理解桌面與瀏覽器界面,並結合規劃與執行機制實現基於自然語言的自動化操作。系統無需預定義腳本即可解析用户意圖、理解當前界面並動態生成操作流程,在複雜、多變的 GUI 場景中具備良好的泛化能力,適用於桌面智能助理與自動化交互任務。
在線運行:
https://go.openbayes.com/i5TaZ
2. GLM-ASR-Nano 智譜語音識別
GLM-ASR-Nano 通過高效的聲學建模與優化訓練策略,實現小模型規模下的高精度語音識別。系統在支持普通話與英語的同時,對多種中文方言及低語、微聲等複雜聲學場景表現出較強魯棒性,在噪聲環境下仍能穩定轉寫,適用於端側部署、會議記錄與隱私友好型語音識別應用。
在線運行:
https://go.openbayes.com/o12aO
數據集示例
3. SoulX-Podcast 面向多方言的播客級長文本語音生成
SoulX-Podcast 面向播客風格的長文本語音生成任務,支持多説話人、多輪對話與多方言語音合成。系統通過副語言控制機制提升語音的自然度與表現力,覆蓋普通話、英語及多種中文方言,在長時對話與敍述場景中保持一致性與真實感,適用於播客生成、虛擬主持人與對話式語音內容創作。
在線運行:
https://go.openbayes.com/g8lnh
項目示例
4. LongCat-Image-Edit-Interface:雙語文本驅動圖像編輯系統
LongCat-Image-Edit 通過自然語言指令對已有圖像進行精準、可控的視覺編輯,支持中文與英文雙語輸入。系統以原始圖像作為強條件約束,在保持結構與語義一致性的同時,完成外觀調整、物體替換、背景變化與風格遷移等操作,在編輯可控性與視覺真實感之間取得良好平衡,適用於通用圖像編輯與創意生成場景。
在線運行:
https://go.openbayes.com/9vdu
項目示例