公共資源速遞 This Weekly Snapshots !
7 個公共數據集:
- Nemotron 多領域推理數據集
- Trendyol 安全指令調優數據集
- InteriorGS 3D 室內場景數據集
- CSEMOTIONS 情緒音頻數據集
- LongText-Bench 文本理解基準數據集
- Document Haystack 多模態文檔基準數據集
- CognitiveKernel-Pro-Query 文本生成基準數據集
5 個公共教程:
- 一鍵部署 Qwen3-4B-2507
- vLLM+OpenWebUl 部署 Jan-v1-4B
- 乳腺癌診斷數據集機器學習分類預測教程
- 探索性數據分析 | XGBoost 的 SHAP 值解析
- Qwen-lmage-Edit:全能圖像編輯模型 Demo
訪問官網立即使用:openbayes.com
公共數據集
- Nemotron 多領域推理數據集
Nemotron 數據集包含 2,566 萬條樣本,數據涵蓋對話(74.6 萬)、代碼(189.6 萬)、數學(204.4 萬)、STEM(2,066 萬)及工具調用(31 萬)五大類別。
- 在線使用:
https://go.openbayes.com/PUwzE
- Trendyol 安全指令調優數據集
Trendyol 數據集包含 53,202 個指令調優示例,涵蓋 200 多個網絡安全專業領域,包括雲原生威脅、AI/ML 安全、量子計算風險、高級事件響應技術等多種現代安全挑戰,為防禦性安全 AI 模型的訓練提供了高質量語料。
- 在線使用:
https://go.openbayes.com/Q2Tj2
- InteriorGS 3D 室內場景數據集
InteriorGS 數據集提供高質量的 3D 高斯散射(3DGS)表示,以及實例級語義邊界框和指示代理可訪問區域的佔用圖。數據包含 1,000 個高質量室內場景及其對應的平面圖,涵蓋住宅、便利店、婚宴廳、博物館等 80 餘種環境類型。該數據集還包括超過 554,000 個物體實例,覆蓋 755 個物體類別。
- 在線使用:
https://go.openbayes.com/FtZZG
數據集示例
- CSEMOTIONS 情緒音頻數據集
CSEMOTIONS 數據集包含約 10 小時的高質量音頻數據,涵蓋 10 位專業配音演員(5 位男性、5 位女性)在中性、快樂、憤怒、悲傷、驚訝、厭惡、恐懼七種情緒類別下的音頻,每種情緒均包含 500-700 句中文文本的錄音。
- 在線使用
https://go.openbayes.com/kok5O
- LongText-Bench 文本理解基準數據集
LongText-Bench 數據集包含 160 個用於評估長文本渲染任務的提示語,涵蓋 8 種不同場景(路牌、帶標籤的物體、印刷材料、網頁、幻燈片、海報、標題和對話)。
- 在線使用:
https://go.openbayes.com/uvc86
- Document Haystack 多模態文檔基準數據集
Document Haystack 數據集包含 400 份文檔變體和 8,250 個檢索問題,涵蓋了 5-200 頁篇幅的真實文檔,數據形式包括原始 PDF、200 DPI 分頁圖像和純文本解析文件,適用於問答(Question-Answering)和視覺問答(Visual Question-Answering)等任務。
- 在線使用:
https://go.openbayes.com/Tclcm
- CognitiveKernel-Pro-Query 文本生成基準數據集
CognitiveKernel-Pro-Query 數據集包含超過 10,000 條長文本,涵蓋新聞文章、技術文檔、書籍等應用場景,旨在評估模型在處理這些長文本時的表現。
- 在線使用:
https://go.openbayes.com/TAEUB
公共教程
- 一鍵部署 Qwen3-4B-2507
Qwen3-4B-2507 包含 Qwen3-4B-Thinking-2507 和 Qwen3-4B-Instruct-2507 兩個模型。Qwen3-4B-Thinking-2507 在複雜問題推理能力、數學能力、代碼能力以及多輪函數調用能力上的表現大幅領先 Qwen3 同尺寸小模型。
在非推理領域,Qwen3-4B-Instruct-2507 在知識、推理、編程、對齊以及 agengt 能力上全面超越了閉源的小尺寸模型 GPT-4.1-nano,且與中等規模的 Qwen3-30B-A3B(non-thinking)性能接近。該模型覆蓋了更多語言的長尾知識,在主觀和開放性任務中與人類偏好的對齊性增強,能夠提供更符合需求的答覆。
- 在線運行:
https://go.openbayes.com/7IBmB
項目示例
2. vLLM+OpenWebUl 部署 Jan-v1-4B
Jan-v1-4B 以 Qwen3-4B-Thinking-2507 為基礎繼續微調與擴展,在 SimpleQA 基準上取得 91.1% 的準確率,顯示出通過模型擴展與調優帶來的明顯性能提。官方文檔亦指出其在該基準上可超過部分更大規模模型。
- 在線運行:
https://go.openbayes.com/mbbAx
項目示例
- 乳腺癌診斷數據集機器學習分類預測教程
本教程主要基於威斯康辛乳腺癌診斷數據集(WDBC),使用 R 語言(統計計算與機器學習平台)及關鍵庫演示二分類問題的機器學習全流程。學習目標為掌握醫學數據集的標準化預處理流程;明確乳腺癌診斷的關鍵特徵及其臨牀意義等。
- 在線運行:
https://go.openbayes.com/jUtl6
- 探索性數據分析 | XGBoost 的 SHAP 值解析
本教程圍繞「預測最優肥料」的多分類賽題展開,完整呈現了從數據探索到模型訓練、再到可解釋性分析的端到端流程。數據集屬於多分類任務,包含多種作物與土壤類型的環境與養分特徵記錄(如温度、濕度、含水量、氮磷鉀含量等),主要用於根據給定條件預測最適合的肥料類型(Top-3 推薦),適用於農業決策支持、可解釋機器學習以及結構化數據建模等研究場景。
- 在線運行:
https://go.openbayes.com/OLld8
5. Qwen-lmage-Edit:全能圖像編輯模型 Demo
Qwen-Image-Edit 兼具語義與外觀的雙重編輯能力,能進行低層次的視覺外觀編輯(如添加、刪除、修改元素)和高層次的視覺語義編輯(如 IP 創作、物體旋轉、風格遷移等)。模型支持中英文雙語文字的精準編輯,支持在保留原有字體、字號和風格的前提下修改圖片中的文字。
- 在線運行:
https://go.openbayes.com/JTJVV
項目示例