動態

詳情 返回 返回

OpenBayes 一週速覽丨Qwen-Image-Edit 實現圖片文字精準編輯;Nemotron 數據集含超 2K 萬條樣本 - 動態 詳情

公共資源速遞 This Weekly Snapshots !

7 個公共數據集:

  • Nemotron 多領域推理數據集 
  • Trendyol 安全指令調優數據集 
  • InteriorGS 3D 室內場景數據集 
  • CSEMOTIONS 情緒音頻數據集
  • LongText-Bench 文本理解基準數據集
  • Document Haystack 多模態文檔基準數據集
  • CognitiveKernel-Pro-Query 文本生成基準數據集

5 個公共教程:

  • 一鍵部署 Qwen3-4B-2507
  • vLLM+OpenWebUl 部署 Jan-v1-4B
  • 乳腺癌診斷數據集機器學習分類預測教程
  • 探索性數據分析 | XGBoost 的 SHAP 值解析
  • Qwen-lmage-Edit:全能圖像編輯模型 Demo

訪問官網立即使用:openbayes.com

公共數據集

  1. Nemotron 多領域推理數據集

Nemotron 數據集包含 2,566 萬條樣本,數據涵蓋對話(74.6 萬)、代碼(189.6 萬)、數學(204.4 萬)、STEM(2,066 萬)及工具調用(31 萬)五大類別。

  • 在線使用:

https://go.openbayes.com/PUwzE

  1. Trendyol 安全指令調優數據集

Trendyol 數據集包含 53,202 個指令調優示例,涵蓋 200 多個網絡安全專業領域,包括雲原生威脅、AI/ML 安全、量子計算風險、高級事件響應技術等多種現代安全挑戰,為防禦性安全 AI 模型的訓練提供了高質量語料。

  • 在線使用:

https://go.openbayes.com/Q2Tj2

  1. InteriorGS 3D 室內場景數據集

InteriorGS 數據集提供高質量的 3D 高斯散射(3DGS)表示,以及實例級語義邊界框和指示代理可訪問區域的佔用圖。數據包含 1,000 個高質量室內場景及其對應的平面圖,涵蓋住宅、便利店、婚宴廳、博物館等 80 餘種環境類型。該數據集還包括超過 554,000 個物體實例,覆蓋 755 個物體類別。

  • 在線使用:

https://go.openbayes.com/FtZZG

image.png

數據集示例

  1. CSEMOTIONS 情緒音頻數據集

CSEMOTIONS 數據集包含約 10 小時的高質量音頻數據,涵蓋 10 位專業配音演員(5 位男性、5 位女性)在中性、快樂、憤怒、悲傷、驚訝、厭惡、恐懼七種情緒類別下的音頻,每種情緒均包含 500-700 句中文文本的錄音。

  • 在線使用

https://go.openbayes.com/kok5O

  1. LongText-Bench 文本理解基準數據集

LongText-Bench 數據集包含 160 個用於評估長文本渲染任務的提示語,涵蓋 8 種不同場景(路牌、帶標籤的物體、印刷材料、網頁、幻燈片、海報、標題和對話)。

  • 在線使用:

https://go.openbayes.com/uvc86

  1. Document Haystack 多模態文檔基準數據集

Document Haystack 數據集包含 400 份文檔變體和 8,250 個檢索問題,涵蓋了 5-200 頁篇幅的真實文檔,數據形式包括原始 PDF、200 DPI 分頁圖像和純文本解析文件,適用於問答(Question-Answering)和視覺問答(Visual Question-Answering)等任務。

  • 在線使用:

https://go.openbayes.com/Tclcm

  1. CognitiveKernel-Pro-Query 文本生成基準數據集

CognitiveKernel-Pro-Query 數據集包含超過 10,000 條長文本,涵蓋新聞文章、技術文檔、書籍等應用場景,旨在評估模型在處理這些長文本時的表現。

  • 在線使用:

https://go.openbayes.com/TAEUB

公共教程

  1. 一鍵部署 Qwen3-4B-2507

Qwen3-4B-2507 包含 Qwen3-4B-Thinking-2507 和 Qwen3-4B-Instruct-2507 兩個模型。Qwen3-4B-Thinking-2507 在複雜問題推理能力、數學能力、代碼能力以及多輪函數調用能力上的表現大幅領先 Qwen3 同尺寸小模型。

在非推理領域,Qwen3-4B-Instruct-2507 在知識、推理、編程、對齊以及 agengt 能力上全面超越了閉源的小尺寸模型 GPT-4.1-nano,且與中等規模的 Qwen3-30B-A3B(non-thinking)性能接近。該模型覆蓋了更多語言的長尾知識,在主觀和開放性任務中與人類偏好的對齊性增強,能夠提供更符合需求的答覆。

  • 在線運行:

https://go.openbayes.com/7IBmB

image.png

項目示例

2. vLLM+OpenWebUl 部署 Jan-v1-4B

Jan-v1-4B 以 Qwen3-4B-Thinking-2507 為基礎繼續微調與擴展,在 SimpleQA 基準上取得 91.1% 的準確率,顯示出通過模型擴展與調優帶來的明顯性能提。官方文檔亦指出其在該基準上可超過部分更大規模模型。

  • 在線運行:

https://go.openbayes.com/mbbAx

image.png

項目示例

  1. 乳腺癌診斷數據集機器學習分類預測教程

本教程主要基於威斯康辛乳腺癌診斷數據集(WDBC),使用 R 語言(統計計算與機器學習平台)及關鍵庫演示二分類問題的機器學習全流程。學習目標為掌握醫學數據集的標準化預處理流程;明確乳腺癌診斷的關鍵特徵及其臨牀意義等。

  • 在線運行:

https://go.openbayes.com/jUtl6

  1. 探索性數據分析 | XGBoost 的 SHAP 值解析

本教程圍繞「預測最優肥料」的多分類賽題展開,完整呈現了從數據探索到模型訓練、再到可解釋性分析的端到端流程。數據集屬於多分類任務,包含多種作物與土壤類型的環境與養分特徵記錄(如温度、濕度、含水量、氮磷鉀含量等),主要用於根據給定條件預測最適合的肥料類型(Top-3 推薦),適用於農業決策支持、可解釋機器學習以及結構化數據建模等研究場景。

  • 在線運行:

https://go.openbayes.com/OLld8

5. Qwen-lmage-Edit:全能圖像編輯模型 Demo

Qwen-Image-Edit 兼具語義與外觀的雙重編輯能力,能進行低層次的視覺外觀編輯(如添加、刪除、修改元素)和高層次的視覺語義編輯(如 IP 創作、物體旋轉、風格遷移等)。模型支持中英文雙語文字的精準編輯,支持在保留原有字體、字號和風格的前提下修改圖片中的文字。

  • 在線運行:

https://go.openbayes.com/JTJVV

image.png

項目示例

user avatar u_16756731 頭像 gushiio 頭像 rivers_chaitin 頭像 huizhudev 頭像 bizseerbishikeji 頭像 dolphinscheduler 頭像 deephub 頭像 user_p8ybhj2y 頭像 liudamao 頭像 bug1412 頭像 xuri 頭像 wuyujingcha 頭像
點贊 22 用戶, 點贊了這篇動態!
點贊

Add a new 評論

Some HTML is okay.