OpenBayes 一週速覽丨Qwen-Image-Edit 實現圖片文字精準編輯；Nemotron 數據集含超 2K 萬條樣本詳情 - llm,數據分析,圖像處理,數據集,阿里巴巴 OpenBayes 動態日志

公共資源速遞 This Weekly Snapshots ！

7 個公共數據集：

Nemotron 多領域推理數據集
Trendyol 安全指令調優數據集
InteriorGS 3D 室內場景數據集
CSEMOTIONS 情緒音頻數據集
LongText-Bench 文本理解基準數據集
Document Haystack 多模態文檔基準數據集
CognitiveKernel-Pro-Query 文本生成基準數據集

5 個公共教程：

一鍵部署 Qwen3-4B-2507
vLLM+OpenWebUl 部署 Jan-v1-4B
乳腺癌診斷數據集機器學習分類預測教程
探索性數據分析 | XGBoost 的 SHAP 值解析
Qwen-lmage-Edit：全能圖像編輯模型 Demo

訪問官網立即使用：openbayes.com

公共數據集

Nemotron 多領域推理數據集

Nemotron 數據集包含 2,566 萬條樣本，數據涵蓋對話（74.6 萬）、代碼（189.6 萬）、數學（204.4 萬）、STEM（2,066 萬）及工具調用（31 萬）五大類別。

在線使用：

https://go.openbayes.com/PUwzE

Trendyol 安全指令調優數據集

Trendyol 數據集包含 53,202 個指令調優示例，涵蓋 200 多個網絡安全專業領域，包括雲原生威脅、AI/ML 安全、量子計算風險、高級事件響應技術等多種現代安全挑戰，為防禦性安全 AI 模型的訓練提供了高質量語料。

在線使用：

https://go.openbayes.com/Q2Tj2

InteriorGS 3D 室內場景數據集

InteriorGS 數據集提供高質量的 3D 高斯散射（3DGS）表示，以及實例級語義邊界框和指示代理可訪問區域的佔用圖。數據包含 1,000 個高質量室內場景及其對應的平面圖，涵蓋住宅、便利店、婚宴廳、博物館等 80 餘種環境類型。該數據集還包括超過 554,000 個物體實例，覆蓋 755 個物體類別。

在線使用：

https://go.openbayes.com/FtZZG

數據集示例

CSEMOTIONS 情緒音頻數據集

CSEMOTIONS 數據集包含約 10 小時的高質量音頻數據，涵蓋 10 位專業配音演員（5 位男性、5 位女性）在中性、快樂、憤怒、悲傷、驚訝、厭惡、恐懼七種情緒類別下的音頻，每種情緒均包含 500-700 句中文文本的錄音。

在線使用

https://go.openbayes.com/kok5O

LongText-Bench 文本理解基準數據集

LongText-Bench 數據集包含 160 個用於評估長文本渲染任務的提示語，涵蓋 8 種不同場景（路牌、帶標籤的物體、印刷材料、網頁、幻燈片、海報、標題和對話）。

在線使用：

https://go.openbayes.com/uvc86

Document Haystack 多模態文檔基準數據集

Document Haystack 數據集包含 400 份文檔變體和 8,250 個檢索問題，涵蓋了 5-200 頁篇幅的真實文檔，數據形式包括原始 PDF、200 DPI 分頁圖像和純文本解析文件，適用於問答（Question-Answering）和視覺問答（Visual Question-Answering）等任務。

在線使用：

https://go.openbayes.com/Tclcm

CognitiveKernel-Pro-Query 文本生成基準數據集

CognitiveKernel-Pro-Query 數據集包含超過 10,000 條長文本，涵蓋新聞文章、技術文檔、書籍等應用場景，旨在評估模型在處理這些長文本時的表現。

在線使用：

https://go.openbayes.com/TAEUB

公共教程

一鍵部署 Qwen3-4B-2507

Qwen3-4B-2507 包含 Qwen3-4B-Thinking-2507 和 Qwen3-4B-Instruct-2507 兩個模型。Qwen3-4B-Thinking-2507 在複雜問題推理能力、數學能力、代碼能力以及多輪函數調用能力上的表現大幅領先 Qwen3 同尺寸小模型。

在非推理領域，Qwen3-4B-Instruct-2507 在知識、推理、編程、對齊以及 agengt 能力上全面超越了閉源的小尺寸模型 GPT-4.1-nano，且與中等規模的 Qwen3-30B-A3B（non-thinking）性能接近。該模型覆蓋了更多語言的長尾知識，在主觀和開放性任務中與人類偏好的對齊性增強，能夠提供更符合需求的答覆。

在線運行：

https://go.openbayes.com/7IBmB

項目示例

2. vLLM+OpenWebUl 部署 Jan-v1-4B

Jan-v1-4B 以 Qwen3-4B-Thinking-2507 為基礎繼續微調與擴展，在 SimpleQA 基準上取得 91.1% 的準確率，顯示出通過模型擴展與調優帶來的明顯性能提。官方文檔亦指出其在該基準上可超過部分更大規模模型。

在線運行：

https://go.openbayes.com/mbbAx

項目示例

乳腺癌診斷數據集機器學習分類預測教程

本教程主要基於威斯康辛乳腺癌診斷數據集（WDBC），使用 R 語言（統計計算與機器學習平台）及關鍵庫演示二分類問題的機器學習全流程。學習目標為掌握醫學數據集的標準化預處理流程；明確乳腺癌診斷的關鍵特徵及其臨牀意義等。

在線運行：

https://go.openbayes.com/jUtl6

探索性數據分析 | XGBoost 的 SHAP 值解析

本教程圍繞「預測最優肥料」的多分類賽題展開，完整呈現了從數據探索到模型訓練、再到可解釋性分析的端到端流程。數據集屬於多分類任務，包含多種作物與土壤類型的環境與養分特徵記錄（如温度、濕度、含水量、氮磷鉀含量等），主要用於根據給定條件預測最適合的肥料類型（Top-3 推薦），適用於農業決策支持、可解釋機器學習以及結構化數據建模等研究場景。