階躍星辰多模態“小核彈” Step3-VL-10B 開源

階躍星辰宣佈開源 Step3-VL-10B，包括 Base 模型和 Thinking 模型，性能超越 20 倍大模型。

公告稱，僅用 10B 參數量，Step3-VL-10B 在視覺感知、邏輯推理、數學競賽以及通用對話等一系列基準測試中均達到同規模 SOTA 水平，並且解決了參數量小和智能水平高難以兼優的行業難題。

在多項關鍵評測中，Step3-VL-10B 媲美甚至超越規模大 10-20 倍開源模型（如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B）以及頂級閉源旗艦模型（如 Gemini 2.5 Pro、Seed-1.5-VL）。

基於這樣一個小而強底座，原本只能在雲端運行的複雜多模態推理（如 GUI 操作、複雜文檔解析、高精度計數）能夠下沉到手機、電腦甚至工業嵌入式設備中。

Step3-VL-10B 具備三大核心亮點：

極致視覺感知標杆：在同參數量級中展現出頂尖的識別與感知精度。通過引入 PaCoRe（並行協調推理）機制，模型在複雜計數、高精度 OCR 及空間拓撲理解等高難度任務上的可靠性實現了質的飛躍。
深層邏輯推演與長程推理：得益於規模化強化學習（RL）的持續迭代，Step3-VL-10B 在 10B 規模上實現了跨任務推理能力的階躍。無論是競賽級數學難題、真實編程環境還是視覺邏輯謎題，模型均能通過嚴密的多步思維鏈推導出最終答案。
強大端側 Agent 交互：基於海量 GUI（圖形用户界面）專用預訓練數據，模型能夠精準識別並操作複雜界面，成為端側 Agent 的核心引擎。

Step3-VL-10B 提供 SeRe（順序推理）和 PaCoRe（並行協調推理）兩種範式，在STEM 推理、識別、OCR & 文檔、GUI Grounding、空間理解、代碼等核心維度，都取得了千億級別模型的優秀分數，PaCoRe範式表現更優。

更多詳情可查看官方公告。

發佈評論