階躍星辰多模態“小核彈” Step3-VL-10B 開源

新聞
HongKong
15
06:09 PM · Jan 20 ,2026

階躍星辰宣佈開源 Step3-VL-10B,包括 Base 模型和 Thinking 模型,性能超越 20 倍大模型。

公告稱,僅用 10B 參數量,Step3-VL-10B 在視覺感知、邏輯推理、數學競賽以及通用對話等一系列基準測試中均達到同規模 SOTA 水平,並且解決了參數量小和智能水平高難以兼優的行業難題。

在多項關鍵評測中,Step3-VL-10B 媲美甚至超越規模大 10-20 倍開源模型(如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B)以及頂級閉源旗艦模型(如 Gemini 2.5 Pro、Seed-1.5-VL)。

基於這樣一個小而強底座,原本只能在雲端運行的複雜多模態推理(如 GUI 操作、複雜文檔解析、高精度計數)能夠下沉到手機、電腦甚至工業嵌入式設備中。

Step3-VL-10B 具備三大核心亮點:

  • 極致視覺感知標杆:在同參數量級中展現出頂尖的識別與感知精度。通過引入 PaCoRe(並行協調推理) 機制,模型在複雜計數、高精度 OCR 及空間拓撲理解等高難度任務上的可靠性實現了質的飛躍。

  • 深層邏輯推演與長程推理:得益於規模化強化學習(RL)的持續迭代,Step3-VL-10B 在 10B 規模上實現了跨任務推理能力的階躍。無論是競賽級數學難題、真實編程環境還是視覺邏輯謎題,模型均能通過嚴密的多步思維鏈推導出最終答案。

  • 強大端側 Agent 交互:基於海量 GUI(圖形用户界面)專用預訓練數據,模型能夠精準識別並操作複雜界面,成為端側 Agent 的核心引擎。

Step3-VL-10B 提供 SeRe(順序推理)和 PaCoRe(並行協調推理)兩種範式,在STEM 推理、識別、OCR & 文檔、GUI Grounding、空間理解、代碼等核心維度,都取得了千億級別模型的優秀分數,PaCoRe範式表現更優。

更多詳情可查看官方公告。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.