階躍星辰開源了參數規模為320億(32B)的深度研究模型:Step-DeepResearch,其在深度研究能力上媲美OpenAI o3-mini和Gemini 2.0 Flash等頂級商業模型,但部署成本降低至不足十分之一(單次調用成本<0.5元人民幣)。
https://github.com/stepfun-ai/StepDeepResearch
模型概述
Step-DeepResearch是一款經濟高效的端到端深度研究Agent模型,專為開放式研究場景中的自主信息探索和專業報告生成而設計。
- 原子能力集成:通過將複雜的研究任務分解為可訓練的原子能力(包括規劃、信息檢索、反思和交叉驗證以及專業報告生成),並在模型層面實現深度內化,該系統確保在單次推理過程中實現閉環反思和動態校正。
- 漸進式訓練流程:我們建立了一條完整的優化路徑,從智能體中期訓練到監督式微調(SFT)和強化學習(RL),將訓練目標從“預測下一個詞元”重塑為“決定下一個原子動作”。這種方法有效地增強了模型在複雜環境中的自適應能力和泛化性能。
- 跨模型規模的卓越表現:Step-DeepResearch 僅擁有 320 億個參數,在 Scale AI Research Rubrics 測試中取得了 61.4% 的成績,與 OpenAI Deep Research 和 Gemini Deep Research 的成績持平。在 ADR-Bench 的專家人工評估中,其 Elo 分數顯著優於 DeepSeek-v3.2 和 GLM-4.6 等規模更大的模型,並可與頂級閉源模型相媲美。
- 卓越的成本效益:Step-DeepResearch 部署和推理成本極低,同時保持專家級的研究能力,是目前業內最具成本效益的深度研究代理解決方案。
- 訪問方式:可通過 StepFun 開放平台 API 獲取,首月免費。
(左)基於研究評價標準的成本效益: Step-DeepResearch 取得了接近最高水平的性能(61.42),同時顯著降低了推理成本(RMB),處於高效率前沿。(右)基於 ADR-Bench 的專家評估: Step-DeepResearch 在所有維度上的 Elo 評分均保持領先,足以媲美頂級閉源模型。
系統架構
Step-DeepResearch 採用基於 ReAct 範式的單智能體架構,通過推理、行動和反思的動態循環實現自主深度研究。
基於我們內部專有的工具集,我們提供了一套精簡的工具集,並在框架內實現了本地部署,包括batch_web_surfer批量網頁搜索和瀏覽、file文件讀取、寫入和編輯、todo任務狀態管理以及shell交互式命令執行,以支持完整的科研工作流程。
Step-DeepResearch 系統架構:代理在 ReAct 循環中運行,利用專門的工具集(例如 batch_web_surfer、todo、shell)進行規劃、執行和反思,以生成全面的研究報告。
開源地址:https://github.com/stepfun-ai/StepDeepResearch