NVIDIA 推出 Orchestrator-8B：高效工具和模型選擇的強化學習控制器

NVIDIA 最近推出了一種新方法 —— ToolOrchestra，旨在提升 AI 系統選擇合適模型和工具的能力，避免傳統的單一大型模型依賴。該方法通過訓練一個名為 Orchestrator-8B 的小型語言模型，作為多工具使用代理的 “大腦”，實現更高效的任務處理。

目前大多數 AI 代理使用單一大型模型，例如 GPT-5，根據提示選擇工具並完成任務。然而，研究發現，這種方法容易導致模型在決策時偏向於使用自身，造成資源浪費。為此，ToolOrchestra 設計了一種專門的控制模型 Orchestrator-8B，利用強化學習來優化工具選擇。

Orchestrator-8B 是一個具有8億參數的解碼器，僅使用 Transformer 結構，通過微調 Qwen3-8B 模型而成。其工作流程分為三個主要步驟：首先，模型解析用户指令及可選的自然語言偏好，例如優先考慮低延遲或避免網絡搜索；接着，生成推理過程並計劃行動；最後，從可用工具中選擇，並以統一的 JSON 格式發出工具調用。這一過程會持續進行，直到任務完成或達到50個步驟的上限。

ToolOrchestra 的強化學習設計包括多個獎勵機制，以確保任務的高效完成。具體來説，模型的獎勵由三個部分組成:任務成功的二元獎勵、效率獎勵（針對成本和時間）以及用户偏好獎勵。這些因素結合起來，幫助優化策略，使 Orchestrator-8B 在選擇和使用工具時更為靈活。

在一系列基準測試中，Orchestrator-8B 表現優異。例如，在 “人類最後的考試” 中，其準確率達到37.1%，高於 GPT-5的35.1%。在效率方面，Orchestrator-8B 的平均成本僅為0.092美元，時間為8.2分鐘，遠低於 GPT-5的0.302美元和19.8分鐘。這表明，Orchestrator-8B 在資源利用和任務處理上表現更佳，適合關注效率和成本的團隊。

發佈評論

Product

Company

Support

Company

NVIDIA 推出 Orchestrator-8B：高效工具和模型選擇的強化學習控制器

發佈 評論

發佈評論