月之暗面宣佈正式發佈 Kimi K2 Thinking —— Kimi 迄今能力最強的開源思考模型。
“Kimi K2 Thinking 是我們基於「模型即 Agent」理念訓練的新一代 Thinking Agent,它原生掌握「邊思考,邊使用工具」的能力。在人類最後的考試(Humanity's Last Exam)、自主網絡瀏覽能力(BrowseComp)、複雜信息收集推理(SEAL-0)等多項基準測試中表現達到 SOTA 水平,並在 Agentic 搜索、Agentic 編程、寫作和綜合推理能力等方面取得全面提升。”
Kimi K2 Thinking 模型無需人類干預,即可自主實現高達 300 輪的工具調用和持續穩定的多輪思考能力,從而幫助用户解決更復雜的問題。“這是我們在 Test-Time Scaling(測試時擴展)領域的最新進展,通過同時擴展思考 Token 和工具調用的輪次,實現更強的 Agent 和推理性能。”
測試結果表明,在允許使用工具——搜索、Python、網絡瀏覽工具的同等情況下,Kimi K2 Thinking 在人類最後的考試(Humanity's Last Exam)這項基準評測中取得了 44.9% 的 SOTA 成績。人類最後的考試是一項涵蓋 100 多個專業領域的終極封閉式學術測試。
在專門評估 AI Agent 網絡瀏覽能力的 BrowseComp 基準測試中,Kimi K2 Thinking 以 60.2% 的成績成為新的 SOTA 模型,而人類平均只能達到 29.2% 的成績。
在長程規劃和自主搜索能力的驅動下,Kimi K2 Thinking 可藉助多達上百輪的“思考 → 搜索→ 瀏覽網頁 → 思考 → 編程”動態循環,持續地提出並完善假設、驗證證據、進行推理,並構建出邏輯一致的答案。
Kimi K2 Thinking 模型的編碼能力也得到了增強。此外,Kimi K2 Thinking 模型能夠在複雜推理和 Agentic 任務中支持原生的 INT4 推理,並將生成速度提升了約 2 倍。INT4 對推理硬件的兼容性更強,對國產加速計算芯片也更加友好。
目前,Kimi K2 Thinking 模型 API 已上架 Kimi 開放平台(platform.moonshot.cn),支持 256K 上下文,價格與 Kimi K2-0905 相同,每百萬 Token 輸入 4 元,輸出 16 元,命中緩存的輸入為 1 元。速度高達 100 Token/s 的 Turbo API 也同步上架,每百萬Token輸入 8 元,輸出 58 元,命中緩存的輸入為 1 元。入門指南可參考此文檔。
更多詳情可查看官方公告。