JetBrains 聯手 Linux 基金會,發佈 AI 編碼智能體基準測試平台 DPAI Arena

新聞
HongKong
16
11:57 AM · Nov 17 ,2025

JetBrains 宣佈推出 Developer Productivity AI Arena (DPAI Arena),並將其捐獻給 Linux Foundation。

根據介紹,DPAI Arena 是業內首款開放式、多語言、多框架和多工作流基準測試平台,旨在衡量 AI 編碼智能體在現實世界軟件工程任務中的成效。 它圍繞靈活且基於路徑的架構構建而成,能夠對各種工作流(例如,修補、bug 修正、PR 審查、測試生成、靜態分析等)進行公平、可重現的比較。

DPAI Arena 將可衡量的工作效率帶入 AI 輔助軟件開發領域。 AI 工具提供商可以在實際任務中對其工具進行基準測試和不斷完善,技術供應商可以通過貢獻領域特定的基準來幫助其生態系統維持一流水平,企業在採用某些工具前可以獲得可信的方式對其進行評估,開發者可以獲得有關哪些工具能夠真正提高工作效率的透明洞察。

DPAI Arena 旨在讓每個人都能為 AI 編碼的未來做出貢獻。 Spring Benchmark 是該平台的第一項基準,它帶來了針對未來貢獻的技術標準。 首先,它實現了數據集創建準則,並詳細説明了支持的評估格式和一般規則。 其次,它為解耦基礎架構提供了堅實的基礎,使任何人都能採用自己的數據集(BYOD 方式)並重用基礎架構進行自己的評估。

我們也在關注 Spring AI Bench,以擴展 DPAI Arena 中的 Java 基準測試流,並與該項目的核心團隊緊密合作以推動 Java 生態系統中的更多可變性和多路徑基準測試。

JetBrains 首席執行官 Kirill Skrygan 稱,“Developer Productivity AI Arena 旨在實現清晰且可追責的方法,以持續且協作的方式評估和改進 AI 編碼智能體,並幫助行業瞭解甚至衡量僅能加快工作速度的 AI 與能夠真正理解和促進工作效果的 AI 之間的區別。 我們希望通過定義一種用於 AI 智能體基準測試的共享框架,來促進整個 AI 系統的透明度和可信度。”

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.