博客 / 詳情

返回

大模型榜單週報(2025/12/27)

1. 本週概覽

本週大模型領域持續涌現創新成果,數學、編程和多模態能力均出現顯著進展。字節推出數學模型Seed Prover 1.5,在國際數學奧林匹克競賽中取得金牌線成績,而智譜AI開源GLM-4.7在多項評測中超越GPT-5.1。MiniMax的M2.1編碼模型以10B激活參數創下多語言軟件工程能力新高,北航提出的代碼模型Scaling Laws為最優數據配比提供理論基礎。

2. 重點關注事件

  • 字節發佈數學模型Seed Prover 1.5,在16.5小時內解決IMO 2025前5道題目,失一題獲得35分達到金牌線;在北美本科級別數學競賽Putnam上大幅刷新SOTA成績
  • 智譜AI開源GLM-4.7,在AIME 25和人類最後考試(HLE)等基準中分數超GPT-5.1;SWE-Bench分數達73.8%(+5.8%),創開源新高
  • MiniMax發佈旗艦級Coding & Agent模型M2.1,在Multi-SWE-bench榜單中以僅10B激活參數拿下49.4%成績,超越Claude Sonnet 4.5等頂尖競品,拿下全球SOTA
  • 北航提出代碼大模型的Scaling Laws,建立區分語言特性的Scaling Laws,並提出數學可解的最優數據配比方案,覆蓋0.2B到14B參數規模及高達1T訓練數據量,對七種主流語言進行系統性解構

3. 榜單變化

  • OpenRouter模型調用量:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三;小米MiMo-V2-Flash (free)新晉第4名;Gemini 3 Flash Preview新晉第6名;編程調用量方面,Grok Code Fast 1保持第1,KAT-Coder-Pro V1 (free)上升3名至第3,GPT-5.2下降5名至第7位
  • OpenRouter公司市佔率:Google保持第1;xAI、Anthropic緊隨其後;OpenAI市佔率下降7.2%(17.7% → 10.5%)至第4位;DeepSeek份額上升1.8%(7.8% → 9.6%)保持第5名;小米份額佔比7.0%,位列第7
  • 大語言模型(Text Arena):gemini-3-flash刷新成績,超過Grok 4.1 thinking位列第2;ernie-5.0-preview-1203新晉第13名,超過gpt-5.2(評分基於預發佈測試)
  • 編程能力榜單(WebDev Arena):glm-4.7新晉第6名,緊跟gemini-3-flash之後(評分基於預發佈測試)
  • 編程能力榜單(LiveCodeBench GSO Leaderboard):Gemini-3-Flash新晉第8名,排名在O4-mini之後
  • 圖像編輯能力(Artificial Analysis Image Editing Leaderboard):Reve V1新晉第8名,排名在Flux 2 Pro之後
  • 文生圖榜單(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview超過Imagen 4 Preview位列第10名
  • 前沿數學能力(EPOCH AI FrontierMath):DeepSeek-V3.2以22.1%得分超過Kimi K2 Thinking位列第14名
  • GAIA榜單:SU Zero-Shuqian Series Pro MAX新晉榜首

4. OpenRouter排行榜

測評類型 第一名 第二名 第三名
模型調用量 Grok Code Fast 1 Claude Sonnet 4.5 Gemini 2.5 Flash
公司市佔率 Google xAI Anthropic
編程模型調用量 Grok Code Fast 1 GPT-5.2 Claude Sonnet 4.5

各公司按不同能力領域排名彙總

測評類型 領先公司
大語言模型 Text Arena Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智譜
編程能力 LMArena Anthropic、OpenAI、Google
編程能力 LiveCodeBench OpenAI、Anthropic、Google
代碼工程任務能力 SWE-benchLite 基於Claude、Gemini、GPT、Qwen、DeepSeek開發的開源系統
圖像編輯和生成能力 Image Edit Arena OpenAI、Google、字節、Reve
文生圖能力 Text-to-Image Arena OpenAI、Google、Black Forest Labs、騰訊、字節
圖像編輯和生成能力 Image Editing Leaderboard OpenAI、Google、Black Forest Labs、字節、Pruna AI
文生圖能力 Text to Image Leaderboard OpenAI、Google、Black Forest Labs、字節
GPQA OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam Google、OpenAI、Anthropic
GAIA Microsoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等

關注我,第一時間掌握更多AI前沿資訊!

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.