大模型榜單週報（2025/12/27）詳情 - llm,人工智能 KAI智習博客

1. 本週概覽

本週大模型領域持續涌現創新成果，數學、編程和多模態能力均出現顯著進展。字節推出數學模型Seed Prover 1.5，在國際數學奧林匹克競賽中取得金牌線成績，而智譜AI開源GLM-4.7在多項評測中超越GPT-5.1。MiniMax的M2.1編碼模型以10B激活參數創下多語言軟件工程能力新高，北航提出的代碼模型Scaling Laws為最優數據配比提供理論基礎。

2. 重點關注事件

字節發佈數學模型Seed Prover 1.5，在16.5小時內解決IMO 2025前5道題目，失一題獲得35分達到金牌線；在北美本科級別數學競賽Putnam上大幅刷新SOTA成績
智譜AI開源GLM-4.7，在AIME 25和人類最後考試（HLE）等基準中分數超GPT-5.1；SWE-Bench分數達73.8%（+5.8%），創開源新高
MiniMax發佈旗艦級Coding & Agent模型M2.1，在Multi-SWE-bench榜單中以僅10B激活參數拿下49.4%成績，超越Claude Sonnet 4.5等頂尖競品，拿下全球SOTA
北航提出代碼大模型的Scaling Laws，建立區分語言特性的Scaling Laws，並提出數學可解的最優數據配比方案，覆蓋0.2B到14B參數規模及高達1T訓練數據量，對七種主流語言進行系統性解構

3. 榜單變化

OpenRouter模型調用量：Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三；小米MiMo-V2-Flash (free)新晉第4名；Gemini 3 Flash Preview新晉第6名；編程調用量方面，Grok Code Fast 1保持第1，KAT-Coder-Pro V1 (free)上升3名至第3，GPT-5.2下降5名至第7位
OpenRouter公司市佔率：Google保持第1；xAI、Anthropic緊隨其後；OpenAI市佔率下降7.2%（17.7% → 10.5%）至第4位；DeepSeek份額上升1.8%（7.8% → 9.6%）保持第5名；小米份額佔比7.0%，位列第7
大語言模型（Text Arena）：gemini-3-flash刷新成績，超過Grok 4.1 thinking位列第2；ernie-5.0-preview-1203新晉第13名，超過gpt-5.2（評分基於預發佈測試）
編程能力榜單（WebDev Arena）：glm-4.7新晉第6名，緊跟gemini-3-flash之後（評分基於預發佈測試）
編程能力榜單（LiveCodeBench GSO Leaderboard）：Gemini-3-Flash新晉第8名，排名在O4-mini之後
圖像編輯能力（Artificial Analysis Image Editing Leaderboard）：Reve V1新晉第8名，排名在Flux 2 Pro之後
文生圖榜單（Artificial Analysis Text to Image Leaderboard）：ImagineArt 1.5 Preview超過Imagen 4 Preview位列第10名
前沿數學能力（EPOCH AI FrontierMath）：DeepSeek-V3.2以22.1%得分超過Kimi K2 Thinking位列第14名
GAIA榜單：SU Zero-Shuqian Series Pro MAX新晉榜首

4. OpenRouter排行榜

測評類型	第一名	第二名	第三名
模型調用量	Grok Code Fast 1	Claude Sonnet 4.5	Gemini 2.5 Flash
公司市佔率	Google	xAI	Anthropic
編程模型調用量	Grok Code Fast 1	GPT-5.2	Claude Sonnet 4.5

各公司按不同能力領域排名彙總

測評類型	領先公司
大語言模型 Text Arena	Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智譜
編程能力 LMArena	Anthropic、OpenAI、Google
編程能力 LiveCodeBench	OpenAI、Anthropic、Google
代碼工程任務能力 SWE-benchLite	基於Claude、Gemini、GPT、Qwen、DeepSeek開發的開源系統
圖像編輯和生成能力 Image Edit Arena	OpenAI、Google、字節、Reve
文生圖能力 Text-to-Image Arena	OpenAI、Google、Black Forest Labs、騰訊、字節
圖像編輯和生成能力 Image Editing Leaderboard	OpenAI、Google、Black Forest Labs、字節、Pruna AI
文生圖能力 Text to Image Leaderboard	OpenAI、Google、Black Forest Labs、字節
GPQA	OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath	OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam	Google、OpenAI、Anthropic
GAIA	Microsoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等

關注我，第一時間掌握更多AI前沿資訊！

KAI智習博客

KAI智習博客

博客 / 詳情

大模型榜單週報（2025/12/27）

1. 本週概覽

2. 重點關注事件

3. 榜單變化

4. OpenRouter排行榜

各公司按不同能力領域排名彙總

發佈評論

Product

Company

Support

Company

博客 / 詳情

大模型榜單週報（2025/12/27）

1. 本週概覽

2. 重點關注事件

3. 榜單變化

4. OpenRouter排行榜

各公司按不同能力領域排名彙總

發佈 評論

發佈評論