1. 本週概覽
本週大模型領域持續涌現創新成果,數學、編程和多模態能力均出現顯著進展。字節推出數學模型Seed Prover 1.5,在國際數學奧林匹克競賽中取得金牌線成績,而智譜AI開源GLM-4.7在多項評測中超越GPT-5.1。MiniMax的M2.1編碼模型以10B激活參數創下多語言軟件工程能力新高,北航提出的代碼模型Scaling Laws為最優數據配比提供理論基礎。
2. 重點關注事件
- 字節發佈數學模型Seed Prover 1.5,在16.5小時內解決IMO 2025前5道題目,失一題獲得35分達到金牌線;在北美本科級別數學競賽Putnam上大幅刷新SOTA成績
- 智譜AI開源GLM-4.7,在AIME 25和人類最後考試(HLE)等基準中分數超GPT-5.1;SWE-Bench分數達73.8%(+5.8%),創開源新高
- MiniMax發佈旗艦級Coding & Agent模型M2.1,在Multi-SWE-bench榜單中以僅10B激活參數拿下49.4%成績,超越Claude Sonnet 4.5等頂尖競品,拿下全球SOTA
- 北航提出代碼大模型的Scaling Laws,建立區分語言特性的Scaling Laws,並提出數學可解的最優數據配比方案,覆蓋0.2B到14B參數規模及高達1T訓練數據量,對七種主流語言進行系統性解構
3. 榜單變化
- OpenRouter模型調用量:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三;小米MiMo-V2-Flash (free)新晉第4名;Gemini 3 Flash Preview新晉第6名;編程調用量方面,Grok Code Fast 1保持第1,KAT-Coder-Pro V1 (free)上升3名至第3,GPT-5.2下降5名至第7位
- OpenRouter公司市佔率:Google保持第1;xAI、Anthropic緊隨其後;OpenAI市佔率下降7.2%(17.7% → 10.5%)至第4位;DeepSeek份額上升1.8%(7.8% → 9.6%)保持第5名;小米份額佔比7.0%,位列第7
- 大語言模型(Text Arena):gemini-3-flash刷新成績,超過Grok 4.1 thinking位列第2;ernie-5.0-preview-1203新晉第13名,超過gpt-5.2(評分基於預發佈測試)
- 編程能力榜單(WebDev Arena):glm-4.7新晉第6名,緊跟gemini-3-flash之後(評分基於預發佈測試)
- 編程能力榜單(LiveCodeBench GSO Leaderboard):Gemini-3-Flash新晉第8名,排名在O4-mini之後
- 圖像編輯能力(Artificial Analysis Image Editing Leaderboard):Reve V1新晉第8名,排名在Flux 2 Pro之後
- 文生圖榜單(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview超過Imagen 4 Preview位列第10名
- 前沿數學能力(EPOCH AI FrontierMath):DeepSeek-V3.2以22.1%得分超過Kimi K2 Thinking位列第14名
- GAIA榜單:SU Zero-Shuqian Series Pro MAX新晉榜首
4. OpenRouter排行榜
| 測評類型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
| 模型調用量 | Grok Code Fast 1 | Claude Sonnet 4.5 | Gemini 2.5 Flash |
| 公司市佔率 | xAI | Anthropic | |
| 編程模型調用量 | Grok Code Fast 1 | GPT-5.2 | Claude Sonnet 4.5 |
各公司按不同能力領域排名彙總
| 測評類型 | 領先公司 |
|---|---|
| 大語言模型 Text Arena | Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智譜 |
| 編程能力 LMArena | Anthropic、OpenAI、Google |
| 編程能力 LiveCodeBench | OpenAI、Anthropic、Google |
| 代碼工程任務能力 SWE-benchLite | 基於Claude、Gemini、GPT、Qwen、DeepSeek開發的開源系統 |
| 圖像編輯和生成能力 Image Edit Arena | OpenAI、Google、字節、Reve |
| 文生圖能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、騰訊、字節 |
| 圖像編輯和生成能力 Image Editing Leaderboard | OpenAI、Google、Black Forest Labs、字節、Pruna AI |
| 文生圖能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字節 |
| GPQA | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
| FrontierMath | OpenAI、Google、月之暗面、Anthropic、xAI |
| Humanity's Last Exam | Google、OpenAI、Anthropic |
| GAIA | Microsoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等 |
關注我,第一時間掌握更多AI前沿資訊!