馬斯克旗下 AI 公司 xAI 宣佈推出 Grok 4.1,稱這是一款前沿模型,為對話智能、情感理解和現實世界的實用性樹立了新標準。目前 Grok 4.1 已在 grok.com、iOS 和 Android 應用上線,用户可通過模型選擇器手動選擇 “Grok 4.1”。
據介紹,Grok 4.1 在創造性、情感互動、協作能力上大幅提升,同時保留此前的“敏鋭智能與可靠性”。為了實現上述提升,xAI 在 Grok 4 的大規模強化學習基礎上,進一步優化了“風格、人格、幫助性、與對齊”(alignment)等方面。其中特別使用了新的方法:以“先進的代理(agentic)推理模型”為獎勵模型,自主評估並大規模迭代響應。
Grok 4.1 技術與基準表現
-
在 LMArena 的 “Text Leaderboard” 中,Grok 4.1 的 “thinking 模式”(代號
quasarflux)達到 1483 Elo 分,領先所有非-xAI 模型。其 “non-reasoning 模式”(代號tensor,即沒有思考 tokens 的即時響應模式)也達1465 Elo,超越所有其他模型的完全推理配置。 -
在“情感智能”評測(EQ-Bench3)中,Grok 4.1 表現出了更好的共情、理解、洞察與人際交互能力。
-
在“創意寫作”評測(Creative Writing v3 benchmark)中也展現提升,其語言更具“角色感”、更具情感和敍事張力。
-
在減少“幻覺”方面(即對事實性問題的錯誤回答)也有進展。4.1 在“非推理”模型配合搜索工具時,幻覺率有顯著下降。尤其使用了 FActScore(生物傳記問題基準)衡量。
詳情查看:https://x.ai/news/grok-4-1