據 CNBC 援引知情人士説法,月之暗面於 11 月 6 日發佈的 Kimi K2 Thinking 模型的訓練成本為 460 萬美元。月之暗面聲稱該模型在一些測試中超過 GPT-5 和 Sonnet 4.5 Thinking。
作為對比,DeepSeek V3 的官方聲稱的訓練成本為 560 萬美元,而 GPT 的訓練成本據推測在十億美元量級。
HuggingFace 聯合創始人 Thomas Wolf 也表示,我們正在見證又一次 DeepSeek 時刻:
Kimi 對傳統 MoE 架構(包括 DeepSeek 等開源模型)進行了一系列深度優化,可以稱之為 “超稀疏 MoE”,並集成了一系列開源生態成果。
K2 Thinking 以 1 萬億參數位居全球大模型前列,但每次推理只激活 3.2%(320 億)參數,在效率上衝至第一。排名第二的是 DeepSeek (5.5%);據 AI 專家的技術分析,GPT-4/5 在 10% 左右。K2 的 MoE 包含高達 384 個專家網絡,但在執行一個複雜的 Agentic 任務時,K2 只激活 8 個,稀疏度 48 倍,能動態的、按需的進行專家調用,提升了處理複雜任務的深度和效率。