李梨同學 -
好蟲子週刊:DeepSeek-V3、OpenAI o3、MoE架構
開源閉源終極對決:性能“倒掛”與訓練成本的暴力美學
💧 KD (精華蒸餾): 算力平權時刻!DeepSeek-V3 以 671B MoE 架構硬剛 GPT-4o,且訓練成本僅 550 萬美元,API 價格擊穿行業底線。
🧠 CoT (深度思維): 拆解“低成本奇蹟”:DeepSeek 如何利用 MLA(多頭潛在注意力)與 FP8 混合精度訓練,在不損失性能的前提下實現算力效率的指數級躍升
後端
李梨同學 -
2025.12.11 - 2025.12.18
巨頭對決:Gemini 3 與 GPT-5.2 開啓“深度思考”軍備競賽
.png?imageSlim)
本週關鍵詞: Gemini 3 Flash、DeepSeek V3.2、GPT-5.2、Browser Agents
摘要: 本週是 AI 核心能力從“對話”轉向“深度行動”的分水嶺。Google 祭出 Gemini 3 Flash 接管實時交互,同時發佈 Deep Research 代理
後端
李梨同學 -
(2025.12.05 - 2025.12.12)開源週報
諸神黃昏:OpenAI 與開源界的年終決戰
💧 KD (精華蒸餾): 算力核爆!OpenAI 突發 GPT-5.2 "Thinking" 版本,Mistral 甩出 123B 巨獸 Devstral-2 硬剛,開源閉源全面開戰。
🧠 CoT (深度思維): 重新定義“思考”:GPT-5.2 如何通過多層次強化學習(RL)在 GDPval 基準上擊敗 70% 人類專家?
.png?ima
人工智能
李梨同學 -
2025.11.29 - 2025.12.05
(2025.11.29 - 2025.12.05)🚀 AI開源週報:Qwen3全面進化、DeepSeek V3.2突襲、自適應推理革命
模型混戰升級:中美歐三巨頭同周發版,推理成本迎“腰斬”級優化
💧 KD (精華蒸餾): 開源界年末狂歡!阿里 Qwen3 引入“思考模式”,DeepSeek V3.2 強化邏輯推理,Mistral 675B 巨獸刷新參數規模天花板。
🧠 CoT (深度
後端