博客 / 列表

李梨同學 - 好蟲子週刊:DeepSeek-V3、OpenAI o3、MoE架構

開源閉源終極對決:性能“倒掛”與訓練成本的暴力美學 💧 KD (精華蒸餾): 算力平權時刻!DeepSeek-V3 以 671B MoE 架構硬剛 GPT-4o,且訓練成本僅 550 萬美元,API 價格擊穿行業底線。 🧠 CoT (深度思維): 拆解“低成本奇蹟”:DeepSeek 如何利用 MLA(多頭潛在注意力)與 FP8 混合精度訓練,在不損失性能的前提下實現算力效率的指數級躍升

後端

李梨同學 - 2025.12.11 - 2025.12.18

巨頭對決:Gemini 3 與 GPT-5.2 開啓“深度思考”軍備競賽 .png?imageSlim) 本週關鍵詞: Gemini 3 Flash、DeepSeek V3.2、GPT-5.2、Browser Agents 摘要: 本週是 AI 核心能力從“對話”轉向“深度行動”的分水嶺。Google 祭出 Gemini 3 Flash 接管實時交互,同時發佈 Deep Research 代理

後端

李梨同學 - (2025.12.05 - 2025.12.12)開源週報

諸神黃昏:OpenAI 與開源界的年終決戰 💧 KD (精華蒸餾): 算力核爆!OpenAI 突發 GPT-5.2 "Thinking" 版本,Mistral 甩出 123B 巨獸 Devstral-2 硬剛,開源閉源全面開戰。 🧠 CoT (深度思維): 重新定義“思考”:GPT-5.2 如何通過多層次強化學習(RL)在 GDPval 基準上擊敗 70% 人類專家? .png?ima

人工智能

李梨同學 - 2025.11.29 - 2025.12.05

(2025.11.29 - 2025.12.05)🚀 AI開源週報:Qwen3全面進化、DeepSeek V3.2突襲、自適應推理革命 模型混戰升級:中美歐三巨頭同周發版,推理成本迎“腰斬”級優化 💧 KD (精華蒸餾): 開源界年末狂歡!阿里 Qwen3 引入“思考模式”,DeepSeek V3.2 強化邏輯推理,Mistral 675B 巨獸刷新參數規模天花板。 🧠 CoT (深度

後端

李梨同學 - AI開源週報:GPT-5.1 自適應推理、Qwen3 視覺封神、DeepSeek 數學霸榜

本週關鍵詞: GPT-5.1、Qwen3-VL、DeepSeek-Math-V2、Agent-First IDE 摘要: 本週是“推理能力”全面爆發的一週。閉源側,OpenAI 發佈的 GPT-5.1 首次引入“自適應推理”,打破了快思考與慢思考的界限;開源側則迎來高光時刻,阿里 Qwen3-VL 將“思維鏈”引入視覺模型,而 DeepSeek-Math-V2 則以 685B MoE 架構再

後端