本週全球AI領域動態密集,多家公司發佈重磅模型與工具。騰訊、小米、AMD、Anthropic、DeepSeek、阿里、微軟等推出多款開源大模型,覆蓋視頻生成、具身智能、MoE架構等,性能與成本優化顯著。AI Agent、工具持續迭代,Elser.AI、Trae SOLO等落地。技術上,嵌套學習、3D資產生成等獲突破,市場端特朗普簽署AI戰略命令,原生AI雲廠商打破壟斷,推動行業加速發展,一起來回顧本週發生的AI新鮮事兒吧!
AI 大模型
騰訊混元大模型團隊宣佈開源最新視頻生成模型「HunyuanVideo 1.5」
11月21日,騰訊混元大模型團隊宣佈開源最新視頻生成模型「HunyuanVideo 1.5」,基於Diffusion Transformer(DiT)架構,整合三大核心技術以實現高性能視頻生成。通過8.3B參數的輕量化設計與3D因果VAE編解碼器,模型實現了空間16倍、時間4倍的高效壓縮,以最小參數量激發強大性能,支持生成5-10秒的高清視頻。模型已經在「元寶」上線,可通過輸入文字描述(Prompt),直接實現“文生視頻”;或是上傳圖片配合Prompt,將靜態圖片轉化為動態視頻。
小米正式發佈並開源其全新具身智能大模型「MiMo-Embodied」
11月21日,小米正式發佈並開源其全新具身智能大模型「MiMo-Embodied」,實現室外自動駕駛任務(如環境感知、決策規劃)與室內家居場景的具身智能的統一建模,突破傳統“垂直領域專用”的侷限,支持跨場景任務協同。通過“跨域能力覆蓋、雙向協同賦能、全鏈優化可靠”三大核心技術及多階段訓練策略,「MiMo-Embodied」在真實環境部署中的穩定性顯著提升,並在涵蓋感知、決策與規劃的29項核心基準測試中全面超越現有開源與閉源模型。
AMD、IBM等聯合推出全球首個純AMD硬件訓練大模型「ZAYA1」
11月24日,AMD聯合IBM與AI初創公司Zyphra推出全球首個完全基於AMD硬件生態構建的MoE(混合專家)大模型「ZAYA1」,預訓練使用14T tokens數據,在綜合性能上與通義千問Qwen3系列持平。該模型在IBM Cloud的128節點集羣上完成訓練,每節點配備8張AMD Instinct MI300X,總計1024張GPU,峯值算力達750PFLOPs。架構層面創新包括CCA注意力機制(顯存佔用降32%,長上下文吞吐提18%)和線性路由MoE(稀疏度70%下仍保持高效專家利用率)。AMD藉此強化其“全棧AI”戰略,目標2026年實現訓練成本與NVIDIA方案對等。
Anthropic發佈最新旗艦模型「Claude Opus 4.5」
11月25日,Anthropic正式發佈了最新旗艦模型「Claude Opus 4.5」,在編程、智能體(Agent)及計算機使用方面被宣稱為當前全球領先的模型,並實現了性能與價格的雙重突破。該模型API調用價格降至每百萬Token輸入5美元/輸出25美元,比上代「Opus 4.1」降低了約三分之二。同時還更新了Claude開發者平台、Claude Code及消費者應用,並增強了對Excel、Chrome等工具的集成支持,智能體模式(Plan Mode)也得到升級。
騰訊混元推出全新開源模型「HunyuanOCR」,參數僅1B刷新多項SOTA
11月25日,騰訊混元推出全新開源模型「HunyuanOCR」,參數僅為1B,依託於混元原生多模態架構打造,獲得多項業界OCR應用榜單SOTA成績。該模型採用端到端的理念設計,由“原生分辨率視頻編碼器、自適應視覺適配器和輕量化混元語言模型”三大部分組建構成,精通多語種複雜文檔解析,同時兼具文字檢測和識別能力,並支持14種高頻小語種翻譯。
Black Forest Labs發佈開源圖像生成模型「FLUX.2」
11月26日,Black Forest Labs發佈開源圖像生成模型「FLUX.2」,專為現實創意工作流程打造,可在8秒內生成400萬像素高清圖像,單次生成成本僅為0.003美元,以更低的價格實現類似「Nano Banana Pro」的效果。該模型基於潛空間的流匹配架構構建,並將圖像生成與編輯整合在同一個模型中。本次發佈包含Pro、Flex、Dev和預告中的Klein四個版本,其中Dev版參數精簡40%,支持RTX 3060級別顯卡運行,在文本生成圖像、單參考編輯、多參考編輯等方面均達領先水平。
阿里通義實驗室推出新一代文本生成圖像模型「Z-Image」
11月27日,阿里巴巴通義實驗室推出新一代文本生成圖像模型「Z-Image」,以僅6B參數的Turbo變體以8 NFEs實現亞秒級推理,16G顯存即可運行,139秒生成20張高質量圖。該模型採用可擴展的單流DiT(S3-DiT)架構,將文本與視覺信息融合處理,參數量減少三分之二的同時推理速度提升,RTX 4090上生成1024×1024圖像僅需2.3秒。支持8步採樣即達印刷級細節表現,在皮膚紋理、玻璃反光等複雜材質渲染上表現出色。
DeepSeek發佈「DeepSeek Math-V2」新模型,奪下IMO 2025金牌
11月27日,DeepSeek發佈了「DeepSeek Math-V2」新模型,相較於上一代「DeepSeek-Math-7b」及「Gemini DeepThink」等模型性能更優,以83.3%分奪下IMO 2025金牌。該模型核心突破在於從“結果導向”轉向“過程導向”,構建了由“閲卷老師”(驗證器)、“督導”(元驗證機制)和“自省學生”(生成器)組成的系統,通過誠實獎勵機制、自動化閉環等創新設計,實現可自我驗證的數學推理,既提升了高難度數學證明題的解決能力,又大幅減少了大模型幻覺,為更強數學AI系統的發展提供了可行方向。
微軟推出首款為“電腦操作代理”設計的開源語言模型「Fara-7B」
11月27日,微軟推出首款專為“電腦操作代理(CUA)”設計的小型開源語言模型「Fara-7B」,只有7B參數卻性能出眾,能直接在本地設備(如搭載NPU的Copilot+ PC)運行,兼具低延遲與強隱私優勢。該模型基於「Qwen2.5-VL-7B」訓練,採用純視覺路線,通過“觀察-思考-行動”模式能直接讀取網頁截圖、預測點擊座標並模擬鼠標鍵盤操作,可完成購買商品、整理Github更新、規劃旅程等跨應用任務。
AI Agent
北大哲學博士劉耕創辦了一款AI短劇生成Agent「Elser.AI」
11月24日消息,北大哲學博士劉耕創辦「Elser.AI」,一款AI短劇生成Agent,在完全沒有宣傳情況下積累了20萬全球活躍用户。「Elser.AI」支持從劇本到分鏡到成片的全流程創作,用户可控制角色形象、構圖景深、運鏡動作等所有細節,實現“創作平權”。海外版將於12月1日上線,全線接入「Nano Banana Pro」,所有在Waitlist登記的用户都將收到首波邀請。
Anthropic發佈針對長程Agent的雙Agent架構解決方案
11月27日,Anthropic發佈Agent工程實踐文章,針對長程Agent在多會話間難以保持進度一致的核心難題(如一次性蠻幹耗盡上下文、過早宣佈完工等),提出雙Agent架構解決方案:初始化Agent負責搭建環境,生成包含所有功能需求(初始標記為 “未通過”)的JSON格式功能列表、init.sh腳本、進度文件及初始Git提交;編碼Agent則通過增量開發、Git提交與進度記錄、端到端測試(藉助瀏覽器自動化工具)推進單個功能,同時每個編碼Agent會話開始時會通過查看工作目錄、Git日誌、進度文件等快速瞭解項目狀態。
AI 工具
Google旗下AI工具NotebookLM推出「Slide Decks」幻燈片生成功能
11月22日,Google旗下AI筆記工具NotebookLM推出「Slide Decks」幻燈片生成功能,用户只需導入PDF、網頁或視頻等原始資料,AI即可自動提煉核心信息並生成結構完整、邏輯清晰的演示文稿。新功能嚴格遵循源材料,避免事實幻覺,並由新型圖像模型「Nano Banana Pro」提供專業配圖。同時新增「Infographics」圖表生成功能,將複雜數據轉化為可視化摘要,全面提升知識工作者的內容產出效率。
阿里巴巴旗下AI助手「千問App」一週破千萬,成史上增長最快的AI應用
11月24日,阿里巴巴旗下AI助手「千問App」公測一週,下載量突破1000萬次,超越ChatGPT、Sora、DeepSeek成為全球增長最快的AI應用,並帶動阿里港股單日漲幅超6%。過去一年,憑藉通義千問大模型能力的躍升、開源模型在海外市場受到的認可及其帶動的雲業務增長等,AI成為驅動阿里股價上漲的第二增長曲線,搶佔“AI時代的超級入口”的戰略重要性正在不斷上升。
AI編程工具「Trae SOLO」中國版正式上線,全部功能完全免費
11月25日,字節跳動正式推出類似Cursor的AI編程工具「Trae SOLO」中國版,並帶來SOLO Coder、Plan模式、多任務並行、代碼變更工具DiffView、上下文壓縮等核心能力,所有功能完全免費。此次「Trae SOLO」中國版的上線打破了海外AI編程工具的使用門檻,通過“技術平權”讓更多非專業用户接觸並使用編程能力,實現從“工具增強”到“流程簡化”的突破。
ChatGPT更新整合「語音模式」和上線「AI購物研究」功能
11月26日,OpenAI宣佈ChatGPT完成重大功能迭代,將原獨立的「語音模式」(Voice Mode)全面整合至主聊天界面,實現語音與文本交互的深度融合,用户可在語音交互時同步查看地圖、圖表等視覺內容並獲取自動生成的文字轉錄稿,同時支持一鍵切換回純音頻模式以適配不同使用習慣。此外還推出了「AI購物研究」功能,上線支持iCloud鑰匙串的Atlas AI瀏覽器新功能,在部分地區開放羣聊功能,並通過性能更強的GPT-5.1模型進一步提升了對話智能度與流暢性。
技術突破
南洋理工開源「PhysX-Anything」框架,實現單張圖像生成仿真的3D資產
11月24日,南洋理工大學開源「PhysX-Anything」框架,首個面向仿真、具備物理屬性的3D生成框架:僅需單張圖像,即可生成高質量、可直接用於仿真的3D資產,並同時具備顯式幾何結構、關節運動以及物理參數,可直接用於MuJoCo等機器人仿真環境。該框架通過VLM驅動的物理建模和高效輸出格式,為機器人仿真和具身智能提供了高質量資產來源。
Google Research發佈論文提出「嵌套學習」新機器學習範式
11月25日,近期Google Research發佈的論文提出了「嵌套學習」(Nested Learning)新機器學習範式,將模型拆分為一組具有各自內部工作流程的嵌套優化問題,每個子問題擁有獨立工作流程,可減輕甚至避免“災難性遺忘”。該方法通過關聯記憶、更新頻率分層和優化器即記憶模塊三大創新,實現“早期層高頻刷,後期層低頻整合”的新訓練框架;基於此推出的HOPE模型在語言建模困惑度和常識推理準確率上均表現最優,在長上下文大海撈針任務中展現出卓越的內存管理能力。
市場動態
美國白宮特朗普正式簽署「創世紀計劃」行政命令當地時間
11月24日,特朗普在美國白宮簽署「創世紀計劃」(Genesis Mission)行政命令,被比作「曼哈頓計劃」和「阿波羅計劃」,是其第二任期內AI戰略的關鍵舉措,核心是藉助AI革新科研模式以鞏固美國在全球AI及科技領域的領先地位,由美國能源部(DOE)領導,利用國家級超級計算機和聯邦數據,構建一個全新的「美國科學與安全平台」,鎖定核聚變、芯片、生物技術等六大核心領域攻堅科研難題,要求60天內提出20項國家挑戰,並勒令9個月內構建AI科研閉環。目前,NVIDIA、Dell、AMD等科技巨頭均響應參與。
超6000億美元市場,「原生AI雲廠商」打破巨頭壟斷格局
11月27日消息,IDC、沙利文等全球知名市研機構的雲計算報告中都提到了一個新概念「原生AI雲廠商」,在超 6000 億美元的全球雲計算市場,「原生AI雲廠商」崛起打破了傳統雲巨頭的壟斷格局。報告顯示,海外CoreWeave成頭部玩家,國內商湯科技表現亮眼,2025年H1位列中國原生AI雲廠商首位,2024年GenAI技術棧市場增長與創新指數國內第一、全球僅次於亞馬遜雲科技。與傳統雲巨頭相比,「原生AI雲廠商」在AI技術綁定、場景適配性等方面更具優勢,但基礎設施覆蓋等存在短板。