MIAOYUN | 每週AI新鮮事兒（11.21-11.28）詳情 - 機器學習,人工智能,深度學習,算法,自然語言處理 MIAOYUN 博客

本週全球AI領域動態密集，多家公司發佈重磅模型與工具。騰訊、小米、AMD、Anthropic、DeepSeek、阿里、微軟等推出多款開源大模型，覆蓋視頻生成、具身智能、MoE架構等，性能與成本優化顯著。AI Agent、工具持續迭代，Elser.AI、Trae SOLO等落地。技術上，嵌套學習、3D資產生成等獲突破，市場端特朗普簽署AI戰略命令，原生AI雲廠商打破壟斷，推動行業加速發展，一起來回顧本週發生的AI新鮮事兒吧！

AI 大模型

騰訊混元大模型團隊宣佈開源最新視頻生成模型「HunyuanVideo 1.5」

11月21日，騰訊混元大模型團隊宣佈開源最新視頻生成模型「HunyuanVideo 1.5」，基於Diffusion Transformer（DiT）架構，整合三大核心技術以實現高性能視頻生成。通過8.3B參數的輕量化設計與3D因果VAE編解碼器，模型實現了空間16倍、時間4倍的高效壓縮，以最小參數量激發強大性能，支持生成5-10秒的高清視頻。模型已經在「元寶」上線，可通過輸入文字描述（Prompt），直接實現“文生視頻”；或是上傳圖片配合Prompt，將靜態圖片轉化為動態視頻。

小米正式發佈並開源其全新具身智能大模型「MiMo-Embodied」

11月21日，小米正式發佈並開源其全新具身智能大模型「MiMo-Embodied」，實現室外自動駕駛任務（如環境感知、決策規劃）與室內家居場景的具身智能的統一建模，突破傳統“垂直領域專用”的侷限，支持跨場景任務協同。通過“跨域能力覆蓋、雙向協同賦能、全鏈優化可靠”三大核心技術及多階段訓練策略，「MiMo-Embodied」在真實環境部署中的穩定性顯著提升，並在涵蓋感知、決策與規劃的29項核心基準測試中全面超越現有開源與閉源模型。

AMD、IBM等聯合推出全球首個純AMD硬件訓練大模型「ZAYA1」

11月24日，AMD聯合IBM與AI初創公司Zyphra推出全球首個完全基於AMD硬件生態構建的MoE（混合專家）大模型「ZAYA1」，預訓練使用14T tokens數據，在綜合性能上與通義千問Qwen3系列持平。該模型在IBM Cloud的128節點集羣上完成訓練，每節點配備8張AMD Instinct MI300X，總計1024張GPU，峯值算力達750PFLOPs。架構層面創新包括CCA注意力機制（顯存佔用降32%，長上下文吞吐提18%）和線性路由MoE（稀疏度70%下仍保持高效專家利用率）。AMD藉此強化其“全棧AI”戰略，目標2026年實現訓練成本與NVIDIA方案對等。

Anthropic發佈最新旗艦模型「Claude Opus 4.5」

11月25日，Anthropic正式發佈了最新旗艦模型「Claude Opus 4.5」，在編程、智能體（Agent）及計算機使用方面被宣稱為當前全球領先的模型，並實現了性能與價格的雙重突破。該模型API調用價格降至每百萬Token輸入5美元/輸出25美元，比上代「Opus 4.1」降低了約三分之二。同時還更新了Claude開發者平台、Claude Code及消費者應用，並增強了對Excel、Chrome等工具的集成支持，智能體模式（Plan Mode）也得到升級。

騰訊混元推出全新開源模型「HunyuanOCR」，參數僅1B刷新多項SOTA

11月25日，騰訊混元推出全新開源模型「HunyuanOCR」，參數僅為1B，依託於混元原生多模態架構打造，獲得多項業界OCR應用榜單SOTA成績。該模型採用端到端的理念設計，由“原生分辨率視頻編碼器、自適應視覺適配器和輕量化混元語言模型”三大部分組建構成，精通多語種複雜文檔解析，同時兼具文字檢測和識別能力，並支持14種高頻小語種翻譯。

Black Forest Labs發佈開源圖像生成模型「FLUX.2」

11月26日，Black Forest Labs發佈開源圖像生成模型「FLUX.2」，專為現實創意工作流程打造，可在8秒內生成400萬像素高清圖像，單次生成成本僅為0.003美元，以更低的價格實現類似「Nano Banana Pro」的效果。該模型基於潛空間的流匹配架構構建，並將圖像生成與編輯整合在同一個模型中。本次發佈包含Pro、Flex、Dev和預告中的Klein四個版本，其中Dev版參數精簡40%，支持RTX 3060級別顯卡運行，在文本生成圖像、單參考編輯、多參考編輯等方面均達領先水平。

阿里通義實驗室推出新一代文本生成圖像模型「Z-Image」

11月27日，阿里巴巴通義實驗室推出新一代文本生成圖像模型「Z-Image」，以僅6B參數的Turbo變體以8 NFEs實現亞秒級推理，16G顯存即可運行，139秒生成20張高質量圖。該模型採用可擴展的單流DiT（S3-DiT）架構，將文本與視覺信息融合處理，參數量減少三分之二的同時推理速度提升，RTX 4090上生成1024×1024圖像僅需2.3秒。支持8步採樣即達印刷級細節表現，在皮膚紋理、玻璃反光等複雜材質渲染上表現出色。

DeepSeek發佈「DeepSeek Math-V2」新模型，奪下IMO 2025金牌

11月27日，DeepSeek發佈了「DeepSeek Math-V2」新模型，相較於上一代「DeepSeek-Math-7b」及「Gemini DeepThink」等模型性能更優，以83.3%分奪下IMO 2025金牌。該模型核心突破在於從“結果導向”轉向“過程導向”，構建了由“閲卷老師”（驗證器）、“督導”（元驗證機制）和“自省學生”（生成器）組成的系統，通過誠實獎勵機制、自動化閉環等創新設計，實現可自我驗證的數學推理，既提升了高難度數學證明題的解決能力，又大幅減少了大模型幻覺，為更強數學AI系統的發展提供了可行方向。

微軟推出首款為“電腦操作代理”設計的開源語言模型「Fara-7B」

11月27日，微軟推出首款專為“電腦操作代理（CUA）”設計的小型開源語言模型「Fara-7B」，只有7B參數卻性能出眾，能直接在本地設備（如搭載NPU的Copilot+ PC）運行，兼具低延遲與強隱私優勢。該模型基於「Qwen2.5-VL-7B」訓練，採用純視覺路線，通過“觀察-思考-行動”模式能直接讀取網頁截圖、預測點擊座標並模擬鼠標鍵盤操作，可完成購買商品、整理Github更新、規劃旅程等跨應用任務。

AI Agent

北大哲學博士劉耕創辦了一款AI短劇生成Agent「Elser.AI」

11月24日消息，北大哲學博士劉耕創辦「Elser.AI」，一款AI短劇生成Agent，在完全沒有宣傳情況下積累了20萬全球活躍用户。「Elser.AI」支持從劇本到分鏡到成片的全流程創作，用户可控制角色形象、構圖景深、運鏡動作等所有細節，實現“創作平權”。海外版將於12月1日上線，全線接入「Nano Banana Pro」，所有在Waitlist登記的用户都將收到首波邀請。

Anthropic發佈針對長程Agent的雙Agent架構解決方案

11月27日，Anthropic發佈Agent工程實踐文章，針對長程Agent在多會話間難以保持進度一致的核心難題（如一次性蠻幹耗盡上下文、過早宣佈完工等），提出雙Agent架構解決方案：初始化Agent負責搭建環境，生成包含所有功能需求（初始標記為 “未通過”）的JSON格式功能列表、init.sh腳本、進度文件及初始Git提交；編碼Agent則通過增量開發、Git提交與進度記錄、端到端測試（藉助瀏覽器自動化工具）推進單個功能，同時每個編碼Agent會話開始時會通過查看工作目錄、Git日誌、進度文件等快速瞭解項目狀態。

AI 工具

Google旗下AI工具NotebookLM推出「Slide Decks」幻燈片生成功能

11月22日，Google旗下AI筆記工具NotebookLM推出「Slide Decks」幻燈片生成功能，用户只需導入PDF、網頁或視頻等原始資料，AI即可自動提煉核心信息並生成結構完整、邏輯清晰的演示文稿。新功能嚴格遵循源材料，避免事實幻覺，並由新型圖像模型「Nano Banana Pro」提供專業配圖。同時新增「Infographics」圖表生成功能，將複雜數據轉化為可視化摘要，全面提升知識工作者的內容產出效率。

阿里巴巴旗下AI助手「千問App」一週破千萬，成史上增長最快的AI應用

11月24日，阿里巴巴旗下AI助手「千問App」公測一週，下載量突破1000萬次，超越ChatGPT、Sora、DeepSeek成為全球增長最快的AI應用，並帶動阿里港股單日漲幅超6%。過去一年，憑藉通義千問大模型能力的躍升、開源模型在海外市場受到的認可及其帶動的雲業務增長等，AI成為驅動阿里股價上漲的第二增長曲線，搶佔“AI時代的超級入口”的戰略重要性正在不斷上升。

AI編程工具「Trae SOLO」中國版正式上線，全部功能完全免費

11月25日，字節跳動正式推出類似Cursor的AI編程工具「Trae SOLO」中國版，並帶來SOLO Coder、Plan模式、多任務並行、代碼變更工具DiffView、上下文壓縮等核心能力，所有功能完全免費。此次「Trae SOLO」中國版的上線打破了海外AI編程工具的使用門檻，通過“技術平權”讓更多非專業用户接觸並使用編程能力，實現從“工具增強”到“流程簡化”的突破。

ChatGPT更新整合「語音模式」和上線「AI購物研究」功能

11月26日，OpenAI宣佈ChatGPT完成重大功能迭代，將原獨立的「語音模式」（Voice Mode）全面整合至主聊天界面，實現語音與文本交互的深度融合，用户可在語音交互時同步查看地圖、圖表等視覺內容並獲取自動生成的文字轉錄稿，同時支持一鍵切換回純音頻模式以適配不同使用習慣。此外還推出了「AI購物研究」功能，上線支持iCloud鑰匙串的Atlas AI瀏覽器新功能，在部分地區開放羣聊功能，並通過性能更強的GPT-5.1模型進一步提升了對話智能度與流暢性。

技術突破

南洋理工開源「PhysX-Anything」框架，實現單張圖像生成仿真的3D資產

11月24日，南洋理工大學開源「PhysX-Anything」框架，首個面向仿真、具備物理屬性的3D生成框架：僅需單張圖像，即可生成高質量、可直接用於仿真的3D資產，並同時具備顯式幾何結構、關節運動以及物理參數，可直接用於MuJoCo等機器人仿真環境。該框架通過VLM驅動的物理建模和高效輸出格式，為機器人仿真和具身智能提供了高質量資產來源。

Google Research發佈論文提出「嵌套學習」新機器學習範式

11月25日，近期Google Research發佈的論文提出了「嵌套學習」（Nested Learning）新機器學習範式，將模型拆分為一組具有各自內部工作流程的嵌套優化問題，每個子問題擁有獨立工作流程，可減輕甚至避免“災難性遺忘”。該方法通過關聯記憶、更新頻率分層和優化器即記憶模塊三大創新，實現“早期層高頻刷，後期層低頻整合”的新訓練框架；基於此推出的HOPE模型在語言建模困惑度和常識推理準確率上均表現最優，在長上下文大海撈針任務中展現出卓越的內存管理能力。

市場動態

美國白宮特朗普正式簽署「創世紀計劃」行政命令當地時間

11月24日，特朗普在美國白宮簽署「創世紀計劃」（Genesis Mission）行政命令，被比作「曼哈頓計劃」和「阿波羅計劃」，是其第二任期內AI戰略的關鍵舉措，核心是藉助AI革新科研模式以鞏固美國在全球AI及科技領域的領先地位，由美國能源部（DOE）領導，利用國家級超級計算機和聯邦數據，構建一個全新的「美國科學與安全平台」，鎖定核聚變、芯片、生物技術等六大核心領域攻堅科研難題，要求60天內提出20項國家挑戰，並勒令9個月內構建AI科研閉環。目前，NVIDIA、Dell、AMD等科技巨頭均響應參與。

超6000億美元市場，「原生AI雲廠商」打破巨頭壟斷格局

11月27日消息，IDC、沙利文等全球知名市研機構的雲計算報告中都提到了一個新概念「原生AI雲廠商」，在超 6000 億美元的全球雲計算市場，「原生AI雲廠商」崛起打破了傳統雲巨頭的壟斷格局。報告顯示，海外CoreWeave成頭部玩家，國內商湯科技表現亮眼，2025年H1位列中國原生AI雲廠商首位，2024年GenAI技術棧市場增長與創新指數國內第一、全球僅次於亞馬遜雲科技。與傳統雲巨頭相比，「原生AI雲廠商」在AI技術綁定、場景適配性等方面更具優勢，但基礎設施覆蓋等存在短板。

MIAOYUN 博客

MIAOYUN 博客

博客 / 詳情