MIAOYUN | 每週AI新鮮事兒（11.14-11.21）詳情 - 人工智能,機器學習,自然語言處理,圖像識別,資訊 MIAOYUN 博客

本週全球AI領域創新密集，各大廠商競相推出新一代大模型與智能工具。基礎模型性能顯著提升，Google的Gemini 3、OpenAI的GPT-5.1、xAI的Grok 4.1等模型在多模態、代碼及情感理解方面取得突破。AI智能體與工具生態持續繁榮，微軟的Copilot、Google的SIMA 2、AI編程IDE Antigravity及螞蟻集團「靈光」等應用正重塑工作與創作方式。與此同時，開源操作系統、長期記憶技術及Arm與NVIDIA的硬件合作為AI發展夯實了算力與系統基礎，一起來回顧本週發生的AI新鮮事兒吧！

AI 大模型

MiroMind團隊推出開源智能體基座模型「MiroThinker v1.0」

11月16日，MiroMind團隊正式推出開源智能體基座模型「MiroThinker v1.0」，突破傳統LLM對“上下文長度”和“有效交互輪數”的根本限制。「MiroThinker v1.0」提出全新“深度交互Scaling”維度，支持256K上下文和600輪工具調用，集成多種工具鏈可自主完成複雜任務閉環，支持本地部署及框架對接，後續將擴展工具生態與上下文規模。

Physical Intelligence發佈了最新機器人基礎模型「π*0.6」

11月18日，Physical Intelligence發佈了最新機器人基礎模型「π*0.6」，通過創新的Recap訓練方法，融合示範、指導與自主實踐三大環節，讓視覺-語言-動作（VLA）模型突破模仿學習的瓶頸。該模型基於50億參數的視覺-語言模型構建，搭配動作專家模塊，支持文本指令與執行質量、動作優勢等多維度條件輸入，在做咖啡、疊衣物和組裝紙箱等複雜任務上成功率達90%以上，吞吐量提高2倍以上，失敗率降低2倍或更多。

馬斯克旗下xAI發佈新一代大模型「Grok 4.1」

11月18日，馬斯克旗下xAI發佈新一代大模型「Grok 4.1」，在情感理解、對話智能和實用性方面顯著提升，幻覺率從上代模型的12.09%降至4.22%，已免費開放使用。評測顯示，「Grok 4.1」Thinking版以1483分的成績登頂LMArena文本競技場榜首，但隨後被谷歌「Gemini 3 Pro」以1501分反超。

Google發佈新一代大模型「Gemini 3」，是其最智能、適應性最強的模型

11月18日，Google發佈了其劃時代的AI模型「Gemini 3」，一句話就能生成 3D 模型、做網站，甚至做一個開放世界遊戲，在多項核心基準測試中全面超越「GPT-5.1」和「Claude 4.5」等競品，「Gemini 3 Pro」在多模態推理（如MMMU-Pro達81%）、數學能力（MathArena Apex 23.4%）和長週期任務規劃（Vending-Bench 2投資回報率領先）上表現突出。模型引入“Deep Think”深度思考模式和Google Antigravity智能體開發平台，強調更直接、簡潔的交互體驗，並支持學習、編程、規劃等複雜場景。目前已開放給普通用户和開發者使用，分級定價策略同步公佈。

Google推出新版圖像生成模型「Nano Banana Pro」

11月20日，Google推出新版圖像生成模型「Nano Banana Pro」（Gemini 3 Pro Image），這是基於「Gemini 3 Pro」打造的專業級圖像生成與編輯模型，會在生成圖像前進行內部推理，上下文窗口支持64K輸入token、32K輸出token，可輸出1K至4K分辨率圖像，最多可將14張輸入圖像組合為1張輸出，還集成Google搜索能力提供最新知識支持，特別擅長複雜多輪圖像生成編輯、多語言長文本渲染和需要高事實準確性的創意工作。

OpenAI同日推出「GPT-5.1 Pro」和「GPT-5.1-Codex-Max」兩大模型

11月20日，OpenAI同日推出「GPT-5.1 Pro」和「GPT-5.1-Codex-Max」兩大模型，前者主打情商智商雙強，在寫作、數據分析等方面的能力比前一代模型更強。後者是首個原生支持“壓縮”機制的編碼模型，支持超長上下文窗口，可連續工作超24小時處理數百萬token任務，思考token相比前代減少約30%，在SWE-bench Verified上達77.9%高分。

Meta發佈SAM 3D家族包括「SAM 3D Objects」和「SAM 3D Body」

11月20日，Meta發佈致力於理解和重建物理世界三維形態的開創性模型「SAM 3D」，可將2D圖像分割結果直接轉換成3D模型，即使存在遮擋也能重建。家族成員包括「SAM 3D Objects」和「SAM 3D Body」，前者專注於物體和場景重建，後者聚焦於人體姿態和形態估計。「SAM 3D」引入“可提示概念分割”功能，通過文本或示例提示定義概念，在LVIS零樣本分割任務中準確率達47.0，超越SOTA 38.5。

AI Agent

Google DeepMind推出全新多模態智能體「SIMA 2」

11月14日，Google DeepMind推出全新多模態智能體「SIMA 2」，從一個指令執行者進化為了一個互動遊戲夥伴。「SIMA 2」採用符號迴歸方法，整合「Gemini 2.5 Flash-lite」模型為推理引擎，不僅能夠在虛擬世界中執行各類人類語言指令，任務執行成功率相較前代提升一倍；還能思考自身目標、與用户互動，並隨着時間的推移不斷自我改進。

崑崙萬維發佈輕量級多模態智能體「Skywork R1V4-Lite」

11月18日，崑崙萬維正式推出一款集成視覺操作、推理與規劃的輕量級多模態智能體「Skywork R1V4-Lite」，不僅能進行深度推理，還在同一模型中統一了主動圖像操作、外部工具調用、多模態深度研究三大能力。用户僅需上傳一張圖片即可完成空間判斷、模糊文字放大等複雜任務，無需複雜提示詞，在8個多模態理解基準評測上整體領先「Gemini 2.5 Flash」。

微軟全面升級「Copilot」，推出多項新功能和記憶用户偏好的「Work IQ」

11月18日，微軟在2025 Ignite大會上全面升級了「Copilot」，推出多項新功能，包括「智能體聯動」、「語音對話」及記憶用户偏好和工作流程的智能層「Work IQ」，能夠更好地理解用户的工作方式，推測用户需求，並提供個性化的智能體服務。「Copilot」的更新涵蓋了Word、Excel 和PowerPoint等應用，允許用户通過語音與其互動，並推出全新智能體控制平台「Agent 365」，幫助用户安全管理智能體。

AI 工具

OpenAI正式為ChatGPT推出「羣聊功能」

11月14日，OpenAI正式為ChatGPT推出「羣聊功能」，首次實現多人同時與AI交互的協作模式，目前已在日本、韓國、新西蘭啓動試點。新功能基於最新「GPT-5.1」模型驅動，支持搜索、發圖片文件、生成圖片、語音輸入等，用户在羣內自由交流不計入使用額度，僅當ChatGPT主動回覆時才消耗速率限額，避免頻繁互動受限。

Google旗下NotebookLM推出「Deep Research」深度調研功能

11月14日，Google旗下AI筆記工具NotebookLM迎來重要升級，推出「Deep Research」深度調研功能，可自動收集N個相關網頁源並整理到上下文列表，幾分鐘內圍繞主題搭建專屬資料庫。系統支持2500萬token上下文處理，所有回答必須基於用户提供的“來源”且帶引用標註，可驗證性強，避免AI幻覺問題。其“視頻概覽”功能，可將文檔、網頁、視頻轉化成交互式視頻並生成相應畫面，Google明確承諾不會使用用户個人數據訓練模型。

OceanBase發佈並開源首款AI原生混合搜索數據庫「seekdb」

11月18日，OceanBase發佈並開源了首款AI原生混合搜索數據庫「seekdb」，支持向量、全文、標量及空間地理數據的統一混合搜索，深度融合AI推理與數據處理，併兼容Dify、Coze、LangChain、LlamaIndex等30餘種主流AI框架，最低1核2GB內存即可部署，開發者僅需三行代碼，即可快速構建知識庫、智能體等AI應用，輕鬆應對百億級多模數據檢索，真正實現“開箱即用”的AI數據基座。

螞蟻集團推出全模態通用AI助手「靈光」App

11月18日，螞蟻集團推出全模態通用AI助手「靈光」App，首批上線“靈光對話”、“靈光閃應用”、“靈光開眼”三大核心功能，支持“自然語言30秒生成可編輯交互的小應用”，同時也是業內首個全代碼生成多模態內容的AI助手，支持3D數字模型、音頻、圖標、動畫、地圖等全模態的信息輸出，對話更生動，交流更高效,，目前已同步登陸安卓與iOS應用商店。

Google推出AI原生IDE產品「Antigravity」，挑戰Cursor

11月19日，Google推出AI原生IDE產品「Antigravity」，是一款類似Cursor、WindSuf這樣的VS Code換皮AI編程工具，集成AI代理、代碼編輯器和瀏覽器三大工具，構建從編碼到部署的完整閉環。該產品核心創新在於“產物”驅動工作流，通過任務列表、實施計劃和演練報告讓AI工作過程透明可控，支持用户評論反饋和批准機制。現已支持Gemini 3.0 pro、Claude 4.5 sonnet、GPT-OSS120B免費使用，提供MacOS、Windows、Linux三個版本。

技術突破

華為諾亞方舟實驗室聯合高效團隊提出「ScaleNet」框架，實現高效模型擴展

11月18日，北京理工大學、華為諾亞方舟實驗室及香港城市大學的研究團隊聯合提出了「ScaleNet」框架，通過層級權重共享（Layer-wise Weight Sharing）和輕量級適配器（Lightweight Adapter）的有效結合，創新性地實現了“用僅少量額外參數量，將模型深度擴展一倍”，並在視覺Transformer（ViT）和大語言模型（LLM）上均驗證了其有效性，顯著提升了模型性能。

香港中文大學與字節跳動聯合提出語義可控的視頻生成框架「Video-As-Prompt」

11月18日，香港中文大學與字節跳動聯合提出全新的語義可控的視頻生成框架「Video-As-Prompt」，引入一種「視頻參考」的新範式，用户只需提供一段參考視頻和對應的語義描述共同作為prompt，就能直接「克隆」指定語義並應用於新內容，從根本上實現了抽象語義下可控視頻生成範式的統一。該框架採用混合Transformer架構（凍結DiT+可訓練專家Transformer），在保持基座模型能力的同時實現多語義統一控制，並開源包含100K視頻樣本、覆蓋100+高質量語義條件的VAP-Data數據集。

市場動態

開源歐拉社區發佈全球首個超節點操作系統「openEuler 24.03 LTS SP3」

11月15日，在操作系統大會2025上，開源歐拉社區（openEuler）正式開啓新的5年發展之路，將於2025年底正式上線面向超節點的操作系統「openEuler 24.03 LTS SP3」，該系統具備全局資源抽象、異構資源融合和全局資源視圖三大關鍵特徵，旨在充分釋放超節點算力潛能，加速基於超節點的應用創新。同時，華為開放「靈衢互聯協議2.0」，並將向社區貢獻支持超節點的操作系統插件代碼，提供「內存統一編址」、「異構算力低時延通信」和「全局資源池化」等關鍵能力。

EverMind團隊發佈並開源長期記憶操作系統「EverMemOS」

11月16日，陳天橋盛大集團旗下AI團隊EverMind發佈並開源長期記憶操作系統「EverMemOS」，該系統在Locomo和LongMemoEval-S等主流評測集上分別以92.3%和82%的成績刷新行業紀錄。該系統受人腦記憶機制啓發，創新設計四層架構（代理層、記憶層、索引層、接口層），採用“分層記憶提取”與動態組織，解決純文本相似度檢索難題，實現業界首個可拓展的模塊化記憶框架解決傳統傳記憶形式單一問題。目前已在Github開放開源版本，預計今年晚些時候發佈雲服務版本，為企業用户提供數據持久化與可擴展體驗。

Arm將通過NVIDIA NVLink Fusion擴展 Neoverse平台

11月20日，Arm與NVIDIA正在攜手樹立AI基礎設施的新標杆，通過NVIDIA NVLink Fusion架構擴展Arm Neovers計算平台，將率先應用於NVIDIA Grace Hopper及Grace Blackwell平台的性能、帶寬和能效優勢，擴展至整個生態系統。Arm Neoverse計算平台專為高能效、高性能擴展而打造；NVLink Fusion能將所有CPU、GPU和加速器整合為統一的機架級架構。生態系統合作伙伴可將高效的Arm架構計算能力集成至NVIDIA NVLink Fusion生態系統，實現全緩存一致性與高帶寬互連。

MIAOYUN 博客

MIAOYUN 博客

博客 / 詳情