MIAOYUN | 每週AI新鮮事兒（12.12-12.19）詳情 - 機器學習,人工智能,數據挖掘,自然語言處理,資訊 MIAOYUN 博客

本週AI領域迎來密集更新，大模型方面，Runway、OpenAI、通義百聆、NVIDIA、阿里雲、字節跳動、小米、騰訊、Meta、Google等先後推出或開源視頻生成、世界模型、語音、音視頻創作等相關模型，涵蓋畫質提升、多模態支持、高效推理等優勢，部分模型引發爭議；Agent方面，Google、商湯科技等發佈研究、辦公、營銷等場景智能體；工具方面，騰訊元寶、OpenAI也更新工具功能，一起來回顧本週發生的AI新鮮事兒吧！

AI 大模型

Runway升級發佈「Gen-4.5」旗艦視頻模型和首個通用世界模型「GWM-1」

12月12日，AI視頻與多媒體生成領域獨角獸Runway在Demo Day 2025上發佈五大產品與研究更新，包括畫質和創意控制能力突出、支持原生音頻生成編輯及多鏡頭編輯的旗艦視頻生成模型「Gen-4.5」，以及基於「Gen-4.5」構建、採用逐幀預測且支持用户干預的首個通用世界模型「GWM-1」，其包含可實時生成沉浸式可探索空間的「GWM Worlds」、為機器人訓練提供合成數據的「GWM Robotics」、音頻驅動的交互式視頻模型「GWM Avatars」三種變體，此次更新標誌着行業從“視頻生成”邁向“世界模擬”。

OpenAI十週年發佈「GPT-5.2」系列模型，缺乏共情力引發爭議

12月12日，OpenAI十週年推出「GPT-5.2」系列模型，有Instant、和Pro三種版本，官方稱其是“迄今為止在專業知識工作方面能力最強的模型”，多項基準測試刷新最優水平。但該模型上線僅24小時就遭到大量用户差評，認為其個性平淡、安全審查過度、缺乏共情力、“不通人性”等。在常識推理、部分簡單問答和創作類任務表現不佳，使用成本還更高；同時其審查與安全拒絕機制過於嚴苛，對一些無害的學術內容轉錄、合理的歷史人物匹配等請求都予以拒絕，折射出OpenAI在爭奪企業市場與滿足普通用户體驗需求之間陷入難以平衡的困境。

OpenAI開源稀疏Transformer模型「Circuit-Sparsity」

12月15日，OpenAI開源稀疏Transformer模型「Circuit-Sparsity」，模型參數量僅0.4B，99.9%的權重為零，僅保留0.1%非零權重，解決模型可解釋性問題。該模型通過動態剪枝、激活稀疏化、架構微調等技術，在內部形成緊湊可讀的“電路”，讓神經元激活具有明確語義，成功解決傳統大模型“黑箱”問題、提升可解釋性，且在相同任務損失下電路規模比密集模型小16倍，但存在運算速度較密集模型慢100至1000倍的計算效率瓶頸，目前難以直接應用於千億參數級前沿大模型。

通義百聆語音雙子星模型同步開源，覆蓋多語種合成與高準度語音識別

12月15日，通義百聆語音雙子星模型同步開源，包括「Fun-CosyVoice3（0.5B）」和「Fun-ASR-Nano（0.8B）」，前者完成首包延遲降低50%、中英混説準確率翻倍等升級，支持9語種18方言、跨語種克隆與情感控制，具備zero-shot音色克隆能力，可本地部署與二次開發；後者作為Fun-ASR的輕量化版本，推理成本更低，支持本地部署與定製化微調，而升級後的Fun-ASR模型則在噪聲場景下識別準確率達93%，支持歌詞與説唱識別、31語種自由混説、方言口音覆蓋，流式識別首字延遲低至160ms，兩款開源模型均已在魔搭、HuggingFace、GitHub等平台提供體驗與下載渠道。

NVIDIA推出「NVIDIA Nemotron™ 3」系列開放模型、數據和庫

12月15日，NVIDIA宣佈推出「NVIDIA Nemotron™ 3」系列開放模型、數據和庫，該系列包含Nano、Super和Ultra三種規模，採用突破性的異構潛在混合專家 (MoE) 架構，其中「Nemotron 3 Nano」的吞吐量較上代提升4倍，且能在大規模多智能體系統中實現領先的每秒生成token數；模型通過先進的強化學習技術及大規模並行多環境後訓練，具備卓越準確率，同時以高開放性和透明度，直面企業從單模型對話機器人轉向協作式多智能體AI系統時面臨的通信開銷、上下文漂移、高推理成本等挑戰，為各行業專業代理式AI的透明、高效開發與部署提供助力。

通義萬相發佈國內首個支持角色扮演的視頻模型「Wan 2.6」

12月16日，阿里雲正式發佈全新萬相「Wan 2.6」模型，面向專業影視製作和圖像創作場景進行了全面升級，是國內首個支持角色扮演、全球功能最全的視頻模型。該模型集成多項創新技術，可實現畫面到聲音的全感官全維度一致性保持與遷移，支持單人和多人表演，具備音畫同步、多鏡頭生成、聲音驅動等功能，新增角色扮演和分鏡控制能力，能一鍵完成單人/多人/人與物合拍視頻及多鏡頭切換，單次視頻時長達國內最高15秒，畫質、音效與指令遵循能力進一步提升。

字節跳動發佈音視頻創作模型「Seedance 1.5 pro」，革新音視頻聯合生成體驗

12月16日，字節跳動Seed團隊正式發佈新一代音視頻創作模型「Seedance 1.5 pro」，支持音視頻聯合生成，能夠執行多種任務，包括從文本到音視頻的合成以及圖像引導的音視頻生成等。該模型具備精準音畫同步、多語言及方言支持、電影級運鏡控制、增強的語義理解與敍事協調性等優勢，依託多模態聯合生成架構、多階段數據Pipeline等技術，在影視創作、廣告生產、短劇生成等多個場景展現出良好的敍事表現力與視聽融合度，綜合評測中各項關鍵能力處於業界前列。

小米開源專為極致推理效率自研的MoE模型「MiMo-V2-Flash」

12月17日，小米開源專為極致推理效率自研的309B參數（激活15B）MoE模型「MiMo-V2-Flash」，該模型通過5:1比例的Sliding Window Attention與Global Attention混合架構、多層MTP推理加速技術及全新MOPD後訓練範式，在多個Agent測評基準躋身全球開源模型Top 2，代碼能力比肩Claude 4.5 Sonnet，且推理價格僅為其2.5%、生成速度提升2倍，同時具備優秀的Web開發、對話創作等能力。

騰訊發佈開放實時體驗的「混元世界模型1.5」，並開源全鏈路訓練體系

12月17日，騰訊正式發佈「混元世界模型1.5」（Tencent HY WorldPlay），這是國內首個開放實時體驗的世界模型，用户只需輸入文字描述或者圖片即可創建專屬的互動世界，通過鍵盤、鼠標等設備實現沉浸式實時探索，且離開後返回區域能保持場景前後一致，還可導出3D點雲。該模型具備實時交互生成（24FPS生成720P高清視頻）、長範圍3D一致性、多樣化交互體驗三大核心能力，首次開源了涵蓋數據、訓練、推理部署全鏈路的實時世界模型訓練體系，依託雙分支動作表徵等三大核心創新及3D獎勵強化學習後訓練框架破解技術難題，適用於遊戲開發、影視製作、VR、具身智能研究等多個場景。

Meta開源音頻分割模型「SAM Audio」，一鍵分離任意聲音

12月17日，Meta開源音頻分割模型「SAM Audio」，以PE-AV為核心技術引擎，基於流匹配擴散Transformer的生成式建模框架，融合先進數據引擎訓練而成，支持文本、視覺、時間跨度三種提示方式（可單獨或組合使用），能從複雜音頻混合中分離任意聲音，在多項任務上實現業界領先性能且運行速度快於實時處理（RTF≈0.7），同時Meta還同步發佈了SAM Audio-Bench首個真實環境音頻分離基準）、SAM Audio Judge（首個音頻分離自動評測模型），並將所有成果整合進Segment Anything Playground供用户體驗。

Google發佈「Gemini 3 Flash」模型，速度快3倍全球免費開放

12月18日，Google正式發佈「Gemini 3 Flash」模型，直接對標OpenAI和Anthropic的旗艦模型，官方號稱比2.5 Pro速度快3倍，Token消耗減少三成，輸入0.5美元/百萬Token、輸出3美元/百萬Token的價格僅為Gemini 3 Pro的四分之一，同時在GPQA Diamond、MMMU Pro等多項基準測試中表現亮眼，具備自適應思考、多模態處理及優秀的智能體編碼能力，可應用於視頻分析、UI設計、搜索AI模式等多種場景，支持免費向全球用户開放，已嵌入Google搜索AI模式、Gemini APP等多平台。

「豆包大模型1.8」發佈，多模態推理與Agent能力領先

12月18日，在火山引擎Force原動力大會上，「豆包大模型1.8」（Doubao-Seed-1.8）及音視頻創作模型「Seedance 1.5 pro」正式發佈。其中「豆包大模型1.8」面向多模態Agent場景優化，工具調用、複雜指令遵循等能力顯著增強，多項評測表現達業界領先水平，已上線開放API；「Seedance 1.5 pro」原生支持音視頻聯合生成，在音畫同步、多人多語言對白、影視級敍事張力等方面實現突破，已在豆包App（灰度測試）等多個平台上線試用。

AI Agent

Google推出全新版「Gemini Deep Research Agent」

12月12日，Google推出全新版「Gemini Deep Research Agent」，基於「Gemini 3 Pro」構建並通過多步強化學習訓練提高準確性減少幻覺。新版在Humanity's Last Exam測試集中達到46.4%領先水平，在DeepSearchQA上取得66.1%，在BrowseComp測試中獲得59.2%高分。並同步推出開源網絡研究Agent基準DeepSearchQA和全新交互API，後者支持服務器端狀態管理、遠程MCP工具調用和後台執行長時間推理循環。

「Manus 1.6 Max」發佈，從“輔助工具”變身“獨立承包商”重塑工作流

12月15日，「Manus 1.6 Max」發佈，實現了從“輔助工具”到“獨立承包商”的質變，用户滿意度提升19.2%。其核心亮點包括引入更高級規劃架構的全新旗艦Agent，通過子Agent戰羣模式並行處理任務，能獨立完成複雜Excel財務建模和數據分析。本次新增移動開發功能，支持端到端App開發流程，用户只需描述需求即可生成中小型工具類App。此外還推出Design View設計視圖，實現局部修圖、精準文字渲染和多圖層合成，解決AI生圖不可控的痛點。

階躍星辰「Step-GUI」雲端模型全量上新，多端適配快速部署

12月17日，階躍星辰宣佈「Step-GUI」雲端模型全量上新，涵蓋200+任務場景，支持手機、PC、汽車多端使用，具備更長推理步驟、更強語義理解與泛化能力，還推出首個GUI-MCP協議，可實現10分鐘快速部署及端雲協同的隱私可控使用，同時開放API免費使用並公開技術報告。

商湯科技啓動「2025產品發佈周」，連發多款AI產品

12月15日至19日，商湯科技正式啓動「2025產品發佈周」，連續發佈多款兼具開創性與實用性的AI產品，包括多劇集生成智能體「Seko2.0」、AI辦公智能體「小浣熊3.0」、「如影營銷智能體」、「開悟世界模型3.0」、「咔皮記賬APP」等。

商湯科技推出行業首個創編一體、多劇集生成智能體「Seko2.0」

12月15日，商湯科技推出行業首個創編一體、多劇集生成智能體「Seko2.0」，實現全新UI升級，支持100集以內劇本連續創作及Agent智能調度，通過SekoIDX 技術破解多劇集跨分鏡角色一致性難題，藉助SekoTalk攻克多人對口型難題，結合Phased DMD蒸餾技術和開源推理框架LightX2V降低創作成本、提升效率，漫劇製作週期可縮短80%~90%，且LightX2V已適配國產芯片實現全國產化部署。

商湯科技發佈AI辦公智能體「小浣熊3.0」

12月16日，商湯科技正式發佈AI辦公智能體「小浣熊3.0」，該產品已擁有300萬+註冊用户，此次升級實現三大躍遷：交付上從生成“草稿”到一鍵生成高質量PPT，支持圖文等元素快速編輯；理解上具備長鏈條思考能力，可秒級處理百萬級數據量，實現多模態、多源關聯分析；工作流上融入企業場景，支持跨平台任務處理，移動端同步上線，企業側落地精度達95%+。

商湯科技推出「如影營銷智能體」

12月17日，商湯科技正式推出面向電商運營場景的「如影營銷智能體」，是新一代電商AI增長引擎，由店鋪運營、直播運營、流量投放、直播場控四個電商Agent及數字人Agent組成“五大智能體矩陣”，覆蓋電商全鏈路運營，可實現數據自動同步、聯動響應，無需人工介入。其中店鋪運營Agent單任務平均提效20倍，直播運營Agent提效6倍，流量投放Agent提效5倍，直播場控Agent能讓主播自助完成場控操作，數字人Agent可實現“當日復刻當日播”。該智能體依託商湯日日新大模型及國產化硬件支持，能實現多維度提效，推動電商增長從“人力驅動”轉向“智能驅動”。

大曉機器人發佈具身智能三大核心成果，共建生態助力規模化落地

12月18日，大曉機器人正式發佈行業首創的ACE具身研發範式、首個開源且商業應用的開悟世界模型3.0（Kairos 3.0）、讓具身本體擁有自主空間智能的具身超級大腦模組A1。其中ACE範式以環境式數據採集為引擎，構建“數據採集-世界模型-具身交互”全鏈路技術體系，可實現千萬小時數據收集，開悟世界模型3.0具備多模態理解-生成-預測能力，已適配多款國產芯片並開源開放API，具身超級大腦模組A1依託純視覺無圖端到端VLA模型等優勢，實現自主空間智能與雲端交互，適配多行業超150個應用場景。

商湯科技推出全新升級的「咔皮記賬 APP」

12月19日，商湯科技推出全新升級的「咔皮記賬APP」，這款基於日日新多模態大模型打造的AI原生財務Agent工具，聚焦年輕人手工記賬繁瑣、預算難執行、超支無提醒、報表看不懂等財務痛點，提供AI自動記賬（拍小票、截賬單、語音錄入即可完成）、智能預算規劃（按5/3/2法則及用户消費習慣生成個性化方案）、超支與訂閲/還款提醒、深度消費洞察分析（支出佔比、趨勢預測及優化建議）全流程服務。

AI 工具

騰訊元寶推出「寫作模式」，邊聊邊寫30分鐘產出萬字長文

12月15日，騰訊元寶推出「寫作模式」，多端（App/電腦/網頁版）操作便捷，支持用户邊聊天邊創作中長篇小説，用户只需提供故事主題、腦洞等簡單信息，元寶便能自動補全劇情、人設、大綱，還可細化章節情節、調整大綱或直接生成全文，創作效率極高，30分鐘可寫出5萬字，14分鐘能完成3萬字作品，並支持將長稿一鍵導出至本地文檔或騰訊文檔。

OpenAI推出新版「ChatGPT Images 」，多項能力升級且API降價20%

12月17日， OpenAI推出新版「ChatGPT Images 」，由全新的旗艦圖像生成模型「GPT Image 1.5」驅動。該模型在精準修圖（可實現添加、刪減等多種編輯操作且保留原圖關鍵要素）、指令遵循能力、生成速度（提升4倍）、文本渲染、畫質等方面均有顯著升級，還推出了無需提示詞的全新交互方式（內置數十種預設濾鏡和提示且定期更新），在LMARENA.AI的文本到圖像排名中位列第一，且API價格直降20%。

MIAOYUN 博客

MIAOYUN 博客

博客 / 詳情