本週AI領域迎來密集更新,大模型方面,Runway、OpenAI、通義百聆、NVIDIA、阿里雲、字節跳動、小米、騰訊、Meta、Google等先後推出或開源視頻生成、世界模型、語音、音視頻創作等相關模型,涵蓋畫質提升、多模態支持、高效推理等優勢,部分模型引發爭議;Agent方面,Google、商湯科技等發佈研究、辦公、營銷等場景智能體;工具方面,騰訊元寶、OpenAI也更新工具功能,一起來回顧本週發生的AI新鮮事兒吧!
AI 大模型
Runway升級發佈「Gen-4.5」旗艦視頻模型和首個通用世界模型「GWM-1」
12月12日,AI視頻與多媒體生成領域獨角獸Runway在Demo Day 2025上發佈五大產品與研究更新,包括畫質和創意控制能力突出、支持原生音頻生成編輯及多鏡頭編輯的旗艦視頻生成模型「Gen-4.5」,以及基於「Gen-4.5」構建、採用逐幀預測且支持用户干預的首個通用世界模型「GWM-1」,其包含可實時生成沉浸式可探索空間的「GWM Worlds」、為機器人訓練提供合成數據的「GWM Robotics」、音頻驅動的交互式視頻模型「GWM Avatars」三種變體,此次更新標誌着行業從“視頻生成”邁向“世界模擬”。
OpenAI十週年發佈「GPT-5.2」系列模型,缺乏共情力引發爭議
12月12日,OpenAI十週年推出「GPT-5.2」系列模型,有Instant、和Pro三種版本,官方稱其是“迄今為止在專業知識工作方面能力最強的模型”,多項基準測試刷新最優水平。但該模型上線僅24小時就遭到大量用户差評,認為其個性平淡、安全審查過度、缺乏共情力、“不通人性”等。在常識推理、部分簡單問答和創作類任務表現不佳,使用成本還更高;同時其審查與安全拒絕機制過於嚴苛,對一些無害的學術內容轉錄、合理的歷史人物匹配等請求都予以拒絕,折射出OpenAI在爭奪企業市場與滿足普通用户體驗需求之間陷入難以平衡的困境。
OpenAI開源稀疏Transformer模型「Circuit-Sparsity」
12月15日,OpenAI開源稀疏Transformer模型「Circuit-Sparsity」,模型參數量僅0.4B,99.9%的權重為零,僅保留0.1%非零權重,解決模型可解釋性問題。該模型通過動態剪枝、激活稀疏化、架構微調等技術,在內部形成緊湊可讀的“電路”,讓神經元激活具有明確語義,成功解決傳統大模型“黑箱”問題、提升可解釋性,且在相同任務損失下電路規模比密集模型小16倍,但存在運算速度較密集模型慢100至1000倍的計算效率瓶頸,目前難以直接應用於千億參數級前沿大模型。
通義百聆語音雙子星模型同步開源,覆蓋多語種合成與高準度語音識別
12月15日,通義百聆語音雙子星模型同步開源,包括「Fun-CosyVoice3(0.5B)」和「Fun-ASR-Nano(0.8B)」,前者完成首包延遲降低50%、中英混説準確率翻倍等升級,支持9語種18方言、跨語種克隆與情感控制,具備zero-shot音色克隆能力,可本地部署與二次開發;後者作為Fun-ASR的輕量化版本,推理成本更低,支持本地部署與定製化微調,而升級後的Fun-ASR模型則在噪聲場景下識別準確率達93%,支持歌詞與説唱識別、31語種自由混説、方言口音覆蓋,流式識別首字延遲低至160ms,兩款開源模型均已在魔搭、HuggingFace、GitHub等平台提供體驗與下載渠道。
NVIDIA推出「NVIDIA Nemotron™ 3」系列開放模型、數據和庫
12月15日,NVIDIA宣佈推出「NVIDIA Nemotron™ 3」系列開放模型、數據和庫,該系列包含Nano、Super和Ultra三種規模,採用突破性的異構潛在混合專家 (MoE) 架構,其中「Nemotron 3 Nano」的吞吐量較上代提升4倍,且能在大規模多智能體系統中實現領先的每秒生成token數;模型通過先進的強化學習技術及大規模並行多環境後訓練,具備卓越準確率,同時以高開放性和透明度,直面企業從單模型對話機器人轉向協作式多智能體AI系統時面臨的通信開銷、上下文漂移、高推理成本等挑戰,為各行業專業代理式AI的透明、高效開發與部署提供助力。
通義萬相發佈國內首個支持角色扮演的視頻模型「Wan 2.6」
12月16日,阿里雲正式發佈全新萬相「Wan 2.6」模型,面向專業影視製作和圖像創作場景進行了全面升級,是國內首個支持角色扮演、全球功能最全的視頻模型。該模型集成多項創新技術,可實現畫面到聲音的全感官全維度一致性保持與遷移,支持單人和多人表演,具備音畫同步、多鏡頭生成、聲音驅動等功能,新增角色扮演和分鏡控制能力,能一鍵完成單人/多人/人與物合拍視頻及多鏡頭切換,單次視頻時長達國內最高15秒,畫質、音效與指令遵循能力進一步提升。
字節跳動發佈音視頻創作模型「Seedance 1.5 pro」,革新音視頻聯合生成體驗
12月16日,字節跳動Seed團隊正式發佈新一代音視頻創作模型「Seedance 1.5 pro」,支持音視頻聯合生成,能夠執行多種任務,包括從文本到音視頻的合成以及圖像引導的音視頻生成等。該模型具備精準音畫同步、多語言及方言支持、電影級運鏡控制、增強的語義理解與敍事協調性等優勢,依託多模態聯合生成架構、多階段數據Pipeline等技術,在影視創作、廣告生產、短劇生成等多個場景展現出良好的敍事表現力與視聽融合度,綜合評測中各項關鍵能力處於業界前列。
小米開源專為極致推理效率自研的MoE模型「MiMo-V2-Flash」
12月17日,小米開源專為極致推理效率自研的309B參數(激活15B)MoE模型「MiMo-V2-Flash」,該模型通過5:1比例的Sliding Window Attention與Global Attention混合架構、多層MTP推理加速技術及全新MOPD後訓練範式,在多個Agent測評基準躋身全球開源模型Top 2,代碼能力比肩Claude 4.5 Sonnet,且推理價格僅為其2.5%、生成速度提升2倍,同時具備優秀的Web開發、對話創作等能力。
騰訊發佈開放實時體驗的「混元世界模型1.5」,並開源全鏈路訓練體系
12月17日,騰訊正式發佈「混元世界模型1.5」(Tencent HY WorldPlay),這是國內首個開放實時體驗的世界模型,用户只需輸入文字描述或者圖片即可創建專屬的互動世界,通過鍵盤、鼠標等設備實現沉浸式實時探索,且離開後返回區域能保持場景前後一致,還可導出3D點雲。該模型具備實時交互生成(24FPS生成720P高清視頻)、長範圍3D一致性、多樣化交互體驗三大核心能力,首次開源了涵蓋數據、訓練、推理部署全鏈路的實時世界模型訓練體系,依託雙分支動作表徵等三大核心創新及3D獎勵強化學習後訓練框架破解技術難題,適用於遊戲開發、影視製作、VR、具身智能研究等多個場景。
Meta開源音頻分割模型「SAM Audio」,一鍵分離任意聲音
12月17日,Meta開源音頻分割模型「SAM Audio」,以PE-AV為核心技術引擎,基於流匹配擴散Transformer的生成式建模框架,融合先進數據引擎訓練而成,支持文本、視覺、時間跨度三種提示方式(可單獨或組合使用),能從複雜音頻混合中分離任意聲音,在多項任務上實現業界領先性能且運行速度快於實時處理(RTF≈0.7),同時Meta還同步發佈了SAM Audio-Bench首個真實環境音頻分離基準)、SAM Audio Judge(首個音頻分離自動評測模型),並將所有成果整合進Segment Anything Playground供用户體驗。
Google發佈「Gemini 3 Flash」模型,速度快3倍全球免費開放
12月18日,Google正式發佈「Gemini 3 Flash」模型,直接對標OpenAI和Anthropic的旗艦模型,官方號稱比2.5 Pro速度快3倍,Token消耗減少三成,輸入0.5美元/百萬Token、輸出3美元/百萬Token的價格僅為Gemini 3 Pro的四分之一,同時在GPQA Diamond、MMMU Pro等多項基準測試中表現亮眼,具備自適應思考、多模態處理及優秀的智能體編碼能力,可應用於視頻分析、UI設計、搜索AI模式等多種場景,支持免費向全球用户開放,已嵌入Google搜索AI模式、Gemini APP等多平台。
「豆包大模型1.8」發佈,多模態推理與Agent能力領先
12月18日,在火山引擎Force原動力大會上,「豆包大模型1.8」(Doubao-Seed-1.8)及音視頻創作模型「Seedance 1.5 pro」正式發佈。其中「豆包大模型1.8」面向多模態Agent場景優化,工具調用、複雜指令遵循等能力顯著增強,多項評測表現達業界領先水平,已上線開放API;「Seedance 1.5 pro」原生支持音視頻聯合生成,在音畫同步、多人多語言對白、影視級敍事張力等方面實現突破,已在豆包App(灰度測試)等多個平台上線試用。
AI Agent
Google推出全新版「Gemini Deep Research Agent」
12月12日,Google推出全新版「Gemini Deep Research Agent」,基於「Gemini 3 Pro」構建並通過多步強化學習訓練提高準確性減少幻覺。 新版在Humanity's Last Exam測試集中達到46.4%領先水平,在DeepSearchQA上取得66.1%,在BrowseComp測試中獲得59.2%高分。並同步推出開源網絡研究Agent基準DeepSearchQA和全新交互API,後者支持服務器端狀態管理、遠程MCP工具調用和後台執行長時間推理循環。
「Manus 1.6 Max」發佈,從“輔助工具”變身“獨立承包商”重塑工作流
12月15日,「Manus 1.6 Max」發佈,實現了從“輔助工具”到“獨立承包商”的質變,用户滿意度提升19.2%。其核心亮點包括引入更高級規劃架構的全新旗艦Agent,通過子Agent戰羣模式並行處理任務,能獨立完成複雜Excel財務建模和數據分析。本次新增移動開發功能,支持端到端App開發流程,用户只需描述需求即可生成中小型工具類App。此外還推出Design View設計視圖,實現局部修圖、精準文字渲染和多圖層合成,解決AI生圖不可控的痛點。
階躍星辰「Step-GUI」雲端模型全量上新,多端適配快速部署
12月17日,階躍星辰宣佈「Step-GUI」雲端模型全量上新,涵蓋200+任務場景,支持手機、PC、汽車多端使用,具備更長推理步驟、更強語義理解與泛化能力,還推出首個GUI-MCP協議,可實現10分鐘快速部署及端雲協同的隱私可控使用,同時開放API免費使用並公開技術報告。
商湯科技啓動「2025產品發佈周」,連發多款AI產品
12月15日至19日,商湯科技正式啓動「2025產品發佈周」,連續發佈多款兼具開創性與實用性的AI產品,包括多劇集生成智能體「Seko2.0」、AI辦公智能體「小浣熊3.0」、「如影營銷智能體」、「開悟世界模型3.0」、「咔皮記賬APP」等。
商湯科技推出行業首個創編一體、多劇集生成智能體「Seko2.0」
12月15日,商湯科技推出行業首個創編一體、多劇集生成智能體「Seko2.0」,實現全新UI升級,支持100集以內劇本連續創作及Agent智能調度,通過SekoIDX 技術破解多劇集跨分鏡角色一致性難題,藉助SekoTalk攻克多人對口型難題,結合Phased DMD蒸餾技術和開源推理框架LightX2V降低創作成本、提升效率,漫劇製作週期可縮短80%~90%,且LightX2V已適配國產芯片實現全國產化部署。
商湯科技發佈AI辦公智能體「小浣熊3.0」
12月16日,商湯科技正式發佈AI辦公智能體「小浣熊3.0」,該產品已擁有300萬+註冊用户,此次升級實現三大躍遷:交付上從生成“草稿”到一鍵生成高質量PPT,支持圖文等元素快速編輯;理解上具備長鏈條思考能力,可秒級處理百萬級數據量,實現多模態、多源關聯分析;工作流上融入企業場景,支持跨平台任務處理,移動端同步上線,企業側落地精度達95%+。
商湯科技推出「如影營銷智能體」
12月17日,商湯科技正式推出面向電商運營場景的「如影營銷智能體」,是新一代電商AI增長引擎,由店鋪運營、直播運營、流量投放、直播場控四個電商Agent及數字人Agent組成“五大智能體矩陣”,覆蓋電商全鏈路運營,可實現數據自動同步、聯動響應,無需人工介入。其中店鋪運營Agent單任務平均提效20倍,直播運營Agent提效6倍,流量投放Agent提效5倍,直播場控Agent能讓主播自助完成場控操作,數字人Agent可實現“當日復刻當日播”。該智能體依託商湯日日新大模型及國產化硬件支持,能實現多維度提效,推動電商增長從“人力驅動”轉向“智能驅動”。
大曉機器人發佈具身智能三大核心成果,共建生態助力規模化落地
12月18日,大曉機器人正式發佈行業首創的ACE具身研發範式、首個開源且商業應用的開悟世界模型3.0(Kairos 3.0)、讓具身本體擁有自主空間智能的具身超級大腦模組A1。其中ACE範式以環境式數據採集為引擎,構建“數據採集-世界模型-具身交互”全鏈路技術體系,可實現千萬小時數據收集,開悟世界模型3.0具備多模態理解-生成-預測能力,已適配多款國產芯片並開源開放API,具身超級大腦模組A1依託純視覺無圖端到端VLA模型等優勢,實現自主空間智能與雲端交互,適配多行業超150個應用場景。
商湯科技推出全新升級的「咔皮記賬 APP」
12月19日,商湯科技推出全新升級的「咔皮記賬APP」,這款基於日日新多模態大模型打造的AI原生財務Agent工具,聚焦年輕人手工記賬繁瑣、預算難執行、超支無提醒、報表看不懂等財務痛點,提供AI自動記賬(拍小票、截賬單、語音錄入即可完成)、智能預算規劃(按5/3/2法則及用户消費習慣生成個性化方案)、超支與訂閲/還款提醒、深度消費洞察分析(支出佔比、趨勢預測及優化建議)全流程服務。
AI 工具
騰訊元寶推出「寫作模式」,邊聊邊寫30分鐘產出萬字長文
12月15日,騰訊元寶推出「寫作模式」,多端(App/電腦/網頁版)操作便捷,支持用户邊聊天邊創作中長篇小説,用户只需提供故事主題、腦洞等簡單信息,元寶便能自動補全劇情、人設、大綱,還可細化章節情節、調整大綱或直接生成全文,創作效率極高,30分鐘可寫出5萬字,14分鐘能完成3萬字作品,並支持將長稿一鍵導出至本地文檔或騰訊文檔。
OpenAI推出新版「ChatGPT Images 」,多項能力升級且API降價20%
12月17日, OpenAI推出新版「ChatGPT Images 」,由全新的旗艦圖像生成模型「GPT Image 1.5」驅動。該模型在精準修圖(可實現添加、刪減等多種編輯操作且保留原圖關鍵要素)、指令遵循能力、生成速度(提升4倍)、文本渲染、畫質等方面均有顯著升級,還推出了無需提示詞的全新交互方式(內置數十種預設濾鏡和提示且定期更新),在LMARENA.AI的文本到圖像排名中位列第一,且API價格直降20%。