MIAOYUN | 每週AI新鮮事兒（12.05-12.12）詳情 - 人工智能,機器學習,自然語言處理,資訊,深度學習 MIAOYUN 博客

本週全球科技企業及團隊在AI領域動作頻頻，騰訊、阿里、微軟、智譜、美團等企業相繼推出或開源涵蓋語言、語音、圖像、代碼、情感等類型的多款大模型；阿里、商湯及Linux基金會發布開源框架、視頻生成工具並推動行業標準統一；商湯、Adobe、騰訊同步新增數字人驅動、跨平台設計、羣消息總結等AI工具；與此同時，NVIDIA發佈新版CUDA工具包、美國調整芯片出口政策、全球首個太空LLM誕生，一起來回顧本週發生的AI新鮮事兒吧！

AI大模型

騰訊發佈混元2.0語言模型，含「HY 2.0 Think」和「HY 2.0 Instruct」

12月5日，騰訊混元發佈最新版語言模型「Tencent HY 2.0 Think」和「Tencent HY 2.0 Instruct」，採用MoE架構，總參數406B，激活參數32B，支持256K上下文窗口，推理能力與效率居國內頂尖行列，在數學科學推理、指令遵循、代碼與智能體等場景表現突出，且通過雙階段強化學習策略優化文本創作質感，減少“AI味”，目前已接入元寶、ima等騰訊AI原生應用，騰訊雲同步開放API及平台服務。

微軟開源0.5B輕量實時TTS模型「VibeVoice-Realtime-0.5B」

12月6日，微軟低調開源輕量級實時TTS模型「VibeVoice-Realtime-0.5B」，該模型僅0.5B參數，以Python代碼開源，首包延遲約300ms，具備邊輸入邊朗讀、長文不卡頓、支持最多4個角色自然對話、情緒識別表達、10-90分鐘上下文記憶及中英文支持等特點，在準確性和自然度上表現出色，可應用於AI智能助手、會議助手、遊戲NPC等多個場景，提供了安裝部署教程與HF在線Demo，為需要低延遲、自然語音的項目提供了優質選擇。

美團LongCat團隊開源6B參數「LongCat-Image」圖像生成模型

12月8日，美團LongCat團隊發佈並開源6B參數「LongCat-Image」圖像生成模型，該模型採用文生圖與圖像編輯同源架構及漸進式學習策略，在ImgEdit-Bench（4.50分）、GEdit-Bench中英文（7.60/7.64分）等圖像編輯基準測試中達到開源SOTA水平。同時全面開源文生圖多階段模型與圖像編輯模型，推出LongCat APP（含24個圖片玩法模板）及LongCat.ai網頁端，為開發者和用户提供低門檻的圖像創作與編輯工具。

Mistral AI推出「Devstral 2」開源代碼模型及原生CLI工具「Mistral Vibe」

12月9日，法國AI公司Mistral AI推出新一代開源代碼模型「Devstral 2」系列和開源CLI工具「Mistral Vibe」。該系列模型包含123B和24B兩種參數版本，前者是針對代碼智能體的SOTA開放模型，在SWE-bench Verified上獲72.2%的高分，成本效率比「Claude Sonnet」高出7倍，後者可在消費級硬件本地部署且性能比肩更大模型，兩款模型均支持本地部署、自定義微調，並推出修改版MIT許可證限制大企業免費使用。「Mistral Vibe」能實現端到端自動化，支持在終端或IDE中通過自然語言等探索、修改代碼庫等功能。

阿里通義千問全面升級語音合成模型「Qwen3-TTS」

12月10日，阿里通義千問語音合成模型「Qwen3-TTS」全面升級，支持更豐富的音色，並增強了多語種、多方言能力，使韻律和語速更加自然擬人。該模型通過API向全球開發者免費開放，提供49種多樣化音色，涵蓋不同性別、年齡、地域及角色設定，可一鍵切換用於播客、遊戲NPC、智能客服等場景。支持10種主流語言及10種中國方言（含粵語、四川話），保留地道口音特徵，在國際評測集上詞錯誤率優於MiniMax與ElevenLabs，準確率提升約12%。

阿里通義千問升級原生全模態大模型「Qwen3-Omni」

12月11日，阿里通義千問還升級了「Qwen3-Omni-Flash-2025-12-01」模型，此次升級實現了音視頻交互體驗、系統提示控制能力、多語言遵循能力的顯著提升，語音生成更擬人流暢，在文本理解與生成、語音理解、圖像理解、視頻理解等客觀性能指標上也全面躍升，大幅超越前代產品及多款同類模型，真正做到 “聲形意合，令出智隨”，為用户帶來前所未有的自然、精準、生動的AI交互體驗。

NatureSelect團隊發佈首個情感大模型「Echo-N1」

12月11日，NatureSelect（自然選擇）的研究團隊Team Echo 發佈了首個情感大模型「Echo-N1」，僅32B參數，卻通過創新的情感模型訓練方法（含生成式獎勵模型、EPM情感物理模型、擬人化認知沙盒等核心技術），解決了傳統模型在情感領域無法量化、易出現Reward Hacking、評測失真等問題，在多輪情感陪伴任務中勝率達46.7%，遠超千億參數的商業模型「Doubao 1.5」的13.3%。

智譜多模態開源周來襲，多款視覺、語音模型及視頻生成核心技術集中開源

12月8日至12月12日，智譜多模態開源周開源多款新模型與技術，分別是“眼睛看得見”的「GLM-4.6V」系列視覺理解模型，到“手能動起來”的「AutoGLM」，再到“語音聽得懂”的「GLM-ASR」系列語音識別模和“話能説出口”的「GLM-TTS」工業級語音合成系統，最後再開源4項面向視頻生成的核心技術成果「SCAIL」、「RealVideo」、「Kaleido」與「SSVAE」。

智譜開源「GLM-4.6V」系列多模態大模型，原生工具調用賦能多場景

12月8日，智譜開源「GLM-4.6V」系列多模態大模型（含106B-A12B雲端基礎版與9B本地輕量版），訓練時上下文窗口提升至128K tokens，原生融入多模態工具調用能力，在視覺理解精度等關鍵能力上達同參數規模SOTA，支持智能圖文混排、識圖購物、前端復刻等多場景，價格較上一代降價50%且輕量版免費，同步開放模型權重、推理代碼及在線調用能力。

智譜開源「AutoGLM」，旨在讓AI“會用手機” 並開放全套實用資源

12月9日，智譜開源歷經32個月探索的「AutoGLM」手機Agent全套能力，核心目標是讓AI真正學會“使用手機”，從最初解決“亂點”問題、成為全球首個具備Phone Use能力的AI Agent，到完成人類歷史上首個由AI獨立操作發出的手機紅包，再到推出AutoGLM 2.0並通過雲手機模式保障安全與隱私隔離，已實現多場景穩定應用。此次開源以MIT許可開源代碼以Apache-2.0許可，包括訓練好的核心模型、Phone Use能力框架與工具鏈、50+高頻中文App可跑通的Demo和針對Android的適配層等全套實用資源，推動Agent開源生態建設。

智譜發佈並開源「GLM-ASR」系列語音識別模型及桌面端「智譜AI輸入法」

12月10日，智譜發佈並開源「GLM-ASR」系列語音識別模型，含雲端的「GLM-ASR-2512」和1.5B參數的開源端側模型「GLM-ASR-Nano-2512」，後者達開源SOTA水平且部分表現優於閉源模型；並推出基於該系列模型打造的桌面端「智譜AI輸入法」，該輸入法具備語音轉文字、翻譯、改寫等功能，支持一體化編輯、人設切換、Vibe Coding、耳語捕捉及熱詞導入等特色，可滿足多場景使用需求。

智譜上線並開源「GLM-TTS」工業級語音合成系統

12月11日，智譜上線並開源「GLM-TTS」工業級語音合成系統，僅需3秒語音樣本即可復刻説話人音色與説話習慣，其架構採用兩階段生成，引入基於GRPO的強化學習方案，僅用10萬小時訓練數據（遠低於行業主流商用模型），預訓練單機4天即可達成開源SOTA“發音準確度”與高“音色還原度”，精品音色LORA與強化學習單機1天可訓，以更低價獲行業領先MOS分數，適配教育評測、電子書、有聲客服等多場景需求。

智譜開源4項面向視頻生成的核心技術成果

12月12日，智譜開源4項面向視頻生成的核心技術成果，對準當前視頻生成領域的三大難點：精細化可控生成、複雜時空結構建模，以及大規模訓練成本控制。技術成果包括影視級角色動畫生成框架「SCAIL」、實時流式視頻生成系統「RealVideo」僅2-3秒首響延遲、多主體視頻生成框架「Kaleido」與頻譜結構化變分自編碼器VAE「SSVAE」，3倍收斂加速。

AI Agent

阿里開源「AgentScope Java v1.0」，賦能Java開發者構建企業級智能體

12月9日，阿里巴巴發佈「AgentScope Java v1.0」開源框架，面向Java開發者提供企業級Agentic應用構建能力，採用ReAct（推理-行動）開發範式，支持高效工具調用與實時介入控制，具備安全沙箱、上下文工程、高效集成等企業級特性及完善的開發優化生態，覆蓋智能體開發、部署、調優全生命週期，未來將持續優化上下文工程、支持全模態等。

商湯科技發佈「Seko 2.0」多劇集AI視頻Agent

12月10日，商湯科技發佈「Seko 2.0」多劇集AI視頻Agent，可通過一句話靈感或劇情梗概，自動規劃策劃案、劇本和分鏡，一鍵生成最多100集連貫內容，且跨集人物形象、場景風格、故事設定保持高度一致，還具備豐富的畫風選擇、自定義角色形象功能，支持多種主流圖像生成模型，用户可通過左右分欄界面靈活修改劇本、分鏡、配音等細節，還能多任務同時進行生成下一集，支持導出完整視頻及全部分鏡畫面。

Linux基金會宣佈推出智能體AI基金會「AAIF」，統一Agent標準

12月10日，Linux基金會宣佈推出智能體AI基金會「AAIF」（Agentic AI Foundation），定位為AI智能體開源項目的中立託管平台，匯聚OpenAI、Anthropic、Google、微軟、AWS等全球科技巨頭，以Anthropic的MCP協議、OpenAI的AGENTS.md規範及Block的goose框架為核心，三者協同以實現AI智能體與外部工具交互標準化，推動跨系統運行能力的統一。

AI 工具

商湯科技發佈實時語音驅動數字人技術「SekoTalk」

12月9日，商湯科技發佈實時語音驅動數字人技術「SekoTalk」，通過Phased DMD分佈匹配蒸餾技術和LightX2V開源實時視頻生成推理框架等創新，在8卡服務器上實現25fps生成速度與3.5s首幀延遲的生成速度，支持多語言、多人精準聲形同步及超長時穩定生成。該技術今年8月上線後已應用於多款產品，產出數十萬作品及超2000萬播放爆款，其免費在線體驗平台支持2人以上對口型及2分鐘長視頻生成，同時相關技術已貢獻至開源社區。

商湯科技升級「商湯方舟」旗艦平台，以雙核心體系革新視覺AI

12月9日，商湯科技發佈旗艦平台「商湯方舟」的全面升級路徑，以“通專融合”（輕量小模型與通用大模型多級協同）和“智訓閉環”（全流程自動化模型生產）革新視覺算法生產方式，構建“感知-決策-行為”一體化視覺智能體平台，破解傳統視覺AI痛點，目前已深入城市安全、交通、製造等十餘類關鍵場景。

Adobe推出適用於ChatGPT的Photoshop、Express和Acrobat

12月10日，Adobe在官網宣佈推出適用於ChatGPT的Photoshop、Express和Acrobat工具，用户可直接在聊天機器人中免費使用這些工具，無需離開平台，能通過文字描述用PS調整圖像參數、應用風格化效果或編輯特定區域等，藉助Express設計信函、利用Acrobat編輯PDF。不過ChatGPT版PS不包含生成式填充等高級功能。此次合作是Adobe轉型舉措，也是OpenAI打造數字服務“入口”的一部分，此前OpenAI已於10月推出應用集成功能，Spotify、Zillow、Figma等為首批加入的公司。

騰訊元寶AI助手推出「總結QQ羣未讀消息」功能

12月11日，騰訊元寶AI助手推出「總結QQ羣未讀消息」功能，通過AI技術提煉成要點明確、結構清晰的總結報告。首次使用需完成授權，可一分鐘梳理大量聊天記錄，自動歸類熱聊話題、提取與用户相關的提醒（如@事項、福利活動），還能彙總特定羣友發言、打包羣內分享的圖片和文件，提供數字索引直達原文。此外，「元寶AI」還可添加為QQ好友，具備查信息、讀文件等功能，其電腦版和瀏覽器插件已上線。

市場動態

NVIDIA正式發佈「CUDA Toolkit 13.1」，全面提升GPU編程效率與兼容性

12月6日，NVIDIA正式發佈「CUDA Toolkit 13.1」，這是20年來最大規模更新，核心是編程模型CUDA Tile，支持更高抽象層級編寫算法、屏蔽張量核心等硬件細節，且兼容未來GPU架構，配CUDA Tile IR虛擬指令集與cuTile Python DSL，暫支持Blackwell系列。同時開放Green Context運行時API實現細粒度GPU資源分配、升級多進程服務（增內存局部性優化分區等）、優化cuBLAS等數學庫性能、強化Nsight系列開發者工具，並重寫編程指南，全面提升GPU編程效率、兼容性與易用性。

美國允許NVIDIA H200、AMD MI308出口中國，需支付25%銷售分成

12月8日，美國總統特朗普宣佈將允許NVIDIA向中國大陸出口H200（需支付25%銷售分成），AMD同步獲准出口MI308；H200性能超H20但因 B200上線已相對落後，其出口需完成後續政策流程，對適配Hopper架構的中國客户有實際價值，此前壓制的需求有望釋放，且與國產推理芯片不直接衝突，對國產生態影響有限。

全球首個太空AI誕生！H100在軌煉出LLM，科技巨頭競逐太空算力

12月11日，華盛頓Starcloud公司搭載NVIDIA H100芯片（算力比以往太空GPU強100倍）的「Starcloud-1」衞星成功訓練出全球首個太空LLM，完成了基於Karpathy nano-GPT（用莎士比亞語料訓練）的訓練與推理，還成功運行Google Gemma模型併發出太空AI首條問候。此舉旨在利用太空太陽能打造5GW低成本軌道數據中心，緩解地球能源壓力，Google、SpaceX等巨頭也紛紛佈局太空算力賽道。

MIAOYUN 博客

MIAOYUN 博客

博客 / 詳情