博客 / 詳情

返回

MIAOYUN | 每週AI新鮮事兒(12.05-12.12)

本週全球科技企業及團隊在AI領域動作頻頻,騰訊、阿里、微軟、智譜、美團等企業相繼推出或開源涵蓋語言、語音、圖像、代碼、情感等類型的多款大模型;阿里、商湯及Linux基金會發布開源框架、視頻生成工具並推動行業標準統一;商湯、Adobe、騰訊同步新增數字人驅動、跨平台設計、羣消息總結等AI工具;與此同時,NVIDIA發佈新版CUDA工具包、美國調整芯片出口政策、全球首個太空LLM誕生,一起來回顧本週發生的AI新鮮事兒吧!

AI大模型

騰訊發佈混元2.0語言模型,含「HY 2.0 Think」和「HY 2.0 Instruct」

12月5日,騰訊混元發佈最新版語言模型「Tencent HY 2.0 Think」和「Tencent HY 2.0 Instruct」,採用MoE架構,總參數406B,激活參數32B,支持256K上下文窗口,推理能力與效率居國內頂尖行列,在數學科學推理、指令遵循、代碼與智能體等場景表現突出,且通過雙階段強化學習策略優化文本創作質感,減少“AI味”,目前已接入元寶、ima等騰訊AI原生應用,騰訊雲同步開放API及平台服務。

微軟開源0.5B輕量實時TTS模型「VibeVoice-Realtime-0.5B」

12月6日,微軟低調開源輕量級實時TTS模型「VibeVoice-Realtime-0.5B」,該模型僅0.5B參數,以Python代碼開源,首包延遲約300ms,具備邊輸入邊朗讀、長文不卡頓、支持最多4個角色自然對話、情緒識別表達、10-90分鐘上下文記憶及中英文支持等特點,在準確性和自然度上表現出色,可應用於AI智能助手、會議助手、遊戲NPC等多個場景,提供了安裝部署教程與HF在線Demo,為需要低延遲、自然語音的項目提供了優質選擇。

美團LongCat團隊開源6B參數「LongCat-Image」圖像生成模型

12月8日,美團LongCat團隊發佈並開源6B參數「LongCat-Image」圖像生成模型,該模型採用文生圖與圖像編輯同源架構及漸進式學習策略,在ImgEdit-Bench(4.50分)、GEdit-Bench中英文(7.60/7.64分)等圖像編輯基準測試中達到開源SOTA水平。同時全面開源文生圖多階段模型與圖像編輯模型,推出LongCat APP(含24個圖片玩法模板)及LongCat.ai網頁端,為開發者和用户提供低門檻的圖像創作與編輯工具。

Mistral AI推出「Devstral 2」開源代碼模型及原生CLI工具「Mistral Vibe」

12月9日,法國AI公司Mistral AI推出新一代開源代碼模型「Devstral 2」系列和開源CLI工具「Mistral Vibe」。該系列模型包含123B和24B兩種參數版本,前者是針對代碼智能體的SOTA開放模型,在SWE-bench Verified上獲72.2%的高分,成本效率比「Claude Sonnet」高出7倍,後者可在消費級硬件本地部署且性能比肩更大模型,兩款模型均支持本地部署、自定義微調,並推出修改版MIT許可證限制大企業免費使用。「Mistral Vibe」能實現端到端自動化,支持在終端或IDE中通過自然語言等探索、修改代碼庫等功能。

阿里通義千問全面升級語音合成模型「Qwen3-TTS」

12月10日,阿里通義千問語音合成模型「Qwen3-TTS」全面升級,支持更豐富的音色,並增強了多語種、多方言能力,使韻律和語速更加自然擬人。該模型通過API向全球開發者免費開放,提供49種多樣化音色,涵蓋不同性別、年齡、地域及角色設定,可一鍵切換用於播客、遊戲NPC、智能客服等場景。支持10種主流語言及10種中國方言(含粵語、四川話),保留地道口音特徵,在國際評測集上詞錯誤率優於MiniMax與ElevenLabs,準確率提升約12%。

阿里通義千問升級原生全模態大模型「Qwen3-Omni」

12月11日,阿里通義千問還升級了「Qwen3-Omni-Flash-2025-12-01」模型,此次升級實現了音視頻交互體驗、系統提示控制能力、多語言遵循能力的顯著提升,語音生成更擬人流暢,在文本理解與生成、語音理解、圖像理解、視頻理解等客觀性能指標上也全面躍升,大幅超越前代產品及多款同類模型,真正做到 “聲形意合,令出智隨”,為用户帶來前所未有的自然、精準、生動的AI交互體驗。

NatureSelect團隊發佈首個情感大模型「Echo-N1」

12月11日,NatureSelect(自然選擇)的研究團隊Team Echo 發佈了首個情感大模型「Echo-N1」,僅32B參數,卻通過創新的情感模型訓練方法(含生成式獎勵模型、EPM情感物理模型、擬人化認知沙盒等核心技術),解決了傳統模型在情感領域無法量化、易出現Reward Hacking、評測失真等問題,在多輪情感陪伴任務中勝率達46.7%,遠超千億參數的商業模型「Doubao 1.5」的13.3%。

智譜多模態開源周來襲,多款視覺、語音模型及視頻生成核心技術集中開源

12月8日至12月12日,智譜多模態開源周開源多款新模型與技術,分別是“眼睛看得見”的「GLM-4.6V」系列視覺理解模型,到“手能動起來”的「AutoGLM」,再到“語音聽得懂”的「GLM-ASR」系列語音識別模和“話能説出口”的「GLM-TTS」工業級語音合成系統,最後再開源4項面向視頻生成的核心技術成果「SCAIL」、「RealVideo」、「Kaleido」與「SSVAE」。

智譜開源「GLM-4.6V」系列多模態大模型,原生工具調用賦能多場景

12月8日,智譜開源「GLM-4.6V」系列多模態大模型(含106B-A12B雲端基礎版與9B本地輕量版),訓練時上下文窗口提升至128K tokens,原生融入多模態工具調用能力,在視覺理解精度等關鍵能力上達同參數規模SOTA,支持智能圖文混排、識圖購物、前端復刻等多場景,價格較上一代降價50%且輕量版免費,同步開放模型權重、推理代碼及在線調用能力。

智譜開源「AutoGLM」,旨在讓AI“會用手機” 並開放全套實用資源

12月9日,智譜開源歷經32個月探索的「AutoGLM」手機Agent全套能力,核心目標是讓AI真正學會“使用手機”,從最初解決“亂點”問題、成為全球首個具備Phone Use能力的AI Agent,到完成人類歷史上首個由AI獨立操作發出的手機紅包,再到推出AutoGLM 2.0並通過雲手機模式保障安全與隱私隔離,已實現多場景穩定應用。此次開源以MIT許可開源代碼以Apache-2.0許可,包括訓練好的核心模型、Phone Use能力框架與工具鏈、50+高頻中文App可跑通的Demo和針對Android的適配層等全套實用資源,推動Agent開源生態建設。

智譜發佈並開源「GLM-ASR」系列語音識別模型及桌面端「智譜AI輸入法」

12月10日,智譜發佈並開源「GLM-ASR」系列語音識別模型,含雲端的「GLM-ASR-2512」和1.5B參數的開源端側模型「GLM-ASR-Nano-2512」,後者達開源SOTA水平且部分表現優於閉源模型;並推出基於該系列模型打造的桌面端「智譜AI輸入法」,該輸入法具備語音轉文字、翻譯、改寫等功能,支持一體化編輯、人設切換、Vibe Coding、耳語捕捉及熱詞導入等特色,可滿足多場景使用需求。

智譜上線並開源「GLM-TTS」工業級語音合成系統

12月11日,智譜上線並開源「GLM-TTS」工業級語音合成系統,僅需3秒語音樣本即可復刻説話人音色與説話習慣,其架構採用兩階段生成,引入基於GRPO的強化學習方案,僅用10萬小時訓練數據(遠低於行業主流商用模型),預訓練單機4天即可達成開源SOTA“發音準確度”與高“音色還原度”,精品音色LORA與強化學習單機1天可訓,以更低價獲行業領先MOS分數,適配教育評測、電子書、有聲客服等多場景需求。

智譜開源4項面向視頻生成的核心技術成果

12月12日,智譜開源4項面向視頻生成的核心技術成果,對準當前視頻生成領域的三大難點:精細化可控生成、複雜時空結構建模,以及大規模訓練成本控制。技術成果包括影視級角色動畫生成框架「SCAIL」、實時流式視頻生成系統「RealVideo」僅2-3秒首響延遲、多主體視頻生成框架「Kaleido」與頻譜結構化變分自編碼器VAE「SSVAE」,3倍收斂加速。

AI Agent

阿里開源「AgentScope Java v1.0」,賦能Java開發者構建企業級智能體

12月9日,阿里巴巴發佈「AgentScope Java v1.0」開源框架,面向Java開發者提供企業級Agentic應用構建能力,採用ReAct(推理-行動)開發範式,支持高效工具調用與實時介入控制,具備安全沙箱、上下文工程、高效集成等企業級特性及完善的開發優化生態,覆蓋智能體開發、部署、調優全生命週期,未來將持續優化上下文工程、支持全模態等。

商湯科技發佈「Seko 2.0」多劇集AI視頻Agent

12月10日,商湯科技發佈「Seko 2.0」多劇集AI視頻Agent,可通過一句話靈感或劇情梗概,自動規劃策劃案、劇本和分鏡,一鍵生成最多100集連貫內容,且跨集人物形象、場景風格、故事設定保持高度一致,還具備豐富的畫風選擇、自定義角色形象功能,支持多種主流圖像生成模型,用户可通過左右分欄界面靈活修改劇本、分鏡、配音等細節,還能多任務同時進行生成下一集,支持導出完整視頻及全部分鏡畫面。

Linux基金會宣佈推出智能體AI基金會「AAIF」,統一Agent標準

12月10日,Linux基金會宣佈推出智能體AI基金會「AAIF」(Agentic AI Foundation),定位為AI智能體開源項目的中立託管平台,匯聚OpenAI、Anthropic、Google、微軟、AWS等全球科技巨頭,以Anthropic的MCP協議、OpenAI的AGENTS.md規範及Block的goose框架為核心,三者協同以實現AI智能體與外部工具交互標準化,推動跨系統運行能力的統一。

AI 工具

商湯科技發佈實時語音驅動數字人技術「SekoTalk」

12月9日,商湯科技發佈實時語音驅動數字人技術「SekoTalk」,通過Phased DMD分佈匹配蒸餾技術和LightX2V開源實時視頻生成推理框架等創新,在8卡服務器上實現25fps生成速度與3.5s首幀延遲的生成速度,支持多語言、多人精準聲形同步及超長時穩定生成。該技術今年8月上線後已應用於多款產品,產出數十萬作品及超2000萬播放爆款,其免費在線體驗平台支持2人以上對口型及2分鐘長視頻生成,同時相關技術已貢獻至開源社區。

商湯科技升級「商湯方舟」旗艦平台,以雙核心體系革新視覺AI

12月9日,商湯科技發佈旗艦平台「商湯方舟」的全面升級路徑,以“通專融合”(輕量小模型與通用大模型多級協同)和“智訓閉環”(全流程自動化模型生產)革新視覺算法生產方式,構建“感知-決策-行為”一體化視覺智能體平台,破解傳統視覺AI痛點,目前已深入城市安全、交通、製造等十餘類關鍵場景。

Adobe推出適用於ChatGPT的Photoshop、Express和Acrobat

12月10日,Adobe在官網宣佈推出適用於ChatGPT的Photoshop、Express和Acrobat工具,用户可直接在聊天機器人中免費使用這些工具,無需離開平台,能通過文字描述用PS調整圖像參數、應用風格化效果或編輯特定區域等,藉助Express設計信函、利用Acrobat編輯PDF。不過ChatGPT版PS不包含生成式填充等高級功能。此次合作是Adobe轉型舉措,也是OpenAI打造數字服務“入口”的一部分,此前OpenAI已於10月推出應用集成功能,Spotify、Zillow、Figma等為首批加入的公司。

騰訊元寶AI助手推出「總結QQ羣未讀消息」功能

12月11日,騰訊元寶AI助手推出「總結QQ羣未讀消息」功能,通過AI技術提煉成要點明確、結構清晰的總結報告。首次使用需完成授權,可一分鐘梳理大量聊天記錄,自動歸類熱聊話題、提取與用户相關的提醒(如@事項、福利活動),還能彙總特定羣友發言、打包羣內分享的圖片和文件,提供數字索引直達原文。此外,「元寶AI」還可添加為QQ好友,具備查信息、讀文件等功能,其電腦版和瀏覽器插件已上線。

市場動態

NVIDIA正式發佈「CUDA Toolkit 13.1」,全面提升GPU編程效率與兼容性

12月6日,NVIDIA正式發佈「CUDA Toolkit 13.1」,這是20年來最大規模更新,核心是編程模型CUDA Tile,支持更高抽象層級編寫算法、屏蔽張量核心等硬件細節,且兼容未來GPU架構,配CUDA Tile IR虛擬指令集與cuTile Python DSL,暫支持Blackwell系列。同時開放Green Context運行時API實現細粒度GPU資源分配、升級多進程服務(增內存局部性優化分區等)、優化cuBLAS等數學庫性能、強化Nsight系列開發者工具,並重寫編程指南,全面提升GPU編程效率、兼容性與易用性。

美國允許NVIDIA H200、AMD MI308出口中國,需支付25%銷售分成

12月8日,美國總統特朗普宣佈將允許NVIDIA向中國大陸出口H200(需支付25%銷售分成),AMD同步獲准出口MI308;H200性能超H20但因 B200上線已相對落後,其出口需完成後續政策流程,對適配Hopper架構的中國客户有實際價值,此前壓制的需求有望釋放,且與國產推理芯片不直接衝突,對國產生態影響有限。

全球首個太空AI誕生!H100在軌煉出LLM,科技巨頭競逐太空算力

12月11日,華盛頓Starcloud公司搭載NVIDIA H100芯片(算力比以往太空GPU強100倍)的「Starcloud-1」衞星成功訓練出全球首個太空LLM,完成了基於Karpathy nano-GPT(用莎士比亞語料訓練)的訓練與推理,還成功運行Google Gemma模型併發出太空AI首條問候。此舉旨在利用太空太陽能打造5GW低成本軌道數據中心,緩解地球能源壓力,Google、SpaceX等巨頭也紛紛佈局太空算力賽道。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.