MIAOYUN | 每週AI新鮮事兒（11.28-12.05）詳情 - 人工智能,深度學習,自然語言處理,自動駕駛,資訊 MIAOYUN 博客

本週全球科技企業密集發佈AI領域新成果，騰訊、崑崙萬維、快手、Meta、智譜AI、生數科技、DeepSeek、Runway、NVIDIA、華為、Mistral AI、阿里、火山引擎、可靈AI等推出多模態、3D生成、視頻生成、推理優化等方向新模型，聚焦性能提升與商業化適配；技術上，華為發佈MoE推理優化技術、商湯開源原生多模態架構；同時，階躍星辰開源 GUI 智能體，拍我AI、Anuttacon推出AI創作與聊天工具，覆蓋生成式AI、具身智能、行業應用等核心場景，一起來回顧本週發生的AI新鮮事兒吧！

AI大模型

騰訊「混元3D Studio 1.1」接入「PolyGen 1.5」，直出藝術家級3D資產

11月28日，騰訊混元正式推出「混元3D Studio 1.1」，並接入最新的美術級3D生成大模型「混元3D PolyGen 1.5」，能夠直出藝術家級的3D資產。「PolyGen 1.5」首創端到端原生四邊形網格生成方法，可直接學習四邊形拓撲，生成連貫邊緣環，佈線效果大幅度提升，支持混合拓撲，適用於軟/硬表面模型，進一步提升3D生成模型的專業可用性。

圖：PolyGen1.5與mesh自迴歸SOTA方法效果對比參考

崑崙萬維發佈「Mureka V7.6/O2」雙模型，音質與效率雙提升

11月28日，崑崙萬維發佈「Mureka V7.6」與「Mureka O2」模型，新模型在音樂性、編曲能力、音質質感和Prompt貼合度等多個維度相較前序版本實現顯著提升，響應速度和推理效率大幅增強，更適合大規模商業化使用。自今年3月發佈O1與V6以來，「Mureka」已吸引近700萬新增註冊用户，覆蓋百餘國家和地區。

快手發佈「Keye-VL-671B-A37B」模型，升級跨模態對齊能力

11月28日，快手發佈了新一代旗艦多模態大語言模型「Keye-VL-671B-A37B」，模型基於DeepSeek-V3-Terminus打造，擁有671B參數，在保持基礎模型通用能力的前提下，對視覺感知、跨模態對齊與複雜推理鏈路進行了升級，實現了較強的多模態理解和複雜推理能力。

智譜AI發佈「清影2.0」，一句話生成1080P視頻自帶AI音效

11月28日，智譜AI推出視頻生成模型「清影2.0」，基於自研CogVideoX大模型架構，實現了用文本直接生成1080P高清視頻的突破，還集成了CogSound音效模型，開創了"文生音畫"一體化體驗的新時代。「清影2.0」支持最長10秒的1080P分辨率視頻生成，可滿足大多數短視頻內容創作；集成的CogSound音效模型能夠根據視頻內容智能匹配背景音樂、環境音效等音頻元素，實現音畫同步的沉浸式體驗。

生數科技「Vidu Q2」全球同步上線，生圖功能升級，5秒極速生成

12月1日，生數科技「Vidu Q2」全球同步上線，升級參考生圖功能，新增文生圖、圖像編輯功能，以超強主體一致性、5秒極速生成、任意比例及4K輸出等優勢，在Artificial Analysis全球圖像編輯榜單躋身前四超越「GPT-5」，還打通“生圖-保存主體-生視頻”一站式工作流，覆蓋多商業化場景。

「DeepSeek-V3.2」雙模型正式發佈，強化Agent能力，融入思考推理

12月1日，深度求索正式發佈「DeepSeek-V3.2」及常思考增強版「DeepSeek-V3.2-Speciale」兩款模型，前者平衡推理能力與輸出長度，適合日常使用及通用Agent任務；後者融合數學定理證明能力，在IMO、ICPC等國際賽事中斬獲金牌，推理性能媲美「Gemini-3.0-Pro」。新模型突破過往侷限，首次實現思考模式與非思考模式的工具調用融合，通過大規模Agent訓練數據合成方法構造1800+環境、85000+複雜指令，大幅提升泛化能力。

Runway推出「Gen-4.5」視頻模型，登頂文本轉視頻SOTA

12月1日，美國AI初創公司Runway推出「Gen-4.5」視頻模型，在Artificial Analysis文本轉視頻排行榜中以1247 Elo評分拿下SOTA，超越Google和OpenAI同類產品。該模型擅長理解並執行復雜序列式指令，可在單個提示詞中精準指定鏡頭運鏡、場景構圖、時間節點和氛圍變化，物體移動具備真實重量感與動量特徵。

NVIDIA開源全球首個VLA模型「Alpamayo-R1」，突破L4自動駕駛“黑箱”困境

12月1日，NVIDIA宣佈開源全球首個推理型視覺-語言-動作（VLA）模型「Alpamayo-R1」（AR1），支持攝像頭畫面與文本指令處理及行車決策輸出，主打可解釋性，創新引入標註“為什麼這樣做”的因果鏈（CoC）數據集、擴散式軌跡解碼器及多階段訓練策略，通過高效多相機時序感知的統一編碼方式，實現規劃精度提升12%、越界率降低35%等多項性能優化，端到端延遲僅99ms，能讓自動駕駛AI具備“會開車+會思考+會解釋”的能力，推動自動駕駛從“黑箱”邁向可解釋的L4級別。

華為開源擴散語言模型「openPangu-R-7B-Diffusion」，雙模式解碼創SOTA

12月2日消息，華為開源擴散語言模型「openPangu-R-7B-Diffusion」，基於「openPangu-Embedded-7B」經800B tokens續訓練，創新融合前文因果注意力掩碼架構，突破32K上下文長度限制，具備“自迴歸+擴散”雙模式解碼能力（並行解碼速度最高達自迴歸的 2.5倍）及“慢思考”能力，在多學科知識、數學推理、代碼生成等權威基準中創下7B參數量級SOTA紀錄，其訓練推理全流程依託昇騰NPU集羣完成。

火山引擎發佈豆包圖像創作模型「Doubao-Seedream-4.5」，強化多圖組合能力

12月3日，火山引擎正式發佈豆包圖像創作模型「Doubao-Seedream-4.5」，該模型在主體一致性、指令遵循精準度、空間邏輯理解及美學表現力上實現迭代，不僅強化了多圖組合生成能力，優化了海報排版與Logo設計功能，支持高精度圖文混排，還能精準響應高階複雜指令，憑藉內置的世界知識與空間邏輯實現合理透視關係和物理規律還原，同時顯著提升畫面立體感與氛圍感，可生成電影級質感圖像，目前已全面支持廣告營銷、電商運營、影視製作、數字娛樂及教育等核心場景。

體驗鏈接：https://exp.volcengine.com/ark/vision?mode=vision&modelId=dou...

北郵聯合小米提出「C²-Cite」溯源大模型，革新AI內容可信度技術路徑

12月3日，北郵百家AI團隊聯合小米大模型團隊提出的溯源大模型「C²-Cite」（已被WSDM 2026收錄），首創上下文感知的歸因生成技術，不僅能讓大模型在生成內容時自動標註精準的信息來源，更能確保生成內容與引用的外部知識高度語義對齊，實現每一處表述都有溯源依據、與參考來源深度協同，從根本上解決大模型生成內容的可信度問題。

Mistral AI全量開源「Mistral 3」系列模型，硬剛DeepSeek

12月3日，法國公司Mistral AI發佈開源「Mistral 3」系列模型，包含旗艦模型「Mistral Large 3」（總參數675B，激活參數41B，MoE架構）及3B、8B、14B尺寸的「Ministral 3」小模型（均有 pretraining、instruct、reasoning 三個版本，支持圖像理解與40+語言）。訓練使用3000張NVIDIA H200，LMArena排名開源非推理模型第二、總榜第六，且該系列模型已與NVIDIA 等合作優化部署，支持多種硬件設備與算力平台API服務，此次開源被視為對DeepSeek激進開源策略的戰略應對。

阿里通義千問上線「Qwen3-Learning」，推出拍題批改雙功能

12月3日，阿里巴巴通義千問上線學習大模型「Qwen3-Learning」，推出拍題答疑和作業批改兩大功能。該模型採用混合專家（MoE）架構，總參數量2350億，激活僅需220億，支持拍照識別題目內容，兼容印刷體與手寫體，覆蓋小學至高中全學科作業批改與解題輔導，融合多國考試體系與真題數據，實現跨文化、多語言精準解答。

快手旗下可靈AI全能靈感周，連發多款新模型與新功能

快手旗下可靈AI全能靈感周，連續5天發佈新模型與新產品，分別是統一多模態視頻大模型「可靈O1」、新一代全能型圖片模型「可靈圖片O1」、音畫同出模型「可靈2.6」、「可靈數字人2.0」等。

12月1日，可靈AI正式上線全球首個統一多模態視頻大模型「可靈O1」，打破功能割裂，構建全新生成式底座。該模型採用MVL（多模態視覺語言）交互架構與 Chain-of-thought 技術，支持照片、視頻、文字等多模態輸入，可實現創意視頻生成、局部編輯、鏡頭延展、動作捕捉等功能，能解決視頻一致性難題，支持多主體組合及3-10秒、多種比例的視頻生成。

12月2日，可靈AI全量上線「可靈圖片O1」全能型圖像模型，兼具特徵全保真、細節全掌控、風格全復刻、創意全融合四大優勢，支持圖像生成、編輯、風格轉換及創意呈現等一站式操作。

圖1為參考圖，輸出圖2為毛氈風格，體驗鏈接：https://app.klingai.com/cn/?sessionid=

12月3日，「可靈2.6」全量上線，Web端與App端同步推出首個音畫同出模型，支持文生音畫、圖生音畫兩條高效創作路徑，能單次生成畫面、自然語音、匹配音效及環境氛圍，實現音畫同步，涵蓋單人獨白、旁白解説、多人對白、音樂表演、創意場景等多種適用場景，新手也可一鍵成片，創作效率翻倍，同時需注意禁止利用該AI生成功能從事違法活動。

12月4日，可靈AI全量上線「可靈數字人2.0」，用户僅需上傳角色圖、添加配音內容、描述角色表現三步即可生成視頻。該版本實現三大突破性升級，表演力全面進化，能精準控制體態動作、手勢、表情及鏡頭語言，口型和手部細節更真實自然，同時打破時限支持最長5分鐘單次視頻生成，可覆蓋深度科普、廣告營銷等多類長內容場景，評測得分超同類產品。

12月5日，可靈AI全新上線可靈O1「主體庫」和「對比模板」兩大功能，其中「主體庫」支持上傳多角度參考圖構建專屬角色、道具和場景，可一鍵複用、自由組合（視頻O1至多參考7個主體，圖片O1至多參考10個主體），還能通過AI補圖擴展視角、生成描述，同時提供海量官方主體素材；「對比模板」可一鍵整合多模態創作的輸入與成品，實現Before& After高效同框對比，助力爆款傳播。

AI Agent

階躍星辰開源GUI智能體「GELab-Zero」，同步推出AndroidDaily評測標準

11月29日，階躍星辰推出開源GUI智能體「GELab-Zero」，可適配幾乎所有App，該系統由輕量級推理基礎設施與4B參數規模的GUI Agent模型（GELab-Zero-4B-preview）構成，最大亮點在於可在消費級設備上高效運行，實現低延遲響應與用户隱私保護。此外，階躍還同步開源了基於真實業務場景的自建評測標準「AndroidDaily」，以期推動GUI領域模型評測向消費級、規模化應用發展。

AI 工具

「拍我AI V5.5」發佈，一鍵生成“分鏡+音頻”，AI視頻邁入內容生成時代

12月1日，拍我AI（PixVerse）推出「V5.5」版本，成為國內首個能一鍵生成“分鏡+音頻”、實現完整敍事的AI視頻大模型。該模型具備“導演思維”，能理解鏡頭、聲音與敍事的邏輯關係，支持多角色音畫同步、多鏡頭自主編排，兼容圖片轉視頻、一句話生成劇情短片等場景，在廣告片、影視預演等商業化場景中表現出高完成度，推動AI視頻從“素材生成”邁入“內容生成”時代，降低專業創作門檻，讓普通人也能輕鬆開展視頻創作。

Anuttacon推出「AnuNeko」聊天AI，雙聊天模式主打人格化交互

12月1日，米哈遊創始人蔡浩宇創立的AI公司Anuttacon推出AI聊天產品「AnuNeko」，主打人格化交互與情緒價值，產品提供Orange Cat（温和友善的橘貓）和Exotic Shorthair（毒舌暴躁的異國短毛貓）兩種人格模型，響應迅速且支持多語言交互，但不具備聯網、讀鏈接、圖片識別、複雜邏輯推理及高效代碼編寫能。該產品是Anuttacon探索AI構建沉浸式虛擬世界的重要佈局。

技術突破

華為發佈準萬億級MoE推理優化技術「Omni Proxy智能調度」和「AMLA加速算法」

11月28日，華為發佈了準萬億參數規模的MoE模型「openPangu-Ultra-MoE-718B-V1.1」及其量化版本，並開源了兩大核心優化技術「Omni Proxy智能調度」和「AMLA加速算法」，通過六大創新解決傳統調度痛點，推理加速套件覆蓋服務擴展、任務調度等全棧能力，將硬件算力利用率推至86.8%、優化推理鏈路中的計算與通信效率，有效解決了超大規模MoE模型在部署時面臨的計算、訪存和並行策略等挑戰，為模型的生產級落地提供了可行路徑。

商湯開源行業首個原生多模態架構「NEO」，1/10數據量追平旗艦級性能

12月1日，商湯科技與南洋理工大學S-Lab合作研發並開源全新原生多模態模型架構「NEO」，打破傳統“視覺編碼器+語言模型”拼接架構侷限。通過原生圖塊嵌入、三維旋轉位置編碼、多頭注意力三大底層創新及雙階段融合訓練策略，實現視覺與語言的深層統一，顯著提升圖像細節捕捉能力與跨模態關聯效率，僅需3.9億圖文對（僅業界1/10的數據量）即可達到甚至超越現有原生VLM的綜合性能，支持任意分辨率與長圖像輸入並可無縫擴展至視頻、具身智能等領域，目前已開2B與9B規格模型。

MIAOYUN 博客

MIAOYUN 博客

博客 / 詳情