博客 / 詳情

返回

MIAOYUN | 每週AI新鮮事兒(11.28-12.05)

本週全球科技企業密集發佈AI領域新成果,騰訊、崑崙萬維、快手、Meta、智譜AI、生數科技、DeepSeek、Runway、NVIDIA、華為、Mistral AI、阿里、火山引擎、可靈AI等推出多模態、3D生成、視頻生成、推理優化等方向新模型,聚焦性能提升與商業化適配;技術上,華為發佈MoE推理優化技術、商湯開源原生多模態架構;同時,階躍星辰開源 GUI 智能體,拍我AI、Anuttacon推出AI創作與聊天工具,覆蓋生成式AI、具身智能、行業應用等核心場景,一起來回顧本週發生的AI新鮮事兒吧!

AI大模型

騰訊「混元3D Studio 1.1」接入「PolyGen 1.5」,直出藝術家級3D資產

11月28日,騰訊混元正式推出「混元3D Studio 1.1」,並接入最新的美術級3D生成大模型「混元3D PolyGen 1.5」,能夠直出藝術家級的3D資產。「PolyGen 1.5」首創端到端原生四邊形網格生成方法,可直接學習四邊形拓撲,生成連貫邊緣環,佈線效果大幅度提升,支持混合拓撲,適用於軟/硬表面模型,進一步提升3D生成模型的專業可用性。

圖片

圖:PolyGen1.5與mesh自迴歸SOTA方法效果對比參考

崑崙萬維發佈「Mureka V7.6/O2」雙模型,音質與效率雙提升

11月28日,崑崙萬維發佈「Mureka V7.6」與「Mureka O2」模型,新模型在音樂性、編曲能力、音質質感和Prompt貼合度等多個維度相較前序版本實現顯著提升,響應速度和推理效率大幅增強,更適合大規模商業化使用。自今年3月發佈O1與V6以來,「Mureka」已吸引近700萬新增註冊用户,覆蓋百餘國家和地區。

快手發佈「Keye-VL-671B-A37B」模型,升級跨模態對齊能力

11月28日,快手發佈了新一代旗艦多模態大語言模型「Keye-VL-671B-A37B」,模型基於DeepSeek-V3-Terminus打造,擁有671B參數,在保持基礎模型通用能力的前提下,對視覺感知、跨模態對齊與複雜推理鏈路進行了升級,實現了較強的多模態理解和複雜推理能力。

智譜AI發佈「清影2.0」,一句話生成1080P視頻自帶AI音效

11月28日,智譜AI推出視頻生成模型「清影2.0」,基於自研CogVideoX大模型架構,實現了用文本直接生成1080P高清視頻的突破,還集成了CogSound音效模型,開創了"文生音畫"一體化體驗的新時代。「清影2.0」支持最長10秒的1080P分辨率視頻生成,可滿足大多數短視頻內容創作;集成的CogSound音效模型能夠根據視頻內容智能匹配背景音樂、環境音效等音頻元素,實現音畫同步的沉浸式體驗。

生數科技「Vidu Q2」全球同步上線,生圖功能升級,5秒極速生成

12月1日,生數科技「Vidu Q2」全球同步上線,升級參考生圖功能,新增文生圖、圖像編輯功能,以超強主體一致性、5秒極速生成、任意比例及4K輸出等優勢,在Artificial Analysis全球圖像編輯榜單躋身前四超越「GPT-5」,還打通“生圖-保存主體-生視頻”一站式工作流,覆蓋多商業化場景。

「DeepSeek-V3.2」雙模型正式發佈,強化Agent能力,融入思考推理

12月1日,深度求索正式發佈「DeepSeek-V3.2」及常思考增強版 「DeepSeek-V3.2-Speciale」兩款模型,前者平衡推理能力與輸出長度,適合日常使用及通用Agent任務;後者融合數學定理證明能力,在IMO、ICPC等國際賽事中斬獲金牌,推理性能媲美「Gemini-3.0-Pro」。新模型突破過往侷限,首次實現思考模式與非思考模式的工具調用融合,通過大規模Agent訓練數據合成方法構造1800+環境、85000+複雜指令,大幅提升泛化能力。

Runway推出「Gen-4.5」視頻模型,登頂文本轉視頻SOTA

12月1日,美國AI初創公司Runway推出「Gen-4.5」視頻模型,在Artificial Analysis文本轉視頻排行榜中以1247 Elo評分拿下SOTA,超越Google和OpenAI同類產品。該模型擅長理解並執行復雜序列式指令,可在單個提示詞中精準指定鏡頭運鏡、場景構圖、時間節點和氛圍變化,物體移動具備真實重量感與動量特徵。

NVIDIA開源全球首個VLA模型「Alpamayo-R1」,突破L4自動駕駛“黑箱”困境

12月1日,NVIDIA宣佈開源全球首個推理型視覺-語言-動作(VLA)模型「Alpamayo-R1」(AR1),支持攝像頭畫面與文本指令處理及行車決策輸出,主打可解釋性,創新引入標註“為什麼這樣做”的因果鏈(CoC)數據集、擴散式軌跡解碼器及多階段訓練策略,通過高效多相機時序感知的統一編碼方式,實現規劃精度提升12%、越界率降低35%等多項性能優化,端到端延遲僅99ms,能讓自動駕駛AI具備“會開車+會思考+會解釋”的能力,推動自動駕駛從“黑箱”邁向可解釋的L4級別。

華為開源擴散語言模型「openPangu-R-7B-Diffusion」,雙模式解碼創SOTA

12月2日消息,華為開源擴散語言模型「openPangu-R-7B-Diffusion」,基於 「openPangu-Embedded-7B」經800B tokens續訓練,創新融合前文因果注意力掩碼架構,突破32K上下文長度限制,具備“自迴歸+擴散”雙模式解碼能力(並行解碼速度最高達自迴歸的 2.5倍)及“慢思考”能力,在多學科知識、數學推理、代碼生成等權威基準中創下7B參數量級SOTA紀錄,其訓練推理全流程依託昇騰NPU集羣完成。

火山引擎發佈豆包圖像創作模型「Doubao-Seedream-4.5」,強化多圖組合能力

12月3日,火山引擎正式發佈豆包圖像創作模型「Doubao-Seedream-4.5」,該模型在主體一致性、指令遵循精準度、空間邏輯理解及美學表現力上實現迭代,不僅強化了多圖組合生成能力,優化了海報排版與Logo設計功能,支持高精度圖文混排,還能精準響應高階複雜指令,憑藉內置的世界知識與空間邏輯實現合理透視關係和物理規律還原,同時顯著提升畫面立體感與氛圍感,可生成電影級質感圖像,目前已全面支持廣告營銷、電商運營、影視製作、數字娛樂及教育等核心場景。

圖片

體驗鏈接:https://exp.volcengine.com/ark/vision?mode=vision&modelId=dou...

北郵聯合小米提出「C²-Cite」溯源大模型,革新AI內容可信度技術路徑

12月3日,北郵百家AI團隊聯合小米大模型團隊提出的溯源大模型「C²-Cite」(已被WSDM 2026收錄),首創上下文感知的歸因生成技術,不僅能讓大模型在生成內容時自動標註精準的信息來源,更能確保生成內容與引用的外部知識高度語義對齊,實現每一處表述都有溯源依據、與參考來源深度協同,從根本上解決大模型生成內容的可信度問題。

Mistral AI全量開源「Mistral 3」系列模型,硬剛DeepSeek

12月3日,法國公司Mistral AI發佈開源「Mistral 3」系列模型,包含旗艦模型「Mistral Large 3」(總參數675B,激活參數41B,MoE架構)及3B、8B、14B尺寸的「Ministral 3」小模型(均有 pretraining、instruct、reasoning 三個版本,支持圖像理解與40+語言)。訓練使用3000張NVIDIA H200,LMArena排名開源非推理模型第二、總榜第六,且該系列模型已與NVIDIA 等合作優化部署,支持多種硬件設備與算力平台API服務,此次開源被視為對DeepSeek激進開源策略的戰略應對。

阿里通義千問上線「Qwen3-Learning」,推出拍題批改雙功能

12月3日,阿里巴巴通義千問上線學習大模型「Qwen3-Learning」,推出拍題答疑和作業批改兩大功能。該模型採用混合專家(MoE)架構,總參數量2350億,激活僅需220億,支持拍照識別題目內容,兼容印刷體與手寫體,覆蓋小學至高中全學科作業批改與解題輔導,融合多國考試體系與真題數據,實現跨文化、多語言精準解答。

快手旗下可靈AI全能靈感周,連發多款新模型與新功能

快手旗下可靈AI全能靈感周,連續5天發佈新模型與新產品,分別是統一多模態視頻大模型「可靈O1」、新一代全能型圖片模型「可靈圖片O1」、音畫同出模型「可靈2.6」、「可靈數字人2.0」等。

12月1日,可靈AI正式上線全球首個統一多模態視頻大模型「可靈O1」,打破功能割裂,構建全新生成式底座。 該模型採用MVL(多模態視覺語言)交互架構與 Chain-of-thought 技術,支持照片、視頻、文字等多模態輸入,可實現創意視頻生成、局部編輯、鏡頭延展、動作捕捉等功能,能解決視頻一致性難題,支持多主體組合及3-10秒、多種比例的視頻生成。

12月2日,可靈AI全量上線「可靈圖片O1」全能型圖像模型,兼具特徵全保真、細節全掌控、風格全復刻、創意全融合四大優勢,支持圖像生成、編輯、風格轉換及創意呈現等一站式操作。
圖片

圖片

圖1為參考圖,輸出圖2為毛氈風格,體驗鏈接:https://app.klingai.com/cn/?sessionid=

12月3日,「可靈2.6」全量上線,Web端與App端同步推出首個音畫同出模型,支持文生音畫、圖生音畫兩條高效創作路徑,能單次生成畫面、自然語音、匹配音效及環境氛圍,實現音畫同步,涵蓋單人獨白、旁白解説、多人對白、音樂表演、創意場景等多種適用場景,新手也可一鍵成片,創作效率翻倍,同時需注意禁止利用該AI生成功能從事違法活動。

12月4日,可靈AI全量上線「可靈數字人2.0」,用户僅需上傳角色圖、添加配音內容、描述角色表現三步即可生成視頻。該版本實現三大突破性升級,表演力全面進化,能精準控制體態動作、手勢、表情及鏡頭語言,口型和手部細節更真實自然,同時打破時限支持最長5分鐘單次視頻生成,可覆蓋深度科普、廣告營銷等多類長內容場景,評測得分超同類產品。

12月5日,可靈AI全新上線可靈O1「主體庫」和「對比模板」兩大功能,其中「主體庫」支持上傳多角度參考圖構建專屬角色、道具和場景,可一鍵複用、自由組合(視頻O1至多參考7個主體,圖片O1至多參考10個主體),還能通過AI補圖擴展視角、生成描述,同時提供海量官方主體素材;「對比模板」可一鍵整合多模態創作的輸入與成品,實現Before& After高效同框對比,助力爆款傳播。

AI Agent

階躍星辰開源GUI智能體「GELab-Zero」,同步推出AndroidDaily評測標準

11月29日,階躍星辰推出開源GUI智能體「GELab-Zero」,可適配幾乎所有App,該系統由輕量級推理基礎設施與4B參數規模的GUI Agent模型(GELab-Zero-4B-preview)構成,最大亮點在於可在消費級設備上高效運行,實現低延遲響應與用户隱私保護。此外,階躍還同步開源了基於真實業務場景的自建評測標準「AndroidDaily」,以期推動GUI領域模型評測向消費級、規模化應用發展。

AI 工具

「拍我AI V5.5」發佈,一鍵生成“分鏡+音頻”,AI視頻邁入內容生成時代

12月1日,拍我AI(PixVerse)推出「V5.5」版本,成為國內首個能一鍵生成“分鏡+音頻”、實現完整敍事的AI視頻大模型。該模型具備“導演思維”,能理解鏡頭、聲音與敍事的邏輯關係,支持多角色音畫同步、多鏡頭自主編排,兼容圖片轉視頻、一句話生成劇情短片等場景,在廣告片、影視預演等商業化場景中表現出高完成度,推動AI視頻從“素材生成”邁入“內容生成”時代,降低專業創作門檻,讓普通人也能輕鬆開展視頻創作。

Anuttacon推出「AnuNeko」聊天AI,雙聊天模式主打人格化交互

12月1日,米哈遊創始人蔡浩宇創立的AI公司Anuttacon推出AI聊天產品「AnuNeko」,主打人格化交互與情緒價值,產品提供Orange Cat(温和友善的橘貓)和Exotic Shorthair(毒舌暴躁的異國短毛貓)兩種人格模型,響應迅速且支持多語言交互,但不具備聯網、讀鏈接、圖片識別、複雜邏輯推理及高效代碼編寫能。該產品是Anuttacon探索AI構建沉浸式虛擬世界的重要佈局。

技術突破

華為發佈準萬億級MoE推理優化技術「Omni Proxy智能調度」和「AMLA加速算法」

11月28日,華為發佈了準萬億參數規模的MoE模型「openPangu-Ultra-MoE-718B-V1.1」及其量化版本,並開源了兩大核心優化技術「Omni Proxy智能調度」和「AMLA加速算法」,通過六大創新解決傳統調度痛點,推理加速套件覆蓋服務擴展、任務調度等全棧能力,將硬件算力利用率推至86.8%、優化推理鏈路中的計算與通信效率,有效解決了超大規模MoE模型在部署時面臨的計算、訪存和並行策略等挑戰,為模型的生產級落地提供了可行路徑。

商湯開源行業首個原生多模態架構「NEO」,1/10數據量追平旗艦級性能

12月1日,商湯科技與南洋理工大學S-Lab合作研發並開源全新原生多模態模型架構「NEO」,打破傳統“視覺編碼器+語言模型”拼接架構侷限。通過原生圖塊嵌入、三維旋轉位置編碼、多頭注意力三大底層創新及雙階段融合訓練策略,實現視覺與語言的深層統一,顯著提升圖像細節捕捉能力與跨模態關聯效率,僅需3.9億圖文對(僅業界1/10的數據量)即可達到甚至超越現有原生VLM的綜合性能,支持任意分辨率與長圖像輸入並可無縫擴展至視頻、具身智能等領域,目前已開2B與9B規格模型。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.