動態

詳情 返回 返回

MIAOYUN | 每週AI新鮮事兒(10.24-10.31) - 動態 詳情

本週AI領域迎來密集更新,視頻生成為創新焦點,字節、MiniMax等發佈的模型實現了長視頻、多鏡頭與效率突破;多模態、3D場景與智能體平台(如華為WorldGrow、智源Emu3.5、360 SEAF)取得顯著進展;同時,ChatGPT在心理安全、OpenAI在開源安全模型以及PayPal與OpenAI的生態合作上也有關鍵動作,一起來回顧本週發生的AI新鮮事兒吧!

AI 大模型

中國科大與字節跳動聯合發佈端到端長視頻生成模型「MoGA」

10月25日,中國科學技術大學與字節跳動旗下FanqieAI聯合研發的端到端長視頻生成模型「MoGA」正式亮相,該模型憑藉全新的MoGA注意力機制,可直接生成分鐘級長度、480p分辨率、24幀/秒的高質量多鏡頭視頻,同時支持多鏡頭切換,能處理長達580K token的上下文信息,有效解決傳統模型顯存和計算量受限的問題,且模塊化與兼容性強,可集成現有高效加速庫提升效率,具備科研突破意義與產業落地潛力。

火山引擎發佈新款視頻生成模型「豆包視頻生成模型 1.0 pro fast」

10月27日,字節跳動旗下的火山引擎發佈了新款視頻生成模型「豆包視頻生成模型 1.0 pro fast」(Doubao-Seedance-1.0-pro-fast),該模型在繼承「Seedance 1.0 pro」模型核心優勢的基礎上,實現了顯著的效率突破:生成速度最高提升約3倍,價格直降72%(720P的5秒視頻生成時間僅需10秒)。此外,模型還強化了指令遵循、無縫多鏡頭敍事、細節表現力等核心能力。

華為聯合上海交通大學、華中科技大學推出了世界模型「WorldGrow」

10月28日,華為聯合上海交通大學、華中科技大學推出了世界模型「WorldGrow」,可以生成1800㎡超大室內場景(19x39塊),單張A100顯卡在30分鐘內可生成272㎡的場景,效率是同類技術的六倍。該模型利用三種核心技術實現高質量生成:精準數據預處理、3D塊補全機制和粗到精生成策略。模型生成的場景具備連貫的幾何拓撲和照片級真實感,且在複雜空間佈局中能自主規劃導航路徑。

ChatGPT更新了內置模型「gpt-5-oct-3」

10月28日,ChatGPT更新了內置模型,命名為「gpt-5-oct-3」,主要改進了心理相關問題: 改進了精神病/躁狂、自殺/自殘、情感依賴三大敏感領域,不良響應減少65-80%。專家評估顯示,新模型比「GPT-4o」的不良響應減少了39-52%。

「Adobe Firefly Image 5」重磅升級

10月28日,在Adobe MAX大會上,「Adobe Firefly Image 5」重磅升級,是迄今為止最先進的圖像生成和編輯模型,具備原生400萬像素分辨率、照片級真實質感,並支持基於提示詞的編輯功能。創作者只需拖放上傳自己擁有使用權的參考圖片、插圖、草圖及其他資產即可。

Soul App AI團隊正式開源播客語音合成模型「SoulX-Podcast」

10月29日,Soul App AI團隊正式開源播客語音合成模型「SoulX-Podcast」,是一款專為多人、多輪對話場景打造的語音生成模型,支持中、英、川、粵等多語種/方言與副語言風格,能穩定輸出超60分鐘、自然流暢、角色切換準確、韻律起伏豐富的多輪語音對話。模型基於「Qwen3-1.7B」作為基座,採用LLM + Flow Matching語音生成範式,支持零樣本克隆的多輪對話能力,多語種和跨方言的克隆能力等。

OpenAI開源安全分類推理模型「GPT-OSS-Safeguard」

10月29日,OpenAI開源了專門用於安全分類的推理模型「GPT-OSS-Safeguard」,包含120B和20B兩個參數版本,都是基於「GPT-OSS」開源模型,採用Apache 2.0許可證,能直接理解開發者提供的策略文檔進行內容分類,隨時修改無需重新訓練。該模型在多個基準測試中的推理能力超越「GPT-5」;OpenAI內部已使用該技術(Safety Reasoner原型)處理圖像生成和Sora 2等產品,安全推理算力佔比高達16%。

Cursor發佈2.0版本,推出首個編碼模型「Composer」

10月30日,Cursor發佈2.0版本,推出首個編碼模型「Composer」,生成速度達每秒250個token,是同類前沿系統的4倍,採用混合專家(MoE)模型,支持長上下文的生成與理解,目前已完全集成到 Cursor 2.0 中。同時,Cursor更新了支持多個智能體並行協作的新界面,基於git worktree或遠程機器,實現不同模型同時處理同一任務,並構建原生瀏覽器工具用於測試迭代。

北京智源人工智能研究院發佈「悟界·Emu3.5」多模態世界大模型

10月30日,北京智源人工智能研究院(BAAI)發佈「悟界·Emu3.5」多模態世界大模型,基於34B稠密Transformer模型,在超10萬億的多模態Token上預訓練,首次揭示“多模態Scaling範式”;模型採用“下一狀態預測”目標實現視覺敍事和視覺指導能力,在圖像編輯任務上達到與「Gemini-2.5-Flash-Image」相當性能。並創新提出“離散擴散自適應”(DiDA)技術,將圖像生成速度提升近20倍,推理效率媲美頂尖擴散模型。

MiniMax更新週五連發,發佈多個音視頻模型及Agent產品

10月27日至31日,稀宇科技更新週五連發,先後發佈了專為 Agent 和代碼而生的「MiniMax M2」、視頻模型「Hailuo 2.3」、通用Agent產品「MiniMax Agent」、語音模型「MiniMax Speech 2.6」及音樂模型「MiniMax Music 2.0」。

10月27日,MiniMax開源併發布了「MiniMax M2」,專為Agent和代碼而生,以2300億總參數、10億激活參數的輕量級架構,在全球權威評測Artificial Analysis榜單中斬獲總分全球前五、開源模型第一的成績。在數學推理、代碼生成、智能體任務執行等關鍵領域超越「Claude 4.5 Sonnet」,推理速度是「Claude 4.5 Sonnet」的2倍,綜合成本僅為後者的8%,並限時免費提供每日50萬Token調用額度,使用期至2025年11月7日。

10月28日,MiniMax推出視頻模型「Hailuo 2.3」並升級Media Agent。「Hailuo 2.3」在肢體動作呈現、風格化以及人物微表情方面實現了顯著的效果提升,同時對運動指令響應做進一步優化。此外,還提供「Hailuo 2.3 Fast」模型,生成速度更快,定價更低,最高可為批量創作降低50%成本。同時宣佈,「Hailuo Video Agent」正式迭代升級為支持全模態全能創作的Media Agent,並已經在全球同步上線。

10月29日,MiniMax限時免費開放了基於MiniMax M2的通用Agent產品「MiniMax Agent」。

10月30日,MiniMax發佈了最新語音模型「MiniMax Speech 2.6」,全面升級突破Voice Agent場景,超低延時,專業格式無障礙,更高自然度。

10月31日,MiniMax發佈新一代音樂模型「MiniMax Music 2.0」,支持對人聲音色的精準控制,可以通過Prompt,保持核心音色一致的基礎上,讓同一聲音切換不同唱法,實現一聲千變,AI也可化身「百變唱將」。

AI 工具

騰訊發佈全新升級的「ima 2.0」版本,推出“任務模式”與“AI要點”

10月23日,騰訊在ima Open Day活動上正式發佈了全新升級的「ima 2.0」版本。作為業界首個融合Agent能力的個人知識庫,「ima 2.0」推出“任務模式”,使知識庫從簡單的搜索問答工具升級為能夠理解複雜任務、自主拆解步驟、調用工具並完成整套流程的智能夥伴。此外,新增了“AI要點”功能,能自動生成結構化摘要,支持多任務並行和協作共享,提升了知識管理的效率。

360發佈企業級智能體構建與運營平台「SEAF」

10月28日,360重磅發佈了全球首款囊括L2級-L4級三代Agent的企業級智能體構建與運營平台「SEAF」,支持多模型、多知識庫、多MCP能力靈活組合,適配企業各類個性化需求。同時,打通Workflow和多智能體模式,各類智能體自由組隊,供企業根據場景靈活選擇,真正實現成本可控。

馬斯克正式發佈“開源版”維基百科「Grokipedia V0.1」

10月28日,馬斯克正式發佈「Grokipedia V0.1」版本,並預告1.0版本要比現在強十倍。「Grokipedia V0.1」收錄超88萬篇文章,主要通過Grok去核查事實,還支持在線交互和申報錯誤。對比維基百科在內容詳細度和參考資料數量上均有優勢,但被指部分內容直接從維基百科照搬複製,同時維基百科頁面瀏覽量同比減少8%。

Google Labs發佈AI自動營銷工具「Pomelli」

10月28日,Google Labs發佈了一個AI自動營銷工具「Pomelli」,以“輸入URL即生成內容”的創新模式,重構傳統營銷工作流。用户只需提供企業或產品網站鏈接,系統就能自動解析品牌定位、核心產品與目標人羣,快速生成適配社交媒體、郵件、廣告等多渠道的營銷內容。該工具充分整合谷歌在自然語言理解與內容生成領域的技術積累,既能確保內容貼合品牌調性,又能適配不同渠道的傳播特點。

Hugging Face發佈「LeRobot v0.4.0」

10月29日, Hugging Face發佈「LeRobot v0.4.0」,引入可擴展的Datasets v3.0、強大的新 VLA (視覺-語言-動作) 模型如「PI0.5」與「GR00T N1.5」,以及全新的插件系統,簡化硬件集成。該版本還新增對LIBERO與Meta-World仿真的支持、簡化多GPU訓練,並上線全新的Hugging Face機器人學習課程。

騰訊混元推出國內首個交互式「AI播客」

10月29日,騰訊混元推出國內首個交互式「AI播客」,打破傳統播客單向收聽模式,用户可在收聽播客的過程中,隨時打斷主持人和嘉賓的發言,通過語音或者打字的方式提問。該播客依託大模型的意圖識別、長上下文理解等能力,能結合上下文精準作答;還支持自主選擇風格(默認、深度探索、思辨討論)、主持人數(單人、雙人)及8種不同音色,可將文本、網頁、文檔一鍵轉化為雙人對談式音頻,已接入微信公眾號等平台。

Sora更新「角色客串」、「視頻拼接」、「社區排行榜」三大新功能

10月30日,Sora更新「角色客串」、「視頻拼接」、「社區排行榜」三大新功能。「角色客串」支持保持非人類客串角色一致性,可從生成視頻中提取虛擬角色實現自循環;「視頻拼接」嫌生成的視頻太短,那麼可以把兩條視頻拼接起來;「社區排行榜」分為被使用最多的客串角色、被二創最多的視頻等。同時,OpenAI宣佈Sora APP在美國、加拿大、日本和韓國四個國家限時取消邀請碼要求。

市場動態

高通技術公司發佈「AI200」和「AI250」

10月28日,高通技術公司發佈面向數據中心的下一代AI推理優化解決方案,基於雲端AI芯片Qualcomm「AI200」和「AI250」的加速卡及機架系統。「AI200」專為機架級AI推理設計,支持高達768GB LPDDR內存,適用於大語言模型與多模態系統的高效部署;「AI250」則採用近內存計算架構,帶來超10倍內存帶寬提升,顯著降低功耗與延遲,特別適合邊緣計算與實時推理場景。

PayPal與OpenAI達成合作,成為首個ChatGPT數字錢包

10月28日,支付巨頭PayPal宣佈已與OpenAI簽署合作協議,其數字錢包將嵌入ChatGPT,讓用户能夠直接在該聊天機器人中完成購物支付,ChatGPT將成為首個原生集成支付錢包的AI平台。PayPal的錢包功能不止於支付,還包括買家和賣家保護、爭議處理、訂單追蹤、商户驗證與結算等全流程服務;OpenAI 正在推動“對話即購物(Agentic Commerce)”的模式,擁有龐大的用户基礎、成熟的支付生態、強大的風控體系的PayPal將成為ChatGPT首個支付錢包。

user avatar zhidechaomian_detxs7 頭像 u_16756731 頭像 u_16776161 頭像 ting_61d6d9790dee8 頭像 u_16018702 頭像 u_17569005 頭像 u_15591470 頭像 u_15316473 頭像 u_15641375 頭像 histry 頭像 u_15214399 頭像 u_16827017 頭像
點贊 60 用戶, 點贊了這篇動態!
點贊

Add a new 評論

Some HTML is okay.