MIAOYUN | 每週AI新鮮事兒（10.24-10.31）詳情 - 人工智能,深度學習,自然語言處理,算法,機器學習 MIAOYUN 動態日志

本週AI領域迎來密集更新，視頻生成為創新焦點，字節、MiniMax等發佈的模型實現了長視頻、多鏡頭與效率突破；多模態、3D場景與智能體平台（如華為WorldGrow、智源Emu3.5、360 SEAF）取得顯著進展；同時，ChatGPT在心理安全、OpenAI在開源安全模型以及PayPal與OpenAI的生態合作上也有關鍵動作，一起來回顧本週發生的AI新鮮事兒吧！

AI 大模型

中國科大與字節跳動聯合發佈端到端長視頻生成模型「MoGA」

10月25日，中國科學技術大學與字節跳動旗下FanqieAI聯合研發的端到端長視頻生成模型「MoGA」正式亮相，該模型憑藉全新的MoGA注意力機制，可直接生成分鐘級長度、480p分辨率、24幀/秒的高質量多鏡頭視頻，同時支持多鏡頭切換，能處理長達580K token的上下文信息，有效解決傳統模型顯存和計算量受限的問題，且模塊化與兼容性強，可集成現有高效加速庫提升效率，具備科研突破意義與產業落地潛力。

火山引擎發佈新款視頻生成模型「豆包視頻生成模型 1.0 pro fast」

10月27日，字節跳動旗下的火山引擎發佈了新款視頻生成模型「豆包視頻生成模型 1.0 pro fast」（Doubao-Seedance-1.0-pro-fast），該模型在繼承「Seedance 1.0 pro」模型核心優勢的基礎上，實現了顯著的效率突破：生成速度最高提升約3倍，價格直降72%（720P的5秒視頻生成時間僅需10秒）。此外，模型還強化了指令遵循、無縫多鏡頭敍事、細節表現力等核心能力。

華為聯合上海交通大學、華中科技大學推出了世界模型「WorldGrow」

10月28日，華為聯合上海交通大學、華中科技大學推出了世界模型「WorldGrow」，可以生成1800㎡超大室內場景（19x39塊），單張A100顯卡在30分鐘內可生成272㎡的場景，效率是同類技術的六倍。該模型利用三種核心技術實現高質量生成：精準數據預處理、3D塊補全機制和粗到精生成策略。模型生成的場景具備連貫的幾何拓撲和照片級真實感，且在複雜空間佈局中能自主規劃導航路徑。

ChatGPT更新了內置模型「gpt-5-oct-3」

10月28日，ChatGPT更新了內置模型，命名為「gpt-5-oct-3」，主要改進了心理相關問題：改進了精神病/躁狂、自殺/自殘、情感依賴三大敏感領域，不良響應減少65-80%。專家評估顯示，新模型比「GPT-4o」的不良響應減少了39-52%。

「Adobe Firefly Image 5」重磅升級

10月28日，在Adobe MAX大會上，「Adobe Firefly Image 5」重磅升級，是迄今為止最先進的圖像生成和編輯模型，具備原生400萬像素分辨率、照片級真實質感，並支持基於提示詞的編輯功能。創作者只需拖放上傳自己擁有使用權的參考圖片、插圖、草圖及其他資產即可。

Soul App AI團隊正式開源播客語音合成模型「SoulX-Podcast」

10月29日，Soul App AI團隊正式開源播客語音合成模型「SoulX-Podcast」，是一款專為多人、多輪對話場景打造的語音生成模型，支持中、英、川、粵等多語種/方言與副語言風格，能穩定輸出超60分鐘、自然流暢、角色切換準確、韻律起伏豐富的多輪語音對話。模型基於「Qwen3-1.7B」作為基座，採用LLM + Flow Matching語音生成範式，支持零樣本克隆的多輪對話能力，多語種和跨方言的克隆能力等。

OpenAI開源安全分類推理模型「GPT-OSS-Safeguard」

10月29日，OpenAI開源了專門用於安全分類的推理模型「GPT-OSS-Safeguard」，包含120B和20B兩個參數版本，都是基於「GPT-OSS」開源模型，採用Apache 2.0許可證，能直接理解開發者提供的策略文檔進行內容分類，隨時修改無需重新訓練。該模型在多個基準測試中的推理能力超越「GPT-5」；OpenAI內部已使用該技術（Safety Reasoner原型）處理圖像生成和Sora 2等產品，安全推理算力佔比高達16%。

Cursor發佈2.0版本，推出首個編碼模型「Composer」

10月30日，Cursor發佈2.0版本，推出首個編碼模型「Composer」，生成速度達每秒250個token，是同類前沿系統的4倍，採用混合專家（MoE）模型，支持長上下文的生成與理解，目前已完全集成到 Cursor 2.0 中。同時，Cursor更新了支持多個智能體並行協作的新界面，基於git worktree或遠程機器，實現不同模型同時處理同一任務，並構建原生瀏覽器工具用於測試迭代。

北京智源人工智能研究院發佈「悟界·Emu3.5」多模態世界大模型

10月30日，北京智源人工智能研究院（BAAI）發佈「悟界·Emu3.5」多模態世界大模型，基於34B稠密Transformer模型，在超10萬億的多模態Token上預訓練，首次揭示“多模態Scaling範式”；模型採用“下一狀態預測”目標實現視覺敍事和視覺指導能力，在圖像編輯任務上達到與「Gemini-2.5-Flash-Image」相當性能。並創新提出“離散擴散自適應”（DiDA）技術，將圖像生成速度提升近20倍，推理效率媲美頂尖擴散模型。

MiniMax更新週五連發，發佈多個音視頻模型及Agent產品

10月27日至31日，稀宇科技更新週五連發，先後發佈了專為 Agent 和代碼而生的「MiniMax M2」、視頻模型「Hailuo 2.3」、通用Agent產品「MiniMax Agent」、語音模型「MiniMax Speech 2.6」及音樂模型「MiniMax Music 2.0」。

10月27日，MiniMax開源併發布了「MiniMax M2」，專為Agent和代碼而生，以2300億總參數、10億激活參數的輕量級架構，在全球權威評測Artificial Analysis榜單中斬獲總分全球前五、開源模型第一的成績。在數學推理、代碼生成、智能體任務執行等關鍵領域超越「Claude 4.5 Sonnet」，推理速度是「Claude 4.5 Sonnet」的2倍，綜合成本僅為後者的8%，並限時免費提供每日50萬Token調用額度，使用期至2025年11月7日。

10月28日，MiniMax推出視頻模型「Hailuo 2.3」並升級Media Agent。「Hailuo 2.3」在肢體動作呈現、風格化以及人物微表情方面實現了顯著的效果提升，同時對運動指令響應做進一步優化。此外，還提供「Hailuo 2.3 Fast」模型，生成速度更快，定價更低，最高可為批量創作降低50%成本。同時宣佈，「Hailuo Video Agent」正式迭代升級為支持全模態全能創作的Media Agent，並已經在全球同步上線。

10月29日，MiniMax限時免費開放了基於MiniMax M2的通用Agent產品「MiniMax Agent」。

10月30日，MiniMax發佈了最新語音模型「MiniMax Speech 2.6」，全面升級突破Voice Agent場景，超低延時，專業格式無障礙，更高自然度。

10月31日，MiniMax發佈新一代音樂模型「MiniMax Music 2.0」，支持對人聲音色的精準控制，可以通過Prompt，保持核心音色一致的基礎上，讓同一聲音切換不同唱法，實現一聲千變，AI也可化身「百變唱將」。

AI 工具

騰訊發佈全新升級的「ima 2.0」版本，推出“任務模式”與“AI要點”

10月23日，騰訊在ima Open Day活動上正式發佈了全新升級的「ima 2.0」版本。作為業界首個融合Agent能力的個人知識庫，「ima 2.0」推出“任務模式”，使知識庫從簡單的搜索問答工具升級為能夠理解複雜任務、自主拆解步驟、調用工具並完成整套流程的智能夥伴。此外，新增了“AI要點”功能，能自動生成結構化摘要，支持多任務並行和協作共享，提升了知識管理的效率。

360發佈企業級智能體構建與運營平台「SEAF」

10月28日，360重磅發佈了全球首款囊括L2級-L4級三代Agent的企業級智能體構建與運營平台「SEAF」，支持多模型、多知識庫、多MCP能力靈活組合，適配企業各類個性化需求。同時，打通Workflow和多智能體模式，各類智能體自由組隊，供企業根據場景靈活選擇，真正實現成本可控。

馬斯克正式發佈“開源版”維基百科「Grokipedia V0.1」

10月28日，馬斯克正式發佈「Grokipedia V0.1」版本，並預告1.0版本要比現在強十倍。「Grokipedia V0.1」收錄超88萬篇文章，主要通過Grok去核查事實，還支持在線交互和申報錯誤。對比維基百科在內容詳細度和參考資料數量上均有優勢，但被指部分內容直接從維基百科照搬複製，同時維基百科頁面瀏覽量同比減少8%。

Google Labs發佈AI自動營銷工具「Pomelli」

10月28日，Google Labs發佈了一個AI自動營銷工具「Pomelli」，以“輸入URL即生成內容”的創新模式，重構傳統營銷工作流。用户只需提供企業或產品網站鏈接，系統就能自動解析品牌定位、核心產品與目標人羣，快速生成適配社交媒體、郵件、廣告等多渠道的營銷內容。該工具充分整合谷歌在自然語言理解與內容生成領域的技術積累，既能確保內容貼合品牌調性，又能適配不同渠道的傳播特點。

Hugging Face發佈「LeRobot v0.4.0」

10月29日， Hugging Face發佈「LeRobot v0.4.0」，引入可擴展的Datasets v3.0、強大的新 VLA (視覺-語言-動作) 模型如「PI0.5」與「GR00T N1.5」，以及全新的插件系統，簡化硬件集成。該版本還新增對LIBERO與Meta-World仿真的支持、簡化多GPU訓練，並上線全新的Hugging Face機器人學習課程。

騰訊混元推出國內首個交互式「AI播客」

10月29日，騰訊混元推出國內首個交互式「AI播客」，打破傳統播客單向收聽模式，用户可在收聽播客的過程中，隨時打斷主持人和嘉賓的發言，通過語音或者打字的方式提問。該播客依託大模型的意圖識別、長上下文理解等能力，能結合上下文精準作答；還支持自主選擇風格（默認、深度探索、思辨討論）、主持人數（單人、雙人）及8種不同音色，可將文本、網頁、文檔一鍵轉化為雙人對談式音頻，已接入微信公眾號等平台。

Sora更新「角色客串」、「視頻拼接」、「社區排行榜」三大新功能

10月30日，Sora更新「角色客串」、「視頻拼接」、「社區排行榜」三大新功能。「角色客串」支持保持非人類客串角色一致性，可從生成視頻中提取虛擬角色實現自循環；「視頻拼接」嫌生成的視頻太短，那麼可以把兩條視頻拼接起來；「社區排行榜」分為被使用最多的客串角色、被二創最多的視頻等。同時，OpenAI宣佈Sora APP在美國、加拿大、日本和韓國四個國家限時取消邀請碼要求。

市場動態

高通技術公司發佈「AI200」和「AI250」

10月28日，高通技術公司發佈面向數據中心的下一代AI推理優化解決方案，基於雲端AI芯片Qualcomm「AI200」和「AI250」的加速卡及機架系統。「AI200」專為機架級AI推理設計，支持高達768GB LPDDR內存，適用於大語言模型與多模態系統的高效部署；「AI250」則採用近內存計算架構，帶來超10倍內存帶寬提升，顯著降低功耗與延遲，特別適合邊緣計算與實時推理場景。

PayPal與OpenAI達成合作，成為首個ChatGPT數字錢包

10月28日，支付巨頭PayPal宣佈已與OpenAI簽署合作協議，其數字錢包將嵌入ChatGPT，讓用户能夠直接在該聊天機器人中完成購物支付，ChatGPT將成為首個原生集成支付錢包的AI平台。PayPal的錢包功能不止於支付，還包括買家和賣家保護、爭議處理、訂單追蹤、商户驗證與結算等全流程服務；OpenAI 正在推動“對話即購物（Agentic Commerce）”的模式，擁有龐大的用户基礎、成熟的支付生態、強大的風控體系的PayPal將成為ChatGPT首個支付錢包。