Runway 發佈世界模型，模擬實時環境和可交互數字人；Qwen3-Omni 升級，視頻語義理解與音視頻同步能力持續優化丨日報詳情 - 人工智能 RTE開發者社區博客

開發者朋友們大家好：

這裏是 「RTE 開發者日報」，每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@瓚an、@鮑勃

01 有話題的技術

1、GPT-5.2 正式發佈，狙擊 Google Gemini 3

今天凌晨，OpenAI 正式發佈 GPT-5.2 系列模型，面向 ChatGPT 付費用户與開發者 API，分為 Instant、Thinking、Pro 三個版本，定位為更可靠的生產級模型。

Instant 版：強調低延遲與高響應，適配信息查詢、文檔翻譯、基礎寫作等常規任務
Thinking 版：聚焦編程、長文檔分析、數學推理與項目規劃，定位企業級複雜場景的智能助手
Pro 版：面向科研、金融與高難度任務，強調極致準確性與可靠性，被稱為「能力天花板」

在技術性能方面，GPT-5.2 在編程能力、數學與科學計算、事實準確性以及多模態處理上均有顯著提升，能夠直接生成表格、製作 PPT、編寫多語言代碼，進一步強化其在專業場景中的生產力定位。

同時，OpenAI 宣佈計劃在 2026 年第一季度上線成人模式，並將知識庫更新至 2025 年 8 月，以保證信息的時效性與準確性。

此前，面對 Google Gemini 3 的競爭，OpenAI CEO 奧特曼已在公司內部開啓「紅色警報」。

他承認，Google 在預訓練方面的成功已縮小了雙方差距，並可能帶來經濟壓力。為此，OpenAI 正在調整戰略，暫時放緩 AGI 目標，全力提升 ChatGPT 的質量，以應對競爭。

奧特曼當地時間週四在接受 CNBC 採訪時表示，Google 的「Gemini 3」對公司指標的影響低於預期，並預計 OpenAI 將在 1 月退出「紅色警報」。

OpenAI 應用業務 CEO Fidji Simo 稱，此次發佈並非因本週競爭驅動，而是經多月整合推進的成果。

GPT-5.2 現已在 ChatGPT 陸續開放並優先覆蓋付費用户；GPT-5.1 將在「傳統模型」選項中保留三個月後下線。API 同步開放，價格較 GPT-5.1 更高，但因 token 效率提升，總成本預期更低。

今天，OpenAI 還與迪士尼達成了三年授權協議。用户可以生成包含迪士尼、漫威、皮克斯和星球大戰等 200 多個角色的社交視頻，部分生成視頻還可在 Disney+ 上播放。

作為交換，迪士尼向 OpenAI 投資 10 億美元，並將成為後者的重要客户。

( @APPSO)

2、Runway 發佈 GWM-1 世界模型，Gen-4.5 視頻模型支持原生音頻與長視頻

昨夜，Runway 正式發佈其首個通用世界模型（General World Model， GWM-1），並更新 Gen-4.5 視頻模型。GWM-1 通過逐幀預測，模擬物理和世界動態，旨在訓練機器人、生命科學等領域的智能體。

GWM-1 系列模型：
- GWM-1 核心：採用自迴歸架構，理解物理和世界行為，支持用户通過提示或圖像參考設置場景，並在 720p/24fps 下進行交互式探索。
- GWM-Worlds：實時環境模擬應用，用户可導航生成空間。
- GWM-Robotics：專為機器人訓練設計，通過合成數據（含天氣、障礙物參數）加速開發。
- GWM-Avatars：模擬人類行為，生成逼真的交互式數字人，支持音頻驅動的自然響應。
- 模型整合：Runway 計劃將 Worlds， Robotics， Avatars 合併為一個統一模型。
Gen-4.5 更新：

原生音頻與多鏡頭：新增原生音頻生成與編輯功能，支持長視頻（如 1 分鐘視頻）、多角度鏡頭（multi-shot）生成，角色一致性及口型同步。
產品可用性：Gen-4.5 更新已面向所有付費用户開放；GWM-Robotics 將通過 SDK 提供，並與多家機器人公司及企業洽談合作。

Runway 計劃在未來幾周內通過 Web 產品和 API 向用户開放這些新模型。

( @TechCrunch)

3、阿里通義 Qwen3-Omni 新升級：聲形意合，令出智隨！

昨天，阿里通義正式發佈基於 Qwen3-Omni 的全面升級版本「Qwen3-Omni-Flash-2025-12-01」。

據介紹，新模型可無縫處理文本、圖像、音頻、視頻輸入，並以流式方式同時生成自然語音與文本輸出，整體針對多模態交互的準確性與效率進行增強。具體升級如下：

音視頻理解與執行： 面向口語化場景顯著提升對音視頻指令的理解與執行能力，緩解多模態對話中的「降智」問題；多輪音視頻對話的穩定性與連貫性增強，交互更自然順暢。
系統提示可控： 全面開放 System Prompt 自定義，可精細調控模型行為（如人設風格、口語化偏好、回覆長度等），提升可控性與一致性。
多語言遵循： 支持 119 種文本語言交互、19 種語音識別語言與 10 種語音合成語言，優化上版語言遵循不穩定問題，確保跨語言場景下響應準確一致。
語音生成擬人化： 解決語速拖沓與機械感，提升對於語速、停頓與韻律的自適應調節，語音表達更自然生動。
視覺與視頻理解： 在多學科視覺問答與數學視覺推理任務上取得進展，視頻語義理解與音視頻同步能力持續優化，為實時視頻對話打下基礎。

官方表示，後續將推進多説話人 ASR、視頻 OCR、音視頻主動學習等核心能力建設，並強化基於智能體的工作流與函數調用支持，以進一步提升複雜場景下的可控性與執行力。

( @APPSO)

02 有亮點的產品

1、拓竹 MakerWorld 接入騰訊混元 3D 3.0，上線「印你」圖生 3D 手辦生成器

拓竹科技（Bambu Lab）旗下 3D 模型平台 MakerWorld 已接入騰訊混元 3D 3.0 模型，並推出「印你」手辦生成器。該功能允許用户上傳一張人像圖片，快速生成高質量、可打印的 3D 模型，大幅降低 3D 手辦製作門檻。

「印你」生成器核心能力：
- 簡化流程：用户只需上傳一張人像圖片，系統自動完成 2D 立體圖生成、背景消除、風格化處理，最終轉化為精確還原面容、衣着和姿態的 3D 模型。
- AI 驅動：核心技術源自騰訊混元 3D 3.0 模型，採用 3D-DiT 分級雕刻技術。
混元 3D 3.0 技術亮點：
- 精度提升：建模精度提升 3 倍，幾何分辨率高達 1536³，支持 36 億體素超高清建模。
- 面部與細節：專項優化人物生成，重塑面部輪廓，提升體態自然度；通過分級策略，實現關節、機械邊緣等細節的鋭利呈現。
- 紋理逼真：優化紋理遵循度和幾何對齊精度，確保打印成品真實貼合。

此次合作使 MakerWorld 平台的設計週期大幅縮短，讓 3D 打印愛好者和入門用户無需專業建模技術即可創作。

相關鏈接：

相關鏈接：https://makerworld.com.cn/zh/makerlab/printU?from=makerlab

（@騰訊混元）

2、夸克 AI 眼鏡「一機難求」，二手市場價格飆至 6999 元

夸克 AI 眼鏡在發佈後市場需求遠超預期，線上線下均出現「一機難求」的情況。核心供應商透露，夸克已在工廠新增一條組裝產線，產能預計從下週開始逐步釋放。

立訊內部人士表示，夸克團隊上個月已密集進駐工廠，新增產線以加快出貨。至格科技創始人孟祥峯則指出，公司正在加緊生產夸克 AI 眼鏡的大批光波導片訂單，新購設備已全面投入使用。

夸克內部人士透露，團隊的主要目標是確保在明年 1 月能夠充分釋放產能，以趕上春節消費熱潮。

今年 11 月，夸克發佈 S1、G1 兩個系列共六款單品，其中 S1 系列最低售價為 3799 元，G1 系列起售價為 1899 元。這也是阿里旗下大模型「千問」首次走出屏幕，進入物理硬件形態。

目前，天貓、抖音、京東等平台上的夸克 AI 眼鏡 S1 均處於「上架即售罄」狀態。

在閒魚等二手交易平台，現貨價格最高被炒至 6999 元。線下渠道方面，多家合作門店表示暫無現貨，新訂單普遍需要等待約一個月甚至 40 天。

( @APPSO)

03 有態度的觀點

1、微軟消費者 AI 業務負責人蘇萊曼：要創造「符合人類利益」的超級智能

12 月 12 日消息，北京時間今天凌晨，據彭博社報道，微軟消費者生成式 AI 主管穆斯塔法・蘇萊曼強調，要推動一種「符合人類利益」的超級智能，並承諾如果出現危及人類的結果，就會立刻停止。

蘇萊曼在彭博《The Mishal Husain Show》節目中表示，公司絕不會繼續推動任何可能脱離控制的系統，這種觀點本應是行業常識，但目前仍屬少見。

去年年初，微軟收購了蘇萊曼的初創公司 Inflection AI 的知識產權和大部分員工。之後，蘇萊曼加入微軟。

此前，微軟的大部分 AI 工具主要依賴 OpenAI，而在蘇萊曼入職後，微軟便開始責成其開發能夠與業內最佳產品相媲美的產品。

（@IT 之家）

閲讀更多 Voice Agent 學習筆記：瞭解最懂 AI 語音的頭腦都在思考什麼

寫在最後：

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創，感興趣的朋友請通過開發者社區或公眾號留言聯繫，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、項目、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

作者提示：個人觀點，僅供參考

RTE開發者社區博客

RTE開發者社區博客

博客 / 詳情