開發者朋友們大家好:
這裏是 「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@瓚an、@鮑勃
01 有話題的技術
1、GPT-5.2 正式發佈,狙擊 Google Gemini 3
今天凌晨,OpenAI 正式發佈 GPT-5.2 系列模型,面向 ChatGPT 付費用户與開發者 API,分為 Instant、Thinking、Pro 三個版本,定位為更可靠的生產級模型。
- Instant 版:強調低延遲與高響應,適配信息查詢、文檔翻譯、基礎寫作等常規任務
- Thinking 版:聚焦編程、長文檔分析、數學推理與項目規劃,定位企業級複雜場景的智能助手
- Pro 版:面向科研、金融與高難度任務,強調極致準確性與可靠性,被稱為「能力天花板」
在技術性能方面,GPT-5.2 在編程能力、數學與科學計算、事實準確性以及多模態處理上均有顯著提升,能夠直接生成表格、製作 PPT、編寫多語言代碼,進一步強化其在專業場景中的生產力定位。
同時,OpenAI 宣佈計劃在 2026 年第一季度上線成人模式,並將知識庫更新至 2025 年 8 月,以保證信息的時效性與準確性。
此前,面對 Google Gemini 3 的競爭,OpenAI CEO 奧特曼已在公司內部開啓「紅色警報」。
他承認,Google 在預訓練方面的成功已縮小了雙方差距,並可能帶來經濟壓力。為此,OpenAI 正在調整戰略,暫時放緩 AGI 目標,全力提升 ChatGPT 的質量,以應對競爭。
奧特曼當地時間週四在接受 CNBC 採訪時表示,Google 的「Gemini 3」對公司指標的影響低於預期,並預計 OpenAI 將在 1 月退出「紅色警報」。
OpenAI 應用業務 CEO Fidji Simo 稱,此次發佈並非因本週競爭驅動,而是經多月整合推進的成果。
GPT-5.2 現已在 ChatGPT 陸續開放並優先覆蓋付費用户;GPT-5.1 將在「傳統模型」選項中保留三個月後下線。API 同步開放,價格較 GPT-5.1 更高,但因 token 效率提升,總成本預期更低。
今天,OpenAI 還與迪士尼達成了三年授權協議。用户可以生成包含迪士尼、漫威、皮克斯和星球大戰等 200 多個角色的社交視頻,部分生成視頻還可在 Disney+ 上播放。
作為交換,迪士尼向 OpenAI 投資 10 億美元,並將成為後者的重要客户。
( @APPSO)
2、Runway 發佈 GWM-1 世界模型,Gen-4.5 視頻模型支持原生音頻與長視頻
昨夜,Runway 正式發佈其首個通用世界模型(General World Model, GWM-1),並更新 Gen-4.5 視頻模型。GWM-1 通過逐幀預測,模擬物理和世界動態,旨在訓練機器人、生命科學等領域的智能體。
-
GWM-1 系列模型:
- GWM-1 核心:採用自迴歸架構,理解物理和世界行為,支持用户通過提示或圖像參考設置場景,並在 720p/24fps 下進行交互式探索。
- GWM-Worlds:實時環境模擬應用,用户可導航生成空間。
- GWM-Robotics:專為機器人訓練設計,通過合成數據(含天氣、障礙物參數)加速開發。
- GWM-Avatars:模擬人類行為,生成逼真的交互式數字人,支持音頻驅動的自然響應。
- 模型整合:Runway 計劃將 Worlds, Robotics, Avatars 合併為一個統一模型。
- Gen-4.5 更新:
- 原生音頻與多鏡頭:新增原生音頻生成與編輯功能,支持長視頻(如 1 分鐘視頻)、多角度鏡頭(multi-shot)生成,角色一致性及口型同步。
- 產品可用性:Gen-4.5 更新已面向所有付費用户開放;GWM-Robotics 將通過 SDK 提供,並與多家機器人公司及企業洽談合作。
Runway 計劃在未來幾周內通過 Web 產品和 API 向用户開放這些新模型。
( @TechCrunch)
3、阿里通義 Qwen3-Omni 新升級:聲形意合,令出智隨!
昨天,阿里通義正式發佈基於 Qwen3-Omni 的全面升級版本「Qwen3-Omni-Flash-2025-12-01」。
據介紹,新模型可無縫處理文本、圖像、音頻、視頻輸入,並以流式方式同時生成自然語音與文本輸出,整體針對多模態交互的準確性與效率進行增強。具體升級如下:
- 音視頻理解與執行: 面向口語化場景顯著提升對音視頻指令的理解與執行能力,緩解多模態對話中的「降智」問題;多輪音視頻對話的穩定性與連貫性增強,交互更自然順暢。
- 系統提示可控: 全面開放 System Prompt 自定義,可精細調控模型行為(如人設風格、口語化偏好、回覆長度等),提升可控性與一致性。
- 多語言遵循: 支持 119 種文本語言交互、19 種語音識別語言與 10 種語音合成語言,優化上版語言遵循不穩定問題,確保跨語言場景下響應準確一致。
- 語音生成擬人化: 解決語速拖沓與機械感,提升對於語速、停頓與韻律的自適應調節,語音表達更自然生動。
- 視覺與視頻理解: 在多學科視覺問答與數學視覺推理任務上取得進展,視頻語義理解與音視頻同步能力持續優化,為實時視頻對話打下基礎。
官方表示,後續將推進多説話人 ASR、視頻 OCR、音視頻主動學習等核心能力建設,並強化基於智能體的工作流與函數調用支持,以進一步提升複雜場景下的可控性與執行力。
( @APPSO)
02 有亮點的產品
1、拓竹 MakerWorld 接入騰訊混元 3D 3.0,上線「印你」圖生 3D 手辦生成器
拓竹科技(Bambu Lab)旗下 3D 模型平台 MakerWorld 已接入騰訊混元 3D 3.0 模型,並推出「印你」手辦生成器。該功能允許用户上傳一張人像圖片,快速生成高質量、可打印的 3D 模型,大幅降低 3D 手辦製作門檻。
-
「印你」生成器核心能力:
- 簡化流程:用户只需上傳一張人像圖片,系統自動完成 2D 立體圖生成、背景消除、風格化處理,最終轉化為精確還原面容、衣着和姿態的 3D 模型。
- AI 驅動:核心技術源自騰訊混元 3D 3.0 模型,採用 3D-DiT 分級雕刻技術。
-
混元 3D 3.0 技術亮點:
- 精度提升:建模精度提升 3 倍,幾何分辨率高達 1536³,支持 36 億體素超高清建模。
- 面部與細節:專項優化人物生成,重塑面部輪廓,提升體態自然度;通過分級策略,實現關節、機械邊緣等細節的鋭利呈現。
- 紋理逼真:優化紋理遵循度和幾何對齊精度,確保打印成品真實貼合。
此次合作使 MakerWorld 平台的設計週期大幅縮短,讓 3D 打印愛好者和入門用户無需專業建模技術即可創作。
相關鏈接:
相關鏈接:https://makerworld.com.cn/zh/makerlab/printU?from=makerlab
(@騰訊混元)
2、夸克 AI 眼鏡「一機難求」,二手市場價格飆至 6999 元
夸克 AI 眼鏡在發佈後市場需求遠超預期,線上線下均出現「一機難求」的情況。核心供應商透露,夸克已在工廠新增一條組裝產線,產能預計從下週開始逐步釋放。
立訊內部人士表示,夸克團隊上個月已密集進駐工廠,新增產線以加快出貨。至格科技創始人孟祥峯則指出,公司正在加緊生產夸克 AI 眼鏡的大批光波導片訂單,新購設備已全面投入使用。
夸克內部人士透露,團隊的主要目標是確保在明年 1 月能夠充分釋放產能,以趕上春節消費熱潮。
今年 11 月,夸克發佈 S1、G1 兩個系列共六款單品,其中 S1 系列最低售價為 3799 元,G1 系列起售價為 1899 元。這也是阿里旗下大模型「千問」首次走出屏幕,進入物理硬件形態。
目前,天貓、抖音、京東等平台上的夸克 AI 眼鏡 S1 均處於「上架即售罄」狀態。
在閒魚等二手交易平台,現貨價格最高被炒至 6999 元。線下渠道方面,多家合作門店表示暫無現貨,新訂單普遍需要等待約一個月甚至 40 天。
( @APPSO)
03 有態度的觀點
1、微軟消費者 AI 業務負責人蘇萊曼:要創造「符合人類利益」的超級智能
12 月 12 日消息,北京時間今天凌晨,據彭博社報道,微軟消費者生成式 AI 主管穆斯塔法・蘇萊曼強調,要推動一種「符合人類利益」的超級智能,並承諾如果出現危及人類的結果,就會立刻停止。
蘇萊曼在彭博《The Mishal Husain Show》節目中表示,公司絕不會繼續推動任何可能脱離控制的系統,這種觀點本應是行業常識,但目前仍屬少見。
去年年初,微軟收購了蘇萊曼的初創公司 Inflection AI 的知識產權和大部分員工。之後,蘇萊曼加入微軟。
此前,微軟的大部分 AI 工具主要依賴 OpenAI,而在蘇萊曼入職後,微軟便開始責成其開發能夠與業內最佳產品相媲美的產品。
(@IT 之家)
閲讀更多 Voice Agent 學習筆記:瞭解最懂 AI 語音的頭腦都在思考什麼
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請通過開發者社區或公眾號留言聯繫,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、項目、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
作者提示:個人觀點,僅供參考