全球首個語音 AI 廣告平台問世；Sam Altman 與 Jony Ive：合作新硬件將「如湖畔山間小屋般平靜」丨日報詳情 - 人工智能 RTE開發者社區博客

開發者朋友們大家好：

這裏是 「RTE 開發者日報」，每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@鮑勃和 Gemini（儘量不生產 AI Slop）

01 有話題的技術

1、Vision Agents + Gemini + Ultralytics YOLO 構建 AI 語音瑜伽教練

Vision Agents 發佈了一個教程，將 LLM、實時視頻分析和語音轉語音 API 相結合，創建一個名為「AI 瑜伽教練」的交互式 Python 應用。該教練可以通過用户的攝像頭分析瑜伽姿勢，並提供實時的語音指導和反饋，旨在革新居家和健身房的鍛鍊體驗。

實時姿勢分析與反饋： 利用 Ultralytics YOLO 模型實時檢測用户姿勢，並通過 Gemini LLM 進行分析，提供即時語音反饋以糾正錯誤和改進動作。
全棧語音交互： 集成 Gemini Live API，實現低延遲的語音轉語音交互，用户可以通過語音與 AI 教練進行自然對話。
易於集成的框架： Vision Agents 提供了一個開源框架，簡化了語音和視頻 AI 應用的開發，支持多種第三方 AI 模型和服務集成。
多場景應用潛力： 該模式不僅限於瑜伽教練，還可以擴展到體育指導、物理治療、無人機監控等需要實時視頻分析和語音交互的領域。
快速原型開發： 通過預置的插件和簡單的 Python 配置，開發者可以快速構建和部署 AI 語音助手。

教程：

https://getstream.io/blog/ai-voice-yoga-instructor/

(@Vision Agents Blog)

2、巨人與清華、西工大發布「視頻 X 音樂」多模態生成新進展

多模態生成技術在圖像、視頻、語音等方向的快速突破，使「視頻 × 音樂」的多模態生成變成新的研究熱點。然而在真實業務場景中，仍然存在諸多未被充分解決的技術空白，例如：

在音樂驅動的視頻生成中，仍缺乏對長時序一致性、音畫節奏對齊與鏡頭運動的系統建模；
歌聲轉換（SVC）方面，在大量真實歌曲輸入下仍面臨音色穩定性不足、和聲干擾導致破音等業界難題；
歌聲合成（SVS）場景，缺乏能夠在零樣本條件下穩健適配不同歌詞長度與旋律結構的模型。

在此背景下，巨人網絡 AI Lab 繼 2024 年發佈 YingGame 有聲遊戲生成模型之後，繼續在多模態領域發力，本次聯合清華大學與西北工業大學推出三項研究成果：YingVideo-MV、YingMusic-SVC 與 YingMusic-Singer，分別面向音樂驅動的視頻生成、歌聲轉換與歌聲合成任務，完善了真實業務場景中多項關鍵能力鏈路，為「視頻 × 音樂」的多模態生成方向帶來了系統性的技術進展。

詳細介紹：

https://mp.weixin.qq.com/s/r8de9g9tGFbgk466i8-2Gg

（@巨人網絡 AI Lab）

3、All Voice AI 聯手 Factory Berlin 推出全球首個語音 AI 廣告平台，將 AI 電話變為收入渠道

U.S. 公司「All Voice AI」與歐洲創投機構「Factory Berlin」合作，推出了全球首個能在實時 AI 語音通話中嵌入廣告的平台。這項技術旨在將傳統的客户支持電話轉變為可直接變現的收入渠道，通過在對話中適時推送相關優惠，為品牌開闢了全新的互動廣告模式。

實時對話內廣告：該平台能在用户與 AI 進行語音通話時，根據上下文實時插入相關的促銷或優惠信息。所有廣告均為用户選擇性加入（opt-in），旨在確保良好的用户體驗。
將成本中心轉為收入中心：傳統上，語音通話多為客户支持等成本部門。該平台通過廣告變現，幫助企業將這一渠道轉變為新的收入來源，目前已支持 57 種語言。
高接受度與市場潛力：「All Voice AI」的調查顯示，高達 97% 的受訪者表示，如果廣告內容與他們的通話目的相關，他們願意在電話中接收此類優惠信息，這預示着巨大的市場潛力。
技術生態與專利保護：該平台技術與「OpenAI」、「Twilio」和「AWS」等巨頭合作。其核心創新已申請專利保護，並提供技術授權給商業合作伙伴。

(@PR Newswire)

02 有亮點的產品

1、Sam Altman 和 Jony Ive 透露合作硬件：「如湖畔山間小屋般平靜」

品玩 11 月 27 日訊，據 TechCrunch 報道，OpenAI CEO Sam Altman 與蘋果前首席設計師 Jony Ive 近日在舊金山 Emerson Collective 活動上透露，雙方合作的 AI 硬件設備已進入原型階段，預計兩年內面世。

該設備被描述為「無屏幕、口袋大小」，強調極致簡約與寧靜體驗。Altman 稱其願景是打造一款如「湖畔山間小屋般平靜」的產品，能長期理解用户情境、主動過濾干擾，並贏得用户信任。Ive 表示，理想設計應「看似天真簡單」，卻內含高度智能，讓人無負擔地自然使用。

目前 OpenAI 尚未公佈具體技術細節。

（@品玩）

2、阿里發佈 AI 眼鏡夸克 S1，雙目 AR 光波導+AI 拍攝

繼小米、百度之後，國內第三家科技互聯網巨頭髮布 AI 眼鏡。

11 月 27 日，阿里夸克在北京舉辦「先見之明」新品發佈會，正式發佈了「夸克 AI 眼鏡 S1」。作為阿里 AI 戰略中的關鍵落子，夸克 S1 在技術路徑的選擇上並未採用保守的 ODM 通用方案，而是展現出了極強的「創新欲」：搭載「千問」對話助手、採用雙芯片架構、雙目 AR 光波導與 AI 拍攝結合的高集成度方案。

這種從底層技術邏輯出發的產品定義，讓夸克 AI 眼鏡 S1 與此前小米、百度等廠商推出的以「拍攝」為主的 AI 眼鏡形成了顯著差異。它不侷限於單一的影像捕捉，而是基於「近眼顯示」能力，將阿里龐大的服務生態通過 AI 多模態形式延展至眼鏡端。更為難得的是，在堆疊如此複雜硬件的同時，整機重量依然被控制在了 51g（含 0 度近視鏡片）。

(@VR陀螺)

3、Gloo 收購 XRI Global，開發全球數千種語言 AI 模型

Gloo 公司，一家技術平台，近日宣佈收購 AI 公司 XRI Global。此次戰略性舉動旨在將其平台 Gloo AI 和 Gloo360 嵌入 XRI Global 先進的多語言和語音 AI 能力，從而大幅拓展 Gloo 的市場潛力，並賦能全球數千種語言的用户。

戰略性技術整合： Gloo 收購 XRI Global，旨在整合其在多語言和語音 AI 領域的尖端技術，特別是針對「低資源語言」的創新。
彌補 AI 語言鴻溝： XRI Global 專注於開發能夠覆蓋全球數千種語言（包括缺乏訓練數據或書寫系統的語言）的 AI 模型，旨在解決目前全球約 6,800 種語言未被現代 AI 創新覆蓋的問題。
獨特方法論與成果： XRI Global 擁有一套經過研究驗證的方法論，已在過去 18 個月內為 30 多種語言構建了 AI 模型。其團隊由來自 Meta 和 Google 的機器學習、計算語言學博士組成。

(@Gloo)

4、迪士尼下場做機器人，把《冰雪奇緣》雪寶（Olaf）從電影裏硬生生地「拽」了出來！

（@香港迪士尼樂園度假區、@機器人前瞻）

03 有態度的觀點

1、「AI slop」（AI 劣質內容）當選澳洲 2025 年度詞彙

據澳洲九號台新聞 11 月 25 日報道，《Macquarie Dictionary》宣佈「AI slop」成為 2025 年度詞彙，用以描述由生成式人工智能大量生產的、缺乏意義且充滿錯誤的低質量內容。

該詞語的入選，反映了公眾對人工智能技術濫用現象的關注日益增強。

每年，《Macquarie Dictionary》都會組織特別委員會評選年度詞彙。今年的評審成員包括詞典編輯團隊、廣播主持人兼作家 David Astle，以及語言研究專家 Tiger Webb。

委員會指出，2025 年「我們已理解『slop』的含義——即無意義、無用途的 AI 產物」，並進一步提出：「那些攝取並傳播這類內容的人，是否也將被稱作『AI sloppers』？」

除「AI slop」外，今年的榮譽提名還包括「clanker」，用於貶義地稱呼取代人類完成任務的 AI 機器人，以及「medical misogyny」，意指醫療和知識體系中，特別是在女性生殖健康領域存在的性別偏見。

這些新詞彙反映出科技發展、社會結構與公共意識在過去一年中的顯著變化。

（@澳洲九號台）

閲讀更多 Voice Agent 學習筆記：瞭解最懂 AI 語音的頭腦都在思考什麼

寫在最後：

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創，感興趣的朋友請通過開發者社區或公眾號留言聯繫，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、項目、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

RTE開發者社區博客

RTE開發者社區博客

博客 / 詳情