博客 / 詳情

返回

全球首個語音 AI 廣告平台問世;Sam Altman 與 Jony Ive:合作新硬件將「如湖畔山間小屋般平靜」丨日報

開發者朋友們大家好:

這裏是 「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@鮑勃 和 Gemini(儘量不生產 AI Slop)

01 有話題的技術

1、Vision Agents + Gemini + Ultralytics YOLO 構建 AI 語音瑜伽教練

Vision Agents 發佈了一個教程,將 LLM、實時視頻分析和語音轉語音 API 相結合,創建一個名為「AI 瑜伽教練」的交互式 Python 應用。該教練可以通過用户的攝像頭分析瑜伽姿勢,並提供實時的語音指導和反饋,旨在革新居家和健身房的鍛鍊體驗。

  • 實時姿勢分析與反饋: 利用 Ultralytics YOLO 模型實時檢測用户姿勢,並通過 Gemini LLM 進行分析,提供即時語音反饋以糾正錯誤和改進動作。
  • 全棧語音交互: 集成 Gemini Live API,實現低延遲的語音轉語音交互,用户可以通過語音與 AI 教練進行自然對話。
  • 易於集成的框架: Vision Agents 提供了一個開源框架,簡化了語音和視頻 AI 應用的開發,支持多種第三方 AI 模型和服務集成。
  • 多場景應用潛力: 該模式不僅限於瑜伽教練,還可以擴展到體育指導、物理治療、無人機監控等需要實時視頻分析和語音交互的領域。
  • 快速原型開發: 通過預置的插件和簡單的 Python 配置,開發者可以快速構建和部署 AI 語音助手。

教程:

https://getstream.io/blog/ai-voice-yoga-instructor/

(@Vision Agents Blog)

2、巨人與清華、西工大發布 「視頻 X 音樂」 多模態生成新進展

多模態生成技術在圖像、視頻、語音等方向的快速突破,使 「視頻 × 音樂」 的多模態生成變成新的研究熱點。然而在真實業務場景中,仍然存在諸多未被充分解決的技術空白,例如:

  • 在音樂驅動的視頻生成中,仍缺乏對長時序一致性、音畫節奏對齊與鏡頭運動的系統建模;
  • 歌聲轉換(SVC)方面,在大量真實歌曲輸入下仍面臨音色穩定性不足、和聲干擾導致破音等業界難題;
  • 歌聲合成(SVS)場景,缺乏能夠在零樣本條件下穩健適配不同歌詞長度與旋律結構的模型。

在此背景下,巨人網絡 AI Lab 繼 2024 年發佈 YingGame 有聲遊戲生成模型之後,繼續在多模態領域發力,本次聯合清華大學與西北工業大學推出三項研究成果:YingVideo-MV、YingMusic-SVC 與 YingMusic-Singer,分別面向音樂驅動的視頻生成、歌聲轉換與歌聲合成任務,完善了真實業務場景中多項關鍵能力鏈路,為 「視頻 × 音樂」 的多模態生成方向帶來了系統性的技術進展。

詳細介紹:

https://mp.weixin.qq.com/s/r8de9g9tGFbgk466i8-2Gg

(@巨人網絡 AI Lab)

3、All Voice AI 聯手 Factory Berlin 推出全球首個語音 AI 廣告平台,將 AI 電話變為收入渠道

U.S. 公司「All Voice AI」與歐洲創投機構「Factory Berlin」合作,推出了全球首個能在實時 AI 語音通話中嵌入廣告的平台。這項技術旨在將傳統的客户支持電話轉變為可直接變現的收入渠道,通過在對話中適時推送相關優惠,為品牌開闢了全新的互動廣告模式。

  • 實時對話內廣告:該平台能在用户與 AI 進行語音通話時,根據上下文實時插入相關的促銷或優惠信息。所有廣告均為用户選擇性加入 (opt-in),旨在確保良好的用户體驗。
  • 將成本中心轉為收入中心:傳統上,語音通話多為客户支持等成本部門。該平台通過廣告變現,幫助企業將這一渠道轉變為新的收入來源,目前已支持 57 種語言。
  • 高接受度與市場潛力:「All Voice AI」的調查顯示,高達 97% 的受訪者表示,如果廣告內容與他們的通話目的相關,他們願意在電話中接收此類優惠信息,這預示着巨大的市場潛力。
  • 技術生態與專利保護:該平台技術與「OpenAI」、「Twilio」和「AWS」等巨頭合作。其核心創新已申請專利保護,並提供技術授權給商業合作伙伴。

(@PR Newswire)


02 有亮點的產品

1、Sam Altman 和 Jony Ive 透露合作硬件:「如湖畔山間小屋般平靜」

品玩 11 月 27 日訊,據 TechCrunch 報道,OpenAI CEO Sam Altman 與蘋果前首席設計師 Jony Ive 近日在舊金山 Emerson Collective 活動上透露,雙方合作的 AI 硬件設備已進入原型階段,預計兩年內面世。

該設備被描述為「無屏幕、口袋大小」,強調極致簡約與寧靜體驗。Altman 稱其願景是打造一款如「湖畔山間小屋般平靜」的產品,能長期理解用户情境、主動過濾干擾,並贏得用户信任。Ive 表示,理想設計應「看似天真簡單」,卻內含高度智能,讓人無負擔地自然使用。

目前 OpenAI 尚未公佈具體技術細節。

(@品玩)

2、阿里發佈 AI 眼鏡夸克 S1,雙目 AR 光波導+AI 拍攝

繼小米、百度之後,國內第三家科技互聯網巨頭髮布 AI 眼鏡。

11 月 27 日,阿里夸克在北京舉辦「先見之明」新品發佈會,正式發佈了「夸克 AI 眼鏡 S1」。作為阿里 AI 戰略中的關鍵落子,夸克 S1 在技術路徑的選擇上並未採用保守的 ODM 通用方案,而是展現出了極強的「創新欲」:搭載「千問」對話助手、採用雙芯片架構、雙目 AR 光波導與 AI 拍攝結合的高集成度方案。

這種從底層技術邏輯出發的產品定義,讓夸克 AI 眼鏡 S1 與此前小米、百度等廠商推出的以「拍攝」為主的 AI 眼鏡形成了顯著差異。它不侷限於單一的影像捕捉,而是基於「近眼顯示」能力,將阿里龐大的服務生態通過 AI 多模態形式延展至眼鏡端。更為難得的是,在堆疊如此複雜硬件的同時,整機重量依然被控制在了 51g(含 0 度近視鏡片)。

(@VR陀螺)

3、Gloo 收購 XRI Global,開發全球數千種語言 AI 模型

Gloo 公司,一家技術平台,近日宣佈收購 AI 公司 XRI Global。此次戰略性舉動旨在將其平台 Gloo AI 和 Gloo360 嵌入 XRI Global 先進的多語言和語音 AI 能力,從而大幅拓展 Gloo 的市場潛力,並賦能全球數千種語言的用户。

  • 戰略性技術整合: Gloo 收購 XRI Global,旨在整合其在多語言和語音 AI 領域的尖端技術,特別是針對「低資源語言」的創新。
  • 彌補 AI 語言鴻溝: XRI Global 專注於開發能夠覆蓋全球數千種語言(包括缺乏訓練數據或書寫系統的語言)的 AI 模型,旨在解決目前全球約 6,800 種語言未被現代 AI 創新覆蓋的問題。
  • 獨特方法論與成果: XRI Global 擁有一套經過研究驗證的方法論,已在過去 18 個月內為 30 多種語言構建了 AI 模型。其團隊由來自 Meta 和 Google 的機器學習、計算語言學博士組成。

(@Gloo)

4、迪士尼下場做機器人,把《冰雪奇緣》雪寶(Olaf)從電影裏硬生生地「拽」了出來!

(@香港迪士尼樂園度假區、@機器人前瞻)

03 有態度的觀點

1、「AI slop」(AI 劣質內容)當選澳洲 2025 年度詞彙

據澳洲九號台新聞 11 月 25 日報道,《Macquarie Dictionary》宣佈「AI slop」成為 2025 年度詞彙,用以描述由生成式人工智能大量生產的、缺乏意義且充滿錯誤的低質量內容。

該詞語的入選,反映了公眾對人工智能技術濫用現象的關注日益增強。

每年,《Macquarie Dictionary》都會組織特別委員會評選年度詞彙。今年的評審成員包括詞典編輯團隊、廣播主持人兼作家 David Astle,以及語言研究專家 Tiger Webb。

委員會指出,2025 年「我們已理解『slop』的含義——即無意義、無用途的 AI 產物」,並進一步提出:「那些攝取並傳播這類內容的人,是否也將被稱作『AI sloppers』?」

除「AI slop」外,今年的榮譽提名還包括「clanker」,用於貶義地稱呼取代人類完成任務的 AI 機器人,以及「medical misogyny」,意指醫療和知識體系中,特別是在女性生殖健康領域存在的性別偏見。

這些新詞彙反映出科技發展、社會結構與公共意識在過去一年中的顯著變化。

(@澳洲九號台)

閲讀更多 Voice Agent 學習筆記:瞭解最懂 AI 語音的頭腦都在思考什麼

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請通過開發者社區或公眾號留言聯繫,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、項目、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。


user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.