開發者朋友們大家好:
這裏是 「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
*本期編輯:@瓚an、@鮑勃
01 有話題的技術
1、Google AI Studio 推出 Gemini 2.5 Pro/Flash TTS 增強版,提升多模態交互與控制精度
Google AI Studio 發佈了 Gemini 2.5 Flash 和 Gemini 2.5 Pro 文本轉語音(TTS)預覽模型的重大更新。新版本增強了模型的表現力、節奏控制和多説話人一致性,旨在滿足內容創作者、開發者對高保真、精細化控制語音生成的需求。
- Gemini 2.5 Flash/Pro TTS 更新:取代 5 月發佈的舊版本,提供低延遲(Flash)和高質量(Pro)優化選項。
- 增強表現力 (Enhanced Expressivity):模型能更精準地理解並遵循風格提示,提供更豐富的音調變化,如「愉快樂觀」到「憂鬱嚴肅」,提升角色扮演一致性。
- 上下文感知節奏控制 (Context-Aware Pacing):模型能根據消息上下文動態調整語速,如在強調時放慢、在興奮時加快。指令遵循的節奏控制精度顯著提升。
- 多説話人一致性 (Seamless Dialogue):在多説話人場景下,模型能保持角色聲音的連續性,並更自然地處理角色間的語音切換。
- 多語言能力提升:在所有 24 種支持語言中,模型能保持各角色獨特的語調、音高和風格。
- API 可用性:新模型已通過 Gemini API 在 Google AI Studio 中可用。
新版 Gemini 2.5 Flash 和 2.5 Pro TTS 模型現已通過 Gemini API 在 Google AI Studio 的 Playground 中可用。
Gemini 模型鏈接:
https://ai.google.dev/gemini-api/docs/models
試用鏈接:
https://aistudio.google.com/apps
https://aistudio.google.com/generate-speech
(@Google AI Studio)
2、AV1 獲艾美獎:Mozilla 披露下一代 AV2 將原生支持 Alpha 通道與屏幕內容優化
當地時間 12 月 4 日,電視學院(Television Academy)正式授予 AV1 規範「技術與工程艾美獎」,標誌着這一由 AOMedia 主導的免版税視頻標準已從互聯網領域滲透至主流廣電行業。Mozilla 在迴應中強調,此獎項驗證了通過開源協作打破 H.264/H.265 專利授權壁壘的必要性,並正式確認了下一代編解碼器 AV2 的關鍵技術特性。
- 打破「隱形税」體系: Mozilla 指出,Web 視頻長期受制於 H.264 的封閉許可和 MPEG LA 複雜的收費架構。AV1 的核心價值在於建立基於 Google VP9、Mozilla Daala 和 Cisco Thor 技術的免版税(Royalty-Free)生態,消除了瀏覽器廠商(如 Firefox)的合規成本。
- AV2 技術規格前瞻: AOMedia 正在研發的下一代 AV2 將重點解決 AV1 的短板。確定的更新包括:更激進的壓縮率、針對屏幕內容的高效編碼優化(利好遠程桌面/雲遊戲),以及原生 Alpha 通道支持。
- 生態複用(AVIF): AV1 的幀內編碼(Intra-frame coding)技術已成功轉化為 AVIF 圖像格式。Mozilla 強調,這種基於視頻編碼的靜態圖像標準,正在成為替代 JPEG/WebP 的下一代通用格式。
值得注意的是 AOMedia 對 AV2 功能的定義——「屏幕內容優化」和「Alpha 通道」並非針對傳統的電影播放,而是直指雲遊戲(Cloud Gaming)、遠程桌面和實時合成場景。這暗示了 AOMedia 的野心已從單純的視頻流媒體,延伸至下一代實時交互基礎設施。
https://blog.mozilla.org/en/mozilla/av1-video-codec-wins-emmy/
(@Mozilla Blog)
3、GLM‑TTS 開源:3 秒復刻聲音,從情感表達到工業級落地
今天,智譜正式上線並開源 GLM‑TTS 工業級語音合成系統。
只需 3 秒語音樣本,GLM‑TTS 即可學習説話人的音色和説話習慣。在通用朗讀、情感配音、教育評測、電子書、有聲客服等場景中,實現自然流暢、貼近真人的語音。
為實現這一能力,GLM‑TTS 在架構上採用兩階段生成,並在訓練中引入基於 GRPO 的強化學習方案,在公開評測的「字錯誤率」和「情感表達」上取得開源 SOTA 表現。
值得一提的是,GLM-TTS 僅使用 10w 小時訓練數據,遠低於行業主流商用模型。同時,GLM-TTS 也兼顧了訓練成本和效果,預訓練僅需要單機 4 天即可得到開源 SOTA「發音準確度」與超高「音色還原度」,精品音色 LORA 和強化學習也僅需要單機 1 天即可完成訓練,遠低於行業平均水平。
另外,GLM‑TTS 還以更低的價格獲得了行業領先的 MOS 分數(平均主觀意見分)。
智譜在主流開源社區同步開源 GLM‑TTS 相關資源(模型權重、推理腳本、示例項目等):
- GitHub: https://github.com/zai-org/GLM-TTS
- Hugging Face: https://huggingface.co/zai-org/GLM-TTS
- 魔搭社區:https://modelscope.cn/models/ZhipuAI/GLM-TTS
開發者可以基於主流推理框架,在 GPU 環境中快速部署 GLM‑TTS,並按需做二次開發。
(@GLM 大模型)
4、eSIM 採用率攀升:iPhone Air 等設備推動,激活率達 30%,中國市場蓄勢待發
儘管全球 eSIM 採用率目前仍低(今年預計超 5%),但得益於蘋果「iPhone Air」、谷歌「Pixel 10」等手機制造商推出 eSIM 專屬設備,以及旅行市場對便捷連接的強勁需求,eSIM 的普及正在加速。分析師預計,eSIM 設備激活率將從 2024 年的 30% 增長到 2030 年的 75%,同時中國市場有望成為新的增長引擎。
- 手機制造商轉向 eSIM-only 策略: Apple 在 2022 年為美國市場率先推出 eSIM-only「iPhone」,2025 年發佈了 eSIM 專屬的「iPhone Air」,併為「iPhone 17」系列在超過 11 個國家提供 eSIM-only 選項。Google 也在 2025 年「Pixel 10」上採用 eSIM-only 策略,這些手機通常提供略長的電池續航。
- eSIM 滲透率與激活率顯著增長: 2024 年,配備 eSIM 的智能手機滲透率全球為 23%(美國市場 41%)。2025 年上半年,市場已推出超過 60 款支持 eSIM 的智能手機。2024 年 eSIM 設備激活率為 30%,預計 2030 年將提升至 75%。
- 旅行場景驅動核心增長: GSMA 調查顯示,51% 的 eSIM 用户將其用於旅行。Airalo 等第三方 eSIM 服務商通過旅行場景實現用户量激增,其中 85% 的 Airalo 用户是首次體驗 eSIM。eSIM 的便利性和安全性(硬件綁定安全元素)是主要優勢。
- 中國市場潛力釋放: 2025 年 10 月,中國電信運營商開始提供 eSIM 支持。預計華為、小米、Oppo、Vivo 等中國品牌將逐步在中低端市場推出更多支持 eSIM 的設備,推動亞洲和非洲等經濟敏感市場的普及。
- 行業投資與服務生態活躍: Airalo 完成 2.2 億美元融資成為獨角獸;法國 eSIM 初創公司 Kolet 獲得 1000 萬美元 A 輪融資;Nord 推出的 Saily eSIM 應用用户數已達七位數;Holafly 自 2018 年以來已售出超 1500 萬張 eSIM,2024 年營收達 2 億美元。
eSIM 技術和支持設備已廣泛可用。eSIM 服務通過主流運營商及 Airalo、Holafly 等第三方應用提供,用户可按需選擇。
(@TechCrunch)
02 有亮點的產品
1、企業語音 AI 客服 Recho 完成 3 億日元 A 輪融資,加速企業級 Voice AI 平台通用化
日本 Voice AI 平台提供商株式會社 Recho 宣佈完成 A 輪融資,總額 3 億日元,由 SBI Investment 領投。本輪融資將用於加速其企業級 Voice AI 平台在多行業通用化落地,並強化技術研發和組織能力。
- 融資 3 億日元:由 SBI Investment 領投,用於拓展企業市場。
- 自研 AI 原生語音架構:Recho 從創立之初即自主研發了包含 TTS、ASR 和對話控制的語音技術棧,而非基於現有 IVR/Chatbot 架構。
- 全球頂尖 TTS/ASR 性能:其自主研發的語音合成(TTS)和語音識別(ASR)模型已在全球基準測試中達到頂尖水平,特別是在日語的自然度和識別精度方面具備優勢。
- 企業級應用驗證:自 2024 年 4 月服務上線以來,已在金融、行政等高安全要求領域進行部署,驗證了平台在對話複雜性、音質、穩定性及安全性方面的企業級標準。
- 高工程師佔比:Recho 擁有超過 90%的工程師團隊,能夠實現從基礎模型研發到客户部署的一站式交付,並快速將客户反饋應用於技術迭代。
Recho 平台目前已在企業市場提供服務,融資將用於進一步擴大服務範圍和產品通用化。
(@PR TIMES)
2、Tavus 推出「Tavus PAL」AI Santa 增強版:支持視覺感知與自主動作,用户互動時長達數小時
AI 初創公司 Tavus 發佈了其 AI Santa 體驗的增強版本,核心升級為「Tavus PAL」實時智能體架構。新版 AI Santa 可感知用户表情、記憶對話,並執行自主動作,實現高度個性化和沉浸式的多模態交互,吸引用户日均互動數小時。
- 「Tavus PAL」智能體架構:AI Santa 已升級為 Tavus 的「Tavus PAL」(Personalized AI Agent),具備實時「看」(see)、「聽」(hear)、「響應」(respond)和「類人外觀」(appear human)的能力。
- 視覺感知與情感理解:智能體能夠識別並響應用户的表情和手勢,並記憶此前的對話和興趣點,實現個性化交互。
- 自主行動能力:新增功能允許 AI Santa 執行自主動作,如搜索網頁獲取禮物創意或起草電子郵件等日常任務。
- 高用户互動時長:測試數據顯示,許多用户與 AI Santa 的互動時長達數小時,並經常觸及每日使用上限,預計將大幅超越去年的「百萬次點擊」量。
- 多模態交互支持:用户可通過文本、電話或視頻聊天方式與 AI Santa 進行互動。
- 內置安全與隱私機制:為確保互動內容適合家庭,系統實施內容過濾,可在必要時終止對話並引導用户至心理健康資源。數據收集限於日誌、時間戳、元數據及用户共享信息,並承諾用户可隨時請求數據刪除。
AI Santa 體驗目前已通過免費賬户開放使用。
體驗鏈接:https\://santa.tavus.io/
(@TechCrunch)
03 有態度的觀點
1、何小鵬談為何把機器人做成人形:社會都是為了人去思考、設計
日前,小鵬汽車董事長何小鵬在參加極客公園創新大會 2026 上,談到了「為何把機器人做成人形」這一熱門話題。
何小鵬表示,小鵬的機器人,其希望能夠真正走入到商業、工業、家庭,在未來的時間。「所以我們一直都覺得它需要擬人,一個擬人的機器人需要有人的形態、人的長相、人的肌肉、人的皮膚。」
何小鵬坦言,小鵬這一次做的機器人裏面,第一次發現了以前團隊人員自己研發機器人七年,卻不願意碰、擁抱這個機器人。
因為你看到這個機器人是個鋼鐵,你會擔心它有電,你會擔心它有威脅,擔心它摸起來不舒服。一旦當機器人有肌膚、皮膚、血肉的時候,你會感覺到它是真正可能是你未來的夥伴。
具體來看,何小鵬認為環境適配性、數據獲取、工具使用都將是解答「為何把機器人做成人形」的核心:
- 環境適配性:因為這個世界是按照人去設計的。如果想讓一個機器人更容易適應於這個社會,人形是非常重要的,因為這個社會都是為了人類去思考、設計、使用的。
- 數據獲取:只有把機器人做成人形,才能直接利用海量的人類行為數據,來對機器人進行訓練。如果做一個專有機器人,要獲得海量數據是非常困難的。
- 工具使用:這個世界上有 100 萬種工具為人而設計去使用的,人形機器人可以最大程度適應這些工具。
今年 11 月,小鵬在科技日活動上展示了最新一代人形機器人 IRON。該機器人在舞台上走「貓步」如人一樣輕盈,因此引發互聯網一陣猜疑,不少網友更是稱「裏面是真人扮演的」。
活動後,何小鵬及機器人團隊不得不將機器人蒙皮、打印骨骼剪開,以此證明「真·機器人」。
(@APPSO)
04 社區黑板報
招聘、項目分享、求助……任何你想和社區分享的信息,請聯繫我們投稿。(加微信 creators2022,備註「社區黑板報」)
1、活動報名丨全球首款 AI 主題桌遊《Talk With》線下開玩!上海 GDPS 2025 見!
https://mp.weixin.qq.com/s/IZWjSUyooM5OwGrIhBmMqw
📅 時間:12 月 13 日(週六)下午
📍 地點:GDPS 全球開發者先鋒大會,上海張江科學會堂
除了沉浸式體驗《Talk With》桌遊,我們還特別邀請到 TEN Framework 的增長黑客 June,帶來一場關於對話式 AI 產品與技術趨勢的精彩分享——助你快速把握行業脈搏、洞察技術前沿。動腦又動手,玩中學、學中玩,千萬別錯過!
閲讀更多 Voice Agent 學習筆記:瞭解最懂 AI 語音的頭腦都在思考什麼
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請通過開發者社區或公眾號留言聯繫,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、項目、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
作者提示:個人觀點,僅供參考