AV1 獲艾美獎，Mozilla 披露 AV2 方向：面向實時交互；智譜開源語音合成模型 GLM‑TTS 丨日報詳情 - 人工智能 RTE開發者社區博客

開發者朋友們大家好：

這裏是 「RTE 開發者日報」，每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

*本期編輯：@瓚an、@鮑勃

01 有話題的技術

1、Google AI Studio 推出 Gemini 2.5 Pro/Flash TTS 增強版，提升多模態交互與控制精度

Google AI Studio 發佈了 Gemini 2.5 Flash 和 Gemini 2.5 Pro 文本轉語音（TTS）預覽模型的重大更新。新版本增強了模型的表現力、節奏控制和多説話人一致性，旨在滿足內容創作者、開發者對高保真、精細化控制語音生成的需求。

Gemini 2.5 Flash/Pro TTS 更新：取代 5 月發佈的舊版本，提供低延遲（Flash）和高質量（Pro）優化選項。
增強表現力（Enhanced Expressivity）：模型能更精準地理解並遵循風格提示，提供更豐富的音調變化，如「愉快樂觀」到「憂鬱嚴肅」，提升角色扮演一致性。
上下文感知節奏控制（Context-Aware Pacing）：模型能根據消息上下文動態調整語速，如在強調時放慢、在興奮時加快。指令遵循的節奏控制精度顯著提升。
多説話人一致性（Seamless Dialogue）：在多説話人場景下，模型能保持角色聲音的連續性，並更自然地處理角色間的語音切換。
多語言能力提升：在所有 24 種支持語言中，模型能保持各角色獨特的語調、音高和風格。
API 可用性：新模型已通過 Gemini API 在 Google AI Studio 中可用。

新版 Gemini 2.5 Flash 和 2.5 Pro TTS 模型現已通過 Gemini API 在 Google AI Studio 的 Playground 中可用。

Gemini 模型鏈接：
https://ai.google.dev/gemini-api/docs/models

試用鏈接：
https://aistudio.google.com/apps

https://aistudio.google.com/generate-speech

（@Google AI Studio）

2、AV1 獲艾美獎：Mozilla 披露下一代 AV2 將原生支持 Alpha 通道與屏幕內容優化

當地時間 12 月 4 日，電視學院（Television Academy）正式授予 AV1 規範「技術與工程艾美獎」，標誌着這一由 AOMedia 主導的免版税視頻標準已從互聯網領域滲透至主流廣電行業。Mozilla 在迴應中強調，此獎項驗證了通過開源協作打破 H.264/H.265 專利授權壁壘的必要性，並正式確認了下一代編解碼器 AV2 的關鍵技術特性。

打破「隱形税」體系： Mozilla 指出，Web 視頻長期受制於 H.264 的封閉許可和 MPEG LA 複雜的收費架構。AV1 的核心價值在於建立基於 Google VP9、Mozilla Daala 和 Cisco Thor 技術的免版税（Royalty-Free）生態，消除了瀏覽器廠商（如 Firefox）的合規成本。
AV2 技術規格前瞻： AOMedia 正在研發的下一代 AV2 將重點解決 AV1 的短板。確定的更新包括：更激進的壓縮率、針對屏幕內容的高效編碼優化（利好遠程桌面/雲遊戲），以及原生 Alpha 通道支持。
生態複用（AVIF）： AV1 的幀內編碼（Intra-frame coding）技術已成功轉化為 AVIF 圖像格式。Mozilla 強調，這種基於視頻編碼的靜態圖像標準，正在成為替代 JPEG/WebP 的下一代通用格式。

值得注意的是 AOMedia 對 AV2 功能的定義——「屏幕內容優化」和「Alpha 通道」並非針對傳統的電影播放，而是直指雲遊戲（Cloud Gaming）、遠程桌面和實時合成場景。這暗示了 AOMedia 的野心已從單純的視頻流媒體，延伸至下一代實時交互基礎設施。

https://blog.mozilla.org/en/mozilla/av1-video-codec-wins-emmy/

（@Mozilla Blog）

3、GLM‑TTS 開源：3 秒復刻聲音，從情感表達到工業級落地

今天，智譜正式上線並開源 GLM‑TTS 工業級語音合成系統。

只需 3 秒語音樣本，GLM‑TTS 即可學習説話人的音色和説話習慣。在通用朗讀、情感配音、教育評測、電子書、有聲客服等場景中，實現自然流暢、貼近真人的語音。

為實現這一能力，GLM‑TTS 在架構上採用兩階段生成，並在訓練中引入基於 GRPO 的強化學習方案，在公開評測的「字錯誤率」和「情感表達」上取得開源 SOTA 表現。

值得一提的是，GLM-TTS 僅使用 10w 小時訓練數據，遠低於行業主流商用模型。同時，GLM-TTS 也兼顧了訓練成本和效果，預訓練僅需要單機 4 天即可得到開源 SOTA「發音準確度」與超高「音色還原度」，精品音色 LORA 和強化學習也僅需要單機 1 天即可完成訓練，遠低於行業平均水平。

另外，GLM‑TTS 還以更低的價格獲得了行業領先的 MOS 分數（平均主觀意見分）。

智譜在主流開源社區同步開源 GLM‑TTS 相關資源（模型權重、推理腳本、示例項目等）：

GitHub: https://github.com/zai-org/GLM-TTS
Hugging Face: https://huggingface.co/zai-org/GLM-TTS
魔搭社區：https://modelscope.cn/models/ZhipuAI/GLM-TTS

開發者可以基於主流推理框架，在 GPU 環境中快速部署 GLM‑TTS，並按需做二次開發。

（@GLM 大模型）

4、eSIM 採用率攀升：iPhone Air 等設備推動，激活率達 30%，中國市場蓄勢待發

儘管全球 eSIM 採用率目前仍低（今年預計超 5%），但得益於蘋果「iPhone Air」、谷歌「Pixel 10」等手機制造商推出 eSIM 專屬設備，以及旅行市場對便捷連接的強勁需求，eSIM 的普及正在加速。分析師預計，eSIM 設備激活率將從 2024 年的 30% 增長到 2030 年的 75%，同時中國市場有望成為新的增長引擎。

手機制造商轉向 eSIM-only 策略： Apple 在 2022 年為美國市場率先推出 eSIM-only「iPhone」，2025 年發佈了 eSIM 專屬的「iPhone Air」，併為「iPhone 17」系列在超過 11 個國家提供 eSIM-only 選項。Google 也在 2025 年「Pixel 10」上採用 eSIM-only 策略，這些手機通常提供略長的電池續航。
eSIM 滲透率與激活率顯著增長： 2024 年，配備 eSIM 的智能手機滲透率全球為 23%（美國市場 41%）。2025 年上半年，市場已推出超過 60 款支持 eSIM 的智能手機。2024 年 eSIM 設備激活率為 30%，預計 2030 年將提升至 75%。
旅行場景驅動核心增長： GSMA 調查顯示，51% 的 eSIM 用户將其用於旅行。Airalo 等第三方 eSIM 服務商通過旅行場景實現用户量激增，其中 85% 的 Airalo 用户是首次體驗 eSIM。eSIM 的便利性和安全性（硬件綁定安全元素）是主要優勢。

中國市場潛力釋放： 2025 年 10 月，中國電信運營商開始提供 eSIM 支持。預計華為、小米、Oppo、Vivo 等中國品牌將逐步在中低端市場推出更多支持 eSIM 的設備，推動亞洲和非洲等經濟敏感市場的普及。
行業投資與服務生態活躍： Airalo 完成 2.2 億美元融資成為獨角獸；法國 eSIM 初創公司 Kolet 獲得 1000 萬美元 A 輪融資；Nord 推出的 Saily eSIM 應用用户數已達七位數；Holafly 自 2018 年以來已售出超 1500 萬張 eSIM，2024 年營收達 2 億美元。

eSIM 技術和支持設備已廣泛可用。eSIM 服務通過主流運營商及 Airalo、Holafly 等第三方應用提供，用户可按需選擇。

（@TechCrunch）

02 有亮點的產品

1、企業語音 AI 客服 Recho 完成 3 億日元 A 輪融資，加速企業級 Voice AI 平台通用化

日本 Voice AI 平台提供商株式會社 Recho 宣佈完成 A 輪融資，總額 3 億日元，由 SBI Investment 領投。本輪融資將用於加速其企業級 Voice AI 平台在多行業通用化落地，並強化技術研發和組織能力。

融資 3 億日元：由 SBI Investment 領投，用於拓展企業市場。
自研 AI 原生語音架構：Recho 從創立之初即自主研發了包含 TTS、ASR 和對話控制的語音技術棧，而非基於現有 IVR/Chatbot 架構。
全球頂尖 TTS/ASR 性能：其自主研發的語音合成（TTS）和語音識別（ASR）模型已在全球基準測試中達到頂尖水平，特別是在日語的自然度和識別精度方面具備優勢。
企業級應用驗證：自 2024 年 4 月服務上線以來，已在金融、行政等高安全要求領域進行部署，驗證了平台在對話複雜性、音質、穩定性及安全性方面的企業級標準。
高工程師佔比：Recho 擁有超過 90%的工程師團隊，能夠實現從基礎模型研發到客户部署的一站式交付，並快速將客户反饋應用於技術迭代。

Recho 平台目前已在企業市場提供服務，融資將用於進一步擴大服務範圍和產品通用化。

（@PR TIMES）

2、Tavus 推出「Tavus PAL」AI Santa 增強版：支持視覺感知與自主動作，用户互動時長達數小時

AI 初創公司 Tavus 發佈了其 AI Santa 體驗的增強版本，核心升級為「Tavus PAL」實時智能體架構。新版 AI Santa 可感知用户表情、記憶對話，並執行自主動作，實現高度個性化和沉浸式的多模態交互，吸引用户日均互動數小時。

「Tavus PAL」智能體架構：AI Santa 已升級為 Tavus 的「Tavus PAL」（Personalized AI Agent），具備實時「看」（see）、「聽」（hear）、「響應」（respond）和「類人外觀」（appear human）的能力。
視覺感知與情感理解：智能體能夠識別並響應用户的表情和手勢，並記憶此前的對話和興趣點，實現個性化交互。
自主行動能力：新增功能允許 AI Santa 執行自主動作，如搜索網頁獲取禮物創意或起草電子郵件等日常任務。
高用户互動時長：測試數據顯示，許多用户與 AI Santa 的互動時長達數小時，並經常觸及每日使用上限，預計將大幅超越去年的「百萬次點擊」量。
多模態交互支持：用户可通過文本、電話或視頻聊天方式與 AI Santa 進行互動。
內置安全與隱私機制：為確保互動內容適合家庭，系統實施內容過濾，可在必要時終止對話並引導用户至心理健康資源。數據收集限於日誌、時間戳、元數據及用户共享信息，並承諾用户可隨時請求數據刪除。

AI Santa 體驗目前已通過免費賬户開放使用。

體驗鏈接：https\://santa.tavus.io/

（@TechCrunch）

03 有態度的觀點

1、何小鵬談為何把機器人做成人形：社會都是為了人去思考、設計

日前，小鵬汽車董事長何小鵬在參加極客公園創新大會 2026 上，談到了「為何把機器人做成人形」這一熱門話題。

何小鵬表示，小鵬的機器人，其希望能夠真正走入到商業、工業、家庭，在未來的時間。「所以我們一直都覺得它需要擬人，一個擬人的機器人需要有人的形態、人的長相、人的肌肉、人的皮膚。」

何小鵬坦言，小鵬這一次做的機器人裏面，第一次發現了以前團隊人員自己研發機器人七年，卻不願意碰、擁抱這個機器人。

因為你看到這個機器人是個鋼鐵，你會擔心它有電，你會擔心它有威脅，擔心它摸起來不舒服。一旦當機器人有肌膚、皮膚、血肉的時候，你會感覺到它是真正可能是你未來的夥伴。

具體來看，何小鵬認為環境適配性、數據獲取、工具使用都將是解答「為何把機器人做成人形」的核心：

環境適配性：因為這個世界是按照人去設計的。如果想讓一個機器人更容易適應於這個社會，人形是非常重要的，因為這個社會都是為了人類去思考、設計、使用的。
數據獲取：只有把機器人做成人形，才能直接利用海量的人類行為數據，來對機器人進行訓練。如果做一個專有機器人，要獲得海量數據是非常困難的。
工具使用：這個世界上有 100 萬種工具為人而設計去使用的，人形機器人可以最大程度適應這些工具。

今年 11 月，小鵬在科技日活動上展示了最新一代人形機器人 IRON。該機器人在舞台上走「貓步」如人一樣輕盈，因此引發互聯網一陣猜疑，不少網友更是稱「裏面是真人扮演的」。

活動後，何小鵬及機器人團隊不得不將機器人蒙皮、打印骨骼剪開，以此證明「真·機器人」。

（@APPSO）

04 社區黑板報

招聘、項目分享、求助……任何你想和社區分享的信息，請聯繫我們投稿。（加微信 creators2022，備註「社區黑板報」）

1、活動報名丨全球首款 AI 主題桌遊《Talk With》線下開玩！上海 GDPS 2025 見！

https://mp.weixin.qq.com/s/IZWjSUyooM5OwGrIhBmMqw

📅 時間：12 月 13 日（週六）下午

📍 地點：GDPS 全球開發者先鋒大會，上海張江科學會堂

除了沉浸式體驗《Talk With》桌遊，我們還特別邀請到 TEN Framework 的增長黑客 June，帶來一場關於對話式 AI 產品與技術趨勢的精彩分享——助你快速把握行業脈搏、洞察技術前沿。動腦又動手，玩中學、學中玩，千萬別錯過！

閲讀更多 Voice Agent 學習筆記：瞭解最懂 AI 語音的頭腦都在思考什麼

寫在最後：

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請通過開發者社區或公眾號留言聯繫，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、項目、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

作者提示：個人觀點，僅供參考

RTE開發者社區博客

RTE開發者社區博客

博客 / 詳情