博客 / 詳情

返回

球星 C 羅投資 AI 初創 Perplexity;微軟開源 VibeVoice-Realtime,低延遲流式輸出丨日報

開發者朋友們大家好:

這裏是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@瓚an、@鮑勃

01有話題的技術

1、TheWhisper:開源 STT/TTS 解決方案,支持流式處理與設備端推理

TheWhisper 項目發佈了一個高性能、流式處理的語音轉文本(Speech-to-Text, STT)和文本轉語音(Text-to-Speech, TTS)的開源解決方案。該項目專注於高效的自託管、雲託管及設備端推理,並提供優化的模型和引擎,支持包括 NVIDIA GPU 和 Apple Silicon 在內的多種硬件。

優化的 Whisper 模型: 提供微調後的 Whisper 模型,支持 10s、15s、20s 和 30s 等靈活的音頻分塊(chunk size)推理,打破了原版 Whisper 模型 30s 的限制。

高性能推理引擎:

  • NVIDIA GPU: 通過 TheStage AI 的優化引擎,在 L40s GPU 上可達 220 tok/s 的推理速度(對於 whisper-large-v3 模型)。
  • Apple Silicon: 為 macOS/Apple Silicon 提供 CoreML 引擎,實現全球最低功耗,MacBook 運行時功耗約 2W,RAM 佔用約 2GB。
  • 流式處理支持: 同時支持 NVIDIA 和 macOS 平台進行低延遲的流式語音轉文本處理,適用於實時字幕、會議記錄等場景。
  • 多平台部署: 提供本地 REST API 和前端示例(JS, Electron),幷包含一個由 TheStage AI 構建的 macOS 原生應用 「TheNotes」。
  • 基準測試與質量評估: 提供了詳盡的性能(延遲、內存、功耗)和語音識別準確性(ASR accuracy, OpenASR benchmark)測試數據,證明了其在不同分塊大小下的 Word Error Rate (WER)。
  • 靈活的授權與使用: 模型權重(Hugging Face)、NVIDIA 引擎(TheStage AI 優化,對小型組織免費)及 Apple CoreML 引擎均提供 MIT 許可證或免費使用。

該項目已在 GitHub 上開源,提供 MIT 許可證。NVIDIA 引擎對小型組織免費,Apple Silicon 版本也完全免費。計劃未來支持 Jetson 平台、容器化部署及 Speaker Diarization 功能。

GitHub:

https://github.com/TheStageAI/TheWhisper

(@GitHub)

2、Microsoft 開源 VibeVoice-Realtime-0.5B:低延遲、流式文本轉語音模型

Microsoft 在 Hugging Face 上開源了 VibeVoice-Realtime-0.5B,一個輕量級的實時文本轉語音(TTS)模型。該模型支持流式文本輸入,能生成高質量的語音,並以約 300 毫秒(硬件相關)的延遲產生首段可聽語音,適用於實時 TTS 服務、數據流播報以及 LLM 的即時語音響應。

  • 實時流式 TTS: 支持流式文本輸入,能夠從 LLM 生成的第一個 token 開始即可發聲,實現真正的實時語音輸出。
  • 高效的架構設計: 採用交錯式、窗口化設計,增量編碼文本,並並行進行基於擴散模型的聲學潛在生成。移除了語義分詞器,僅使用高效的聲學分詞器(7.5 Hz 幀率)。
  • 輕量級與部署友好: 參數量為 0.5B,易於部署。
  • 低延遲生成: 首段可聽語音延遲約 300 毫秒。
  • 長文本語音生成: 支持健壯的長篇幅語音生成。
  • 基於 Transformer LLM: 集成了 Qwen2.5-0.5B LLM,配合定製的聲學分詞器(σ-VAE 變體,3200x 下采樣)和擴散解碼頭。
  • 僅支持英語: 目前該模型僅針對英語數據進行訓練,其他語言的輸出可能不可預測。
  • 負責任的 AI 考量: 移除了聲學分詞器以避免語音嵌入創建,自動在合成音頻中嵌入免責聲明(「This segment was generated by AI」),並添加了不可感知的數字水印。

VibeVoice-Realtime-0.5B 模型已開源,採用 MIT 許可證,可通過 Hugging Face 獲取。模型目前僅支持英語,且僅供研究目的使用。

相關鏈接:https://huggingface.co/

(@Hugging Face)

3、全球首個智能體支付落地:ANP 發佈 AP2 協議實現,智能體商務生態邁出關鍵一步

ANP(Agent Network Protocol)開源社區與杭州向量共識宣佈,已成功完成基於 ANP 協議的 AP2(Agent Payment Protocol)首個落地實現。這為智能體(Agent)商務生態提供了首個可用的支付基礎設施,標誌着智能體從「能對話」進化到「能交易」的關鍵一步。

  • AP2 協議落地: 成功實現了 Google 於 2025 年 9 月發佈的 AP2 協議,解決了智能體交易中的核心信任問題,讓用户敢於放心地讓 AI 代為購物,並能在出錯時找到責任人。
  • ANP 協議集成優勢: ANP 作為底層協議,採用 DID(去中心化身份)作為智能體身份方案,為 AP2 的公鑰分發提供了天然的解決方案,使得在 ANP 上運行 AP2 比在 A2A(Agent-to-Agent)上更簡單。
  • 增強與完善: 基於 ANP 對 AP2 協議進行了完善,包括支持中國支付基礎設施(如支付寶、微信的二維碼支付)、增加履約憑證(Fulfillment Receipt)、以及完善時間戳驗證等。
  • ChatANP 演示: 開發了 ChatANP(chatanp.cc)聊天機器人,演示了其訪問智能體網絡、協作完成酒店預訂任務的能力。
  • 智能體商務(Agent Commerce): 提出了比 AI 電商更原生、更徹底的智能體商務概念,強調智能體自主完成從需求發現到售後處理的整個交易閉環。
  • 解決核心挑戰: AP2 協議通過 CartMandate(購物車授權)和 PaymentMandate(支付授權)等憑證,形成信任鏈條,解決人與智能體、智能體與智能體之間的信任問題。

ANP/AP2 的實現已完成並開源。未來計劃支持 x402 協議(基於 HTTP 402 狀態碼的即時微支付),並探索「人不在場」場景(Intent Mandate)、隱私增強(SD-JWT)及數字人民幣等支付方式。

ANP/AP2 規範文檔:

https://github.com/agent-network-protocol/AgentNetworkProtocol

官方網站:

https://ap2-protocol.org/

(@ANP 開源技術 Community)


02有亮點的產品

1、谷歌官宣 12 月 9 日舉行 Android XR 特別發佈會

谷歌官宣,將於太平洋時間 12 月 8 日上午 10 點(北京時間 12 月 9 日凌晨 2 點)舉行 Android XR 特別發佈會。

根據發佈會直播簡介,收看者將瞭解有關 XR 的所有內容,包括眼鏡、頭戴式設備以及所有中間設備。在 Gemini 的陪伴下,用户將能夠擁有更加對話式、情境化且有幫助的體驗。

三星已在今年 10 月推出了其首款 XR 頭顯設備——Galaxy XR,這也是首款搭載 Android XR 操作系統的設備,該平台由三星、谷歌和高通聯合打造,設備搭載高通驍龍 XR2+ Gen 2 芯片,配備 16GB 內存和 256GB 存儲空間。

此外,三星還宣佈了其即將推出 AI 眼鏡的計劃,正在與谷歌以及知名時尚眼鏡品牌合作開發此類可穿戴設備。爆料稱這款眼鏡將配備全視線鏡片(即光致變色鏡片),能根據環境光線強度自動變暗或恢復透明,還內置攝像頭並支持 Wi-Fi 與藍牙連接。

預約直播:

https://www.youtube.com/live/a3-OJxxW810

(@IT 之家)

2、Anthropic 推出「Anthropic Interviewer」AI 工具,大規模洞察專業人士對 AI 的看法

Anthropic 公司發佈了「Anthropic Interviewer」,一款基於 Claude 的 AI 工具,旨在自動化執行大規模訪談。該工具通過三個階段——規劃、訪談和分析——生成可供人類研究人員分析的數據,解決了傳統訪談在規模和成本上的限制。

  • 三階段自動化流程:

    • 規劃 (Planning): AI 基於研究目標生成靈活的訪談大綱(rubric)和對話流程。人類研究員與 AI 協作進行最終審閲和編輯。
    • 訪談 (Interviewing): AI 在 Claude.ai 界面上進行實時、自適應的訪談,時長約 10-15 分鐘,收集定性數據。
    • 分析 (Analysis): AI 分析訪談記錄,提煉關鍵主題和回答研究問題,並提供佐證引言。同時,獨立的 AI 分析工具用於識別和量化跨參與者的普遍主題。
  • 高度可擴展性: 該工具能夠以遠超傳統方法的高效率和低成本,進行數百至數千次的訪談。
  • 方法學創新: 標誌着對研究方法的一次根本性轉變,使得對 AI 社會影響等複雜問題的研究能夠以全新規模進行。
  • 數據公開與驗證: Anthropic 公開此次測試的 1250 份訪談數據(經同意),供研究界探索。訪談者對該工具的滿意度高達 97.6%,認為其能有效捕捉想法(96.96%),並推薦該格式(99.12%)。
  • AI 輔助研究: 整合了 AI 進行數據收集和初步分析,使人類研究者能更專注於深度解讀和策略制定。

「Anthropic Interviewer」已完成首次測試並投入使用。Anthropic 正持續運用該工具進行研究,並已公開研究方法和部分初步發現。

相關鏈接:

https://claude.ai/interviewer

(@Anthropic Research)

3、葡萄牙足球巨星 C 羅投資人工智能初創公司 Perplexity

足球巨星克里斯蒂亞諾·羅納爾多(Cristiano Ronaldo)宣佈投資 Perplexity AI,這家人工智能初創公司擁有包括 Comet 搜索引擎在內的產品,估值達 200 億美元。

羅納爾多週四分享了這一消息,強調好奇心對於取得成功的重要性。「好奇心是成就偉大的必要條件。當你每天不斷提出新問題時,你就會贏。這就是為什麼我自豪地宣佈我對 Perplexity 的投資,」這位足球傳奇在 X 平台上發文表示。

這次合作包括一個名為「Perplexity x CR7」的專屬登陸頁面,展示了羅納爾多的職業生涯故事。這位足球偶像將這次合作描述為他們共同努力「激勵每個人提出更有雄心的問題」的「僅僅是開始」。

Perplexity 成立於 2022 年,在 9 月份獲得 2 億美元融資後,估值達到 200 億美元。羅納爾多與這家 AI 搜索平台的關係始於用户身份,後來成為投資者。10 月份,他曾表示 Perplexity 幫助他撰寫了 Prestige Globe Award 獲獎感言。

憑藉羅納爾多在各大社交媒體平台上超過 10 億的粉絲,他的投資和合作可能會顯著擴大 Perplexity 的用户羣。這位足球明星在公告中指出,「Perplexity 正在為全球的好奇心提供動力」。

https://www.perplexity.ai/ronaldo

(@investing.com、@Cristiano @X)

03有態度的觀點

1、豆包手機工程機被炒至近萬元,行業評價兩極分化

據新浪財經報道,「豆包手機助手」首批工程機在官方渠道售罄後迅速在二級市場被炒高,閒魚等平台上部分未拆封機型報價已達 7999 – 9999 元,相較官方 3499 元定價溢價超過一倍。

與此同時,昨日社交媒體出現對於「豆包手機」的分化評價。

魅族科技公開表示「期待有機會深入合作」,認為豆包手機拓展了 AI 手機的想象空間,並強調 Flyme AIOS 2 同樣以系統級自動化為目標。

榮耀首席影像工程師羅巍則直言軟件公司做手機難度極大,若堅持可能「三世而亡」,否則「一代死」。但榮耀產品線高管方飛則認為豆包助手的通用場景自動執行路徑與榮耀的方向一致,期待生態共建。

而據此前報道,部分用户在使用助手執行微信相關操作時出現被動下線或登錄異常,微信方面回覆稱暫勿在工程機上通過助手操作敏感環節,相關問題正在核實;字節跳動方面則強調,權限清單與白皮書已公開,執行過程需用户授權且可中斷。

對此,羅永浩在微博發文稱,技術革命是誰都攔不住的,AI 助手一定會遍地開花。

( @APPSO)

閲讀更多 Voice Agent 學習筆記:瞭解最懂 AI 語音的頭腦都在思考什麼

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請通過開發者社區或公眾號留言聯繫,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、項目、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

作者提示: 個人觀點,僅供參考​

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.