谷歌宣佈推出Gemini 2.5 Flash與Pro Text-to-Speech(TTS)預覽模型的重大更新,替代今年5月發佈的舊版。
新模型在表達力、語速控制及多説話人一致性方面顯著提升,支持更精準的風格指令響應、上下文感知的節奏調節,並可在24種語言中保持角色聲線穩定。主要亮點如下:
- 情緒級表達:支持從「歡快樂觀」到「陰鬱嚴肅」一鍵切換,提升語音表現力。
- 節奏自適應:根據上下文自動調整快慢,使敍事更生動。
- 多角色+24語種:支持跨語種一致,角色不串線,實現自然對話過渡。
該技術已應用於Wondercraft等平台,助力其多角色對話與導演模式功能,實現自然語音生成。用户現可通過Google AI Studio和Playground體驗新版TTS能力,適用於有聲書、教學視頻、營銷內容等高保真語音場景。