MOSS-Speech 發佈：真正的語音到語音大模型 - 新聞詳情 | YeLogs.com

MOSS-Speech 發佈：真正的語音到語音大模型

新聞

HongKong

31

03:44 PM · Nov 20 ,2025

國內AI領域最知名的教授之一 —— 復旦大學計算機學院教授邱錫鵬和他學生創立的公司近期發佈了MOSS-Speech，聲稱是真正的語音到語音（Speech-to-Speech）大模型。

據官方介紹，這款模型標誌着國產AI邁入了“真語音到語音交互”的新階段。它與傳統“語音識別—文本生成—語音合成”的級聯方案不同，MOSS-Speech 實現了直接從語音理解到語音生成，無需文本中介。該模型可在生成回答的同時捕捉語調、情緒、笑聲等非文字信號，使機器“説話”更自然、更具人性。

MOSS-Speech 核心特性如下：

真正的語音到語音建模：無需文本引導。
層拆分架構：在預訓練文本 LLM 的基礎上新增模態特定層。
凍結預訓練策略：在保留原 LLM 的能力的同時引入語音理解和生成能力。
SOTA性能：在語音問答和語音到語音任務中表現出色。

MOSS-Speech 在語音到語音評測指標上取得了 SOTA 成績。

預訓練模型評測結果

指令微調模型評測結果

更多細節查看 Demo 和技術報告

視頻 Demo：https://moss-speech.open-moss.com/
在線 Demo：https://huggingface.co/spaces/fnlp/MOSS-Speech
GitHub 主頁：https://github.com/OpenMOSS/MOSS-Speech
技術報告：https://github.com/OpenMOSS/MOSS-Speech/blob/main/papers/MOSS-Speech Technical Report.pdf

0 位用戶收藏了這個故事！