阿里通義發佈 Qwen3-Omni-Flash-2025-12-01 - 新聞詳情 | YeLogs.com

阿里通義發佈 Qwen3-Omni-Flash-2025-12-01

新聞

HongKong

54

03:49 PM · Dec 11 ,2025

阿里通義 Qwen 團隊發佈了基於 Qwen3-Omni 的全面升級版本：Qwen3-Omni-Flash-2025-12-01。

Qwen3-Omni 是新一代原生全模態大模型，能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式，並通過實時流式響應同時生成文本與自然語音輸出。新版本引入了多種升級來提升模型表現和效率。

此次升級版本主要特點為：

音視頻交互體驗全面升級：大幅增強對音視頻指令的理解與執行能力，有效解決口語化場景中常見的“降智”問題；多輪音視頻對話的穩定性與連貫性顯著提升，交互更自然流暢。
系統提示（System Prompt）控制能力飛躍：全面開放 System Prompt 自定義，實現對模型行為的精細調控——無論是人設風格（如甜妹、御姐、日系等）、口語化表達偏好，還是回覆長度等要求，均可精準實現，控制力大幅提升。
多語言遵循能力更可靠：支持 119 種文本語言交互、19 種語音識別語言與 10 種語音合成語言，徹底優化上一版本中語言遵循不穩定的問題，確保跨語言場景下響應準確、一致。
語音生成更擬人、更流暢：徹底解決語速拖沓、機械呆板的問題，顯著提升模型根據文本內容自適應調節語速、停頓與韻律的能力，語音表現自然生動，擬人化程度逼近真人。

模型性能

在客觀性能指標上，Qwen3-Omni-Flash-2025-12-01 全模態能力全面躍升，各項能力均顯著超越 Qwen3-Omni-Flash:

🧠 文本理解與生成更強大：在邏輯推理（ZebraLogic +5.6）、代碼生成（LiveCodeBench-v6 +9.3、MultiPL-E +2.7）和綜合寫作（WritingBench +2.2）等任務上大幅提升，複雜指令遵循能力再上新台階。
👂 語音理解更精準：在語音識別（Fleurs-zh）的字錯率顯著降低，語音對話評估（VoiceBench）得分提升 3.2 分，語音理解能力提升。
🎙️ 語音生成更自然：多語言語音合成質量全面提升，尤其在中文、多語種上，韻律、語速與停頓更貼近真人對話。
👁️ 圖像理解更深入：在多學科視覺問答（MMMU +4.7、MMMU_pro +4.8）和數學視覺推理（Mathvision_full +2.2）任務上取得飛躍，能更準確地“看懂”圖像內容並進行深度分析。
🎬 視頻理解更連貫：視頻語義理解能力（MLVU +1.6）持續優化，結合增強的音視頻同步能力，為實時視頻對話提供堅實基礎。

此次升級，讓 Qwen3-Omni-Flash-20251201 在全模態場景下真正做到“聲形意合，令出智隨”，為用户帶來前所未有的自然、精準、生動的 AI 交互體驗。

0 位用戶收藏了這個故事！