阿里通義發佈 Qwen3-Omni-Flash-2025-12-01

新聞
HongKong
10
03:49 PM · Dec 11 ,2025

阿里通義 Qwen 團隊發佈了基於 Qwen3-Omni 的全面升級版本:Qwen3-Omni-Flash-2025-12-01

Qwen3-Omni 是新一代原生全模態大模型,能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,並通過實時流式響應同時生成文本與自然語音輸出。新版本引入了多種升級來提升模型表現和效率。

此次升級版本主要特點為:

  • 音視頻交互體驗全面升級:大幅增強對音視頻指令的理解與執行能力,有效解決口語化場景中常見的“降智”問題;多輪音視頻對話的穩定性與連貫性顯著提升,交互更自然流暢。

  • 系統提示(System Prompt)控制能力飛躍:全面開放 System Prompt 自定義,實現對模型行為的精細調控——無論是人設風格(如甜妹、御姐、日系等)、口語化表達偏好,還是回覆長度等要求,均可精準實現,控制力大幅提升。

  • 多語言遵循能力更可靠:支持 119 種文本語言交互、19 種語音識別語言與 10 種語音合成語言,徹底優化上一版本中語言遵循不穩定的問題,確保跨語言場景下響應準確、一致。

  • 語音生成更擬人、更流暢: 徹底解決語速拖沓、機械呆板的問題,顯著提升模型根據文本內容自適應調節語速、停頓與韻律的能力,語音表現自然生動,擬人化程度逼近真人。

模型性能

在客觀性能指標上,Qwen3-Omni-Flash-2025-12-01 全模態能力全面躍升,各項能力均顯著超越 Qwen3-Omni-Flash:

  • 🧠 文本理解與生成更強大:在邏輯推理(ZebraLogic +5.6)、代碼生成(LiveCodeBench-v6 +9.3、MultiPL-E +2.7)和綜合寫作(WritingBench +2.2)等任務上大幅提升,複雜指令遵循能力再上新台階。
  • 👂 語音理解更精準:在語音識別(Fleurs-zh)的字錯率顯著降低,語音對話評估(VoiceBench)得分提升 3.2 分,語音理解能力提升。
  • 🎙️ 語音生成更自然:多語言語音合成質量全面提升,尤其在中文、多語種上,韻律、語速與停頓更貼近真人對話。
  • 👁️ 圖像理解更深入:在多學科視覺問答(MMMU +4.7、MMMU_pro +4.8)和數學視覺推理(Mathvision_full +2.2)任務上取得飛躍,能更準確地“看懂”圖像內容並進行深度分析。
  • 🎬 視頻理解更連貫:視頻語義理解能力(MLVU +1.6)持續優化,結合增強的音視頻同步能力,為實時視頻對話提供堅實基礎。

此次升級,讓 Qwen3-Omni-Flash-20251201 在全模態場景下真正做到“聲形意合,令出智隨”,為用户帶來前所未有的自然、精準、生動的 AI 交互體驗。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.