開源本地大模型運行工具 Ollama 發佈了 v0.12.8 版本。
新功能
-
針對模型 qwen3‑vl(“qwen3-vl”)做了性能提升,包括默認支持 Flash Attention。
-
在 “thinking” 過程(即模型輸出前推理)中,qwen3-vl 現在會 減少前導空白字符(leading whitespace)輸出。
Bug 修復
-
修復了一個 bug:當通過 DeepSeek‑v3.1 思考(thinking)功能禁用時,Ollama 新的應用中不能正確關閉該思考功能的問題。
-
修復了 qwen3-vl 在 帶透明背景圖像(transparent background image) 輸入時的識別失敗問題。
-
修復了當在 Windows 上執行設備發現(device discovery)時,系統會錯誤地考慮不支持的集成顯卡(iGPU)的問題。
-
修正了當使用
ollama rm命令移除模型前,模型還在運行的問題。 -
優化了 Ollama 引擎中 Prompt 處理速度慢的問題。
下載地址:https://github.com/ollama/ollama/releases/tag/v0.12.8