智譜開源多模態大模型 GLM-4.6V 系列

智譜AI正式開源GLM-4.6V系列多模態大模型，包含高性能版GLM-4.6V（106B-A12B）與輕量免費版GLM-4.6V-Flash（9B）。該系列實現“圖像即參數，結果即上下文”的原生多模態工具調用能力，支持128K視覺上下文，可處理約150頁文檔或1小時視頻。

GLM-4.6V（106B-A12B）：面向雲端與高性能集羣場景的基礎版；
GLM-4.6V-Flash（9B）：面向本地部署與低延遲應用的輕量版。

作為 GLM 系列在多模態方向上的一次重要迭代，GLM-4.6V 將訓練時上下文窗口提升到 128k tokens，在視覺理解精度上達到同參數規模 SOTA，並首次在模型架構中將 Function Call（工具調用）能力原生融入視覺模型，打通從「視覺感知」到「可執行行動（Action）」的鏈路，為真實業務場景中的多模態 Agent 提供統一的技術底座。

模型在30餘項多模態基準評測中達同規模SOTA水平，API價格較上一代降低50%。典型應用涵蓋智能圖文生成、視覺導購Agent、前端代碼復刻及長視頻理解。模型權重與代碼已在GitHub、Hugging Face及魔搭社區同步開放。

開源與部署

為了讓更多開發者和研究者快速上手，智譜同步開放了模型權重、推理代碼與在線調用能力。

開源資源

GLM-4.6V 的模型權重、推理代碼與示例工程：

GitHub：https://github.com/zai-org/GLM-V
Hugging Face：https://huggingface.co/collections/zai-org/glm-46v
魔搭社區：https://modelscope.cn/collections/GLM-46V-37fabc27818446

已支持的推理框架包括 SGLang、vLLM、transformers、xLLM Ascend NPU，開發者可以在 GPU 與多種國產 NPU 環境下按需部署 GLM-4.6V 與 GLM-4.6V-Flash。

開放平台與在線調用

除了本地部署，智譜也提供雲端託管推理與 API，方便直接接入業務：

開放平台：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-4.6v
Coding Plan 視覺理解 MCP：https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

在線體驗入口：

z.ai：選擇 GLM-4.6V 模型，即刻體驗多模態理解與工具調用能力；
智譜清言 APP / 網頁版：上傳圖片或視頻，開啓「推理模式」，體驗多模態推理與長上下文能力。

技術 blog：z.ai/blog/glm-4.6v

開源與部署

開源資源

開放平台與在線調用

在線體驗入口：

發佈評論

Product

Company

Support

Company