智譜AI正式開源GLM-4.6V系列多模態大模型,包含高性能版GLM-4.6V(106B-A12B)與輕量免費版GLM-4.6V-Flash(9B)。該系列實現“圖像即參數,結果即上下文”的原生多模態工具調用能力,支持128K視覺上下文,可處理約150頁文檔或1小時視頻。
- GLM-4.6V(106B-A12B):面向雲端與高性能集羣場景的基礎版;
- GLM-4.6V-Flash(9B):面向本地部署與低延遲應用的輕量版。
作為 GLM 系列在多模態方向上的一次重要迭代,GLM-4.6V 將訓練時上下文窗口提升到 128k tokens,在視覺理解精度上達到同參數規模 SOTA,並首次在模型架構中將 Function Call(工具調用)能力原生融入視覺模型,打通從「視覺感知」到「可執行行動(Action)」的鏈路,為真實業務場景中的多模態 Agent 提供統一的技術底座。
模型在30餘項多模態基準評測中達同規模SOTA水平,API價格較上一代降低50%。典型應用涵蓋智能圖文生成、視覺導購Agent、前端代碼復刻及長視頻理解。模型權重與代碼已在GitHub、Hugging Face及魔搭社區同步開放。
開源與部署
為了讓更多開發者和研究者快速上手,智譜同步開放了模型權重、推理代碼與在線調用能力。
開源資源
GLM-4.6V 的模型權重、推理代碼與示例工程:
- GitHub:https://github.com/zai-org/GLM-V
- Hugging Face:https://huggingface.co/collections/zai-org/glm-46v
- 魔搭社區:https://modelscope.cn/collections/GLM-46V-37fabc27818446
已支持的推理框架包括 SGLang、vLLM、transformers、xLLM Ascend NPU,開發者可以在 GPU 與多種國產 NPU 環境下按需部署 GLM-4.6V 與 GLM-4.6V-Flash。
開放平台與在線調用
除了本地部署,智譜也提供雲端託管推理與 API,方便直接接入業務:
- 開放平台:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-4.6v
- Coding Plan 視覺理解 MCP:https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server
在線體驗入口:
- z.ai:選擇 GLM-4.6V 模型,即刻體驗多模態理解與工具調用能力;
- 智譜清言 APP / 網頁版:上傳圖片或視頻,開啓「推理模式」,體驗多模態推理與長上下文能力。
技術 blog:z.ai/blog/glm-4.6v