Jina-VLM：可在筆記本上跑的多語言視覺小模型 - 新聞詳情 | YeLogs.com

Jina-VLM：可在筆記本上跑的多語言視覺小模型

新聞

HongKong

15

02:48 PM · Dec 09 ,2025

AI 搜索公司 Jina AI 發佈了Jina-VLM，這是一個 24 億參數的視覺語言模型，在開放的 2B 規模 VLM 中實現了最先進的多語言視覺問答。

通過將 SigLIP2 視覺編碼器與 Qwen3 語言骨幹通過注意力池連接器相結合，Jina-VLM 在29 種語言中表現出色，同時保持了足夠的效率。Jina-VLM 架構圖如下，展示了從 SigLIP2 視覺編碼器 → VL-Connector → Qwen3 語言基座的數據流。

Jina-VLM 對硬件需求較低，可在普通消費級顯卡或 Macbook上流暢運行。

據介紹，在標準的 VQA 任務、多語言多模態理解（MMMB、MMBench），還是在 OCR 和純文本任務上，Jina-VLM 都是同規格模型裏最優級別的表現，且同時具備在消費級硬件友好的推理效率。

多語言理解 (MMMB SOTA) ：在阿拉伯語、中文、英語、葡語、俄語和土耳其語等 6 大語種的測試中，Jina-VLM 以 78.8 分領跑，展現了卓越的跨語言視覺推理能力（見圖 1 & 圖 2）。
視覺問答 (VQA) ：面對涵蓋圖表 (ChartQA)、文檔 (DocVQA)、場景文本 (TextVQA) 和科學圖表 (CharXiv) 等高難度測試中，模型表現穩健（見圖 3）。
視覺增強，語言無損 ：很多 VLM 在增強視覺能力後會犧牲文本智商。得益於特殊的訓練策略，Jina-VLM 在 MMLU（知識）和 GSM-8K（數學）等純文本任務上，幾乎完整保留了 Qwen3 基座的強悍性能（見圖 5）。

論文：https://arxiv.org/abs/2512.04032
Hugging Face: https://huggingface.co/jinaai/jina-vlm

0 位用戶收藏了這個故事！