Jina-VLM:可在筆記本上跑的多語言視覺小模型

新聞
HongKong
6
02:48 PM · Dec 09 ,2025

AI 搜索公司 Jina AI 發佈了Jina-VLM,這是一個 24 億參數的視覺語言模型,在開放的 2B 規模 VLM 中實現了最先進的多語言視覺問答。

通過將 SigLIP2 視覺編碼器與 Qwen3 語言骨幹通過注意力池連接器相結合,Jina-VLM 在29 種語言中表現出色,同時保持了足夠的效率。Jina-VLM 架構圖如下,展示了從 SigLIP2 視覺編碼器 → VL-Connector → Qwen3 語言基座的數據流。

Jina-VLM 對硬件需求較低,可在普通消費級顯卡或 Macbook上流暢運行。

據介紹,在標準的 VQA 任務、多語言多模態理解(MMMB、MMBench),還是在 OCR 和純文本任務上,Jina-VLM 都是同規格模型裏最優級別的表現,且同時具備在消費級硬件友好的推理效率。

  • 多語言理解 (MMMB SOTA) :在阿拉伯語、中文、英語、葡語、俄語和土耳其語等 6 大語種的測試中,Jina-VLM 以 78.8 分領跑,展現了卓越的跨語言視覺推理能力(見圖 1 & 圖 2)。

  • 視覺問答 (VQA) :面對涵蓋圖表 (ChartQA)、文檔 (DocVQA)、場景文本 (TextVQA) 和科學圖表 (CharXiv) 等高難度測試中,模型表現穩健(見圖 3)。

  • 視覺增強,語言無損 :很多 VLM 在增強視覺能力後會犧牲文本智商。得益於特殊的訓練策略,Jina-VLM 在 MMLU(知識)和 GSM-8K(數學)等純文本任務上,幾乎完整保留了 Qwen3 基座的強悍性能(見圖 5)。

論文:https://arxiv.org/abs/2512.04032
Hugging Face: https://huggingface.co/jinaai/jina-vlm

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.